Ungkap Rahasia Agentic Vision di Gemini 3 Flash: Revolusi Teknologi Terbaru!

Frontier AI kayak Gemini biasanya cuma bisa liat dunia sekali, statis, tanpa bisa cek detail kecil kayak serial number di microchip atau tanda jalan yang jauh. Kalau detail gini kelewat, ya mereka cuma bisa nebak doang – nggak 100% yakin.

Apa Itu Agentic Vision di Gemini 3 Flash?

Sekarang, Gemini 3 Flash udah punya fitur baru yang namanya Agentic Vision. Ini ngubah cara AI ngelihat gambar, dari cuma satu kali liat jadi kayak "nyelidikin" gambar step by step. Fitur ini nggabungin visual reasoning sama code execution, jadi AI bisa bikin plan sendiri buat zoom in, inspeksi, bahkan ngedit gambar demi dapetin jawaban yang lebih akurat.

Dengan code execution, Gemini 3 Flash ngasih boost kualitas 5-10% di hampir semua benchmark vision AI. Jadi AI bukan cuma nebak, tapi beneran "ngecek" data visualnya langsung.

Cara Kerja Agentic Vision: Think, Act, Observe

Agentic Vision nerapin loop "Think, Act, Observe" buat tugas image understanding:

Think: Model analisis dulu query dan gambar awal, terus bikin multi-step plan.
Act: AI generate serta eksekusi kode Python buat manipulasi gambar (cropping, rotasi, anotasi), atau analisis (counting, perhitungan visual, dsb).
Observe: Gambar hasil edit ditambahin ke context, jadi AI bisa cek hasilnya secara visual sebelum ngasih jawaban final.

Use Case Agentic Vision yang Udah Dipakai

Zooming & Inspecting: Gemini 3 Flash otomatis zoom pas harus fokus ke detail kecil. Contohnya: PlanCheckSolver.com pakai fitur code execution Gemini buat ngecek detail pada gambar plan gedung, akurasinya naik 5%!
Image Annotation: AI sekarang bisa ngasih penanda langsung di gambar. Misal, pas ngitung jumlah jari, AI gambar kotak sama label angka di tiap jari biar nggak salah ngitung!
Visual Math & Plotting: AI bisa baca tabel, terus generate kode Python buat bikin chart Matplotlib dari data. Jadi pasti akurat karena ngandelin perhitungan deterministic, bukan cuma tebak angka kayak LLM lain.

Next Level: Masa Depan Agentic Vision

Lebih banyak behaviour otomatis: ke depan, zoom, rotate gambar, dan tugas visual lain bakal makin seamless tanpa harus minta manual.
Tools makin lengkap: Gemini bakal dikasih akses ke fitur kayak web & reverse image search buat lebih memahami konteks visual.
Model size lebih banyak: Nggak cuma Flash, nantinya fitur ini bakal hadir di varian model Gemini lainnya.

Cara Coba Agentic Vision Sendiri

Langsung aja tes Agentic Vision lewat Gemini API di Google AI Studio atau Vertex AI. Fitur ini juga mulai bisa dicoba di Gemini app (pilih mode "Thinking" di dropdown model). Kalian bisa nge-playground langsung atau cek demo-nya di Google AI Studio!

Contoh Kode Pakai Gemini 3 Flash + Agentic Vision

Plain Text

from google import genai
from google.genai import types

client = genai.Client()

image = types.Part.from_uri(
    file_uri="https://goo.gle/instrument-img",
    mime_type="image/jpeg",
)

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, "Zoom into the expression pedals and tell me how many pedals are there?"],
    config=types.GenerateContentConfig(
        tools=[types.Tool(code_execution=types.ToolCodeExecution)]
    ),
)

print(response.text)