
Dipublikasikan 3 Februari 2026
Frontier AI kayak Gemini biasanya cuma bisa liat dunia sekali, statis, tanpa bisa cek detail kecil kayak serial number di microchip atau tanda jalan yang jauh. Kalau detail gini kelewat, ya mereka cuma bisa nebak doang – nggak 100% yakin.
Sekarang, Gemini 3 Flash udah punya fitur baru yang namanya Agentic Vision. Ini ngubah cara AI ngelihat gambar, dari cuma satu kali liat jadi kayak "nyelidikin" gambar step by step. Fitur ini nggabungin visual reasoning sama code execution, jadi AI bisa bikin plan sendiri buat zoom in, inspeksi, bahkan ngedit gambar demi dapetin jawaban yang lebih akurat.
Dengan code execution, Gemini 3 Flash ngasih boost kualitas 5-10% di hampir semua benchmark vision AI. Jadi AI bukan cuma nebak, tapi beneran "ngecek" data visualnya langsung.
Agentic Vision nerapin loop "Think, Act, Observe" buat tugas image understanding:
Langsung aja tes Agentic Vision lewat Gemini API di Google AI Studio atau Vertex AI. Fitur ini juga mulai bisa dicoba di Gemini app (pilih mode "Thinking" di dropdown model). Kalian bisa nge-playground langsung atau cek demo-nya di Google AI Studio!
Plain Text
from google import genai
from google.genai import types
client = genai.Client()
image = types.Part.from_uri(
file_uri="https://goo.gle/instrument-img",
mime_type="image/jpeg",
)
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[image, "Zoom into the expression pedals and tell me how many pedals are there?"],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)
print(response.text)