Google DeepMind Luncurkan Gemini Robotics untuk Dunia Fisik

Google DeepMind baru saja memperkenalkan Gemini Robotics, sebuah model AI yang dirancang khusus untuk membawa kemampuan reasoning multimodal ke dunia fisik melalui robot. Menurut pengumuman resmi dari tim DeepMind, model ini dibangun di atas fondasi Gemini 2.0 dengan penambahan aksi fisik sebagai output modality baru, memungkinkan kontrol langsung terhadap robot.

Dua Model untuk Masa Depan Robotika

DeepMind meluncurkan dua model sekaligus. Pertama adalah Gemini Robotics, model vision-language-action (VLA) yang menambahkan aksi fisik sebagai output baru di atas kemampuan Gemini 2.0. Kedua adalah Gemini Robotics-ER (Embodied Reasoning), model dengan pemahaman spasial yang lebih canggih, memungkinkan para roboticist menjalankan program mereka sendiri menggunakan kemampuan reasoning embodied dari Gemini.

Kedua model ini mampu mengendalikan berbagai jenis robot untuk melakukan tugas dunia nyata yang lebih luas dari sebelumnya. DeepMind juga menjalin kemitraan dengan Apptronik untuk membangun generasi berikutnya robot humanoid yang didukung Gemini 2.0.

Tiga Pilar Utama Gemini Robotics

Untuk menjadi bermanfaat, model robotika harus memiliki tiga kualitas utama: generalitas, interaktivitas, dan kelincahan. Gemini Robotics menunjukkan peningkatan substansial di ketiga aspek tersebut.

Dalam hal generalitas, model ini mampu menyelesaikan berbagai tugas yang belum pernah dilihat selama training, termasuk menangani objek baru, instruksi yang beragam, dan environment yang tidak familiar. Menurut tech report resmi, Gemini Robotics lebih dari dua kali lipat lebih baik pada benchmark generalisasi komprehensif dibandingkan model VLA state-of-the-art lainnya.

Interaktivitas menjadi kekuatan utama berkat fondasi bahasa Gemini 2.0. Robot ini mampu memahami instruksi dalam bahasa sehari-hari dan berbagai bahasa, serta beradaptasi dengan perubahan environment secara real-time. Jika sebuah objek terlepas dari genggaman atau seseorang memindahkan barang, Gemini Robotics dengan cepat merencanakan ulang dan melanjutkan tugasnya.

Kelincahan ditunjukkan melalui kemampuan manipulasi presisi. Gemini Robotics mampu menyelesaikan tugas multi-step yang sangat kompleks seperti melipat origami atau memasukkan snack ke dalam kantong Ziploc, aktivitas yang masih terlalu sulit bagi kebanyakan robot konvensional.

Keamanan dan Kolaborasi Industri

DeepMind menekankan pendekatan keselamatan berlapis untuk AI dan robotika. Gemini Robotics-ER dapat dihubungkan dengan safety-critical controller low-level yang spesifik untuk setiap jenis robot. Model ini juga mampu memahami apakah suatu aksi aman untuk dilakukan dalam konteks tertentu.

Sebagai bagian dari upaya riset keselamatan, DeepMind merilis dataset ASIMOV baru untuk mengevaluasi safety implications dari tindakan robot dalam skenario dunia nyata. Dataset ini akan membantu peneliti akademik dan industri dalam mengukur dampak keselamatan dari sistem embodied AI.

Selain Apptronik, Gemini Robotics-ER juga tersedia untuk trusted tester termasuk Agile Robots, Agility Robots, Boston Dynamics, dan Enchanted Tools. Langkah ini menunjukkan komitmen DeepMind untuk mengembangkan ekosistem robotika yang lebih aman dan kolaboratif.

Sumber: deepmind.google

Google DeepMind Luncurkan Gemini Robotics untuk Dunia Fisik

Dua Model untuk Masa Depan Robotika

Tiga Pilar Utama Gemini Robotics

Keamanan dan Kolaborasi Industri

Punya Produk Keren? Showcase Sekarang!