Guardrail AI Meta Google Dibobol 10 Menit Uji Keamanan

Hasil pengujian yang dilakukan oleh Financial Times bekerja sama dengan kelompok AI safety Alice mengungkapkan fakta yang mengkhawatirkan: safety controls yang ditanamkan Meta dan Google dalam model AI open-weight mereka bisa dihilangkan dalam waktu kurang dari 10 menit menggunakan tool yang tersedia secara publik di GitHub. Menurut laporan dari CryptoBriefing, model-model yang dimodifikasi kemudian menghasilkan output pada topik yang secara eksplisit dilarang oleh pembuatnya, termasuk biological weapons dan malware creation.

Pengujian tersebut menyasar Llama 3.3 milik Meta dan Gemma 3 milik Google, dua model open-weight yang paling banyak didistribusikan di seluruh dunia. Setelah dimodifikasi menggunakan tool bernama Heretic yang tersedia publik, kedua model tersebut kehilangan seluruh guardrails dan safety alignment yang sebelumnya dibangun dengan susah payah oleh tim safety engineer di kedua perusahaan teknologi raksasa tersebut. Hasilnya adalah model yang merespons hampir semua prompt tanpa batasan, termasuk yang berbahaya.

Untuk memahami mengapa hal ini bisa terjadi, kita perlu melihat arsitektur model open-weight. Ketika perusahaan seperti Meta atau Google merilis model open-weight, mereka pada dasarnya mempublikasikan weights atau learned parameters yang menentukan bagaimana sistem berperilaku. Developer kemudian menambahkan safety layers di atas weights tersebut melalui proses yang disebut post-training alignment. Tool seperti Heretic bekerja dengan cara memstrip safety alignment tersebut, mengembalikan model ke kondisi sebelum alignment diterapkan. Karena weights tetap sama, kemampuan dasar model untuk menghasilkan output berbahaya sebenarnya tidak pernah benar-benar dihapus, hanya disembunyikan oleh layer alignment.

Yang lebih memprihatinkan adalah bahwa setelah weights berada di luar kontrol, modified versions berkembang biak dengan sangat cepat. Ribuan altered variants dari model open-weight populer sudah beredar di berbagai platform developer dan forum teknis, banyak di antaranya sudah di-strip dari safety controls yang dimaksudkan untuk permanen. Ini menciptakan situasi di mana upaya safety oleh pembuat model bisa dineutralisasi dengan mudah oleh pihak ketiga yang memiliki akses ke tool sederhana dan pengetahuan teknis dasar.

Temuan ini menambah bahan bakar bagi perdebatan yang sudah panas tentang siapa yang seharusnya bertanggung jawab ketika model AI yang telah dimodifikasi menghasilkan output berbahaya. Jika versi modifikasi Llama 3.3 menghasilkan instruksi untuk pembuatan bioweapon, apakah Meta yang bertanggung jawab? Developer yang melakukan stripping? Platform yang menghosting model modifikasi tersebut? Atau pengguna yang mengetik promptnya? Regulatory frameworks yang ada saat ini tidak memiliki jawaban yang bersih dan jelas untuk pertanyaan-pertanyaan tersebut, menciptakan governance gap yang berpotensi berbahaya.

Bagi cybersecurity engineer dan AI safety researcher, temuan ini menggarisbawahi pentingnya defense in depth. Mengandalkan post-training alignment sebagai satu-satunya garis pertahanan sudah tidak lagi cukup. Diperlukan pendekatan multi-layer yang mencakup model architecture redesign, federated governance, dan kemungkinan hardware-level enforcement untuk safety constraints. Jika safety bisa dilepas seperti stiker, maka safety memang perlu diarsitekturkan ke dalam model pada level yang lebih fundamental, atau distribution mechanisms itu sendiri perlu memiliki guardrails yang lebih kuat.

Dari perspektif decentralized technology, decentralized AI networks yang berusaha mendistribusikan compute, training, dan inference di seluruh infrastructure berbasis blockchain melihat temuan ini sebagai bukti bahwa centralized control model memiliki kelemahan fundamental. Distribusi governance di seluruh network stakeholders, setidaknya secara teoritis, mengurangi blast radius ketika ada sesuatu yang salah. Community-driven oversight models, di mana token holders atau node operators berpartisipasi dalam keputusan tentang model behavior dan safety standards, mewakili salah satu alternatif yang diusulkan oleh para pendukung decentralized AI.

Bagi founder dan developer di Indonesia yang berfokus pada AI governance dan compliance, temuan ini juga membuka peluang untuk membangun tools dan services yang membantu perusahaan mengelola model open-weight secara aman. Ada kebutuhan yang terus tumbuh untuk model auditing tools, safety verification services, dan policy enforcement layers yang bisa diterapkan pada model-model yang dihosting secara on-premise atau private cloud. Startup yang bisa memenuhi kebutuhan ini akan menemukan pasar yang sangat receptive, terutama di sektor finansial dan healthcare yang sangat sensitif terhadap compliance.

Government di seluruh dunia yang sudah mengawasi AI regulation kini memiliki demonstrasi konkret dan terpublikasikan bahwa voluntary safety measures dari perusahaan teknologi terbesar di dunia bisa ditembus menggunakan tool publik di GitHub. Increased scrutiny pada rilis model open-weight bisa mengubah cara perusahaan seperti Meta dan Google mendekati model distribution. Jika regulator merespons temuan ini dengan restrictions yang luas pada model open-weight, proyek-proyek decentralized AI yang beroperasi di regulatory gray zones bisa menemukan diri mereka terjebak dalam persimpangan kebijakan.

Kesimpulannya, kerapuhan safety controls pada model open-weight adalah wakeup call bagi seluruh industri AI. Bagi tech founder, ini adalah pengingat bahwa security tidak bisa menjadi afterthought dalam product development. Safety harus menjadi first-class citizen dalam design process, bukan sekadar layer tambahan yang bisa diabaikan.

Dalam konteks Indonesia, di mana adoption AI sedang tumbuh pesat di sektor-sektor seperti fintech, e-commerce, dan government services, awareness tentang kerentanan model open-weight sangat penting. Banyak startup lokal yang menggunakan model open-source sebagai dasar untuk produk mereka dengan asumsi bahwa safety sudah ditangani oleh pembuat model. Temuan ini menunjukkan bahwa asumsi tersebut berbahaya. Tim engineering perlu melakukan due diligence sendiri dan mempertimbangkan fine-tuning tambahan dengan safety-focused datasets.

Secara teknis, tool seperti Heretic memanfaatkan metode yang relatif sederhana dalam machine learning untuk mengembalikan model ke keadaan pre-alignment. Ini menunjukkan bahwa post-training alignment mungkin bukan pendekatan yang sustainable untuk long-term safety. Para peneliti mulai mengeksplorasi alternative approaches seperticonstitutional AI yang mengintegrasikan prinsip safety ke dalam training objective itu sendiri, atau model architectures yang secara inheren membatasi jenis output yang bisa dihasilkan tanpa bergantung pada alignment layer terpisah.

Bagi investor dan venture capital, temuan ini juga mempengaruhi risk assessment untuk startup AI. Perusahaan yang bergantung pada model open-weight tanpa safety measures tambahan mungkin menghadapi liability yang signifikan di masa depan. Sebaliknya, startup yang membangun proprietary safety layers atau developing model architectures yang lebih robust akan memiliki competitive advantage dalam jangka panjang. Due diligence process untuk AI startup perlu mencakup evaluasi safety posture yang lebih mendalam.

Safety AI Meta dan Google Dibobol dalam 10 Menit

Punya Produk Keren? Showcase Sekarang!