AI Menulis Kode Dunia Tapi Tidak Ada yang Verifikasi

Seiring artificial intelligence semakin mendominasi proses software development, sebuah pertanyaan fundamental muncul: ketika AI menulis kode dunia, siapa yang memverifikasinya? Tulisan dari Leonardo de Moura, Distinguished Engineer di Microsoft Research, mengangkat kekhawatiran serius tentang kurangnya formal verification dalam software yang dihasilkan oleh AI, sebuah tren yang berkembang dengan sangat cepat namun ditemani oleh risiko yang belum banyak disadari.

Fakta yang disajikan oleh de Moura sangat mencengangkan. Code Metal baru saja mengumpulkan 125 juta dolar untuk menulis ulang kode industri pertahanan menggunakan AI. Google dan Microsoft melaporkan bahwa 25 hingga 30 persen dari kode baru mereka sekarang dihasilkan oleh AI. AWS menggunakan AI untuk memodernisasi 40 juta baris kode COBOL untuk Toyota. CTO Microsoft memprediksi bahwa 95 persen dari semua kode akan dihasilkan oleh AI pada tahun 2030. Penulisan ulang software dunia bukan lagi masa depan yang jauh, melainkan sesuatu yang sedang berlangsung saat ini.

Anthropic baru-baru ini membangun compiler C sepanjang 100.000 baris menggunakan parallel AI agents dalam waktu dua minggu, dengan biaya di bawah 20.000 dolar. Compiler tersebut berhasil boot Linux dan mengkompilasi SQLite, PostgreSQL, Redis, dan Lua. Prestasi ini menunjukkan bahwa AI kini mampu memproduksi software berskala besar dengan kecepatan yang mengejutkan. Namun, pertanyaan kritisnya adalah: bisakah AI membuktikan compiler tersebut benar? Jawabannya, menurut de Moura, belum bisa. Tidak ada yang secara formal memverifikasi hasilnya.

Di sinilah letak masalah fundamental dalam revolusi AI-driven software development. Kita memiliki kemampuan untuk menghasilkan kode dalam skala dan kecepatan yang belum pernah terjadi sebelumnya, tetapi praktik verifikasi dan validasi belum mengikuti laju tersebut. Formal verification, yang melibatkan pembuktiank matematis bahwa software berperilaku sesuai spesifikasi, adalah proses yang memerlukan waktu, keahlian khusus, dan seringkali lebih mahal daripada penulisan kode itu sendiri. Dalam paradigm AI-generated code, verification bottleneck menjadi semakin parah karena volume kode yang dihasilkan jauh melebihi kapasitas tim verifikasi manusia.

Microsoft Research sendiri baru-baru ini merilis studi berjudul LLMs Corrupt Your Documents When You Delegate. Studi tersebut memperkenalkan benchmark DELEGATE-52 untuk menguji readiness AI systems dalam delegated workflows. Hasilnya menunjukkan bahwa bahkan frontier models seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 merusak rata-rata 25 persen dari konten dokumen pada akhir workflow yang panjang. Model-model lain gagal bahkan lebih parah. Degradasi ini diperparah oleh ukuran dokumen, panjang interaksi, dan keberadaan distractor files.

Bagi software engineer dan founder startup, temuan ini memiliki implikasi yang sangat serius. Delegasi tugas editing dokumen atau refactoring kode kepada AI agents mungkin tampak efisien dalam jangka pendek, tetapi dalam jangka panjang bisa mengintroduksi sparse but severe errors yang secara diam-diam merusak codebase. Kesalahan semacam ini sulit terdeteksi karena tidak selalu menyebabkan failure yang terlihat secara langsung. Mereka bisa berupa logic error, security vulnerability, atau data corruption yang hanya muncul dalam kondisi edge case tertentu.

De Moura mengajukan argumen bahwa formal verification harus menjadi bagian integral dari AI-assisted software development, bukan sekadar afterthought. Ini berarti tidak hanya memverifikasi kode akhir, tetapi juga memverifikasi proses generate itu sendiri, serta intermediate representations dan transformations yang dilakukan oleh AI. Pendekatan ini memerlukan investment signifikan dalam tools, training, dan culture shift dalam tim engineering.

Dari perspektif industri tech Indonesia, di mana banyak startup sedang beralih ke AI-assisted development untuk mempercepat time-to-market, pesan ini sangat relevan. Menggunakan AI untuk coding tanpa proses review dan verification yang robust adalah resep untuk technical debt yang akan menggerogoti produk dalam jangka menengah. Startup perlu mengembangkan internal capabilities untuk auditing AI-generated code, mungkin dengan menggabungkan automated testing, static analysis, dan formal methods untuk komponen kritis.

Tantangan terbesar adalah shortage talent dalam formal verification. Ada sedikit engineer yang memiliki keahlian dalam theorem proving, model checking, dan verifikasi matematis. Keterbatasan ini menjadi semakin kritis seiring volume kode yang perlu diverifikasi meningkat secara eksponensial. Solusinya mungkin terletak pada pengembangan AI untuk verifikasi itu sendiri, menciptakan virtuous cycle di mana AI menghasilkan kode dan AI lain memverifikasinya. Namun, ini memerlukan breakthrough dalam automated reasoning yang masih menjadi frontier research.

Kesimpulannya, era AI-generated code membawa promise productivity yang luar biasa, tetapi juga memperkenalkan risiko kualitas dan keamanan yang belum pernah kita hadapi sebelumnya. Bagi developer dan founder, pesan yang jelas adalah: jangan abaikan verification. Kecepatan tanpa kebenaran adalah jalan menuju disaster yang mahal. Investasi dalam verification today adalah insurance policy untuk sustainability produk Anda tomorrow.

Paradigma vibe coding yang populer belakangan ini, di mana developer memberikan instruksi tingkat tinggi kepada AI dan membiarkannya menulis implementasi detail, semakin memperkuat kebutuhan akan verification layer yang kuat. Ketika developer tidak lagi menulis setiap baris kode secara manual, mereka juga kehilangan konteks mendalam tentang bagaimana setiap bagian sistem bekerja. Hal ini menciptakan knowledge gap yang berbahaya, di mana tim bisa kehilangan kemampuan untuk debug dan maintain sistem secara efektif jika AI membuat keputusan yang tidak terduga.

Beberapa perusahaan enterprise mulai mengadopsi pendekatan hybrid, di mana AI menghasilkan code draft yang kemudian direview dan diverifikasi oleh engineer manusia sebelum merged ke main branch. Meskipun ini memperlambat pipeline dibandingkan full delegation, penurunan velocity tersebut dianggap sebagai acceptable trade-off untuk menjaga kualitas dan keamanan. Metrik yang perlu dipantau bukan hanya lines of code yang dihasilkan per hari, melainkan defect rate dan security incident yang berasal dari AI-generated code.

Dalam konteks regulasi dan compliance, terutama untuk software yang digunakan dalam critical infrastructure, healthcare, dan financial systems, absence of formal verification bisa menjadi barrier untuk market entry. Regulator di Uni Eropa dan Amerika Serikat mulai mempertimbangkan requirement untuk traceability dan verifiability dalam software yang dihasilkan secara otomatis. Startup yang beroperasi di ruang regulated harus mengantisipasi requirement ini dan membangun verification capabilities sejak dini.

Saat AI Menulis Software, Siapa yang Memverifikasinya

Punya Produk Keren? Showcase Sekarang!