Dipublikasikan 3 Juni 2026
Sebuah studi terbaru dari platform analitik engineering Entelligence mengungkapkan temuan yang mengkhawatirkan: hanya 18 persen dari total anggaran yang dihabiskan untuk AI coding tools yang benar-benar menghasilkan produk siap rilis. Sisanya, sebesar 82 persen, terkonsumsi oleh siklus maintenance dan perbaikan yang justru dipercepat oleh penggunaan AI itu sendiri. Temuan ini menantang asumsi umum bahwa semakin banyak menggunakan AI coding assistant, semakin produktif tim engineering. Banyak perusahaan yang menginvestasikan besar-besaran dalam AI tools tanpa menyadari bahwa output yang dihasilkan justru menambah beban maintenance mereka.
Berdasarkan data yang dipublikasikan di research.entelligence.ai, sebuah tim engineering yang menghabiskan 100.000 dolar per tahun untuk AI coding tools menghasilkan nilai produk yang terkirim hanya sekitar 18.000 dolar. Bukan karena engineer tidak efisien atau tools AI buruk, melainkan karena tidak adanya closed loop antara produksi dan kode yang ditulis. AI menghasilkan kode berdasarkan konteks lokal seperti file, prompt, dan tugas segera, tanpa memperhatikan realitas produksi seperti pattern yang telah gagal atau edge case yang sudah dicoba dan dihapus.
Studi ini memecah alokasi dolar AI engineering menjadi empat kategori utama. Kategori terbesar adalah Reactive Engineering yang mencakup perbaikan bug dan maintenance, menghabiskan 44 persen dari anggaran rata-rata platform. Kategori kedua adalah Code Rework, yaitu kode yang ditulis lalu dibuang dalam minggu yang sama, mencapai 27 persen. Ketiga adalah Review Friction, overhead dari proses review yang tidak menemukan masalah signifikan, sebesar 11 persen. Terakhir, Shipped Product, yaitu nilai produk baru yang benar-benar sampai ke tangan pengguna, hanya 18 persen.
Distibusi ini menunjukkan bahwa mayoritas waktu dan uang dihabiskan untuk pekerjaan yang tidak menghasilkan nilai produk baru. Di organisasi pada persentil ke-90, lebih dari tiga perempat dari seluruh upaya engineering diarahkan pada reactive work. Artinya, untuk setiap fitur yang dibangun, organisasi tersebut juga membakar tiga perempat kapasitasnya untuk maintenance. AI tidak hanya mempercepat pembuatan fitur, tetapi juga mempercepat siklus maintenance yang menyertainya. Fenomena ini menunjukkan bahwa investasi besar dalam AI tools belum tentu berbanding lurus dengan output produk yang berarti.
Data dari platform Entelligence menunjukkan tren yang lebih mengkhawatirkan. Antara 16 Februari dan 4 Mei 2026, volume pull request mingguan tumbuh dari 2.525 menjadi 6.654, peningkatan 2,6 kali lipat. Namun dalam periode yang sama, jumlah PR yang di-revert tumbuh dari 10 menjadi puncaknya 37 per minggu, peningkatan 3,7 kali lipat. Ini berarti tingkat kegagalan tumbuh lebih cepat dari output. Setiap revert memicu PR perbaikan bug baru yang menambah total reactive work dan mengurangi waktu untuk membangun fitur baru.
Inilah yang penulis studi sebut sebagai token maxxing trap: perangkap di mana peningkatan volume AI tidak diimbangi dengan peningkatan kualitas, sehingga malah menciptakan siklus yang semakin membebani tim engineering. Jika AI tools benar-benar memberikan kualitas sebanding dengan kecepatan, pertumbuhan revert seharusnya mengikuti pertumbuhan PR. Kenyataannya, revert tumbuh 40 persen lebih cepat, menandakan adanya degradasi kualitas yang tersembunyi di balik lonjakan kuantitas. Perusahaan yang hanya mengukur produktivitas berdasarkan jumlah PR yang digabungkan perlu berpikir ulang.
Studi ini juga mengungkapkan bahwa pada median, 25 persen dari kode yang ditulis dalam seminggu akan ditimpa atau dihapus sebelum minggu itu berakhir. Bukan karena refactoring terencana atau pembersihan technical debt, melainkan karena kode yang tidak bertahan dalam sprint-nya sendiri. Untuk tim yang sangat bergantung pada AI coding assistant, angka ini mencerminkan kesenjangan struktural: AI menghasilkan kode dari konteks lokal tanpa memahami realitas produksi. Pada persentil ke-90, lebih dari separuh dari seluruh kode yang ditulis setiap minggu dibuang.
Bandingkan dengan benchmark industri dari Pluralsight dan GitPrime yang berada di angka 27 persen. Median pada platform Entelligence cocok dengan benchmark, tetapi persentil ke-90 adalah dua kali lipat lebih tinggi. Ini menunjukkan bahwa masalahnya bukan AI itu sendiri, melainkan bagaimana AI digunakan tanpa umpan balik dari produksi. Ketika engineer tidak mengetahui apa yang telah gagal di produksi, mereka cenderung mengulangi kesalahan yang sama meski dibantu oleh AI. Tanpa mekanisme pembelajaran dari kegagalan, AI hanya mempercepat reproduksi kesalahan.
Temuan ini membawa implikasi serius bagi manajer tim engineering dan tech lead. Mengukur produktivitas engineering hanya berdasarkan jumlah baris kode atau jumlah PR yang digabungkan menjadi tidak relevan jika sebagian besar kode tersebut dibuang atau memerlukan perbaikan berulang. Manajer perlu memperhatikan metrik kualitas seperti revert rate, bug escape rate, dan code churn sebagai indikator kesehatan engineering yang lebih akurat daripada sekadar menghitung output mentah.
Studi ini juga menekankan pentingnya membangun closed loop antara kode yang ditulis dan realitas produksi. Ketika engineer mengetahui pattern mana yang telah gagal di produksi, edge case mana yang sering muncul, dan requirement yang sebenarnya, mereka dapat menulis kode yang lebih baik dengan atau tanpa bantuan AI. Tanpa loop ini, AI hanya akan mempercepat produksi kode berkualitas rendah dalam jumlah besar. Bagi tim engineering di Indonesia yang semakin banyak mengadopsi AI coding tools, studi ini menjadi peringatan untuk tidak hanya mengandalkan metrik volume dalam evaluasi performa tim.
Sumber: Entelligence Research
Dapatkan feedback, users, dan eksposur dari komunitas kreator, developer, dan entrepreneur digital Indonesia.
Submit Produk → Pelajari Dulu