Cloudflare Percepat Boot Server dari 4 Jam Jadi Menit
FR
Fajar Riz

Dipublikasikan 2 Juni 2026

Cloudflare Percepat Boot Server dari 4 Jam Jadi Menit

Tim engineer Cloudflare baru-baru ini menghadapi masalah yang bisa jadi mimpi buruk bagi setiap tim infrastruktur: server inti mereka butuh waktu empat jam untuk boot setelah firmware update, padahal sebelumnya hanya memakan waktu beberapa menit. Menurut laporan dari Cloudflare Blog, masalah ini muncul saat node yang sudah lama mati dinyalakan kembali dengan firmware usang dan memerlukan beberapa update berurutan.

Server inti Cloudflare berbeda dari edge network global yang menangani traffic pengguna. Server inti menjalankan control plane, billing, dan analytics di pusat data dengan bare metal. Boot sequence diatur oleh UEFI, standar firmware modern yang menginisialisasi hardware sebelum menyerahkan kontrol ke sistem operasi. Sebuah keanehan kecil di handoff ini bisa berakibat sangat besar.

Penyebab: Linear Search Boot Interface

Setelah firmware update, server menjalankan boot sequence secara normal hingga mencapai tahap network boot. Namun, bukannya langsung menuju interface yang benar, server mencoba IPv4 HTTPS network boot, timeout selama sekitar 5 menit, lalu mencoba IPv4 iPXE, timeout lagi, dan mengulangi keduanya sebelum akhirnya berhasil di IPv6 HTTPS. Total waktu terbuang sekitar 20 menit per boot cycle. Karena proses firmware upgrade membutuhkan beberapa reboot berurutan, total waktu menjadi hampir 4 jam.

Cloudflare menggunakan iPXE, firmware network boot open-source yang mendukung HTTP dan HTTPS. iPXE memungkinkan server boot langsung dari web server atau cloud storage. Namun, pada hardware tertentu, UEFI juga mendukung HTTPS-based network boot secara native. Kombinasi ini menciptakan daftar boot interface yang panjang dan server mencoba satu per satu secara linear.

Solusi: Declare Boot Interface Order

Solusi utamanya adalah menghilangkan pencarian buta tersebut dengan mendeklarasikan urutan boot interface yang benar sejak awal di tahap pre-boot PXE. Namun, implementasinya tidak semudah itu. Cloudflare menghadapi tiga tantangan utama.

Pertama, ada masalah legacy support. Boot ordering tidak didukung pada versi UEFI lama. Kedua, konfigurasi sering kali ter-reset setelah firmware upgrade. Ketiga, format string untuk network interface card berbeda-beda antar vendor. Untuk mengatasinya, tim membangun state validation step dalam otomasi firmware. Setelah konfigurasi diubah, sistem akan memvalidasi ulang. Jika terdeteksi modifikasi, sistem akan otomatis menerapkan ulang konfigurasi dan trigger reboot.

Dengan perubahan ini, boot pertama memang sedikit lebih lama karena validasi, tetapi semua boot selanjutnya dipangkas dari sekitar 20 menit menjadi kurang dari 1 menit. Total waktu untuk seluruh fleet upgrade kembali ke durasi yang wajar, yaitu satu hari.

Tulisan teknis ini juga membagikan detil tentang struktur data internal UEFI, khususnya EFI_IFR_REF3 yang di-lazy load oleh vendor, yang ternyata menjadi hambatan dalam mengubah boot order secara programmatic. Cloudflare akhirnya membuat solusi otomasi dengan memanipulasi data structure ini melalui GUI callback dan memastikan vendor setting yang memblokir perubahan bisa di-override.

Bagi engineer infrastruktur di Indonesia, case study ini adalah pengingat bahwa otomasi firmware dan boot management adalah bagian kritis dari operasi skala besar. Boot time bukan sekadar masalah performa, tapi bisa berdampak langsung pada availability dan maintenance window. Pahami UEFI internals di hardware Anda dan jangan biarkan default vendor mengendalikan urutan boot.