Tutorial Run GLM-5.2 Local dengan Unsloth dan llama.cpp

GLM-5.2 adalah model AI open source terbaru dari Z.ai yang menawarkan performa setara dengan Claude 4.8 Opus dan GPT-5.5. Dengan 744B total parameter, 40B active parameter, dan context window 1 juta token, model ini menjadi salah satu pilihan paling menarik untuk developer yang ingin menjalankan AI berkualitas tinggi secara lokal tanpa ketergantungan pada API cloud.

Dalam tutorial ini, kita akan membahas langkah demi langkah cara menjalankan GLM-5.2 di mesin lokal menggunakan Unsloth Dynamic GGUF dan llama.cpp. Metode ini memungkinkan model berjalan pada hardware yang relatif terbatas berkat teknik quantization dinamis yang memangkas ukuran model hingga 86% tanpa mengorbankan akurasi secara drastis.

Persiapan Hardware dan Software

Sebelum mulai, pastikan sistemmu memenuhi salah satu konfigurasi minimum berikut. Unsloth menyediakan beberapa varian quantization dengan kebutuhan memori berbeda:

Dynamic 1-bit: ~223 GB total memori (RAM + VRAM)
Dynamic 2-bit (UD-IQ2_M): ~245 GB, muat di Mac 256GB unified memory
Dynamic 4-bit: ~372-475 GB, paling umum untuk workstation
Dynamic 8-bit: ~810 GB, mendekati akurasi penuh

Untuk sistem dengan single GPU 24GB, kamu bisa menggunakan quant 2-bit dengan MoE offloading ke system RAM. Unsloth Studio secara otomatis menangani offloading ini, jadi tidak perlu konfigurasi manual yang rumit.

Langkah 1: Instalasi Unsloth Studio

Unsloth Studio adalah web UI open source untuk menjalankan model AI lokal. Studio ini sudah terintegrasi dengan llama.cpp dan mendukung multi-GPU serta offloading otomatis ke RAM.

Buka terminal dan jalankan perintah instalasi berikut sesuai platform:

# macOS, Linux, WSL
curl -fsSL https://unsloth.ai/install.sh | sh

# Windows PowerShell
irm https://unsloth.ai/install.ps1 | iex

Setelah instalasi selesai, launch Unsloth Studio dengan perintah:

unsloth studio -H 0.0.0.0 -p 8888

Buka browser dan akses http://127.0.0.1:8888. Pada pertama kali login, kamu akan diminta membuat password untuk keamanan lokal. Unsloth Studio juga mendukung tunnel HTTPS gratis via Cloudflare dengan flag --secure jika ingin akses remote.

Langkah 2: Download GLM-5.2 GGUF

Masuk ke tab Studio Chat dan gunakan kolom pencarian untuk mencari GLM-5.2. Unsloth menyediakan berbagai varian quantization yang bisa diunduh langsung dari Hugging Face.

Rekomendasi pilihan quant untuk berbagai skenario:

UD-IQ2_M (239 GB): Pilihan terbaik untuk aksesibilitas, berjalan lancar di Mac Studio 256GB
UD-Q4_K_XL: Balance antara akurasi dan ukuran, hampir lossless menurut benchmark KLD
UD-Q5_K_XL: Untuk tugas kompleks yang membutuhkan akurasi maksimal

Klik tombol download pada quant yang sesuai dengan kapasitas hardwaremu. Proses download bisa memakan waktu lama tergantung kecepatan internet, karena file berukuran ratusan gigabyte.

Langkah 3: Konfigurasi Inference dan Thinking Mode

GLM-5.2 memiliki tiga mode thinking: non-thinking, High, dan Max. Mode Max cocok untuk tugas coding dan reasoning kompleks, sementara non-thinking lebih cepat untuk percakapan biasa.

Di Unsloth Studio, kamu bisa mengatur mode thinking langsung dari UI. Jika menggunakan llama.cpp via terminal, tambahkan parameter berikut:

# Mode thinking max
--chat-template-kwargs '{"reasoning_effort":"max"}'

# Mode thinking high
--chat-template-kwargs '{"reasoning_effort":"high"}'

# Non-thinking ( fastest )
--chat-template-kwargs '{"enable_thinking":false}'

Parameter inference yang direkomendasikan untuk kebanyakan kasus penggunaan:

temperature = 1.0
top_p = 0.95
max_context = 1048576

Untuk Windows PowerShell, perhatikan escaping karakter berbeda: gunakan --chat-template-kwargs "{\"enable_thinking\":false}" agar JSON parsing tidak error.

Langkah 4: Jalankan Inference Pertama

Setelah model terdownload dan dikonfigurasi, buka tab Chat di Unsloth Studio. Pilih model GLM-5.2 dari dropdown, lalu mulai percakapan. Studio akan otomatis mendeteksi GPU yang tersedia dan mengatur offloading ke RAM jika VRAM tidak cukup.

Untuk pengguna yang prefer terminal, model GGUF bisa dijalankan langsung dengan llama.cpp:

./llama-cli \n  -m /path/to/GLM-5.2-UD-IQ2_M.gguf \n  -c 32768 \n  --chat-template-kwargs '{"reasoning_effort":"high"}' \n  --temp 1.0 \n  --top-p 0.95

Perhatikan bahwa meskipun model memiliki context window 1 juta token, untuk inference pertama disarankan memulai dengan context lebih kecil seperti 32768 untuk memastikan stabilitas sistem.

Langkah 5: Optimasi dan Troubleshooting

Jika inference terasa lambat, ada beberapa optimasi yang bisa dicoba:

Flash Attention: Pastikan llama.cpp dikompilasi dengan dukungan Flash Attention untuk mempercepat attention computation
CPU Threads: Atur jumlah thread sesuai core CPU yang tersedia dengan flag -t
Batch Size: Turunkan batch size jika mengalami OOM (Out of Memory)
Quant Switching: Jika 2-bit masih terlalu berat, tunggu rilis quant 1-bit yang hanya membutuhkan 223 GB memori

Benchmark internal Unsloth menunjukkan dynamic 2-bit mencapai sekitar 82% top-1 accuracy dibanding model penuh. Artinya, untuk sebagian besar tugas praktis seperti coding, summarization, dan Q&A, kualitas output tetap sangat usable meski ukuran file 84% lebih kecil.

Memahami Quantization Dinamis Unsloth

Quantization adalah teknik kompresi model dengan mengurangi presisi bobot neural network dari 16-bit atau 32-bit ke representasi lebih kecil seperti 4-bit, 2-bit, bahkan 1-bit. Masalahnya, quantization tradisional seringkali menerapkan bit rate yang sama untuk seluruh layer model, padahal tidak semua layer sama-sama sensitif terhadap presisi.

Unsloth Dynamic GGUF mengatasi ini dengan strategi yang berbeda. Layer-layer yang kritis untuk akurasi tetap disimpan dalam presisi tinggi, sementara layer yang kurang sensitif dikompresi agresif ke 1-bit atau 2-bit. Hasilnya: ukuran file mengecil drastis tanpa penurunan kualitas yang proporsional.

Berdasarkan benchmark KLD (KL Divergence) yang dirilis Unsloth, dynamic 4-bit dan 5-bit hampir lossless dibanding model BF16 penuh. Artinya, untuk kebanyakan tugas produksi, quant 4-bit sudah memberikan kualitas identik dengan model asli. Dynamic 2-bit dengan mean KLD yang masih monotonik menunjukkan model tetap stabil meski ukuran berkurang 84%.

Perlu dicatat bahwa 76% top-1 accuracy pada 1-bit bukan berarti 24% output menjadi salah. Dalam konteks greedy decoding, perbedaan ini seringkali hanya terlihat pada distribusi kata-kata filler seperti "I will", "The", atau "Here is". Untuk fakta dan reasoning, model tetap memilih token yang benar dengan probabilitas tinggi.

Kesimpulan

GLM-5.2 membuka era baru untuk AI lokal dengan ukuran model yang sebelumnya mustahil dijalankan di workstation biasa. Berkat quantization dinamis dari Unsloth, model 744B parameter ini kini bisa diakses oleh developer dengan Mac Studio atau PC workstation memori besar.

Langkah selanjutnya: eksplorasi integrasi GLM-5.2 dengan coding workflow-mu via API lokal, atau coba fine-tuning dengan dataset spesifik menggunakan Unsloth Trainer. Dokumentasi lengkap tersedia di Unsloth Documentation dan model GGUF bisa diunduh dari Hugging Face.

Tutorial Run GLM-5.2 Model AI 744B Parameter secara Lokal dengan Unsloth