Tutorial Run DeepSeek V4 Flash Lokal di Mac dengan ds4

DeepSeek V4 Flash baru saja rilis dan langsung jadi perbincangan hangat di komunitas AI. Model ini punya context window 1 juta token dan performa inference yang jauh lebih cepat dibanding model dense seukuran serupa. Masalahnya, menjalankannya butuh resource besar. Solusinya adalah ds4 (DwarfStar 4), inference engine khusus buatan antirez yang didesain spesifik untuk DeepSeek V4 Flash dengan optimasi Metal di macOS.

Dalam tutorial ini, kita akan setup ds4 dari nol sampai bisa chatting dengan model via CLI dan server API. Siapkan MacBook mu, minimal RAM 96GB untuk quant 2-bit, atau 128GB untuk pengalaman optimal.

Step 1: Clone Repository ds4 dan Persiapan Environment

Pertama, clone repo ds4 dari GitHub. Pastikan kamu sudah install Xcode Command Line Tools dan memiliki Git yang terbaru.

git clone https://github.com/antirez/ds4.git
cd ds4

Repository ini self-contained dan tidak bergantung pada GGML maupun llama.cpp sebagai dependency runtime. Meski begitu, ds4 banyak belajar dari ekosistem GGUF yang dibangun oleh llama.cpp, jadi struktur projectnya akan terasa familiar.

Source: github.com/antirez/ds4

Step 2: Download Model Weights GGUF

ds4 bukan generic GGUF loader. Kamu wajib menggunakan file GGUF yang dipublish khusus untuk project ini karena layout tensor, quantization mix, dan metadata nya disesuaikan dengan engine ini.

Author ds4 menyediakan quant 2-bit yang surprisingly usable. Quant ini asimetris: hanya routed MoE experts yang diquantkan ke IQ2_XXS dan Q2_K, sementara komponen shared experts tetap higher precision. Hasilnya, model bisa dijalankan di MacBook dengan 96GB-128GB RAM.

Download GGUF files dari releases page repo ds4. Letakkan dalam folder yang sama dengan binary, misalnya ./models/.

mkdir models
# Download dari GitHub Releases ke folder models

Source: github.com/antirez/ds4

Step 3: Build Binary ds4 untuk Metal

Di macOS, primary target nya adalah Metal backend. Build sangat straightforward dengan Makefile yang sudah disediakan.

make

Command ini akan menghasilkan beberapa binary: ds4 untuk CLI inference, ds4-server untuk HTTP API server, dan ds4-agent untuk integrated coding agent. Build ini akan otomatis mengkompilasi kernel Metal dan menghasilkan binary native yang optimized untuk Apple Silicon.

Untuk CUDA di Linux, gunakan make cuda. Untuk CPU-only Linux build, gunakan make cpu. Perlu diingat, di macOS jangan coba-coba run CPU path karena ada bug virtual memory di kernel macOS yang bisa trigger crash sistem.

Step 4: Jalankan Inference via CLI

Setelah build sukses dan model weights tersedia, kamu bisa langsung chat dengan model menggunakan CLI. ds4 mendukung prompt rendering dan tool calling yang sudah diintegrasikan.

./ds4 --model models/deepseek-v4-flash-q2.gguf --prompt "Jelaskan konsep Mixture of Experts dalam 3 paragraf"

Flag --trace sangat berguna untuk debugging. Jika kamu menemukan hasil aneh atau crash, selalu jalankan ulang dengan --trace dan attach log saat membuka issue di repository.

Sal satu keunggulan DeepSeek V4 Flash adalah thinking section yang proporsional dengan kompleksitas masalah. Jika kamu hindari max thinking, output reasoning nya bisa 5x lebih pendek dibanding model lain. Ini membuatnya sangat usable untuk coding agent dan troubleshooting teknis.

Step 5: Jalankan Server API untuk Integrasi Coding Agent

ds4-server menyediakan HTTP API yang kompatibel dengan format OpenAI-like. Ini memungkinkan kamu menghubungkan ds4 ke berbagai coding agent seperti Aider, Claude Code, atau custom scripts.

./ds4-server --model models/deepseek-v4-flash-q2.gguf --port 8080

Server ini juga mendukung KV state handling baik di RAM maupun on-disk persistence. Fitur KV cache persistence di disk adalah inovasi penting karena DeepSeek V4 punya compressed KV cache yang memungkinkan context window panjang tetap manageable dalam storage modern yang cepat.

ds4-agent (alpha quality) bisa dijalankan untuk testing integrated coding experience langsung dari terminal.

./ds4-agent --model models/deepseek-v4-flash-q2.gguf

Step 6: Validasi dan Benchmark

ds4 menyertakan tooling untuk regression testing. Sebelum menggunakan untuk production workflow, jalankan validation suite untuk memastikan logits yang dihasilkan match dengan official DeepSeek implementation.

make test
# atau lihat folder tests/ untuk test vectors

Project ini juga menyertakan speed benchmark. Kamu bisa generate CSV dan graph untuk membandingkan throughput tokens per second di berbagai konfigurasi hardware.

Perlu diingat, ds4 masih beta quality karena baru eksis beberapa hari. Tapi tim di belakang nya sangat aktif, dan progress stabil menuju mature local inference engine.

Kesimpulan

Menjalankan frontier model seperti DeepSeek V4 Flash secara lokal dulu terasa mustahil untuk personal machine. Dengan ds4, optimasi quantization spesifik, dan Metal backend, kini model ini bisa berjalan di MacBook high-end tanpa cloud dependency. Ini membuka peluang besar untuk private AI inference, coding agent lokal, dan eksplorasi model tanpa khawatir data leakage.

Source utama tutorial ini berasal dari repository antirez/ds4 dan pengalaman komunitas yang sudah berhasil menjalankan model ini pada hardware 96GB-128GB RAM.

Cara Run DeepSeek V4 Flash Lokal di Mac dengan ds4