Privasi data dan latency rendah jadi alasan utama banyak developer beralih ke local LLM inference. DeepSeek 4 Flash adalah model terbaru yang menawarkan performa tinggi dengan ukuran relatif ringan. Kali ini, kita akan bahas cara menjalankannya secara lokal menggunakan ds4, engine inference buatan antirez yang dioptimalkan untuk Metal dan CUDA.
Tutorial ini berdasarkan repository antirez/ds4 di GitHub. Pastikan kamu cek release notes terbaru di source link tersebut.
DeepSeek 4 Flash bisa jalan di GPU modern (NVIDIA dengan CUDA 12+) atau Apple Silicon (Metal). Siapkan environment berikut:
Untuk NVIDIA, install CUDA toolkit terbaru dari official NVIDIA website. Untuk Mac, pastikan Xcode Command Line Tools sudah terinstall.
Kloning repository dan build dari source:
git clone https://github.com/antirez/ds4.git
cd ds4
mkdir build && cd build
cmake ..
make -j$(nproc)Proses build akan menghasilkan binary ds4 di dalam folder build. Binary ini adalah inference engine yang nantinya akan load model DeepSeek 4 Flash.
Model weights bisa diunduh via Hugging Face atau mirror official DeepSeek. Gunakan format GGUF atau format native ds4 sesuai dokumentasi repo:
huggingface-cli download deepseek-ai/deepseek-4-flash-gguf --local-dir ./modelsPastikan model file yang diunduh compatible dengan versi ds4 engine yang sudah kamu build. Jika ada mismatch, error biasanya muncul saat load tokenizer.
Setelah model ready, jalankan inference dengan command:
./ds4 --model ./models/deepseek-4-flash.q4_k_m.gguf --prompt "Jelaskan konsep durable execution dalam 3 kalimat"Parameter penting yang perlu diperhatikan:
--threads: jumlah thread CPU untuk context processing--gpu-layers: offload beberapa layer ke GPU untuk speedup signifikan--temp: temperature sampling, default 0.8Untuk Metal di Mac, tambahkan flag --metal. Untuk CUDA, ds4 auto-detect GPU tanpa flag tambahan.
ds4 juga bisa diakses via binding Python. Install wrapper:
pip install ds4-pythonLalu gunakan di script:
from ds4 import Inference
engine = Inference(model_path='./models/deepseek-4-flash.q4_k_m.gguf')
response = engine.generate('Apa itu vector database?', max_tokens=256)
print(response)Wrapper Python ini memudahkan integrasi ke chatbot, RAG pipeline, atau API service berbasis FastAPI.
Kalau inference lambat, coba tips berikut:
--gpu-layers sampai VRAM hampir penuh. Monitor dengan nvidia-smi atau Activity Monitor.Error umum:
CUDA out of memory: turunkan --gpu-layers atau gunakan model lebih kecil.Metal device not found: pastikan kamu running di Mac dengan Apple Silicon, bukan Intel.Dengan ds4, menjalankan DeepSeek 4 Flash secara lokal jadi lebih straightforward. Kamu mendapatkan kontrol penuh atas data, zero latency network, dan fleksibilitas deployment. Engine ini masih aktif dikembangkan, jadi pantau terus update di repository official.
Referensi lengkap dan source code ada di GitHub antirez/ds4. Selamat mencoba!
Dapatkan feedback, users, dan eksposur dari komunitas kreator, developer, dan entrepreneur digital Indonesia.
Submit Produk → Pelajari Dulu