Self-hosting LLM jadi pilihan menarik buat developer yang concern soal privacy dan cost inference. Ollama dan Open WebUI adalah stack populer untuk menjalankan model lokal tanpa perlu infrastruktur cloud mahal. Di tutorial ini, kita bakal setup server LLM lokal secara step-by-step mulai dari install sampai akses via browser.
Pastikan Docker dan Docker Compose sudah terinstall di mesin. Ollama bisa dijalankan via Docker container dengan single command:
docker run -d --name ollama -p 11434:11434 ollama/ollama
Tunggu beberapa saat sampai container ready, lalu verifikasi dengan curl:
curl -X POST http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Halo"}' | jq .
Jika respons JSON muncul, artinya Ollama sudah berjalan. Untuk install tanpa Docker, bisa download binary native dari ollama.com.
Ollama mendukung berbagai model open-source. Untuk hardware Indonesia pada umumnya, rekomendasi model yang optimal:
Pull model dengan perintah:
docker exec -it ollama ollama pull llama3.2
Model akan di-download ke volume container. Pastikan punya space disk minimal 5GB untuk beberapa model sekaligus. Referensi model lengkap cek di Ollama Library.
Open WebUI menyediakan web interface modern mirip ChatGPT untuk berinteraksi dengan model lokal. Install via Docker:
docker run -d --name open-webui -p 8080:8080 --add-host=host.docker.internal:host-gateway -e OLLAMA_BASE_URL=http://host.docker.internal:11434 ghcr.io/open-webui/open-webui:main
Buka http://localhost:8080 dan buat akun admin. Open WebUI otomatis mendeteksi model yang sudah di-pull di Ollama. Kamu juga bisa konfigurasi multiple model dan switch antar model langsung dari dropdown UI. Dokumentasi lengkap ada di Open WebUI docs.
Untuk akses dari internet, setup reverse proxy dengan NGINX. Contoh konfigurasi virtual host:
server {
listen 80;
server_name llm.yourdomain.com;
return 301 https://$server_name$request_uri;
}
server {
listen 443 ssl;
server_name llm.yourdomain.com;
ssl_certificate /path/to/cert.pem;
ssl_certificate_key /path/to/key.pem;
location / {
proxy_pass http://localhost:8080;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
Gunakan Certbot untuk SSL gratis dari Let's Encrypt. Jangan lupa enable basic auth atau OAuth2 untuk proteksi akses publik.
Jika menggunakan VPS atau desktop dengan NVIDIA GPU, passthrough GPU ke Docker container Ollama untuk akselerasi CUDA:
docker run -d --name ollama --gpus all -p 11434:11434 ollama/ollama
Pastikan NVIDIA Container Toolkit sudah terinstall. Untuk hardware tanpa GPU, model berjalan di CPU dengan performa yang masih acceptable untuk model kecil (3B-7B parameter).
Self-hosting LLM lokal memberikan kontrol penuh atas data dan mengurangi dependency ke API berbayar. Dengan Ollama dan Open WebUI, setup ini bisa jalan di VPS murah atau bahkan laptop pribadi. Cocok untuk internal company chatbot, coding assistant private, atau eksperimen RAG dengan dokumen sensitif. Selamat mencoba!
Dapatkan feedback, users, dan eksposur dari komunitas kreator, developer, dan entrepreneur digital Indonesia.
Submit Produk → Pelajari Dulu