Self-Host Local LLM dengan Ollama dan Open WebUI: Guide

Self-hosting LLM jadi pilihan menarik buat developer yang concern soal privacy dan cost inference. Ollama dan Open WebUI adalah stack populer untuk menjalankan model lokal tanpa perlu infrastruktur cloud mahal. Di tutorial ini, kita bakal setup server LLM lokal secara step-by-step mulai dari install sampai akses via browser.

Persiapan Docker dan Install Ollama

Pastikan Docker dan Docker Compose sudah terinstall di mesin. Ollama bisa dijalankan via Docker container dengan single command:

docker run -d --name ollama -p 11434:11434 ollama/ollama

Tunggu beberapa saat sampai container ready, lalu verifikasi dengan curl:

curl -X POST http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Halo"}' | jq .

Jika respons JSON muncul, artinya Ollama sudah berjalan. Untuk install tanpa Docker, bisa download binary native dari ollama.com.

Pull Model Lokal

Ollama mendukung berbagai model open-source. Untuk hardware Indonesia pada umumnya, rekomendasi model yang optimal:

llama3.2 (3B param) - ringan, cocok untuk laptop biasa
qwen2.5-coder (7B param) - bagus untuk coding assistant
phi4 (14B param) - kualitas tinggi untuk server dengan GPU

Pull model dengan perintah:

docker exec -it ollama ollama pull llama3.2

Model akan di-download ke volume container. Pastikan punya space disk minimal 5GB untuk beberapa model sekaligus. Referensi model lengkap cek di Ollama Library.

Install Open WebUI sebagai Interface

Open WebUI menyediakan web interface modern mirip ChatGPT untuk berinteraksi dengan model lokal. Install via Docker:

docker run -d --name open-webui -p 8080:8080 --add-host=host.docker.internal:host-gateway -e OLLAMA_BASE_URL=http://host.docker.internal:11434 ghcr.io/open-webui/open-webui:main

Buka http://localhost:8080 dan buat akun admin. Open WebUI otomatis mendeteksi model yang sudah di-pull di Ollama. Kamu juga bisa konfigurasi multiple model dan switch antar model langsung dari dropdown UI. Dokumentasi lengkap ada di Open WebUI docs.

Setup Reverse Proxy dan SSL

Untuk akses dari internet, setup reverse proxy dengan NGINX. Contoh konfigurasi virtual host:

server {
  listen 80;
  server_name llm.yourdomain.com;
  return 301 https://$server_name$request_uri;
}

server {
  listen 443 ssl;
  server_name llm.yourdomain.com;
  ssl_certificate /path/to/cert.pem;
  ssl_certificate_key /path/to/key.pem;

  location / {
    proxy_pass http://localhost:8080;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
  }
}

Gunakan Certbot untuk SSL gratis dari Let's Encrypt. Jangan lupa enable basic auth atau OAuth2 untuk proteksi akses publik.

Optimasi Performa dengan GPU

Jika menggunakan VPS atau desktop dengan NVIDIA GPU, passthrough GPU ke Docker container Ollama untuk akselerasi CUDA:

docker run -d --name ollama --gpus all -p 11434:11434 ollama/ollama

Pastikan NVIDIA Container Toolkit sudah terinstall. Untuk hardware tanpa GPU, model berjalan di CPU dengan performa yang masih acceptable untuk model kecil (3B-7B parameter).

Kesimpulan

Self-hosting LLM lokal memberikan kontrol penuh atas data dan mengurangi dependency ke API berbayar. Dengan Ollama dan Open WebUI, setup ini bisa jalan di VPS murah atau bahkan laptop pribadi. Cocok untuk internal company chatbot, coding assistant private, atau eksperimen RAG dengan dokumen sensitif. Selamat mencoba!