Tutorial Menjalankan LLM Lokal untuk Pemula

Kebanyakan developer Indonesia mengandalkan API berbayar untuk menggunakan Large Language Model. Padahal, menjalankan LLM di mesin lokal sendiri sudah semakin mudah dan terjangkau. Artikel ini akan memandu kamu menyiapkan LLM lokal menggunakan Ollama dan Open WebUI, bahkan dengan perangkat keras yang relatif sederhana.

Mengapa LLM Lokal?

Menjalankan LLM di komputer sendiri memberikan beberapa keunggulan signifikan. Data tidak perlu keluar dari perangkat kamu, privasi terjaga sepenuhnya, dan tidak ada biaya token per penggunaan. Untuk tugas sehari-hari seperti brainstorming, penjelasan konsep, atau bantu menulis kode, model lokal modern sudah cukup powerful. Panduan ini terinspirasi dari jamesob/local-llm yang mendokumentasikan setup LLM lokal dengan berbagai rentang budget.

Prasyarat Hardware

Kamu tidak butuh workstation mahal untuk memulai. Setup minimal dengan GPU consumer sudah cukup untuk model berukuran sedang:

GPU Nvidia dengan minimal 8GB VRAM
Atau Mac dengan chip Apple Silicon (M1/M2/M3)
RAM minimal 16GB untuk model 7B parameter

Langkah 1: Instal Ollama

Ollama adalah runtime LLM lokal yang paling populer saat ini. Instalasinya sangat mudah di Linux dan macOS. Jalankan perintah berikut di terminal:

curl -fsSL https://ollama.com/install.sh | sh

Setelah instalasi selesai, pastikan service Ollama berjalan:

ollama --version

Langkah 2: Pull Model Pertama

Ollama menyediakan berbagai model siap pakai. Untuk pemula, Qwen 3 atau Llama 3.1 adalah pilihan yang bagus karena kualitasnya tinggi dan ukurannya efisien.

ollama pull qwen3:8b

Perintah di atas akan mengunduh model Qwen 3 dengan 8 miliar parameter. Ukuran file sekitar 4-5GB, jadi pastikan koneksi internet stabil. Setelah selesai, kamu bisa langsung chat melalui terminal:

ollama run qwen3:8b

Langkah 3: Instal Open WebUI

Berbasis terminal saja kurang nyaman untuk penggunaan sehari-hari. Open WebUI memberikan antarmuka grafis mirip ChatGPT yang berjalan di browser kamu sendiri. Instalasi paling mudah menggunakan Docker:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Setelah container berjalan, buka http://localhost:3000 di browser. Open WebUI akan otomatis mendeteksi Ollama yang berjalan di host dan menampilkan model yang sudah kamu pull.

Langkah 4: Konfigurasi Environment

Agar Ollama bisa diakses oleh Open WebUI yang berjalan dalam container, kamu perlu mengatur environment variable. Di Linux, edit service Ollama:

sudo systemctl edit ollama.service

Tambahkan baris berikut di dalam section [Service]:

Environment="OLLAMA_HOST=0.0.0.0:11434"

Lalu reload dan restart service:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Langkah 5: Eksplorasi Model Lain

Selain Qwen, Ollama mendukung ratusan model dari berbagai vendor. Beberapa rekomendasi untuk developer:

codellama: Optimized untuk tugas coding dan code completion
mistral: Model Eropa dengan performa tinggi dan ukuran ringan
phi4: Dari Microsoft, sangat efisien untuk hardware terbatas

Kamu bisa melihat daftar lengkap di ollama.com/library. Untuk mengganti model, cukup pull yang baru dan pilih dari dropdown di Open WebUI.

Optimasi Performa

Jika kamu merasa respons lambat, coba model yang lebih kecil atau aktifkan quantization. Ollama secara otomatis mengoptimalkan model untuk hardware kamu, tapi kamu juga bisa menambahkan parameter seperti --num-gpu 50 untuk memaksimalkan penggunaan VRAM.

Kesimpulan

Menjalankan LLM lokal bukan lagi domain eksklusif para researcher dengan cluster GPU. Dengan Ollama dan Open WebUI, siapa saja bisa menikmati kecerdasan buatan di perangkat sendiri tanpa khawatir privasi atau biaya berlangganan. Setup ini juga menjadi fondasi bagus jika kamu ingin mengembangkan aplikasi AI yang berjalan sepenuhnya offline.

Tutorial Menjalankan LLM Lokal untuk Pemula dengan Ollama dan Open WebUI