USB OFFLINE: Ubuntu 24.04 LLM Ollama Open-WebUI
Jump to navigation
Jump to search
1. Instalasi Docker:
sudo apt update sudo apt install -y docker.io curl
2. Skip Instalasi NVIDIA Container Toolkit:
3. Menjalankan Ollama dan Open WebUI menggunakan Docker:
Menggunakan Docker Compose:
Install
sudo su apt install docker.io curl curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose chmod +x /usr/local/bin/docker-compose
Buat file `docker-compose.yaml`:
services:
ollama:
image: ollama/ollama
container_name: ollama
volumes:
- ollama:/root/.ollama
restart: unless-stopped
deploy:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
volumes:
- open-webui:/app/backend/data
environment:
- OLLAMA_API_BASE_URL=http://ollama:11434
depends_on:
- ollama
restart: unless-stopped
volumes:
ollama: {}
open-webui: {}
Kemudian, jalankan perintah berikut untuk memulai layanan:
sudo docker-compose up -d
Metode ini memungkinkan Anda untuk menjalankan kedua layanan dengan mudah dan memastikan integrasi yang stabil antara Ollama dan Open WebUI.
Check Model di ollama
1. Masuk ke Kontainer Ollama:
docker ps
Cari kontainer dengan image `ollama/ollama`. Setelah Anda mengetahui nama atau ID kontainernya, akses shell interaktif di dalamnya:
docker exec -it nama_atau_id_kontainer /bin/bash docker exec -it ollama /bin/bash
2. Menampilkan Daftar Model:
ollama list
Perintah ini akan menampilkan semua model yang saat ini tersedia di Ollama.
ollama pull gemma3:270m ollama pull gemma3:1b
ollama list
Konfigrasi RAG di OpenWebUI
- Models: pilih default chat model → qwen2.5:1.5b-instruct (atau yg Anda suka).
- Knowledge / Documents:
- Masuk menu Knowledge → Add → unggah PDF/TXT/MD atau folder.
- Di Settings → Embeddings, pilih nomic-embed-text via Ollama sebagai embedder.
- Index akan dibuat otomatis; itu yang dipakai saat Anda menanyakan sesuatu.
- Bahasa:
- Di prompt/system instruction, set: “Jawab dalam Bahasa Indonesia yang ringkas.”
Tips supaya lancar di CPU
- Gunakan quantisasi kecil: Q4_0 atau Q4_K_M.
- Batasi konteks: OLLAMA_NUM_CTX=2048 cukup untuk tugas sederhana.
- Batasi prediksi output: --num-predict 256.
Setting
- Pastikan di Open-WebUI Connection ke Ollama di set ke host http://ollama:11434