USB OFFLINE: Ubuntu 24.04 LLM Ollama Open-WebUI

1. Instalasi Docker:

sudo apt update
sudo apt install -y docker.io curl

2. Skip Instalasi NVIDIA Container Toolkit:

3. Menjalankan Ollama dan Open WebUI menggunakan Docker:

Menggunakan Docker Compose:

Install

sudo su
apt install docker.io curl
curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
chmod +x /usr/local/bin/docker-compose

Buat file `docker-compose.yaml`:

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    restart: unless-stopped
    deploy:

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
    environment:
      - OLLAMA_API_BASE_URL=http://ollama:11434
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama: {}
  open-webui: {}

Kemudian, jalankan perintah berikut untuk memulai layanan:

sudo docker-compose up -d

Metode ini memungkinkan Anda untuk menjalankan kedua layanan dengan mudah dan memastikan integrasi yang stabil antara Ollama dan Open WebUI.

Check Model di ollama

1. Masuk ke Kontainer Ollama:

docker ps

Cari kontainer dengan image `ollama/ollama`. Setelah Anda mengetahui nama atau ID kontainernya, akses shell interaktif di dalamnya:

sudo docker exec -it nama_atau_id_kontainer /bin/bash
sudo docker exec -it ollama /bin/bash

2. Menampilkan Daftar Model:

ollama list

Perintah ini akan menampilkan semua model yang saat ini tersedia di Ollama.

ollama pull gemma3:270m
ollama pull gemma3:1b

ollama list

Konfigrasi RAG di OpenWebUI

Models: pilih default chat model → qwen2.5:1.5b-instruct (atau yg Anda suka).
Knowledge / Documents:

- Masuk menu Knowledge → Add → unggah PDF/TXT/MD atau folder.
- Di Settings → Embeddings, pilih nomic-embed-text via Ollama sebagai embedder.
- Index akan dibuat otomatis; itu yang dipakai saat Anda menanyakan sesuatu.

Bahasa:
- Di prompt/system instruction, set: “Jawab dalam Bahasa Indonesia yang ringkas.”

Tips supaya lancar di CPU

Gunakan quantisasi kecil: Q4_0 atau Q4_K_M.
Batasi konteks: OLLAMA_NUM_CTX=2048 cukup untuk tugas sederhana.
Batasi prediksi output: --num-predict 256.

Setting

Pastikan di Open-WebUI Connection ke Ollama di set ke host http://ollama:11434

Pranala Menarik

LLM