USB OFFLINE: Ubuntu 24.04 LLM Ollama Open-WebUI

From OnnoWiki
Jump to navigation Jump to search

1. Instalasi Docker:

sudo apt update
sudo apt install -y docker.io curl

2. Skip Instalasi NVIDIA Container Toolkit:

3. Menjalankan Ollama dan Open WebUI menggunakan Docker:

Menggunakan Docker Compose:

Install

sudo su
apt install docker.io curl
curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
chmod +x /usr/local/bin/docker-compose

Buat file `docker-compose.yaml`:

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    restart: unless-stopped
    deploy:

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
    environment:
      - OLLAMA_API_BASE_URL=http://ollama:11434
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama: {}
  open-webui: {}


Kemudian, jalankan perintah berikut untuk memulai layanan:

sudo docker-compose up -d

Metode ini memungkinkan Anda untuk menjalankan kedua layanan dengan mudah dan memastikan integrasi yang stabil antara Ollama dan Open WebUI.

Check Model di ollama

1. Masuk ke Kontainer Ollama:


docker ps

Cari kontainer dengan image `ollama/ollama`. Setelah Anda mengetahui nama atau ID kontainernya, akses shell interaktif di dalamnya:

docker exec -it nama_atau_id_kontainer /bin/bash
docker exec -it ollama /bin/bash

2. Menampilkan Daftar Model:

ollama list

Perintah ini akan menampilkan semua model yang saat ini tersedia di Ollama.

ollama pull gemma3:270m
ollama pull gemma3:1b
ollama list

Konfigrasi RAG di OpenWebUI

  • Models: pilih default chat model → qwen2.5:1.5b-instruct (atau yg Anda suka).
  • Knowledge / Documents:
    • Masuk menu Knowledge → Add → unggah PDF/TXT/MD atau folder.
    • Di Settings → Embeddings, pilih nomic-embed-text via Ollama sebagai embedder.
    • Index akan dibuat otomatis; itu yang dipakai saat Anda menanyakan sesuatu.
  • Bahasa:
    • Di prompt/system instruction, set: “Jawab dalam Bahasa Indonesia yang ringkas.”


Tips supaya lancar di CPU

  • Gunakan quantisasi kecil: Q4_0 atau Q4_K_M.
  • Batasi konteks: OLLAMA_NUM_CTX=2048 cukup untuk tugas sederhana.
  • Batasi prediksi output: --num-predict 256.

Setting

Pranala Menarik