LLM: ubuntu 24.04 ollama + open-webio full docker

From OnnoWiki
Jump to navigation Jump to search

Untuk menginstal Ollama dan Open WebUI yang stabil di Ubuntu 24.04, Anda dapat mengikuti langkah-langkah berikut:

1. Instalasi Docker:

Pastikan Docker terinstal di sistem Anda. Jika belum, instal dengan perintah berikut:

sudo apt update
sudo apt install -y docker.io curl

2. Instalasi NVIDIA Container Toolkit (Opsional, jika menggunakan GPU NVIDIA):

Jika Anda memiliki GPU NVIDIA dan ingin memanfaatkannya. Kita perlu membaca2

saya belum nyoba serius, catatan yang sudah nyoba bisa di baca2 di

LLM: ubuntu 24.04 ollama instalasi CUDA

3. Menjalankan Ollama dan Open WebUI menggunakan Docker:

Ada beberapa metode untuk menjalankan Ollama dan Open WebUI. Salah satu metode yang direkomendasikan adalah menggunakan Docker Compose.

Menggunakan Docker Compose:

Install

sudo su
apt install docker.io curl
curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
chmod +x /usr/local/bin/docker-compose

Buat file `docker-compose.yaml` dengan isi berikut:

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    restart: unless-stopped
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu] 

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
    environment:
      - OLLAMA_API_BASE_URL=http://ollama:11434
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama: {}
  open-webui: {}


Kemudian, jalankan perintah berikut untuk memulai layanan:

sudo docker-compose up -d

Metode ini memungkinkan Anda untuk menjalankan kedua layanan dengan mudah dan memastikan integrasi yang stabil antara Ollama dan Open WebUI.

Check Model di ollama

Untuk menampilkan daftar model yang tersedia di Ollama saat menggunakan Docker, Anda dapat mengikuti langkah-langkah berikut:

1. Masuk ke Kontainer Ollama:

Pertama, identifikasi nama atau ID kontainer Ollama Anda dengan menjalankan:

docker ps

Cari kontainer dengan image `ollama/ollama`. Setelah Anda mengetahui nama atau ID kontainernya, akses shell interaktif di dalamnya:

docker exec -it nama_atau_id_kontainer /bin/bash
docker exec -it ollama /bin/bash

2. Menampilkan Daftar Model:

Setelah berada di dalam kontainer, jalankan perintah berikut untuk menampilkan daftar model yang tersedia:

ollama list

Perintah ini akan menampilkan semua model yang saat ini tersedia di Ollama.

Untuk model yang memory effisien

ollama pull llama3.2:1b
ollama pull gemma2:2b
ollama pull qwen2.5:1.5b
ollama pull smollm2:1.7b
ollama pull phi3:mini
ollama pull tinyllama:1.1b-chat

Untuk embedding text open webui

ollama pull bge-m3              # berat
ollama pull nomic-embed-text    # ok
ollama pull mxbai-embed-large
ollama pull all-minilm          # ringan banget

Jika Anda ingin menambahkan model baru, Anda dapat menggunakan perintah `ollama pull nama_model:versi` di dalam kontainer. Misalnya, untuk menambahkan model "llama2" versi "13b", gunakan:

ollama pull mistral
ollama pull llama3.2:3b
ollama pull gemma3:4b
ollama pull bge-m3:latest
ollama pull qwen2.5-coder:7b
ollama pull deepseek-r1:7b
ollama pull llava

ollama pull Supa-AI/gemma2-9b-cpt-sahabatai-v1-instruct
ollama pull adijayainc/bhsa-deepseek-r1-1.5b
ollama pull adijayainc/bhsa-llama3.2

Setelah penambahan selesai, Anda dapat memverifikasi dengan menjalankan kembali

ollama list

Konfigrasi RAG di OpenWebUI

  • Models: pilih default chat model → qwen2.5:1.5b-instruct (atau yg Anda suka).
  • Knowledge / Documents:
    • Masuk menu Knowledge → Add → unggah PDF/TXT/MD atau folder.
    • Di Settings → Embeddings, pilih nomic-embed-text via Ollama sebagai embedder.
    • Index akan dibuat otomatis; itu yang dipakai saat Anda menanyakan sesuatu.
  • Bahasa:
    • Di prompt/system instruction, set: “Jawab dalam Bahasa Indonesia yang ringkas.”


Tips supaya lancar di CPU

  • Gunakan quantisasi kecil: Q4_0 atau Q4_K_M.
  • Batasi konteks: OLLAMA_NUM_CTX=2048 cukup untuk tugas sederhana.
  • Batasi prediksi output: --num-predict 256.

Setting

Pranala Menarik