SLM: Ubuntu 24.04
Berikut adalah contoh implementasi Small Language Model (SLM) di Ubuntu 24.04, menggunakan LLaMA.cpp dan model Phi-2 (Microsoft) atau Mistral 7B (quantized) yang bisa dijalankan secara lokal tanpa GPU besar:
Langkah-langkah Implementasi SLM di Ubuntu 24.04 (Tanpa GPU)
1. Siapkan Dependensi
sudo apt update sudo apt install build-essential cmake git python3-pip -y
2. Clone dan Build `llama.cpp`
git clone https://github.com/ggerganov/llama.cpp cd llama.cpp mkdir build cd build cmake .. make
✅ Ini akan menghasilkan file binary bernama `main` untuk menjalankan model SLM.
3. Unduh Model SLM (Contoh: Mistral 7B GGUF)
Cari model GGUF format di situs seperti:
- [1](https://huggingface.co/TheBloke)
- Contoh: `TheBloke/Mistral-7B-Instruct-v0.1-GGUF`
Pilih file seperti `mistral-7b-instruct-v0.1.Q4_K_M.gguf` (ringan dan cepat)
mkdir ~/models/mistral cd ~/models/mistral wget https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-GGUF/resolve/main/mistral-7b-instruct-v0.1.Q4_K_M.gguf
> ⚠️ Kamu butuh akun Hugging Face untuk mengakses beberapa model. Bisa pakai token gratis.
4. Jalankan Model Secara Lokal
cd ~/llama.cpp ./main -m ~/models/mistral/mistral-7b-instruct-v0.1.Q4_K_M.gguf -p "Jelaskan apa itu Small Language Model dalam bahasa Indonesia."
📌 Flag `-p` = prompt input yang akan dijawab model.
5. (Opsional) Gunakan WebUI Lokal seperti `llama-cpp-python` + Open WebUI
Jika ingin pakai antarmuka browser:
Install `llama-cpp-python`
pip install llama-cpp-python
Jalankan server lokal
python3 -m llama_cpp.server --model ~/models/mistral/mistral-7b-instruct-v0.1.Q4_K_M.gguf
Akses di browser via: [2](http://localhost:8000)
Atau hubungkan dengan Open WebUI (opsional via Docker).
Catatan Tambahan
- Untuk model lebih kecil dan super ringan, kamu bisa pakai:
- `Phi-2` (2.7B, cocok untuk laptop low-end)
- `TinyLlama` (1.1B, super ringan)
Model GGUF untuk keduanya juga tersedia di Hugging Face (TheBloke).
Kesimpulan
Kamu bisa menjalankan SLM seperti Mistral 7B atau Phi-2 secara lokal di Ubuntu 24.04, bahkan tanpa GPU, hanya dengan CPU dan RAM minimal 8–16GB. Tools seperti llama.cpp memudahkan proses ini dengan performa tinggi dan dukungan quantized model (GGUF).