NER: Konsep

From OnnoWiki
Jump to navigation Jump to search

Baik, saya jelaskan dengan bahasa sederhana ya 👇

---

    1. 🔹 Apa itu NER?
    • NER (Named Entity Recognition)** adalah teknik dalam **Natural Language Processing (NLP)** untuk mengenali dan menandai bagian teks yang penting.

Contoh entitas yang biasanya dicari:

  • **PERSON** → nama orang → “Jokowi”, “Budi Santoso”
  • **ORG** → organisasi → “UNESCO”, “Institut Teknologi Tangerang Selatan”
  • **LOC/GPE** → lokasi atau wilayah → “Jakarta”, “Tokyo”, “Indonesia”
  • **DATE/TIME** → tanggal & waktu → “13 September 2025”, “pukul 10 pagi”
  • **MONEY** → uang → “Rp 50.000”, “USD 10”
  • **EMAIL/PHONE/URL** → kontak & alamat digital

Dengan NER, kita bisa **mengubah teks panjang menjadi informasi terstruktur**. Misalnya: Teks: *"Presiden Jokowi menghadiri pertemuan G20 di Bali pada 15 November 2022."* Hasil NER:

```json [

 {"text": "Jokowi", "label": "PERSON"},
 {"text": "G20", "label": "ORG"},
 {"text": "Bali", "label": "LOC"},
 {"text": "15 November 2022", "label": "DATE"}

] ```

---

    1. 🔹 Hubungan NER dengan Ollama
    • Ollama** adalah platform untuk menjalankan **Large Language Models (LLM)** secara lokal (di laptop/server).

Model LLM seperti *LLaMA 3, Mistral, Gemma* bisa dipakai untuk banyak tugas, termasuk **NER**.

Cara kerjanya:

1. **OCR → teks**

  Dari gambar (scan JPG/PNG), teks diekstrak dulu pakai OCR (mis. Tesseract).

2. **Teks → Ollama**

  Teks ini dikirim ke Ollama dengan *prompt khusus* supaya model mengekstrak entitas.
  Misalnya kita instruksikan:
  *“Cari nama orang, organisasi, lokasi, dan tanggal dari teks berikut, lalu keluarkan hasil dalam format JSON.”*

3. **Ollama menghasilkan output JSON**

  Model akan mengembalikan daftar entitas sesuai instruksi → inilah hasil NER.

Dengan kata lain:

  • **NER = apa yang kita ingin lakukan (tujuan)**
  • **Ollama = mesin (model LLM) yang mengeksekusi instruksi untuk melakukan NER**

---

    1. 🔹 Ilustrasi sederhana

``` [Gambar Nota] --(OCR)--> "TOKO MAJU JAYA, Total Rp 125.000"

                                 |
                                 v
                       [NER via Ollama]
                                 |
                                 v
      {
        "entities": [
          {"text": "TOKO MAJU JAYA", "label": "ORG"},
          {"text": "Rp 125.000", "label": "MONEY"}
        ]
      }

```

---

Apakah mau saya buatkan **diagram visual (flowchart)** sederhana supaya lebih gampang dibayangkan alurnya OCR → NER → Ollama?