Dataset Ideal

From OnnoWiki
Jump to navigation Jump to search

Pertanyaan bagus! Ukuran dataset yang ideal sebenarnya tergantung pada:

1. Jenis Model yang Digunakan

Semakin kompleks modelnya, semakin banyak data yang dibutuhkan.

Ukuran Dataset Ideal
Jenis Model Ukuran Dataset Ideal
Statistik sederhana Ratusan data sudah cukup
Machine Learning klasik (Random Forest, SVM) Ribuan data lebih baik
Deep Learning (LSTM, CNN) Puluhan ribu – ratusan ribu data
Transformer (BERT, IndoBERT) Ratusan ribu – jutaan data idealnya

2. Kompleksitas Masalah

Kalau datanya sederhana (misal klasifikasi positif/negatif), data bisa lebih sedikit.

Tapi kalau datanya kompleks (multi-kategori, data tidak seimbang, noisy), perlu lebih banyak data.

3. Keseimbangan Kelas (Class Balance)

Idealnya, data terbagi rata antara kategori. Contoh: - Positif: 1000 - Negatif: 1000 - Netral: 1000

Kalau tidak seimbang (misal: 90% positif, 10% negatif), model bisa bias.

4. Tujuan Penggunaan

Dataset Ideal
Tujuan Dataset Ideal
Penelitian kecil / eksperimen awal 500–3000 data bisa cukup
Publikasi jurnal / akurasi tinggi >10.000 data lebih disarankan
Produksi / aplikasi nyata Semakin besar, semakin baik

Contoh Praktis:

Kalau kamu misalnya analisis komentar TikTok, untuk:

  • Eksperimen awal: 1000–3000 komentar bisa dipakai
  • Training ML (SVM/Random Forest): 3000–10.000 komentar ideal
  • Deep Learning (LSTM/BERT): 10.000+ komentar akan jauh lebih stabil dan akurat


Pranala Menarik