Dataset Ideal
Jump to navigation
Jump to search
Pertanyaan bagus! Ukuran dataset yang ideal sebenarnya tergantung pada:
1. Jenis Model yang Digunakan
Semakin kompleks modelnya, semakin banyak data yang dibutuhkan.
Jenis Model | Ukuran Dataset Ideal |
---|---|
Statistik sederhana | Ratusan data sudah cukup |
Machine Learning klasik (Random Forest, SVM) | Ribuan data lebih baik |
Deep Learning (LSTM, CNN) | Puluhan ribu – ratusan ribu data |
Transformer (BERT, IndoBERT) | Ratusan ribu – jutaan data idealnya |
2. Kompleksitas Masalah
Kalau datanya sederhana (misal klasifikasi positif/negatif), data bisa lebih sedikit.
Tapi kalau datanya kompleks (multi-kategori, data tidak seimbang, noisy), perlu lebih banyak data.
3. Keseimbangan Kelas (Class Balance)
Idealnya, data terbagi rata antara kategori. Contoh: - Positif: 1000 - Negatif: 1000 - Netral: 1000
Kalau tidak seimbang (misal: 90% positif, 10% negatif), model bisa bias.
4. Tujuan Penggunaan
Tujuan | Dataset Ideal |
---|---|
Penelitian kecil / eksperimen awal | 500–3000 data bisa cukup |
Publikasi jurnal / akurasi tinggi | >10.000 data lebih disarankan |
Produksi / aplikasi nyata | Semakin besar, semakin baik |
Contoh Praktis:
Kalau kamu misalnya analisis komentar TikTok, untuk:
- Eksperimen awal: 1000–3000 komentar bisa dipakai
- Training ML (SVM/Random Forest): 3000–10.000 komentar ideal
- Deep Learning (LSTM/BERT): 10.000+ komentar akan jauh lebih stabil dan akurat