Difference between revisions of "Dataset Ideal"
Jump to navigation
Jump to search
Onnowpurbo (talk | contribs) (Created page with "Pertanyaan bagus! Ukuran dataset yang '''ideal''' sebenarnya tergantung pada: =='''1. Jenis Model yang Digunakan'''== Semakin kompleks modelnya, semakin banyak data yang dib...") |
Onnowpurbo (talk | contribs) |
||
Line 52: | Line 52: | ||
* '''Training ML (SVM/Random Forest)''': 3000–10.000 komentar ideal | * '''Training ML (SVM/Random Forest)''': 3000–10.000 komentar ideal | ||
* '''Deep Learning (LSTM/BERT)''': 10.000+ komentar akan jauh lebih stabil dan akurat | * '''Deep Learning (LSTM/BERT)''': 10.000+ komentar akan jauh lebih stabil dan akurat | ||
+ | |||
+ | |||
+ | ==Pranala Menarik== | ||
+ | |||
+ | * [[Orange]] |
Latest revision as of 08:00, 1 April 2025
Pertanyaan bagus! Ukuran dataset yang ideal sebenarnya tergantung pada:
1. Jenis Model yang Digunakan
Semakin kompleks modelnya, semakin banyak data yang dibutuhkan.
Jenis Model | Ukuran Dataset Ideal |
---|---|
Statistik sederhana | Ratusan data sudah cukup |
Machine Learning klasik (Random Forest, SVM) | Ribuan data lebih baik |
Deep Learning (LSTM, CNN) | Puluhan ribu – ratusan ribu data |
Transformer (BERT, IndoBERT) | Ratusan ribu – jutaan data idealnya |
2. Kompleksitas Masalah
Kalau datanya sederhana (misal klasifikasi positif/negatif), data bisa lebih sedikit.
Tapi kalau datanya kompleks (multi-kategori, data tidak seimbang, noisy), perlu lebih banyak data.
3. Keseimbangan Kelas (Class Balance)
Idealnya, data terbagi rata antara kategori. Contoh: - Positif: 1000 - Negatif: 1000 - Netral: 1000
Kalau tidak seimbang (misal: 90% positif, 10% negatif), model bisa bias.
4. Tujuan Penggunaan
Tujuan | Dataset Ideal |
---|---|
Penelitian kecil / eksperimen awal | 500–3000 data bisa cukup |
Publikasi jurnal / akurasi tinggi | >10.000 data lebih disarankan |
Produksi / aplikasi nyata | Semakin besar, semakin baik |
Contoh Praktis:
Kalau kamu misalnya analisis komentar TikTok, untuk:
- Eksperimen awal: 1000–3000 komentar bisa dipakai
- Training ML (SVM/Random Forest): 3000–10.000 komentar ideal
- Deep Learning (LSTM/BERT): 10.000+ komentar akan jauh lebih stabil dan akurat