Difference between revisions of "Dataset Ideal"

Latest revision as of 08:00, 1 April 2025

Pertanyaan bagus! Ukuran dataset yang ideal sebenarnya tergantung pada:

Semakin kompleks modelnya, semakin banyak data yang dibutuhkan.

Ukuran Dataset Ideal
Jenis Model	Ukuran Dataset Ideal
Statistik sederhana	Ratusan data sudah cukup
Machine Learning klasik (Random Forest, SVM)	Ribuan data lebih baik
Deep Learning (LSTM, CNN)	Puluhan ribu – ratusan ribu data
Transformer (BERT, IndoBERT)	Ratusan ribu – jutaan data idealnya

Kalau datanya sederhana (misal klasifikasi positif/negatif), data bisa lebih sedikit.

Tapi kalau datanya kompleks (multi-kategori, data tidak seimbang, noisy), perlu lebih banyak data.

Idealnya, data terbagi rata antara kategori. Contoh: - Positif: 1000 - Negatif: 1000 - Netral: 1000

Kalau tidak seimbang (misal: 90% positif, 10% negatif), model bisa bias.

Dataset Ideal
Tujuan	Dataset Ideal
Penelitian kecil / eksperimen awal	500–3000 data bisa cukup
Publikasi jurnal / akurasi tinggi	>10.000 data lebih disarankan
Produksi / aplikasi nyata	Semakin besar, semakin baik

Kalau kamu misalnya analisis komentar TikTok, untuk:

Eksperimen awal: 1000–3000 komentar bisa dipakai
Training ML (SVM/Random Forest): 3000–10.000 komentar ideal
Deep Learning (LSTM/BERT): 10.000+ komentar akan jauh lebih stabil dan akurat

@@ Line 52: / Line 52: @@
 * '''Training ML (SVM/Random Forest)''': 3000–10.000 komentar ideal
 * '''Deep Learning (LSTM/BERT)''': 10.000+ komentar akan jauh lebih stabil dan akurat
+==Pranala Menarik==
+* [[Orange]]