Dataset
Jump to navigation
Jump to search
Tentu! Penjelasan tentang dataset tergantung konteks penggunaannya, tapi secara umum:
Apa Itu Dataset?
Dataset adalah kumpulan data yang terstruktur dan digunakan untuk analisis, pelatihan model, atau pengujian dalam berbagai bidang, terutama dalam ilmu data, machine learning, dan statistik.
Struktur Dataset
Biasanya, dataset berbentuk tabel dengan:
- Baris (Rows): Setiap baris mewakili satu entri atau contoh data (misalnya satu komentar, satu pengguna, satu transaksi).
- Kolom (Columns): Setiap kolom mewakili fitur/atribut dari entri (misalnya tanggal, nama, komentar, label sentimen, dll).
Contoh kecil:
Komentar | Sentimen |
---|---|
"Beritanya sangat bagus!" | Positif |
"Saya tidak suka videonya" | Negatif |
"Oke lah, netral aja." | Netral |
Fungsi Dataset dalam AI/ML
Dalam machine learning:
- Dataset digunakan untuk melatih model agar bisa belajar pola dari data.
- Dibagi menjadi:
- Training set: Untuk melatih model
- Validation set: Untuk menguji performa selama pelatihan
- Testing set: Untuk mengevaluasi hasil akhir
Sumber Dataset
Dataset bisa didapat dari:
- Survei/manual input (buatan sendiri)
- Web scraping (contoh: ambil komentar dari TikTok)
- Repositori publik seperti:
- [Kaggle](https://kaggle.com)
- [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php)
- [Google Dataset Search](https://datasetsearch.research.google.com/)