TF: Training Data di tf.keras.datasets
`tf.keras.datasets` menyediakan beberapa dataset bawaan yang sering digunakan untuk keperluan pembelajaran mesin dan pengembangan model. Berikut adalah daftar dataset yang tersedia beserta penjelasan kolom dan contoh penggunaannya:
1. MNIST (Modified National Institute of Standards and Technology): Dataset ini terdiri dari 70.000 gambar grayscale 28x28 piksel yang mewakili digit tulisan tangan dari 0 hingga 9. Terdiri dari 60.000 gambar untuk pelatihan dan 10.000 untuk pengujian.
- Kolom:
- `x_train`, `x_test`: Array gambar dengan bentuk `(jumlah_samples, 28, 28)`.
- `y_train`, `y_test`: Label yang sesuai dengan nilai digit (0-9).
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0
2. CIFAR-10: Dataset ini berisi 60.000 gambar warna 32x32 piksel dalam 10 kelas berbeda, dengan masing-masing kelas memiliki 6.000 gambar. Dataset dibagi menjadi 50.000 gambar untuk pelatihan dan 10.000 untuk pengujian.
- Kolom:
- `x_train`, `x_test`: Array gambar dengan bentuk `(jumlah_samples, 32, 32, 3)`.
- `y_train`, `y_test`: Label kelas (0-9) yang mewakili kategori seperti pesawat, mobil, burung, dll.
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0
3. CIFAR-100: Mirip dengan CIFAR-10, namun memiliki 100 kelas dengan masing-masing 600 gambar. Dataset ini juga dibagi menjadi 50.000 gambar untuk pelatihan dan 10.000 untuk pengujian.
- Kolom:
- `x_train`, `x_test`: Array gambar dengan bentuk `(jumlah_samples, 32, 32, 3)`.
- `y_train`, `y_test`: Label kelas (0-99) yang mewakili kategori spesifik.
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar100.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0
4. Fashion-MNIST: Dataset alternatif untuk MNIST yang berisi 70.000 gambar grayscale 28x28 piksel dari 10 kategori pakaian, seperti kaos, celana, dan sepatu. Terdiri dari 60.000 gambar untuk pelatihan dan 10.000 untuk pengujian.
- Kolom:
- `x_train`, `x_test`: Array gambar dengan bentuk `(jumlah_samples, 28, 28)`.
- `y_train`, `y_test`: Label kelas (0-9) yang mewakili kategori pakaian.
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.fashion_mnist.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0
5. IMDB (Internet Movie Database): Dataset ini berisi 50.000 ulasan film yang dikategorikan sebagai ulasan positif atau negatif. Dataset ini sering digunakan untuk tugas klasifikasi teks dan analisis sentimen.
- Kolom:
- `x_train`, `x_test`: Daftar ulasan yang direpresentasikan sebagai urutan indeks kata.
- `y_train`, `y_test`: Label sentimen (0 untuk negatif, 1 untuk positif).
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.imdb.load_data(num_words=10000)
6. Reuters Newswire: Dataset ini terdiri dari 11.228 berita yang dikategorikan ke dalam 46 topik berbeda. Dataset ini sering digunakan untuk tugas klasifikasi teks multiklas.
- Kolom:
- `x_train`, `x_test`: Daftar berita yang direpresentasikan sebagai urutan indeks kata.
- `y_train`, `y_test`: Label topik (0-45).
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.reuters.load_data(num_words=10000)
7. Boston Housing: Dataset ini berisi informasi tentang harga rumah di area Boston. Terdiri dari 506 sampel dengan 13 fitur yang menggambarkan berbagai aspek perumahan. Dataset ini sering digunakan untuk tugas regresi.
- Kolom:
- `x_train`, `x_test`: Array fitur dengan bentuk `(jumlah_samples, 13)`.
- `y_train`, `y_test`: Harga median rumah.
- Contoh Penggunaan:
import tensorflow as tf (x_train, y_train), (x_test, y_test) = tf.keras.datasets.boston_housing.load_data()
Perlu dicatat bahwa beberapa dataset, seperti Boston Housing, mungkin tidak lagi tersedia dalam versi terbaru TensorFlow karena alasan lisensi atau lainnya. Untuk informasi terbaru dan daftar lengkap dataset yang tersedia, Anda dapat merujuk ke dokumentasi resmi TensorFlow.