TF: TensorFlow untuk dataset IMDB Internet Movie Database
Untuk membuat model prediksi menggunakan dataset IMDb (Internet Movie Database) tanpa menggunakan Google Colab, Anda dapat mengikuti langkah-langkah berikut:
1. Unduh Dataset IMDb: IMDb menyediakan dataset dalam format TSV yang dapat diunduh dari situs resminya. Dataset ini mencakup berbagai informasi seperti judul film, tahun rilis, genre, dan rating. Anda dapat mengunduh dataset tersebut melalui tautan berikut:
2. Persiapkan Lingkungan Python: Pastikan Anda memiliki Python terinstal di komputer Anda. Selain itu, instal pustaka yang diperlukan seperti pandas, scikit-learn, dan matplotlib dengan menjalankan perintah berikut di terminal atau command prompt:
!pip install pandas scikit-learn matplotlib
3. Muat dan Bersihkan Data: Gunakan pandas untuk memuat dataset IMDb dan melakukan pembersihan data. Contohnya, Anda dapat memuat file 'title.basics.tsv.gz' yang berisi informasi dasar tentang judul film:
import pandas as pd # Muat dataset df = pd.read_csv('title.basics.tsv.gz', sep='\t', na_values='\\N', low_memory=False) # Filter hanya untuk film df = df[df['titleType'] == 'movie'] # Pilih kolom yang relevan df = df'primaryTitle', 'startYear', 'genres' # Hapus baris dengan nilai yang hilang df.dropna(inplace=True)
4. Feature Engineering: Ubah kolom 'genres' menjadi format yang dapat digunakan untuk pelatihan model. Misalnya, Anda dapat melakukan one-hot encoding pada genre:
# Pisahkan genre menjadi daftar df['genres'] = df['genres'].str.split(',') # Lakukan one-hot encoding df = df.explode('genres') df = pd.get_dummies(df, columns=['genres'], prefix=, prefix_sep=) # Gabungkan kembali baris dengan judul yang sama df = df.groupby('primaryTitle').sum().reset_index()
5. Bangun Model Prediksi: Gunakan scikit-learn untuk membangun model prediksi. Misalnya, Anda dapat membangun model regresi linier untuk memprediksi tahun rilis berdasarkan genre:
from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error # Pisahkan fitur dan target X = df.drop(columns=['primaryTitle', 'startYear']) y = df['startYear'] # Bagi data menjadi set pelatihan dan pengujian X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Inisialisasi dan latih model model = LinearRegression() model.fit(X_train, y_train) # Prediksi pada data uji y_pred = model.predict(X_test) # Evaluasi model mse = mean_squared_error(y_test, y_pred) print(f'Mean Squared Error: {mse}')
6. Visualisasi Hasil: Gunakan matplotlib untuk memvisualisasikan hasil prediksi:
import matplotlib.pyplot as plt # Plot hasil prediksi vs nilai aktual plt.scatter(y_test, y_pred, alpha=0.5) plt.xlabel('Tahun Rilis Aktual') plt.ylabel('Tahun Rilis Prediksi') plt.title('Prediksi Tahun Rilis Film Berdasarkan Genre') plt.show()
Langkah-langkah di atas memberikan panduan dasar untuk membangun model prediksi menggunakan dataset IMDb dan memvisualisasikan hasilnya tanpa menggunakan Google Colab. Anda dapat menyesuaikan dan memperluas proses ini sesuai dengan kebutuhan spesifik Anda.