TF: TensorFlow untuk dataset IMDB Internet Movie Database

From OnnoWiki
Jump to navigation Jump to search

Untuk membuat model prediksi menggunakan dataset IMDb (Internet Movie Database) tanpa menggunakan Google Colab, Anda dapat mengikuti langkah-langkah berikut:

1. Unduh Dataset IMDb: IMDb menyediakan dataset dalam format TSV yang dapat diunduh dari situs resminya. Dataset ini mencakup berbagai informasi seperti judul film, tahun rilis, genre, dan rating. Anda dapat mengunduh dataset tersebut melalui tautan berikut:

2. Persiapkan Lingkungan Python: Pastikan Anda memiliki Python terinstal di komputer Anda. Selain itu, instal pustaka yang diperlukan seperti pandas, scikit-learn, dan matplotlib dengan menjalankan perintah berikut di terminal atau command prompt:

!pip install pandas scikit-learn matplotlib


3. Muat dan Bersihkan Data: Gunakan pandas untuk memuat dataset IMDb dan melakukan pembersihan data. Contohnya, Anda dapat memuat file 'title.basics.tsv.gz' yang berisi informasi dasar tentang judul film:

import pandas as pd

# Muat dataset
df = pd.read_csv('title.basics.tsv.gz', sep='\t', na_values='\\N', low_memory=False)

# Filter hanya untuk film
df = df[df['titleType'] == 'movie']

# Pilih kolom yang relevan
df = df'primaryTitle', 'startYear', 'genres'

# Hapus baris dengan nilai yang hilang
df.dropna(inplace=True)

4. Feature Engineering: Ubah kolom 'genres' menjadi format yang dapat digunakan untuk pelatihan model. Misalnya, Anda dapat melakukan one-hot encoding pada genre:

# Pisahkan genre menjadi daftar
df['genres'] = df['genres'].str.split(',')

# Lakukan one-hot encoding
df = df.explode('genres')
df = pd.get_dummies(df, columns=['genres'], prefix=, prefix_sep=)
 
# Gabungkan kembali baris dengan judul yang sama
df = df.groupby('primaryTitle').sum().reset_index()

5. Bangun Model Prediksi: Gunakan scikit-learn untuk membangun model prediksi. Misalnya, Anda dapat membangun model regresi linier untuk memprediksi tahun rilis berdasarkan genre:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Pisahkan fitur dan target
X = df.drop(columns=['primaryTitle', 'startYear'])
y = df['startYear']

# Bagi data menjadi set pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi dan latih model
model = LinearRegression()
model.fit(X_train, y_train)

# Prediksi pada data uji
y_pred = model.predict(X_test)

# Evaluasi model
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

6. Visualisasi Hasil: Gunakan matplotlib untuk memvisualisasikan hasil prediksi:

import matplotlib.pyplot as plt

# Plot hasil prediksi vs nilai aktual
plt.scatter(y_test, y_pred, alpha=0.5)
plt.xlabel('Tahun Rilis Aktual')
plt.ylabel('Tahun Rilis Prediksi')
plt.title('Prediksi Tahun Rilis Film Berdasarkan Genre')
plt.show()


Langkah-langkah di atas memberikan panduan dasar untuk membangun model prediksi menggunakan dataset IMDb dan memvisualisasikan hasilnya tanpa menggunakan Google Colab. Anda dapat menyesuaikan dan memperluas proses ini sesuai dengan kebutuhan spesifik Anda.

Pranala Menarik