NLTK: membuat movie review bahasa indonesia
Jump to navigation
Jump to search
untuk menganalisa sentimen, nltk membutuhkan training / referensi tentang sentimen. Ini dilakukan menggunakan 1000 file text sentimen positif dan 1000 file text sentimen negatif. file tersebut terletak di folder,
~/nltk_data/corpora/movie_reviews
ada dua folder, pos dan neg. format nama file-nya kira-kira
cv000_29590.txt cv001_18431.txt cv002_15918.txt cv003_11664.txt cv004_11636.txt cv005_29443.txt cv006_15448.txt cv007_4968.txt .. .. dst ..
masalahnya isinya adalah text review film / movie dalam bahasa inggris, kira-kira,
films adapted from comic books have had plenty of success , whether they're about superheroes ( batman , superman , spawn ) , or geared toward kids ( casper ) or the arthouse crowd ( ghost world ) , but there's never really been a comic book like from hell before . for starters , it was created by alan moore ( and eddie campbell ) , who brought the medium to a whole new level in the mid '80s with a 12-part series called the watchmen . to say moore and campbell thoroughly researched the subject of jack the ripper would be like saying michael jackson is starting to look a littl e odd . .. .. dst ..
Untuk mengubah menjadi bahasa indonesia, tentu harus di terjemahkan. Langkah yang saya lakukan adalah
cp -Rf ~/nltk_data/corpora/movie_reviews ~/nltk_data/corpora/indo_reviews/ cd neg
- buka file satu per satu
- copy isi file tersebut
- klik https://translate.yandex.com/?text&lang=en-id
- paste ke text bahasa inggris
- select semua text bahasa indonesia-nya
- klik text file, select all, delete
- paste text bahasa indonesia hasil terjemahan yandex
- save
- close file
lakukan itu satu per satu untuk 2000 file yang ada, butuh waktu sekitar 3-5 hari. Maklum ini kerja manual dan membosankan.