NLTK: membuat movie review bahasa indonesia

From OnnoWiki
Jump to navigation Jump to search

untuk menganalisa sentimen, nltk membutuhkan training / referensi tentang sentimen. Ini dilakukan menggunakan 1000 file text sentimen positif dan 1000 file text sentimen negatif. file tersebut terletak di folder,

~/nltk_data/corpora/movie_reviews

ada dua folder, pos dan neg. format nama file-nya kira-kira

cv000_29590.txt
cv001_18431.txt
cv002_15918.txt
cv003_11664.txt
cv004_11636.txt
cv005_29443.txt
cv006_15448.txt
cv007_4968.txt
..
..
dst ..

masalahnya isinya adalah text review film / movie dalam bahasa inggris, kira-kira,

films adapted from comic books have had plenty of success , whether they're about superheroes ( batman , superman , spawn ) , or geared toward 
kids ( casper ) or the arthouse crowd ( ghost world ) , but there's never really been a comic book like from hell before . 
for starters , it was created by alan moore ( and eddie campbell ) , who brought the medium to a whole new level in the mid '80s with a 12-part
 series called the watchmen . 
to say moore and campbell thoroughly researched the subject of jack the ripper would be like saying michael jackson is starting to look a littl
e odd . 
..
..
dst ..

Untuk mengubah menjadi bahasa indonesia, tentu harus di terjemahkan. Langkah yang saya lakukan adalah

cp -Rf ~/nltk_data/corpora/movie_reviews ~/nltk_data/corpora/indo_reviews/
cd neg
  • buka file satu per satu
  • copy isi file tersebut
  • klik https://translate.yandex.com/?text&lang=en-id
  • paste ke text bahasa inggris
  • select semua text bahasa indonesia-nya
  • klik text file, select all, delete
  • paste text bahasa indonesia hasil terjemahan yandex
  • save
  • close file

lakukan itu satu per satu untuk 2000 file yang ada, butuh waktu sekitar 3-5 hari. Maklum ini kerja manual dan membosankan.