Text Mining (iseng): Persepsi Media Online Terhadap CAGUB DKI

From OnnoWiki
Jump to navigation Jump to search

Satu minggu belakangan saya iseng-iseng belajar coding menggunakan bahasa python yang relatif lebih sederhana dari bahasa lainnya. Objektifnya adalah melakukan text mining terhadap informasi di web maupun twitter. Dalam bahasa sederhana kira-kira membuat coding untuk mencari isu / kata yang paling dominan untuk satu keyword tertentu yang kita masukan di Google. Secara umum langkah text mining yang dilakukan adalah,

  • SATU. Memasukan keyword ke Google, saya pakai tiga keyword yang berbeda, yaitu, "agus DAN sylvi", "ahok", dan "anies". Dari hasil googling ini, di ambil masing-masing 100 URL. Kebanyakan URL yang diberikan oleh Google adalah URL dari media online di Indonesia. Jadi tampaknya informasi dari Google lebih banyak informasi dari media.
  • DUA. Kemudian menggunakan coding, browse ke masing-masing 100 URL dan mengambil semua text yang ada di web tersebut. Hasilnya di simpan dalam 3 file yang berbeda untuk masing2 CAGUB.
  • TIGA. Langkah selanjutnya adalah melakukan text mining, ini agak tricky, karena ternyata ada sekitar 30.000+ kata yang di peroleh dari text yang di ambil dari 100 URL tersebut. Di samping itu, ada banyak sekali iklan yang ada di media online. Jadi langkah yang pertama kali harus dilakukan adalah membersihkan dari kata-kata yang sering dipakai istilah keren-nya stopwords (seperti, yang, dari, ke, anda, kami dll), juga membersihkan dari kata-kata yang tidak relevan dari iklan, sehingga merek, tipe HP dll harus dibuang. Proses ini di bantu menggunakan tool dari NLTK, cuma kita harus mencari sendiri corpus & stopwords bahasa Indonesia karena yang banyak adalah corpus bahasa Inggris.
  • EMPAT. Untuk memberikan arti dari kata yang di peroleh, kita perlu melihat / menghitung hubungan antar kata. dalam bahasa sederhana, misalnya kata ANIES banyak berhubungan dengan kata apa saja, dsb.
  • ENAM. Terakhir kita perlu memvisualisasikannnya dalam bentuk grafik. Ini menggunakan aplikasi gephi yang open source. Disini bisa dimanipulasi sedikit, dalam arti size / besar kata bisa di atur sesuai dengan tingkat penting-nya kata tersebut. Size garis hubungan juga bisa dibuat sesuai dengan tingkat intensitas hubungan yang terjadi. Hasilnya adalah 3 gambar berikut untuk masing-masing CAGUB DKI.
Persepsi Media Online Terhadap Agus Sylvi

Di atas adalah gambar persepsi media online terhadap keyword "agus DAN sylvi", kata yang dominan adalah Jakarta, DKI dan yang menarik ada kata AHOK disana. Tapi kata agus dan sylvi ternyata bukan kata yang dominan. Ini saya sampai beberapa kali memeriksa stopwords dll hasilnya tetap tidak ada kata agus sylvi yang dominan. Mungkin karena masalah branding yang tidak konsiten, maksudnya agus sylvi kadang muncul sebagai agus-sylvi, agussylvi dll sehingga tidak menjadi dominan.

Persepsi Media Online terhadap Ahok

Gambar di atas adalah persepsi media online terhadap kata ahok. Ternyata ahok sangat dominan sekali. Yang menarik kata ahok di bayangi oleh kata-kata seperti sidang, agama, islam, umat, menghina, hukum dll ...

Persepsi Media Online terhadap kata Anies

Gambar di atas adalah persepsi media online terhadap kata anies. Kata yang dominan adalah kata baswedan dan jakarta. Yang menarik Anies di bayangi oleh kata-kata seperti, mahasiswa, hukum, ahok, selain kata-kata dki, tokoh dll.

Saat tulisan ini ditulis, saya masih menjalankan komputer untuk menganalisa hasil search menggunakan twitter yang ternyata membutuhkan waktu lebih lama.

Semoga bisa bermanfaat.



Referensi