Difference between revisions of "Orange: untuk Politik"
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) |
||
(One intermediate revision by the same user not shown) | |||
Line 2: | Line 2: | ||
+ | Data Mining for Political Scientists | ||
+ | By: AJDA, Nov 30, 2016 | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
[[File:Pretnar-22.jpg|center|400px|thumb]] | [[File:Pretnar-22.jpg|center|400px|thumb]] | ||
− | |||
− | + | Tujuan utama adalah untuk menjabarkan kemungkinan yang ditawarkan teknologi kontemporer kepada para peneliti dan menunjukkan beberapa tugas text mining sederhana di Orange. Kita menganalisa time line Trump dan Clinton di Twitter dan menemukan bahwa tweet mereka sangat berbeda satu sama lain dan kita dapat dengan mudah menemukan kata-kata penting yang mereka gunakan di tweet mereka. Selain itu, kita telah menemukan bahwa Trump jauh lebih baik di media sosial daripada Clinton, menciptakan konten yang sangat disukai dan dibagikan dan menciptakan tagar sendiri. Mungkinkah itu pertanda dari kemenangan Trump? | |
− | + | Mungkin. Ilmuwan politik yang tidak gaptek data-mining akan menentukan masa depan kita. Di bawah ini, kita dapat melihat beberapa contoh workflow yang disajikan di workshop. | |
[[File:Bologna-workflow1.png|center|400px|thumb]] | [[File:Bologna-workflow1.png|center|400px|thumb]] | ||
− | + | Prediksi penulis dari konten Tweet. Regresi Logistik melaporkan akurasi klasifikasi 92% dan skor AUC. Confusion Matrix dapat menampilkan tweet yang tidak diklasifikasikan untuk Corpus Viewer, tempat kita dapat memeriksa tweet ini lebih lanjut. | |
[[File:Bologna-wordcloud.png|center|400px|thumb]] | [[File:Bologna-wordcloud.png|center|400px|thumb]] | ||
− | Word Cloud | + | Word Cloud dari tweet yang telah di preproses. Kita menghapus stopword (biasanya kata penhubung) dan tanda baca untuk menemukan frekuensi hanya untuk kata-kata yang bermakna. |
[[File:Bologna-enrichment.png|center|400px|thumb]] | [[File:Bologna-enrichment.png|center|400px|thumb]] | ||
− | Word Enrichment | + | Word Enrichment oleh Penulis. Pertama-tama kita menemukan tweet Trump dengan Select Rows dan kemudian membandingkannya dengan seluruh corpus di Word Enrichment. Widget mengeluarkan daftar peringkat kata-kata penting untuk subset yang disediakan. Kita melakukan hal yang sama untuk tweet Hillary. |
[[File:Bologna-topicmodelling.png|center|400px|thumb]] | [[File:Bologna-topicmodelling.png|center|400px|thumb]] | ||
− | + | Menemukan potensi topik dengan LDA. | |
[[File:Bologna-emotions.png|center|400px|thumb]] | [[File:Bologna-emotions.png|center|400px|thumb]] | ||
− | + | Akhirnya, kami menawarkan sneak peek dari widget Tweet Profiler terbaru kami. Tweet Profiler dimaksudkan untuk analisis sentimen tweet dan dapat menampilkan class, probabilitas dan embedding. | |
+ | |||
+ | ==Alternatif Workflow== | ||
+ | [[File:Orange-analisa-twitter.png|center|200px|thumb]] | ||
+ | [[File:Orange-analisa-twitter-corpus.png|center|200px|thumb]] | ||
Latest revision as of 04:11, 4 February 2020
Sumber: https://orange.biolab.si/blog/2016/11/30/data-mining-for-political-scientists/
Data Mining for Political Scientists By: AJDA, Nov 30, 2016
Tujuan utama adalah untuk menjabarkan kemungkinan yang ditawarkan teknologi kontemporer kepada para peneliti dan menunjukkan beberapa tugas text mining sederhana di Orange. Kita menganalisa time line Trump dan Clinton di Twitter dan menemukan bahwa tweet mereka sangat berbeda satu sama lain dan kita dapat dengan mudah menemukan kata-kata penting yang mereka gunakan di tweet mereka. Selain itu, kita telah menemukan bahwa Trump jauh lebih baik di media sosial daripada Clinton, menciptakan konten yang sangat disukai dan dibagikan dan menciptakan tagar sendiri. Mungkinkah itu pertanda dari kemenangan Trump?
Mungkin. Ilmuwan politik yang tidak gaptek data-mining akan menentukan masa depan kita. Di bawah ini, kita dapat melihat beberapa contoh workflow yang disajikan di workshop.
Prediksi penulis dari konten Tweet. Regresi Logistik melaporkan akurasi klasifikasi 92% dan skor AUC. Confusion Matrix dapat menampilkan tweet yang tidak diklasifikasikan untuk Corpus Viewer, tempat kita dapat memeriksa tweet ini lebih lanjut.
Word Cloud dari tweet yang telah di preproses. Kita menghapus stopword (biasanya kata penhubung) dan tanda baca untuk menemukan frekuensi hanya untuk kata-kata yang bermakna.
Word Enrichment oleh Penulis. Pertama-tama kita menemukan tweet Trump dengan Select Rows dan kemudian membandingkannya dengan seluruh corpus di Word Enrichment. Widget mengeluarkan daftar peringkat kata-kata penting untuk subset yang disediakan. Kita melakukan hal yang sama untuk tweet Hillary.
Menemukan potensi topik dengan LDA.
Akhirnya, kami menawarkan sneak peek dari widget Tweet Profiler terbaru kami. Tweet Profiler dimaksudkan untuk analisis sentimen tweet dan dapat menampilkan class, probabilitas dan embedding.
Alternatif Workflow