Difference between revisions of "Orange: untuk Politik"

From OnnoWiki
Jump to navigation Jump to search
Line 2: Line 2:
  
  
 +
Data Mining for Political Scientists
 +
By: AJDA, Nov 30, 2016
  
Data Mining for Political Scientists
 
By: AJDA, Nov 30, 2016
 
 
Being a political scientist, I did not even hear about data mining before I’ve joined Biolab. And naturally, as with all good things, data mining started to grow on me. Give me some data, connect a bunch of widgets and see the magic happen!
 
 
But hold on! There are still many social scientists out there who haven’t yet heard about the wonderful world of data mining, text mining and machine learning. So I’ve made it my mission to spread the word. And that was the spirit that led me back to my former university - School of Political Sciences, University of Bologna.
 
 
University of Bologna is the oldest university in the world and has one of the best departments for political sciences in Europe. I held a lecture Digital Research - Data Mining for Political Scientists for MIREES students, who are specializing in research and studies in Central and Eastern Europe.
 
  
 
[[File:Pretnar-22.jpg|center|400px|thumb]]
 
[[File:Pretnar-22.jpg|center|400px|thumb]]
Lecture at University of Bologna
 
  
The main goal of the lecture was to lay out the possibilities that contemporary technology offers to researchers and to showcase a few simple text mining tasks in Orange. We analysed Trump’s and Clinton’s Twitter timeline and discovered that their tweets are highly distinct from one another and that you can easily find significant words they’re using in their tweets. Moreover, we’ve discovered that Trump is much better at social media than Clinton, creating highly likable and shareable content and inventing his own hashtags. Could that be a tell-tale sign of his recent victory?
+
Tujuan utama adalah untuk menjabarkan kemungkinan yang ditawarkan teknologi kontemporer kepada para peneliti dan menunjukkan beberapa tugas text mining sederhana di Orange. Kita menganalisa time line Trump dan Clinton di Twitter dan menemukan bahwa tweet mereka sangat berbeda satu sama lain dan kita dapat dengan mudah menemukan kata-kata penting yang mereka gunakan di tweet mereka. Selain itu, kita telah menemukan bahwa Trump jauh lebih baik di media sosial daripada Clinton, menciptakan konten yang sangat disukai dan dibagikan dan menciptakan tagar sendiri. Mungkinkah itu pertanda dari kemenangan Trump?
  
Perhaps. Our future, data-mining savvy political scientists will decide. Below, you can see some examples of the workflows presented at the workshop.
+
Mungkin. Ilmuwan politik yang tidak gaptek data-mining akan menentukan masa depan kita. Di bawah ini, kita dapat melihat beberapa contoh workflow yang disajikan di workshop.
  
 
[[File:Bologna-workflow1.png|center|400px|thumb]]
 
[[File:Bologna-workflow1.png|center|400px|thumb]]
  
Author predictions from Tweet content. Logistic Regression reports on 92% classification accuracy and AUC score. Confusion Matrix can output misclassified tweets to Corpus Viewer, where we can inspect these tweets further.
+
Prediksi penulis dari konten Tweet. Regresi Logistik melaporkan akurasi klasifikasi 92% dan skor AUC. Confusion Matrix dapat menampilkan tweet yang tidak diklasifikasikan untuk Corpus Viewer, tempat kita dapat memeriksa tweet ini lebih lanjut.
  
 
[[File:Bologna-wordcloud.png|center|400px|thumb]]
 
[[File:Bologna-wordcloud.png|center|400px|thumb]]
  
Word Cloud from preprocessed tweets. We removed stopwords and punctuation to find frequencies for meaningful words only.
+
Word Cloud dari tweet yang telah di preproses. Kita menghapus stopword (biasanya kata penhubung) dan tanda baca untuk menemukan frekuensi hanya untuk kata-kata yang bermakna.
  
 
[[File:Bologna-enrichment.png|center|400px|thumb]]
 
[[File:Bologna-enrichment.png|center|400px|thumb]]
  
Word Enrichment by Author. First we find Donald’s tweets with Select Rows and then compare them to the entire corpus in Word Enrichment. The widget outputs a ranked list of significant words for the provided subset. We do the same for Hillary’s tweets.
+
Word Enrichment oleh Penulis. Pertama-tama kita menemukan tweet Trump dengan Select Rows dan kemudian membandingkannya dengan seluruh corpus di Word Enrichment. Widget mengeluarkan daftar peringkat kata-kata penting untuk subset yang disediakan. Kita melakukan hal yang sama untuk tweet Hillary.
  
 
[[File:Bologna-topicmodelling.png|center|400px|thumb]]
 
[[File:Bologna-topicmodelling.png|center|400px|thumb]]
  
Finding potential topics with LDA.
+
Menemukan potensi topik dengan LDA.
  
 
[[File:Bologna-emotions.png|center|400px|thumb]]
 
[[File:Bologna-emotions.png|center|400px|thumb]]
  
  
Finally, we offered a sneak peek of our recent Tweet Profiler widget. Tweet Profiler is intended for sentiment analysis of tweets and can output classes. probabilities and embeddings. The widget is not yet officially available, but will be included in the upcoming release.
+
Akhirnya, kami menawarkan sneak peek dari widget Tweet Profiler terbaru kami. Tweet Profiler dimaksudkan untuk analisis sentimen tweet dan dapat menampilkan class, probabilitas dan embedding.
 
 
 
 
 
 
 
 
  
  

Revision as of 07:47, 28 January 2020

Sumber: https://orange.biolab.si/blog/2016/11/30/data-mining-for-political-scientists/


Data Mining for Political Scientists
By: AJDA, Nov 30, 2016


Pretnar-22.jpg

Tujuan utama adalah untuk menjabarkan kemungkinan yang ditawarkan teknologi kontemporer kepada para peneliti dan menunjukkan beberapa tugas text mining sederhana di Orange. Kita menganalisa time line Trump dan Clinton di Twitter dan menemukan bahwa tweet mereka sangat berbeda satu sama lain dan kita dapat dengan mudah menemukan kata-kata penting yang mereka gunakan di tweet mereka. Selain itu, kita telah menemukan bahwa Trump jauh lebih baik di media sosial daripada Clinton, menciptakan konten yang sangat disukai dan dibagikan dan menciptakan tagar sendiri. Mungkinkah itu pertanda dari kemenangan Trump?

Mungkin. Ilmuwan politik yang tidak gaptek data-mining akan menentukan masa depan kita. Di bawah ini, kita dapat melihat beberapa contoh workflow yang disajikan di workshop.

Bologna-workflow1.png

Prediksi penulis dari konten Tweet. Regresi Logistik melaporkan akurasi klasifikasi 92% dan skor AUC. Confusion Matrix dapat menampilkan tweet yang tidak diklasifikasikan untuk Corpus Viewer, tempat kita dapat memeriksa tweet ini lebih lanjut.

Bologna-wordcloud.png

Word Cloud dari tweet yang telah di preproses. Kita menghapus stopword (biasanya kata penhubung) dan tanda baca untuk menemukan frekuensi hanya untuk kata-kata yang bermakna.

Bologna-enrichment.png

Word Enrichment oleh Penulis. Pertama-tama kita menemukan tweet Trump dengan Select Rows dan kemudian membandingkannya dengan seluruh corpus di Word Enrichment. Widget mengeluarkan daftar peringkat kata-kata penting untuk subset yang disediakan. Kita melakukan hal yang sama untuk tweet Hillary.

Bologna-topicmodelling.png

Menemukan potensi topik dengan LDA.

Bologna-emotions.png


Akhirnya, kami menawarkan sneak peek dari widget Tweet Profiler terbaru kami. Tweet Profiler dimaksudkan untuk analisis sentimen tweet dan dapat menampilkan class, probabilitas dan embedding.


Referensi

Pranala Menarik