Orange: Twitter

From OnnoWiki
Jump to navigation Jump to search

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/twitter-widget.html


Widget Twitter mengambil data menggunakan API Twitter Search.

Input

None

Output

Corpus: A collection of tweets from the Twitter API.

Widget Twitter memungkinkan kita untuk meng-query tweet melalui API Twitter. Kita dapat meng-query berdasarkan content, author atau ke dua-nya dan mengakumulasi hasil-nya jika kita ingin membuat dataset yang besar. Widget Twitter hanya mendukung REST API dan hanya mengijinkan untuk query sampai dua minggu ke belakang.

Twitter-stamped.png
  • To begin your queries, insert Twitter key and secret. They are securely saved in your system keyring service (like Credential Vault, Keychain, KWallet, etc.) and won’t be deleted when clearing widget settings. You must first create a Twitter app to get API keys.
Twitter-key.png
  • Set query parameters:
    • Query word list: list desired queries, one per line. Queries are automatically joined by OR.
    • Search by: specify whether you want to search by content, author or both. If searching by author, you must enter proper Twitter handle (without @) in the query list.
    • Language: set the language of retrieved tweets. Any will retrieve tweets in any language.
    • Max tweets: set the top limit of retrieved tweets. If box is not ticked, no upper bound will be set - widget will retrieve all available tweets.
    • Allow retweets: if ‘Allow retweets’ is checked, retweeted tweets will also appear on the output. This might duplicate some results.
    • Collect results: if ‘Collect results’ is ticked, widget will append new queries to the previous ones. Enter new queries, run Search and new results will be appended to the previous ones.
  • Define which features to include as text features.
  • Information on the number of tweets on the output.
  • Run query.

Contoh

Menggunakan widget Twitter, kita akan mencoba simple query. Kita akan mencari tweet yang berisi ‘data mining’ atau ‘machine learning’ dalam contant dan juga di retweet. Kita akan di batasi search hanya 100 tweet dalam bahasa Inggris.

Pertama-tama, kita cek output menggunakan widget Corpus Viewer untuk memperoleh gambaran tentang hasil yang kita peroleh. Kemudian, menggunakan widget Preprocess Text di process tweet agar menjadi lowercase, url removal, tweet tokenizer dan membuang stopword dan punctuation. Cara terbaik untuk melihat hasilnya adalah menggunakan widget Word Cloud. Widget Word Cloud akan menampilkan kata yang paling populer di bidang data mining dan machine learning dalam dua minggu terakhir.

Twitter-Example1.png


Menggunakan widget Twitter, kita query tweet dari Hillary Clinton dan Donald Trump saat presidential campaign 2016. Kemudian, gunakan widget Preprocess Text untuk memperoleh token kata yang benar di output. Sambungkan widget Preprocess Text ke widget Bag of Words untuk membuat sebuah tabel dengan kata sebagai feature dan jumlah kata sebagai nilai-nya. Cek sepintas di widget Word Cloud memberikan gambaran tentang hasil-nya.

Selanjutnya, kita ingin mem-predict author dari tweet. Menggunakan Widget Select Columns, kita men-set ‘Author’ sebagai target varibel. Kemudian, kita sambungkan widget Select Columns ke widget Test & Score. Kita gunakan widget Logistic Regression sebagai learner, yang juga kita sambungkan ke widget Test & Score.

Kita akan melihat hasil dari prediksi author secara langsung di widget Test & Score. Score AUC cukup baik. Sepertinya kita dapat sedikit banyak memprediksi siapa penulis tweet berdasarkan konten tweet.

Twitter-Example2.png

Youtube


Referensi

Pranala Menarik