Difference between revisions of "Orange: Word Enrichment"

From OnnoWiki
Jump to navigation Jump to search
 
(4 intermediate revisions by the same user not shown)
Line 13: Line 13:
 
  None
 
  None
  
Widget Word Enrichment menampilkan daftar kata dengan p-value yang lebih rendah (signifikansi lebih tinggi) untuk subset yang dipilih dibandingkan dengan seluruh corpus. p-value yang lebih rendah menunjukkan kemungkinan yang lebih tinggi bahwa kata tersebut signifikan untuk subset yang dipilih (tidak terjadi secara acak dalam text). FDR (False Discovery Rate) dikaitkan dengan p-value dan melaporkan pada perkiraan yang diharapkan dari prediksi salah dalam rangkaian prediksi, yang berarti itu menghitung positif palsu dalam daftar p-value rendah.
+
Widget Word Enrichment menampilkan daftar kata dengan p-value yang lebih rendah (signifikansi lebih tinggi) untuk subset yang dipilih dibandingkan dengan seluruh corpus. p-value yang lebih rendah menunjukkan kemungkinan yang lebih tinggi bahwa kata tersebut signifikan untuk subset yang dipilih (tidak terjadi secara acak dalam text). FDR (False Discovery Rate) dikaitkan dengan p-value dan melaporkan pada perkiraan yang diharapkan dari prediksi salah dalam rangkaian prediksi, yang berarti itu menghitung false positive dalam daftar p-value rendah.
  
 
[[File:Word-Enrichment-stamped.png|center|400px|thumb]]
 
[[File:Word-Enrichment-stamped.png|center|400px|thumb]]
Line 27: Line 27:
 
==Contoh==
 
==Contoh==
  
In the example below, we’re retrieved recent tweets from the 2016 presidential candidates, Donald Trump and Hillary Clinton. Then we’ve preprocessed the tweets to get only words as tokens and to remove the stopwords. We’ve connected the preprocessed corpus to Bag of Words to get a table with word counts for our corpus.
+
Dalam contoh di bawah ini, kita mengambil tweet dari kandidat presiden 2016, Donald Trump dan Hillary Clinton. Menggunakan widget Preprocess Text untuk memproses tweet agar mendapatkan hanya kata-kata sebagai token dan menghapus stopword. Kita  menghubungkan corpus yang telah diproses ke widget Bag of Words untuk mendapatkan tabel frekuensi kata di corpus.
  
[[File:Word-Enrichment-Example.png|center|600px|thumb]]
+
Lalu kita menghubungkan widget Corpus Viewer ke widget Bag of Words dan hanya memilih tweet yang di posting oleh Donald Trump. Lihat bagaimana kami menandai hanya Author sebagai fitur Search untuk mengambil tweet tersebut.
  
Then we’ve connected Corpus Viewer to Bag of Words and selected only those tweets that were published by Donald Trump. See how we marked only the Author as our Search feature to retrieve those tweets.
+
Widget Word Enrichment menerima dua input - seluruh corpus untuk dijadikan referensi dan subset terpilih dari corpus untuk melakukan pengayaan. Pertama hubungkan widget Corpus Viewer ke widget Word Enrichment (masukan Matching Docs → Selected Data) dan kemudian hubungkan widget Bag of Words ke sana (input Corpus → Data). Dalam widget Word Enrichment widget kita dapat melihat daftar kata-kata yang lebih penting untuk Donald Trump daripada Hillary Clinton.
  
Word Enrichment accepts two inputs - the entire corpus to serve as a reference and a selected subset from the corpus to do the enrichment on. First connect Corpus Viewer to Word Enrichment (input Matching Docs → Selected Data) and then connect Bag of Words to it (input Corpus → Data). In the Word Enrichment widget we can see the list of words that are more significant for Donald Trump than they are for Hillary Clinton.
+
[[File:Word-Enrichment-Example.png|center|600px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 07:06, 13 April 2020

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/wordenrichment.html


Widget Word Enrichment melakukan analisis word enrichment pada dokumen yang dipilih.

Input

Corpus: A collection of documents.
Selected Data: Selected instances from corpus.

Output

None

Widget Word Enrichment menampilkan daftar kata dengan p-value yang lebih rendah (signifikansi lebih tinggi) untuk subset yang dipilih dibandingkan dengan seluruh corpus. p-value yang lebih rendah menunjukkan kemungkinan yang lebih tinggi bahwa kata tersebut signifikan untuk subset yang dipilih (tidak terjadi secara acak dalam text). FDR (False Discovery Rate) dikaitkan dengan p-value dan melaporkan pada perkiraan yang diharapkan dari prediksi salah dalam rangkaian prediksi, yang berarti itu menghitung false positive dalam daftar p-value rendah.

Word-Enrichment-stamped.png
  • Information on the input.
    • Cluster words are all the tokens from the corpus.
    • Selected words are all the tokens from the selected subset.
    • After filtering reports on the enriched words found in the subset.
  • Filter enables you to filter by:
    • p-value
    • false discovery rate (FDR)

Contoh

Dalam contoh di bawah ini, kita mengambil tweet dari kandidat presiden 2016, Donald Trump dan Hillary Clinton. Menggunakan widget Preprocess Text untuk memproses tweet agar mendapatkan hanya kata-kata sebagai token dan menghapus stopword. Kita menghubungkan corpus yang telah diproses ke widget Bag of Words untuk mendapatkan tabel frekuensi kata di corpus.

Lalu kita menghubungkan widget Corpus Viewer ke widget Bag of Words dan hanya memilih tweet yang di posting oleh Donald Trump. Lihat bagaimana kami menandai hanya Author sebagai fitur Search untuk mengambil tweet tersebut.

Widget Word Enrichment menerima dua input - seluruh corpus untuk dijadikan referensi dan subset terpilih dari corpus untuk melakukan pengayaan. Pertama hubungkan widget Corpus Viewer ke widget Word Enrichment (masukan Matching Docs → Selected Data) dan kemudian hubungkan widget Bag of Words ke sana (input Corpus → Data). Dalam widget Word Enrichment widget kita dapat melihat daftar kata-kata yang lebih penting untuk Donald Trump daripada Hillary Clinton.

Word-Enrichment-Example.png

Referensi

Pranala Menarik