Difference between revisions of "Orange: Word Enrichment"

From OnnoWiki
Jump to navigation Jump to search
 
(7 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
 +
Widget Word Enrichment melakukan analisis word enrichment pada dokumen yang dipilih.
  
Word enrichment analysis for selected documents.
+
==Input==
  
Inputs
+
Corpus: A collection of documents.
 +
Selected Data: Selected instances from corpus.
  
    Corpus: A collection of documents.
+
==Output==
    Selected Data: Selected instances from corpus.
 
  
Outputs
+
None
  
    None
+
Widget Word Enrichment menampilkan daftar kata dengan p-value yang lebih rendah (signifikansi lebih tinggi) untuk subset yang dipilih dibandingkan dengan seluruh corpus. p-value yang lebih rendah menunjukkan kemungkinan yang lebih tinggi bahwa kata tersebut signifikan untuk subset yang dipilih (tidak terjadi secara acak dalam text). FDR (False Discovery Rate) dikaitkan dengan p-value dan melaporkan pada perkiraan yang diharapkan dari prediksi salah dalam rangkaian prediksi, yang berarti itu menghitung false positive dalam daftar p-value rendah.
  
Word Enrichment displays a list of words with lower p-values (higher significance) for a selected subset compared to the entire corpus. Lower p-value indicates a higher likelihood that the word is significant for the selected subset (not randomly occurring in a text). FDR (False Discovery Rate) is linked to p-value and reports on the expected percent of false predictions in the set of predictions, meaning it account for false positives in list of low p-values.
+
[[File:Word-Enrichment-stamped.png|center|400px|thumb]]
  
[[File:Word-Enrichment-stamped.png|center|200px|thumb]]
+
* Information on the input.
 
+
** Cluster words are all the tokens from the corpus.
    Information on the input.
+
** Selected words are all the tokens from the selected subset.
        Cluster words are all the tokens from the corpus.
+
** After filtering reports on the enriched words found in the subset.
        Selected words are all the tokens from the selected subset.
+
* Filter enables you to filter by:
        After filtering reports on the enriched words found in the subset.
+
** p-value
    Filter enables you to filter by:
+
** false discovery rate (FDR)
        p-value
 
        false discovery rate (FDR)
 
  
 
==Contoh==
 
==Contoh==
  
In the example below, we’re retrieved recent tweets from the 2016 presidential candidates, Donald Trump and Hillary Clinton. Then we’ve preprocessed the tweets to get only words as tokens and to remove the stopwords. We’ve connected the preprocessed corpus to Bag of Words to get a table with word counts for our corpus.
+
Dalam contoh di bawah ini, kita mengambil tweet dari kandidat presiden 2016, Donald Trump dan Hillary Clinton. Menggunakan widget Preprocess Text untuk memproses tweet agar mendapatkan hanya kata-kata sebagai token dan menghapus stopword. Kita  menghubungkan corpus yang telah diproses ke widget Bag of Words untuk mendapatkan tabel frekuensi kata di corpus.
 
 
[[File:Word-Enrichment-Example.png|center|200px|thumb]]
 
 
 
Then we’ve connected Corpus Viewer to Bag of Words and selected only those tweets that were published by Donald Trump. See how we marked only the Author as our Search feature to retrieve those tweets.
 
 
 
Word Enrichment accepts two inputs - the entire corpus to serve as a reference and a selected subset from the corpus to do the enrichment on. First connect Corpus Viewer to Word Enrichment (input Matching Docs → Selected Data) and then connect Bag of Words to it (input Corpus → Data). In the Word Enrichment widget we can see the list of words that are more significant for Donald Trump than they are for Hillary Clinton.
 
 
 
  
 +
Lalu kita menghubungkan widget Corpus Viewer ke widget Bag of Words dan hanya memilih tweet yang di posting oleh Donald Trump. Lihat bagaimana kami menandai hanya Author sebagai fitur Search untuk mengambil tweet tersebut.
  
 +
Widget Word Enrichment menerima dua input - seluruh corpus untuk dijadikan referensi dan subset terpilih dari corpus untuk melakukan pengayaan. Pertama hubungkan widget Corpus Viewer ke widget Word Enrichment (masukan Matching Docs → Selected Data) dan kemudian hubungkan widget Bag of Words ke sana (input Corpus → Data). Dalam widget Word Enrichment widget kita dapat melihat daftar kata-kata yang lebih penting untuk Donald Trump daripada Hillary Clinton.
  
 +
[[File:Word-Enrichment-Example.png|center|600px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 07:06, 13 April 2020

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/wordenrichment.html


Widget Word Enrichment melakukan analisis word enrichment pada dokumen yang dipilih.

Input

Corpus: A collection of documents.
Selected Data: Selected instances from corpus.

Output

None

Widget Word Enrichment menampilkan daftar kata dengan p-value yang lebih rendah (signifikansi lebih tinggi) untuk subset yang dipilih dibandingkan dengan seluruh corpus. p-value yang lebih rendah menunjukkan kemungkinan yang lebih tinggi bahwa kata tersebut signifikan untuk subset yang dipilih (tidak terjadi secara acak dalam text). FDR (False Discovery Rate) dikaitkan dengan p-value dan melaporkan pada perkiraan yang diharapkan dari prediksi salah dalam rangkaian prediksi, yang berarti itu menghitung false positive dalam daftar p-value rendah.

Word-Enrichment-stamped.png
  • Information on the input.
    • Cluster words are all the tokens from the corpus.
    • Selected words are all the tokens from the selected subset.
    • After filtering reports on the enriched words found in the subset.
  • Filter enables you to filter by:
    • p-value
    • false discovery rate (FDR)

Contoh

Dalam contoh di bawah ini, kita mengambil tweet dari kandidat presiden 2016, Donald Trump dan Hillary Clinton. Menggunakan widget Preprocess Text untuk memproses tweet agar mendapatkan hanya kata-kata sebagai token dan menghapus stopword. Kita menghubungkan corpus yang telah diproses ke widget Bag of Words untuk mendapatkan tabel frekuensi kata di corpus.

Lalu kita menghubungkan widget Corpus Viewer ke widget Bag of Words dan hanya memilih tweet yang di posting oleh Donald Trump. Lihat bagaimana kami menandai hanya Author sebagai fitur Search untuk mengambil tweet tersebut.

Widget Word Enrichment menerima dua input - seluruh corpus untuk dijadikan referensi dan subset terpilih dari corpus untuk melakukan pengayaan. Pertama hubungkan widget Corpus Viewer ke widget Word Enrichment (masukan Matching Docs → Selected Data) dan kemudian hubungkan widget Bag of Words ke sana (input Corpus → Data). Dalam widget Word Enrichment widget kita dapat melihat daftar kata-kata yang lebih penting untuk Donald Trump daripada Hillary Clinton.

Word-Enrichment-Example.png

Referensi

Pranala Menarik