Orange: Word Enrichment

From OnnoWiki
Jump to navigation Jump to search

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/wordenrichment.html


Widget Word Enrichment melakukan analisis word enrichment pada dokumen yang dipilih.

Input

Corpus: A collection of documents.
Selected Data: Selected instances from corpus.

Output

None

Widget Word Enrichment menampilkan daftar kata dengan p-value yang lebih rendah (signifikansi lebih tinggi) untuk subset yang dipilih dibandingkan dengan seluruh corpus. p-value yang lebih rendah menunjukkan kemungkinan yang lebih tinggi bahwa kata tersebut signifikan untuk subset yang dipilih (tidak terjadi secara acak dalam text). FDR (False Discovery Rate) dikaitkan dengan p-value dan melaporkan pada perkiraan yang diharapkan dari prediksi salah dalam rangkaian prediksi, yang berarti itu menghitung false positive dalam daftar p-value rendah.

Word-Enrichment-stamped.png
  • Information on the input.
    • Cluster words are all the tokens from the corpus.
    • Selected words are all the tokens from the selected subset.
    • After filtering reports on the enriched words found in the subset.
  • Filter enables you to filter by:
    • p-value
    • false discovery rate (FDR)

Contoh

Dalam contoh di bawah ini, kita mengambil tweet dari kandidat presiden 2016, Donald Trump dan Hillary Clinton. Menggunakan widget Preprocess Text untuk memproses tweet agar mendapatkan hanya kata-kata sebagai token dan menghapus stopword. Kita menghubungkan corpus yang telah diproses ke widget Bag of Words untuk mendapatkan tabel frekuensi kata di corpus.

Lalu kita menghubungkan widget Corpus Viewer ke widget Bag of Words dan hanya memilih tweet yang di posting oleh Donald Trump. Lihat bagaimana kami menandai hanya Author sebagai fitur Search untuk mengambil tweet tersebut.

Widget Word Enrichment menerima dua input - seluruh corpus untuk dijadikan referensi dan subset terpilih dari corpus untuk melakukan pengayaan. Pertama hubungkan widget Corpus Viewer ke widget Word Enrichment (masukan Matching Docs → Selected Data) dan kemudian hubungkan widget Bag of Words ke sana (input Corpus → Data). Dalam widget Word Enrichment widget kita dapat melihat daftar kata-kata yang lebih penting untuk Donald Trump daripada Hillary Clinton.

Word-Enrichment-Example.png

Referensi

Pranala Menarik