Difference between revisions of "Orange: Corpus Viewer"

From OnnoWiki
Jump to navigation Jump to search
Line 30: Line 30:
 
==Contoh==
 
==Contoh==
  
Corpus Viewer can be used for displaying all or some documents in corpus. In this example, we will first load book-excerpts.tab, that already comes with the add-on, into Corpus widget. Then we will preprocess the text into words, filter out the stopwords, create bi-grams and add POS tags (more on preprocessing in Preprocess Text. Now we want to see the results of preprocessing. In Corpus Viewer we can see, how many unique tokens we got and what they are (tick Show Tokens & Tags). Since we used also POS tagger to show part-of-speech labels, they will be displayed alongside tokens underneath the text.
+
Corpus Viewer dapat digunakan untuk menampilkan semua atau beberapa dokumen dalam corpus. Dalam contoh ini, pertama-tama kita akan memuat book-excerpts.tab, yang sudah dilengkapi dengan add-on, ke widget Corpus. Kemudian kita akan memproses teks menjadi kata-kata, memfilter stopwords, membuat bi-gram dan menambahkan tag POS (lebih lanjut tentang preprocessing dalam Teks Preprocess. Sekarang kita ingin melihat hasil preprocessing. Di Corpus Viewer kita dapat melihat, berapa banyak keunikannya token yang kami dapatkan dan apa adanya (centang Show Token & Tag). Karena kami juga menggunakan tagger POS untuk menampilkan label bagian-of-speech, label tersebut akan ditampilkan di samping token di bawah teks.
  
Now we will filter out just the documents talking about a character Bill. We use regular expression \bBill\b to find the documents containing only the word Bill. You can output matching or non-matching documents, view them in another Corpus Viewer or further analyse them.
+
Sekarang kita akan mem-filter hanya dokumen yang membahas tentang Bill. Kami menggunakan regular expression \ bBill \ b untuk menemukan dokumen yang hanya berisi kata Bill. Anda dapat menampilkan dokumen yang cocok atau tidak cocok, melihatnya di Corpus Viewer lain atau menganalisis lebih lanjut.
  
 
[[File:Corpus-Viewer-Example.png|center|200px|thumb]]
 
[[File:Corpus-Viewer-Example.png|center|200px|thumb]]

Revision as of 09:58, 7 January 2020

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/corpusviewer.html

Menayangkan isi corpus

Input

Corpus: kumpulan dokumen.

Output

Corpus: Dokumen yang berisi word yang di minta.

Corpus Viewer dimaksudkan untuk melihat file teks (contoh corpus). Dia akan selalu menampilkan keluaran corpus. Jika Regexp filtering digunakan, widget hanya akan menampilkan dokumen yang cocok saja.

Corpus-Viewer-stamped.png


  • Information:
    • Documents: number of documents on the input
    • Preprocessed: if preprocessor is used, the result is True, else False. Reports also on the number of tokens and types (unique tokens).
    • POS tagged: if POS tags are on the input, the result is True, else False.
    • N-grams range: if N-grams are set in Preprocess Text, results are reported, default is 1-1 (one-grams).
    • Matching: number of documents matching the RegExp Filter. All documents are output by default.
  • RegExp Filter: Python regular expression for filtering documents. By default no documents are filtered (entire corpus is on the output).
  • Search Features: features by which the RegExp Filter is filtering. Use Ctrl (Cmd) to select multiple features.
  • Display Features: features that are displayed in the viewer. Use Ctrl (Cmd) to select multiple features.
  • Show Tokens & Tags: if tokens and POS tag are present on the input, you can check this box to display them.
  • If Auto commit is on, changes are communicated automatically. Alternatively press Commit.

Contoh

Corpus Viewer dapat digunakan untuk menampilkan semua atau beberapa dokumen dalam corpus. Dalam contoh ini, pertama-tama kita akan memuat book-excerpts.tab, yang sudah dilengkapi dengan add-on, ke widget Corpus. Kemudian kita akan memproses teks menjadi kata-kata, memfilter stopwords, membuat bi-gram dan menambahkan tag POS (lebih lanjut tentang preprocessing dalam Teks Preprocess. Sekarang kita ingin melihat hasil preprocessing. Di Corpus Viewer kita dapat melihat, berapa banyak keunikannya token yang kami dapatkan dan apa adanya (centang Show Token & Tag). Karena kami juga menggunakan tagger POS untuk menampilkan label bagian-of-speech, label tersebut akan ditampilkan di samping token di bawah teks.

Sekarang kita akan mem-filter hanya dokumen yang membahas tentang Bill. Kami menggunakan regular expression \ bBill \ b untuk menemukan dokumen yang hanya berisi kata Bill. Anda dapat menampilkan dokumen yang cocok atau tidak cocok, melihatnya di Corpus Viewer lain atau menganalisis lebih lanjut.

Corpus-Viewer-Example.png

Referensi

Pranala Menarik