Orange: Corpus

From OnnoWiki
Jump to navigation Jump to search

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/corpus-widget.html

Memuat kumpulan dokumen teks, (opsional) yang di-tag dengan kategori, atau mengubah input data ke corpus.

Input

  • Data: Input data (optional)

Output

  • Corpus: kumpulan dokumen

Corpus widget dapat bekerja dalam dua (2) mode:

  • Ketika tidak ada data pada input, widget Corpus membaca text corpus dari file dan mengirimkan instance corpus ke kanal output. History file yang terakhir dibuka disimpan di widget Corpus. Dalam Widget Corpus juga ada direktori dengan sampel corpus yang sudah diinstal sebelumnya dengan add-on. Widget dapat membaca data dari file Excel (.xlsx), comma-separated (.csv) dan tab-delimited (.tab).
  • Ketika pengguna memberikan data ke input, widget Corpus akan mengubah data menjadi corpus. Pengguna dapat memilih feature mana yang digunakan sebagai feature text.
Corpus-stamped.png
  1. Telusuri melalui file data yang sebelumnya dibuka, atau muat salah satu contoh.
  2. Browse untuk memperoleh file data.
  3. Muat ulang file data yang dipilih.
  4. Pilih variabel yang ditampilkan sebagai judul dokumen di Corpus Viewer.
  5. Fitur yang akan digunakan dalam analisis teks.
  6. Fitur yang tidak akan digunakan dalam analisis teks.
  7. Browse kumpulan data yang ada dengan add-on.
  8. Akses bantuan, buat laporan, dan dapatkan informasi tentang kumpulan data yang dimuat.

Anda dapat menggunakan fitur drag dan drop di antara kedua kotak dan juga mengubah urutan penampilannya.

Contoh

Dalam contoh pertama menunjukkan penggunaan widget Corpus yang sangat sederhana. Tempatkan widget Corpus ke kanvas dan hubungkan ke widget Corpus Viewer. Kita menggunakan dataset book-excerpts.tab, yang ada di add-on, dan memeriksanya di widget Corpus Viewer.

Corpus-Example1.png


Dalam Contoh kedua menunjukkan cara memvisualisasikan corpus dengan widget Word Cloud dengan cepat. Kita dapat menghubungkan widget Word Cloud secara langsung ke widget Corpus, tetapi sebaliknya, kita memutuskan untuk menerapkan beberapa preprocessing dengan widget Preprocess Text. Kita bekerja menggunakan dataset book-excerpts.tab. Kita dapat mengubah semua text menjadi huruf kecil, tokenized (split) text menjadi kata-kata saja, memfilter stopword bahasa Inggris dan memilih 100 token yang paling sering muncul.

Corpus-Example2.png

Referensi


Pranala Menarik