Orange: Corpus
Revision as of 07:58, 7 January 2020 by Onnowpurbo (talk | contribs)
Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/corpus-widget.html
Memuat kumpulan dokumen teks, (opsional) yang di-tag dengan kategori, atau mengubah input data ke corpus.
Input
- Data: Input data (optional)
Output
- Corpus: kumpulan dokumen
Corpus widget dapat bekerja dalam dua (2) mode:
- Ketika tidak ada data pada input, ia membaca teks korpora dari file dan mengirimkan instance corpus ke kanal output. History file yang terakhir dibuka disimpan di widget. Dalam Widget ini juga ada direktori dengan sampel korpora yang sudah diinstal sebelumnya dengan add-on. Widget dapat membaca data dari file Excel (.xlsx), comma-separated (.csv) dan tab-delimited (.tab).
- Ketika pengguna memberikan data ke input, widget akan mengubah data menjadi korpus. Pengguna dapat memilih fitur mana yang digunakan sebagai fitur teks.
- Telusuri melalui file data yang sebelumnya dibuka, atau muat salah satu contoh.
- Browse untuk memperoleh file data.
- Muat ulang file data yang dipilih.
- Pilih variabel yang ditampilkan sebagai judul dokumen di Corpus Viewer.
- Fitur yang akan digunakan dalam analisis teks.
- Fitur yang tidak akan digunakan dalam analisis teks.
- Browse kumpulan data yang ada dengan add-on.
- Akses bantuan, buat laporan, dan dapatkan informasi tentang kumpulan data yang dimuat.
Anda dapat menggunakan fitur drag dan drop di antara kedua kotak dan juga mengubah urutan penampilannya.
Contoh
Contoh pertama menunjukkan penggunaan widget Corpus yang sangat sederhana. Tempatkan Corpus ke kanvas dan hubungkan ke Corpus Viewer. Kita menggunakan data set book-excerpts.tab, yang ada di add-on, dan memeriksanya di Corpus Viewer.