Difference between revisions of "Orange: Bag of Words"
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) |
||
Line 2: | Line 2: | ||
− | + | Widget Bag of Words membuat sebuah bag of words dari input corpus. | |
==Input== | ==Input== | ||
Line 44: | Line 44: | ||
Sambungkan widget Bag of Words ke widget Test & Score untuk melakukan predictive modelling. Sambungkan widget SVM atau widget classifier lainnya ke widget Test & Score (semua disisi kiri). Widget Test & Score akan menghitung score performance untuk setiap learner yang ada di input. Disini kita memperoleh hasil yang baik sekali untuk widget SVM. | Sambungkan widget Bag of Words ke widget Test & Score untuk melakukan predictive modelling. Sambungkan widget SVM atau widget classifier lainnya ke widget Test & Score (semua disisi kiri). Widget Test & Score akan menghitung score performance untuk setiap learner yang ada di input. Disini kita memperoleh hasil yang baik sekali untuk widget SVM. | ||
− | Selanjutnya, kita perlu mencek dimana model melakukan kesalahan. Tambahkan, widget Confusion Matrix ke widget Test & Score. Widget Confusion matrix akan menayangkan dokumen yang berhasil di klasifikasi dengan benar dan salah klasifikasi. Pilih / select misclassified akan mengeluarkan dokumen yang misclassified, yang akan kita telaah lebih lanjut menggunakan Corpus Viewer. | + | Selanjutnya, kita perlu mencek dimana model melakukan kesalahan. Tambahkan, widget Confusion Matrix ke widget Test & Score. Widget Confusion matrix akan menayangkan dokumen yang berhasil di klasifikasi dengan benar dan salah klasifikasi. Pilih / select misclassified akan mengeluarkan dokumen yang misclassified, yang akan kita telaah lebih lanjut menggunakan widget Corpus Viewer. |
==Contoh Lain== | ==Contoh Lain== |
Revision as of 17:46, 11 April 2020
Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/bagofwords-widget.html
Widget Bag of Words membuat sebuah bag of words dari input corpus.
Input
Corpus: A collection of documents.
Output
Corpus: Corpus with bag of words features appended.
Bag of Words model membuat sebuah corpus dengan word counts untuk setiap data instance (document). Count dapat absolute, binary (ada atau tidak ada) atau sublinear (logaritmik dari frekuensi istilah). Bag of words model dibutuhkan dalam kombinasi dengan widget Word Enrichment dan dapat digunakan untuk predictive modelling.
- Parameters for bag of words model:
- Term Frequency:
- Count: number of occurrences of a word in a document
- Binary: word appears or does not appear in the document
- Sublinear: logarithm of term frequency (count)
- Document Frequency:
- (None)
- IDF: inverse document frequency
- Smooth IDF: adds one to document frequencies to prevent zero division.
- Regulariation:
- (None)
- L1 (Sum of elements): normalizes vector length to sum of elements
- L2 (Euclidean): normalizes vector length to sum of squares
- Term Frequency:
- Produce a report.
- If Commit Automatically is on, changes are communicated automatically. Alternatively press Commit.
Contoh
Dalam contoh ini kita hanya akan men-cek seperti apa sebuah bag of words model. Load book-excerpts.tab menggunakan widget Corpus dan sambungkan ke widget Bag of Words. Disini kita sengaja menggunakan parameter defaults - count paling sederhana adalah menghitung frekuensi istilah (term frequency). Cek apa yang di keluarkan oleh widget Bag of Words menggunakan widget Data Table. Kolom terakhir merepresentasikan frekuensi istilah (term frequency) dari setiap dokumen.
Pada contoh selanjutnya, kita akan mencoba mem-prediksi kategori dokumen. Kita menggunakan dataset book-excerpts.tab, yang kita kirim melalui widget Preprocess Text dengan default parameter. Kemudian kita sambungkan widget Preprocess Text ke widget Bag of Words untuk memperoleh frekuensi istilah (term frequency). Dengan berbekal informasi frekuensi istilah (term frequency) kita akan menghitung model.
Sambungkan widget Bag of Words ke widget Test & Score untuk melakukan predictive modelling. Sambungkan widget SVM atau widget classifier lainnya ke widget Test & Score (semua disisi kiri). Widget Test & Score akan menghitung score performance untuk setiap learner yang ada di input. Disini kita memperoleh hasil yang baik sekali untuk widget SVM.
Selanjutnya, kita perlu mencek dimana model melakukan kesalahan. Tambahkan, widget Confusion Matrix ke widget Test & Score. Widget Confusion matrix akan menayangkan dokumen yang berhasil di klasifikasi dengan benar dan salah klasifikasi. Pilih / select misclassified akan mengeluarkan dokumen yang misclassified, yang akan kita telaah lebih lanjut menggunakan widget Corpus Viewer.
Contoh Lain