Difference between revisions of "Orange: Word Cloud dari File Text"
Jump to navigation
Jump to search
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) |
||
(7 intermediate revisions by the same user not shown) | |||
Line 1: | Line 1: | ||
− | Word Cloud data di bangun dari file text (ASCII) yang kita miliki. Pertama-tama harus di segmented menjadi word. Kemudian di konversikan dari segmented data menjadi corpus agar bisa di proses oleh toolbox text mining. Sebelum di tampilkan sebagai word cloud ada baiknya dilakukan preprocessing terlebih dulu, untuk mengurangi berbagai kata yang tidak dibutuhkan, seperti kata penghubungi dll. | + | Word Cloud data dapat di bangun dari file text (ASCII) yang kita miliki seperti pada workflow di bawah ini. Pertama-tama data dari Widget Text Files harus di segmented menjadi word menggunakan Widget Segment. Kemudian output segmented data perlu di konversikan dari segmented data menjadi corpus agar bisa di proses oleh toolbox text mining menggunakan Widget Interchange. Sebelum di tampilkan sebagai word cloud ada baiknya dilakukan preprocessing terlebih dulu, untuk mengurangi berbagai kata yang tidak dibutuhkan, seperti kata penghubungi dll menggunakan Widget Preprocess Text. |
+ | [[File:ORANGE-word-cloud.png|center|400px|thumb]] | ||
+ | |||
+ | |||
+ | [[File:Screenshot from 2020-02-23 13-14-45.png|center|400px|thumb]] | ||
+ | |||
+ | |||
+ | [[File:Screenshot from 2020-02-23 13-20-23.png|center|400px|thumb]] | ||
+ | |||
+ | Pada Widget Preprocess Text kita dapat melakukan beberapa hal, seperti | ||
+ | |||
+ | * Mengubah agar semua huruf menjadi huruf kecil. | ||
+ | * Menghilangkan (stop word), kata-kata yang kurang bermanfaat seperti, kata penghubung seperti dan, di, ke, dari dll. | ||
+ | * Mengatur agar pemrosesan stopword dalam bahasa Indonesia. | ||
+ | * Menghilangkan tag HTML | ||
+ | * Menghilangkan URL | ||
+ | * dll. | ||
− | |||
Latest revision as of 10:55, 11 March 2020
Word Cloud data dapat di bangun dari file text (ASCII) yang kita miliki seperti pada workflow di bawah ini. Pertama-tama data dari Widget Text Files harus di segmented menjadi word menggunakan Widget Segment. Kemudian output segmented data perlu di konversikan dari segmented data menjadi corpus agar bisa di proses oleh toolbox text mining menggunakan Widget Interchange. Sebelum di tampilkan sebagai word cloud ada baiknya dilakukan preprocessing terlebih dulu, untuk mengurangi berbagai kata yang tidak dibutuhkan, seperti kata penghubungi dll menggunakan Widget Preprocess Text.
Pada Widget Preprocess Text kita dapat melakukan beberapa hal, seperti
- Mengubah agar semua huruf menjadi huruf kecil.
- Menghilangkan (stop word), kata-kata yang kurang bermanfaat seperti, kata penghubung seperti dan, di, ke, dari dll.
- Mengatur agar pemrosesan stopword dalam bahasa Indonesia.
- Menghilangkan tag HTML
- Menghilangkan URL
- dll.