Difference between revisions of "Orange: Text Analysis"
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) |
||
(9 intermediate revisions by the same user not shown) | |||
Line 2: | Line 2: | ||
+ | Orange 3.4.5 menawarkan dukungan yang lebih baik untuk add-on Teks. Apa yang kita maksud dengan ini? Sekarang, setiap core widget Orange dapat berfungsi / berinteraksi dengan Text dengan lancar sehingga anda dapat mencampur dan mencocokkan widget sesuka anda. Sebelumnya, seseorang tidak dapat meneruskan output dari widget Select Columns (data table) ke widget Preprocess Text (corpus), tetapi sekarang ini tidak lagi menjadi masalah. | ||
+ | [[File:Screen-Shot-2017-08-04-at-13.33.28.png|center|400px|thumb]] | ||
− | + | Tentu saja, masih perlu diingat bahwa Corpus adalah sparse data format, yang tidak berfungsi dengan beberapa widget berdasarkan desain. Sebagai contoh, widget Manifold Learning hanya mendukung proyeksi widget t-SNE. | |
− | + | [[File:Screen-Shot-2017-08-04-at-10.37.03.png|center|400px|thumb]] | |
− | |||
− | + | Kedua, kami telah memperkenalkan dua widget baru, yang telah lama ditunggu. Salah satunya adalah Widget Sentiment Analysis, yang memungkinkan basic sentiment analysis of corpora. Sejauh ini berfungsi untuk bahasa Inggris dan menggunakan dua teknik yang didukung NLTK - Liu Hu dan Vader. Kedua teknik ini lexicon-based. Liu Hu menghitung skor normal tunggal dari sentimen dalam text (skor negatif untuk sentimen negatif, positif untuk positif, 0 adalah netral), sementara Vader menghasilkan skor untuk setiap kategori (positif, negatif, netral) dan menambahkan skor total sentimen yang disebut compound. | |
− | |||
+ | [[File:Screen-Shot-2017-08-04-at-11.00.25.png|center|400px|thumb|Liu Hu score]] | ||
− | + | [[File:Screen-Shot-2017-08-04-at-10.59.57.png|center|400px|thumb|Vader score]] | |
− | + | Coba menggunakan Heat Map untuk memvisualisasi score sentimen yang di peroleh. | |
+ | [[File:Screen-Shot-2017-08-04-at-11.05.23.png|center|400px|thumb]] | ||
− | + | [[File:Screen-Shot-2017-08-04-at-11.05.19.png|center|400px|thumb]] | |
− | + | Kuning mewakili skor tinggi, positif, sedangkan biru mewakili skor negatif rendah. Sepertinya Animal Tales umumnya jauh lebih negatif daripada Tales of Magic. | |
− | + | [[File:Screen-Shot-2017-08-04-at-11.11.17.png|center|400px|thumb]] | |
− | + | Widget kedua yang kami perkenalkan adalah widget Import Documents. Widget Import Document memungkinkan kita untuk mengimpor dokumen sendiri ke Orange dan mengeluarkan corpus dimana kita dapat melakukan analisis. Widget mendukung file .txt, .docx, .odt, .pdf dan .xml dan memuat seluruh folder. Jika folder berisi subfolder, mereka akan dianggap sebagai nilai class. Berikut adalah sebuah contohnya. | |
+ | [[File:Screen-Shot-2017-08-04-at-11.15.01.png|center|400px|thumb]] | ||
− | + | Ini adalah struktur folder Kennedy penulis. Penulis akan memuat folder dengan Import Documents. Amati, bagaimana Orange menciptakan kategori variabel class dengan nilai post-1962 Dan pre-1962. | |
− | + | ==Subfolder dianggap sebagai class di kolom kategori.== | |
− | + | Sekarang kita dapat melakukan analisis seperti biasa. | |
− | + | [[File:Screen-Shot-2017-08-04-at-11.15.44.png|center|200px|thumb]] | |
− | + | Akhirnya, beberapa widget memiliki update yang keren. Topic Modelling, misalnya, mewarnai kata-kata berdasarkan bobotnya - bobot positif berwarna hijau dan merah negatif. Pewarnaan hanya berfungsi dengan LSI, karena itu satu-satunya metode yang menghasilkan bobot positif dan negatif. | |
− | + | [[File:Screen-Shot-2017-08-04-at-11.31.51.png|center|200px|thumb]] | |
− | + | [[File:Screen-Shot-2017-08-04-at-12.23.24.png|center|200px|thumb]] | |
− | + | Jika ada banyak king dalam teks dan tidak ada bird, maka teks itu milik Topik 2. Jika ada banyak children dan tidak ada fox, maka itu milik Topik 3. | |
− | + | ==Referensi== | |
− | + | * https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/ | |
− | |||
+ | ==Youtube== | ||
− | + | * https://www.youtube.com/watch?v=plwumuSzwvs - ORANGE klasifikasi text dokumen | |
− | |||
− | |||
− | * https:// | ||
==Pranala Menarik== | ==Pranala Menarik== | ||
* [[Orange]] | * [[Orange]] |
Latest revision as of 15:06, 21 March 2020
sumber: https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/
Orange 3.4.5 menawarkan dukungan yang lebih baik untuk add-on Teks. Apa yang kita maksud dengan ini? Sekarang, setiap core widget Orange dapat berfungsi / berinteraksi dengan Text dengan lancar sehingga anda dapat mencampur dan mencocokkan widget sesuka anda. Sebelumnya, seseorang tidak dapat meneruskan output dari widget Select Columns (data table) ke widget Preprocess Text (corpus), tetapi sekarang ini tidak lagi menjadi masalah.
Tentu saja, masih perlu diingat bahwa Corpus adalah sparse data format, yang tidak berfungsi dengan beberapa widget berdasarkan desain. Sebagai contoh, widget Manifold Learning hanya mendukung proyeksi widget t-SNE.
Kedua, kami telah memperkenalkan dua widget baru, yang telah lama ditunggu. Salah satunya adalah Widget Sentiment Analysis, yang memungkinkan basic sentiment analysis of corpora. Sejauh ini berfungsi untuk bahasa Inggris dan menggunakan dua teknik yang didukung NLTK - Liu Hu dan Vader. Kedua teknik ini lexicon-based. Liu Hu menghitung skor normal tunggal dari sentimen dalam text (skor negatif untuk sentimen negatif, positif untuk positif, 0 adalah netral), sementara Vader menghasilkan skor untuk setiap kategori (positif, negatif, netral) dan menambahkan skor total sentimen yang disebut compound.
Coba menggunakan Heat Map untuk memvisualisasi score sentimen yang di peroleh.
Kuning mewakili skor tinggi, positif, sedangkan biru mewakili skor negatif rendah. Sepertinya Animal Tales umumnya jauh lebih negatif daripada Tales of Magic.
Widget kedua yang kami perkenalkan adalah widget Import Documents. Widget Import Document memungkinkan kita untuk mengimpor dokumen sendiri ke Orange dan mengeluarkan corpus dimana kita dapat melakukan analisis. Widget mendukung file .txt, .docx, .odt, .pdf dan .xml dan memuat seluruh folder. Jika folder berisi subfolder, mereka akan dianggap sebagai nilai class. Berikut adalah sebuah contohnya.
Ini adalah struktur folder Kennedy penulis. Penulis akan memuat folder dengan Import Documents. Amati, bagaimana Orange menciptakan kategori variabel class dengan nilai post-1962 Dan pre-1962.
Subfolder dianggap sebagai class di kolom kategori.
Sekarang kita dapat melakukan analisis seperti biasa.
Akhirnya, beberapa widget memiliki update yang keren. Topic Modelling, misalnya, mewarnai kata-kata berdasarkan bobotnya - bobot positif berwarna hijau dan merah negatif. Pewarnaan hanya berfungsi dengan LSI, karena itu satu-satunya metode yang menghasilkan bobot positif dan negatif.
Jika ada banyak king dalam teks dan tidak ada bird, maka teks itu milik Topik 2. Jika ada banyak children dan tidak ada fox, maka itu milik Topik 3.
Referensi
Youtube
- https://www.youtube.com/watch?v=plwumuSzwvs - ORANGE klasifikasi text dokumen