Orange: Text Analysis

From OnnoWiki
Jump to navigation Jump to search

sumber: https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/


Orange 3.4.5 menawarkan dukungan yang lebih baik untuk add-on Teks. Apa yang kita maksud dengan ini? Sekarang, setiap core widget Orange dapat berfungsi / berinteraksi dengan Text dengan lancar sehingga anda dapat mencampur dan mencocokkan widget sesuka anda. Sebelumnya, seseorang tidak dapat meneruskan output dari widget Select Columns (data table) ke widget Preprocess Text (corpus), tetapi sekarang ini tidak lagi menjadi masalah.

Screen-Shot-2017-08-04-at-13.33.28.png

Tentu saja, masih perlu diingat bahwa Corpus adalah sparse data format, yang tidak berfungsi dengan beberapa widget berdasarkan desain. Sebagai contoh, widget Manifold Learning hanya mendukung proyeksi widget t-SNE.

Screen-Shot-2017-08-04-at-10.37.03.png


Kedua, kami telah memperkenalkan dua widget baru, yang telah lama ditunggu. Salah satunya adalah Widget Sentiment Analysis, yang memungkinkan basic sentiment analysis of corpora. Sejauh ini berfungsi untuk bahasa Inggris dan menggunakan dua teknik yang didukung NLTK - Liu Hu dan Vader. Kedua teknik ini lexicon-based. Liu Hu menghitung skor normal tunggal dari sentimen dalam text (skor negatif untuk sentimen negatif, positif untuk positif, 0 adalah netral), sementara Vader menghasilkan skor untuk setiap kategori (positif, negatif, netral) dan menambahkan skor total sentimen yang disebut compound.


Liu Hu score
Vader score

Coba menggunakan Heat Map untuk memvisualisasi score sentimen yang di peroleh.

Screen-Shot-2017-08-04-at-11.05.23.png
Screen-Shot-2017-08-04-at-11.05.19.png

Kuning mewakili skor tinggi, positif, sedangkan biru mewakili skor negatif rendah. Sepertinya Animal Tales umumnya jauh lebih negatif daripada Tales of Magic.

Screen-Shot-2017-08-04-at-11.11.17.png

Widget kedua yang kami perkenalkan adalah widget Import Documents. Widget Import Document memungkinkan kita untuk mengimpor dokumen sendiri ke Orange dan mengeluarkan corpus dimana kita dapat melakukan analisis. Widget mendukung file .txt, .docx, .odt, .pdf dan .xml dan memuat seluruh folder. Jika folder berisi subfolder, mereka akan dianggap sebagai nilai class. Berikut adalah sebuah contohnya.

Screen-Shot-2017-08-04-at-11.15.01.png

Ini adalah struktur folder Kennedy penulis. Penulis akan memuat folder dengan Import Documents. Amati, bagaimana Orange menciptakan kategori variabel class dengan nilai post-1962 Dan pre-1962.

Subfolder dianggap sebagai class di kolom kategori.

Sekarang kita dapat melakukan analisis seperti biasa.

Screen-Shot-2017-08-04-at-11.15.44.png

Akhirnya, beberapa widget memiliki update yang keren. Topic Modelling, misalnya, mewarnai kata-kata berdasarkan bobotnya - bobot positif berwarna hijau dan merah negatif. Pewarnaan hanya berfungsi dengan LSI, karena itu satu-satunya metode yang menghasilkan bobot positif dan negatif.

Screen-Shot-2017-08-04-at-11.31.51.png
Screen-Shot-2017-08-04-at-12.23.24.png

Jika ada banyak king dalam teks dan tidak ada bird, maka teks itu milik Topik 2. Jika ada banyak children dan tidak ada fox, maka itu milik Topik 3.

Referensi


Youtube

Pranala Menarik