Orange: Text Analysis

From OnnoWiki
Revision as of 08:01, 28 January 2020 by Onnowpurbo (talk | contribs)
Jump to navigation Jump to search

sumber: https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/


Orange 3.4.5 menawarkan dukungan yang lebih baik untuk add-on Teks. Apa yang kita maksud dengan ini? Sekarang, setiap core widget Oranye berfungsi dengan Teks dengan lancar sehingga anda dapat mencampur dan mencocokkan widget sesuka anda. Sebelumnya, seseorang tidak dapat meneruskan output dari Select Columns (data table) ke Preprocess Text (corpus), tetapi sekarang ini tidak lagi menjadi masalah.

Screen-Shot-2017-08-04-at-13.33.28.png

Tentu saja, masih perlu diingat bahwa Corpus adalah sparse data format, yang tidak berfungsi dengan beberapa widget berdasarkan desain. Sebagai contoh, Manifold Learning hanya mendukung proyeksi t-SNE.

Screen-Shot-2017-08-04-at-10.37.03.png


Kedua, kami telah memperkenalkan dua widget baru, yang telah lama ditunggu. Salah satunya adalah Sentiment Analysis, yang memungkinkan basic sentiment analysis of corpora. Sejauh ini berfungsi untuk bahasa Inggris dan menggunakan dua teknik yang didukung nltk - Liu Hu dan Vader. Kedua teknik ini lexicon-based. Liu Hu menghitung skor normal tunggal dari sentimen dalam teks (skor negatif untuk sentimen negatif, positif untuk positif, 0 adalah netral), sementara Vader menghasilkan skor untuk setiap kategori (positif, negatif, netral) dan menambahkan skor total sentimen yang disebut compound.


Screen-Shot-2017-08-04-at-11.00.25.png

Liu Hu score.


Screen-Shot-2017-08-04-at-10.59.57.png

Vader score.

Coba menggunakan Heat Map untuk memvisualisasi score.

Screen-Shot-2017-08-04-at-11.05.23.png
Screen-Shot-2017-08-04-at-11.05.19.png

Kuning mewakili skor tinggi, positif, sedangkan biru mewakili skor negatif rendah. Sepertinya Animal Tales umumnya jauh lebih negatif daripada Tales of Magic.

Screen-Shot-2017-08-04-at-11.11.17.png

Widget kedua yang kami perkenalkan adalah Import Documents. Widget ini memungkinkan kita untuk mengimpor dokumen sendiri ke Orange dan mengeluarkan corpus dimana kita dapat melakukan analisis. Widget mendukung file .txt, .docx, .odt, .pdf dan .xml dan memuat seluruh folder. Jika folder berisi subfolder, mereka akan dianggap sebagai nilai class. Berikut adalah sebuah contohnya.

Screen-Shot-2017-08-04-at-11.15.01.png

Ini adalah struktur folder Kennedy penulis. Penulis akan memuat folder dengan Import Documents. Amati, bagaimana Orange menciptakan kategori variabel class dengan nilai post-1962 Dan pre-1962.

Subfolder dianggap sebagai class di kolom kategori.

Sekarang kita dapat melakukan analisis seperti biasa.

Akhirnya, beberapa widget memiliki update yang keren. Topic Modelling, misalnya, mewarnai kata-kata berdasarkan bobotnya - bobot positif berwarna hijau dan merah negatif. Pewarnaan hanya berfungsi dengan LSI, karena itu satu-satunya metode yang menghasilkan bobot positif dan negatif.

Jika ada banyak king dalam teks dan tidak ada bird, maka teks itu milik Topik 2. Jika ada banyak children dan tidak ada fox, maka itu milik Topik 3.


Referensi

Pranala Menarik