Difference between revisions of "Orange: Text Analysis"

From OnnoWiki
Jump to navigation Jump to search
 
(11 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
 +
Orange 3.4.5 menawarkan dukungan yang lebih baik untuk add-on Teks. Apa yang kita maksud dengan ini? Sekarang, setiap core widget Orange dapat berfungsi / berinteraksi dengan Text dengan lancar sehingga anda dapat mencampur dan mencocokkan widget sesuka anda. Sebelumnya, seseorang tidak dapat meneruskan output dari widget Select Columns (data table) ke widget Preprocess Text (corpus), tetapi sekarang ini tidak lagi menjadi masalah.
  
 +
[[File:Screen-Shot-2017-08-04-at-13.33.28.png|center|400px|thumb]]
  
As always, we’ve been working hard to bring you new functionalities and improvements. Recently, we’ve released Orange version 3.4.5 and Orange3-Text version 0.2.5. We focused on the Text add-on since we are lately holding a lot of text mining workshops. The next one will be at Digital Humanities 2017 in Montreal, QC, Canada in a couple of days and we simply could not resist introducing some sexy new features.
+
Tentu saja, masih perlu diingat bahwa Corpus adalah sparse data format, yang tidak berfungsi dengan beberapa widget berdasarkan desain. Sebagai contoh, widget Manifold Learning hanya mendukung proyeksi widget t-SNE.
  
Related: Text Preprocessing
+
[[File:Screen-Shot-2017-08-04-at-10.37.03.png|center|400px|thumb]]
  
Related: Rehaul of Text Mining Add-On
 
  
First, Orange 3.4.5 offers better support for Text add-on. What do we mean by this? Now, every core Orange widget works with Text smoothly so you can mix-and-match the widgets as you like. Before, one could not pass the output of Select Columns (data table) to Preprocess Text (corpus), but now this is no longer a problem.
+
Kedua, kami telah memperkenalkan dua widget baru, yang telah lama ditunggu. Salah satunya adalah Widget Sentiment Analysis, yang memungkinkan basic sentiment analysis of corpora. Sejauh ini berfungsi untuk bahasa Inggris dan menggunakan dua teknik yang didukung NLTK - Liu Hu dan Vader. Kedua teknik ini lexicon-based. Liu Hu menghitung skor normal tunggal dari sentimen dalam text (skor negatif untuk sentimen negatif, positif untuk positif, 0 adalah netral), sementara Vader menghasilkan skor untuk setiap kategori (positif, negatif, netral) dan menambahkan skor total sentimen yang disebut compound.
  
Of course, one still needs to keep in mind that Corpus is a sparse data format, which does not work with some widgets by design. For example, Manifold Learning supports only t-SNE projection.
 
  
Second, we’ve introduced two new widgets, which have been long overdue. One is Sentiment Analysis, which enables basic sentiment analysis of corpora. So far it works for English and uses two nltk-supported techniques - Liu Hu and Vader. Both techniques are lexicon-based. Liu Hu computes a single normalized score of sentiment in the text (negative score for negative sentiment, positive for positive, 0 is neutral), while Vader outputs scores for each category (positive, negative, neutral) and appends a total sentiment score called a compound.
+
[[File:Screen-Shot-2017-08-04-at-11.00.25.png|center|400px|thumb|Liu Hu score]]
  
Liu Hu score.
+
[[File:Screen-Shot-2017-08-04-at-10.59.57.png|center|400px|thumb|Vader score]]
  
Vader scores.
+
Coba menggunakan Heat Map untuk memvisualisasi score sentimen yang di peroleh.
  
Try it with Heat Map to visualize the scores.
+
[[File:Screen-Shot-2017-08-04-at-11.05.23.png|center|400px|thumb]]
  
Yellow represent a high, positive score, while blue represent a low, negative score. Seems like Animal Tales are generally much more negative than Tales of Magic.
+
[[File:Screen-Shot-2017-08-04-at-11.05.19.png|center|400px|thumb]]
  
The second widget we’ve introduced is Import Documents. This widget enables you to import your own documents into Orange and outputs a corpus on which you can perform the analysis. The widget supports .txt, .docx, .odt, .pdf and .xml files and loads an entire folder. If the folder contains subfolders, they will be considered as class values. Here’s an example.
+
Kuning mewakili skor tinggi, positif, sedangkan biru mewakili skor negatif rendah. Sepertinya Animal Tales umumnya jauh lebih negatif daripada Tales of Magic.
  
This is the structure of my Kennedy folder. I will load the folder with Import Documents. Observe, how Orange creates a class variable category with post-1962 and pre-1962 as class values.
+
[[File:Screen-Shot-2017-08-04-at-11.11.17.png|center|400px|thumb]]
  
Subfolders are considered as class in the category column.
+
Widget kedua yang kami perkenalkan adalah widget Import Documents. Widget Import Document memungkinkan kita untuk mengimpor dokumen sendiri ke Orange dan mengeluarkan corpus dimana kita dapat melakukan analisis. Widget mendukung file .txt, .docx, .odt, .pdf dan .xml dan memuat seluruh folder. Jika folder berisi subfolder, mereka akan dianggap sebagai nilai class. Berikut adalah sebuah contohnya.
  
Now you can perform your analysis as usual.
+
[[File:Screen-Shot-2017-08-04-at-11.15.01.png|center|400px|thumb]]
  
Finally, some widgets have cool new updates. Topic Modelling, for example, colors words by their weights - positive weights are colored green and negative red. Coloring only works with LSI, since it’s the only method that outputs both positive and negative weights.
+
Ini adalah struktur folder Kennedy penulis. Penulis akan memuat folder dengan Import Documents. Amati, bagaimana Orange menciptakan kategori variabel class dengan nilai post-1962 Dan pre-1962.
  
If there are many kings in the text and no birds, then the text belongs to Topic 2. If there are many children and no foxes, then it belongs to Topic 3.
+
==Subfolder dianggap sebagai class di kolom kategori.==
  
Take some time, explore these improvements and let us know if you are happy with the changes! You can also submit new feature requests to our issue tracker.
+
Sekarang kita dapat melakukan analisis seperti biasa.
  
Thank you for working with Orange! 🍊
+
[[File:Screen-Shot-2017-08-04-at-11.15.44.png|center|200px|thumb]]
  
 +
Akhirnya, beberapa widget memiliki update yang keren. Topic Modelling, misalnya, mewarnai kata-kata berdasarkan bobotnya - bobot positif berwarna hijau dan merah negatif. Pewarnaan hanya berfungsi dengan LSI, karena itu satu-satunya metode yang menghasilkan bobot positif dan negatif.
  
 +
[[File:Screen-Shot-2017-08-04-at-11.31.51.png|center|200px|thumb]]
 +
 +
[[File:Screen-Shot-2017-08-04-at-12.23.24.png|center|200px|thumb]]
 +
 +
Jika ada banyak king dalam teks dan tidak ada bird, maka teks itu milik Topik 2. Jika ada banyak children dan tidak ada fox, maka itu milik Topik 3.
  
 
==Referensi==
 
==Referensi==
  
 
* https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/
 
* https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/
 +
 +
 +
==Youtube==
 +
 +
* https://www.youtube.com/watch?v=plwumuSzwvs - ORANGE klasifikasi text dokumen
  
 
==Pranala Menarik==
 
==Pranala Menarik==
  
 
* [[Orange]]
 
* [[Orange]]

Latest revision as of 15:06, 21 March 2020

sumber: https://orange.biolab.si/blog/2017/08/04/text-analysis-new-features/


Orange 3.4.5 menawarkan dukungan yang lebih baik untuk add-on Teks. Apa yang kita maksud dengan ini? Sekarang, setiap core widget Orange dapat berfungsi / berinteraksi dengan Text dengan lancar sehingga anda dapat mencampur dan mencocokkan widget sesuka anda. Sebelumnya, seseorang tidak dapat meneruskan output dari widget Select Columns (data table) ke widget Preprocess Text (corpus), tetapi sekarang ini tidak lagi menjadi masalah.

Screen-Shot-2017-08-04-at-13.33.28.png

Tentu saja, masih perlu diingat bahwa Corpus adalah sparse data format, yang tidak berfungsi dengan beberapa widget berdasarkan desain. Sebagai contoh, widget Manifold Learning hanya mendukung proyeksi widget t-SNE.

Screen-Shot-2017-08-04-at-10.37.03.png


Kedua, kami telah memperkenalkan dua widget baru, yang telah lama ditunggu. Salah satunya adalah Widget Sentiment Analysis, yang memungkinkan basic sentiment analysis of corpora. Sejauh ini berfungsi untuk bahasa Inggris dan menggunakan dua teknik yang didukung NLTK - Liu Hu dan Vader. Kedua teknik ini lexicon-based. Liu Hu menghitung skor normal tunggal dari sentimen dalam text (skor negatif untuk sentimen negatif, positif untuk positif, 0 adalah netral), sementara Vader menghasilkan skor untuk setiap kategori (positif, negatif, netral) dan menambahkan skor total sentimen yang disebut compound.


Liu Hu score
Vader score

Coba menggunakan Heat Map untuk memvisualisasi score sentimen yang di peroleh.

Screen-Shot-2017-08-04-at-11.05.23.png
Screen-Shot-2017-08-04-at-11.05.19.png

Kuning mewakili skor tinggi, positif, sedangkan biru mewakili skor negatif rendah. Sepertinya Animal Tales umumnya jauh lebih negatif daripada Tales of Magic.

Screen-Shot-2017-08-04-at-11.11.17.png

Widget kedua yang kami perkenalkan adalah widget Import Documents. Widget Import Document memungkinkan kita untuk mengimpor dokumen sendiri ke Orange dan mengeluarkan corpus dimana kita dapat melakukan analisis. Widget mendukung file .txt, .docx, .odt, .pdf dan .xml dan memuat seluruh folder. Jika folder berisi subfolder, mereka akan dianggap sebagai nilai class. Berikut adalah sebuah contohnya.

Screen-Shot-2017-08-04-at-11.15.01.png

Ini adalah struktur folder Kennedy penulis. Penulis akan memuat folder dengan Import Documents. Amati, bagaimana Orange menciptakan kategori variabel class dengan nilai post-1962 Dan pre-1962.

Subfolder dianggap sebagai class di kolom kategori.

Sekarang kita dapat melakukan analisis seperti biasa.

Screen-Shot-2017-08-04-at-11.15.44.png

Akhirnya, beberapa widget memiliki update yang keren. Topic Modelling, misalnya, mewarnai kata-kata berdasarkan bobotnya - bobot positif berwarna hijau dan merah negatif. Pewarnaan hanya berfungsi dengan LSI, karena itu satu-satunya metode yang menghasilkan bobot positif dan negatif.

Screen-Shot-2017-08-04-at-11.31.51.png
Screen-Shot-2017-08-04-at-12.23.24.png

Jika ada banyak king dalam teks dan tidak ada bird, maka teks itu milik Topik 2. Jika ada banyak children dan tidak ada fox, maka itu milik Topik 3.

Referensi


Youtube

Pranala Menarik