Difference between revisions of "Orange: Duplicate Detection"

From OnnoWiki
Jump to navigation Jump to search
Line 2: Line 2:
  
  
Detect & remove duplicates from a corpus.
+
Widget Duplicate Detection mendeteksi dan membuang semua duplikasi di corpus.
  
 
==Input==
 
==Input==
Line 14: Line 14:
 
  Corpus: Corpus with appended cluster labels.
 
  Corpus: Corpus with appended cluster labels.
  
Duplicate Detection uses clustering to find duplicates in the corpus. It is great with the Twitter widget for removing retweets and other similar documents.
+
Widget Duplicate Detection menggunakan clustering untuk menemukan duplikat di corpus. Widget Duplicate Detection sangat membantu dengan widget Twitter untuk membuang retweet atau dokumen yang sama.
  
To set the level of similarity, drag the line vertical line left or right in the visualization. The further left the line, the more similar the documents have to be in order to be considered duplicates. You can also set the threshold manually in the control area.
+
Untuk men-set tingkat kesamaan, geser garis vertikal ke kiri atau kanan dalam visualisasi. Semakin jauh meninggalkan garis, semakin mirip dokumen harus dianggap duplikat. Kita juga dapat mengatur threshold secara manual di area kontrol.
  
 
[[File:Duplicate-Detection-stamped.png|center|200px|thumb]]
 
[[File:Duplicate-Detection-stamped.png|center|200px|thumb]]
Line 28: Line 28:
 
==Contoh==
 
==Contoh==
  
This simple example uses iris data to find identical data instances. Load iris with the File widget and pass it to Distances. In Distances, use Euclidean distance for computing the distance matrix. Pass distances to Duplicate Detection.
+
Contoh sederhana ini menggunakan data iris untuk menemukan contoh data yang identik. Load iris dengan widget File dan meneruskannya ke widget Distances. Dalam widget Distances, gunakan Euclidean distance untuk menghitung distance matrix. Lewati widget Distances ke widget Duplicate Detection.
  
It looks like cluster C147 contain three duplicate entries. Let us select it in the widget and observe it in a Data Table. Remember to set the output to Duplicates Cluster. IThe three data instances are identical. To use the data set without duplicates, use the first output, Corpus Without Duplicates.
+
Sepertinya cluster C147 berisi tiga entri duplikat. Mari kita pilih di widget Duplicate Detection dan amati di widget Tabel Data. Ingatlah untuk mengatur output ke Duplicates Cluster. Tiga contoh data identik. Untuk menggunakan kumpulan data tanpa duplikat, gunakan output pertama, Corpus Tanpa Duplikat.
  
The same procedure can be used also for corpora. Remember to use the Bag of Words between Corpus and Distances.
+
Prosedur yang sama dapat digunakan juga untuk corpus. Ingatlah untuk menggunakan widget Bag of Words antara widget Corpus dan widget Distances.
  
[[File:Duplicate-Detection-Example.png|center|200px|thumb]]
+
[[File:Duplicate-Detection-Example.png|center|600px|thumb]]
  
  

Revision as of 20:36, 11 April 2020

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/duplicatedetection.html


Widget Duplicate Detection mendeteksi dan membuang semua duplikasi di corpus.

Input

Distances: A distance matrix.

Output

Corpus Without Duplicated: Corpus with duplicates removed.
Duplicates Cluster: Documents belonging to selected cluster.
Corpus: Corpus with appended cluster labels.

Widget Duplicate Detection menggunakan clustering untuk menemukan duplikat di corpus. Widget Duplicate Detection sangat membantu dengan widget Twitter untuk membuang retweet atau dokumen yang sama.

Untuk men-set tingkat kesamaan, geser garis vertikal ke kiri atau kanan dalam visualisasi. Semakin jauh meninggalkan garis, semakin mirip dokumen harus dianggap duplikat. Kita juga dapat mengatur threshold secara manual di area kontrol.

Duplicate-Detection-stamped.png
  • Information on unique and duplicate documents.
  • Linkage used for clustering (Single, Average, Complete, Weighted and Ward).
  • Distance threshold sets the similarity cutoff. The lower the value, the more similar the data instances have to be to belong to the same cluster. You can also set the cutoff by dragging the vertical line in the plot.
  • Cluster labels can be appended as attributes, class or metas.
  • List of clusters at the selected threshold. They are sorted by size by default. Click on the cluster to observe its content on the output.

Contoh

Contoh sederhana ini menggunakan data iris untuk menemukan contoh data yang identik. Load iris dengan widget File dan meneruskannya ke widget Distances. Dalam widget Distances, gunakan Euclidean distance untuk menghitung distance matrix. Lewati widget Distances ke widget Duplicate Detection.

Sepertinya cluster C147 berisi tiga entri duplikat. Mari kita pilih di widget Duplicate Detection dan amati di widget Tabel Data. Ingatlah untuk mengatur output ke Duplicates Cluster. Tiga contoh data identik. Untuk menggunakan kumpulan data tanpa duplikat, gunakan output pertama, Corpus Tanpa Duplikat.

Prosedur yang sama dapat digunakan juga untuk corpus. Ingatlah untuk menggunakan widget Bag of Words antara widget Corpus dan widget Distances.

Duplicate-Detection-Example.png


Referensi

Pranala Menarik