Orange: Duplicate Detection

From OnnoWiki
Jump to navigation Jump to search

Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/duplicatedetection.html


Widget Duplicate Detection mendeteksi dan membuang semua duplikasi di corpus.

Input

Distances: A distance matrix.

Output

Corpus Without Duplicated: Corpus with duplicates removed.
Duplicates Cluster: Documents belonging to selected cluster.
Corpus: Corpus with appended cluster labels.

Widget Duplicate Detection menggunakan clustering untuk menemukan duplikat di corpus. Widget Duplicate Detection sangat membantu dengan widget Twitter untuk membuang retweet atau dokumen yang sama.

Untuk men-set tingkat kesamaan, geser garis vertikal ke kiri atau kanan dalam visualisasi. Semakin jauh meninggalkan garis, semakin mirip dokumen harus dianggap duplikat. Kita juga dapat mengatur threshold secara manual di area kontrol.

Duplicate-Detection-stamped.png
  • Information on unique and duplicate documents.
  • Linkage used for clustering (Single, Average, Complete, Weighted and Ward).
  • Distance threshold sets the similarity cutoff. The lower the value, the more similar the data instances have to be to belong to the same cluster. You can also set the cutoff by dragging the vertical line in the plot.
  • Cluster labels can be appended as attributes, class or metas.
  • List of clusters at the selected threshold. They are sorted by size by default. Click on the cluster to observe its content on the output.

Contoh

Contoh sederhana ini menggunakan data iris untuk menemukan contoh data yang identik. Load iris dengan widget File dan meneruskannya ke widget Distances. Dalam widget Distances, gunakan Euclidean distance untuk menghitung distance matrix. Lewati widget Distances ke widget Duplicate Detection.

Sepertinya cluster C147 berisi tiga entri duplikat. Mari kita pilih di widget Duplicate Detection dan amati di widget Data Table. Ingatlah untuk mengatur output ke Duplicates Cluster. Tiga contoh data identik. Untuk menggunakan kumpulan data tanpa duplikat, gunakan output pertama, Corpus Tanpa Duplikat.

Prosedur yang sama dapat digunakan juga untuk corpus. Ingatlah untuk menggunakan widget Bag of Words antara widget Corpus dan widget Distances.

Duplicate-Detection-Example.png

Youtube

Referensi

Pranala Menarik