Orange: Similarity Hashing
Sumber: https://orange3-text.readthedocs.io/en/latest/widgets/similarityhashing.html
Widget Similarity Hashing menghitung nilai hash dokumen.
Input
Corpus: A collection of documents.
Output
Corpus: Corpus with simhash value as attributes.
Widget Similarity Hashing akan mentranformasikan dokumen menjadi vector similarity. Widget Similarity Hashing menggunakan metoda SimHash dari Moses Charikar.
- Set Simhash size (how many attributes will be on the output, corresponds to bits of information) and shingle length (how many tokens are used in a shingle).
- Commit Automatically output the data automatically. Alternatively, press Commit.
Contoh
Kita akan menggunakan file deerwester.tab untuk memperoleh dokumen yang sama dari corpus yang kecil ini. Load data menggunakan widget Corpus dan kirim kan ke widget Similarity Hashing. Kita menggunakan nilai default hash size dan default shingle length. Kita bisa mengamati keluaran widget Similarity Hashing di widget Data Table. Ada 64 atribut baru yang tersedia, terkait dengan Simhash size parameter.
Referensi
Charikar, M. (2002) Similarity estimation techniques from rounding algorithms. STOC ‘02 Proceedings of the thirty-fourth annual ACM symposium on Theory of computing, p. 380-388.