Orange: Purge Domain

From OnnoWiki
Revision as of 09:55, 31 January 2020 by Onnowpurbo (talk | contribs) (→‎Output)
Jump to navigation Jump to search

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/purgedomain.html


Menghapus nilai atribut yang tidak digunakan dan atribut yang tidak berguna, mengurutkan nilai yang tersisa.

Input

Data: input dataset

Output

Data: filtered dataset

Definisi atribut nominal terkadang berisi nilai yang tidak muncul dalam data. Bahkan jika ini tidak terjadi dalam data original, memfilter data, memilih himpunan bagian teladan dan yang sama dapat menghapus semua contoh yang atributnya memiliki nilai tertentu. Nilai-nilai tersebut mengacaukan presentasi data, terutama berbagai visualisasi, dan harus dihapus.

Setelah membersihkan atribut, itu mungkin menjadi bernilai tunggal atau, dalam kasus ekstrim, tidak memiliki nilai sama sekali (jika nilai atribut ini tidak terdefinisi untuk semua contoh). Dalam kasus seperti itu, atributnya dapat dihapus.

Masalah yang berbeda adalah urutan nilai atribut: jika data dibaca dari file dalam format di mana nilai-nilai tidak dinyatakan sebelumnya, mereka diurutkan "sesuai urutan penampilan". Kadang-kadang kita lebih suka menyortirnya secara alfabet.

PurgeDomain-stamped.png
  • Purge attributes.
  • Purge classes.
  • Purge meta attributes.
  • Information on the filtering process.
  • Produce a report.
  • If Apply automatically is ticked, the widget will output data at each change of widget settings.

Pemurnian tersebut dilakukan oleh widget Purge Domain. Atribut biasa dan atribut kelas diperlakukan secara terpisah. Untuk masing-masing, kita dapat memutuskan apakah kita ingin nilai diurutkan atau tidak. Selanjutnya, kita dapat mengizinkan widget untuk menghapus atribut dengan nilai kurang dari dua atau menghapus atribut kelas jika ada kurang dari dua kelas. Terakhir, kita dapat menginstruksikan widget untuk memeriksa nilai atribut mana yang benar-benar muncul dalam data dan menghapus nilai yang tidak digunakan. Widget tidak dapat menghapus nilai jika tidak diperbolehkan menghapus atribut, karena memiliki atribut tanpa nilai tidak masuk akal.

Atribut baru yang direduksi mendapatkan awalan “R”, yang membedakannya dari yang original. Nilai-nilai atribut baru dapat dihitung dari yang lama, tetapi tidak sebaliknya. Ini berarti bahwa jika kita membuat classifier dari atribut baru, kita dapat menggunakannya untuk mengklasifikasikan contoh yang dijelaskan oleh atribut original. Tetapi tidak sebaliknya: membangun classifier dari atribut lama dan menggunakannya pada contoh yang dijelaskan oleh yang direduksi tidak akan bekerja. Untungnya, yang terakhir jarang terjadi. Dalam pengaturan yang umum, seseorang akan mengeksplorasi data, memvisualisasikannya, memfilternya, memurnikannya ... dan kemudian menguji model akhir pada data original.

Contoh

The Purge Domain widget would typically appear after data filtering, for instance when selecting a subset of visualized examples.

In the above schema, we play with the adult.tab dataset: we visualize it and select a portion of the data, which contains only four out of the five original classes. To get rid of the empty class, we put the data through Purge Domain before going on to the Box Plot widget. The latter shows only the four classes which are in the Purge Data output. To see the effect of data purification, uncheck Remove unused class variable values and observe the effect this has on Box Plot.

PurgeDomain-example.png


Referensi

Pranala Menarik