Difference between revisions of "Orange: Purge Domain"
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) (→Output) |
||
Line 12: | Line 12: | ||
Data: filtered dataset | Data: filtered dataset | ||
− | + | Secara definisi atribut nominal terkadang berisi nilai yang tidak muncul dalam data. Bahkan jika ini tidak terjadi dalam data original, proses memfilter data, memilih subset data dapat menghapus semua contoh yang atributnya memiliki nilai tertentu. Pada akhirnya, nilai-nilai tersebut akan mengacaukan presentasi data, terutama berbagai visualisasi, dan harus dihapus. | |
− | Setelah membersihkan atribut, | + | Setelah membersihkan atribut, mungkin akan menjadi bernilai tunggal atau, dalam dalam kasus ekstrim, tidak memiliki nilai sama sekali (jika nilai atribut ini tidak terdefinisi untuk semua contoh). Dalam kasus seperti itu, atribut tersebut dapat dihapus. |
− | Masalah yang berbeda adalah urutan nilai atribut: jika data dibaca dari file dalam format di mana nilai-nilai tidak dinyatakan sebelumnya, mereka diurutkan " | + | Masalah yang berbeda adalah urutan nilai atribut: jika data dibaca dari file dalam format di mana nilai-nilai tidak dinyatakan sebelumnya, mereka diurutkan "in order of appearance". Kadang-kadang kita lebih suka menyortirnya secara alfabet. |
[[File:PurgeDomain-stamped.png|center|200px|thumb]] | [[File:PurgeDomain-stamped.png|center|200px|thumb]] | ||
Line 27: | Line 27: | ||
* If Apply automatically is ticked, the widget will output data at each change of widget settings. | * If Apply automatically is ticked, the widget will output data at each change of widget settings. | ||
− | + | Berbagai pemurnian data dilakukan oleh widget Purge Domain. Atribut biasa dan atribut class diperlakukan secara terpisah. Untuk masing-masing, kita dapat memutuskan apakah kita ingin nilai diurutkan atau tidak. Selanjutnya, kita dapat mengizinkan widget untuk menghapus atribut dengan nilai kurang dari dua atau menghapus atribut class jika ada kurang dari dua class. Terakhir, kita dapat menginstruksikan widget untuk memeriksa nilai atribut mana yang benar-benar muncul dalam data dan menghapus nilai yang tidak digunakan. Widget tidak dapat menghapus nilai jika tidak diperbolehkan menghapus atribut, karena memiliki atribut tanpa nilai tidak masuk akal. | |
Atribut baru yang direduksi mendapatkan awalan “R”, yang membedakannya dari yang original. Nilai-nilai atribut baru dapat dihitung dari yang lama, tetapi tidak sebaliknya. Ini berarti bahwa jika kita membuat classifier dari atribut baru, kita dapat menggunakannya untuk mengklasifikasikan contoh yang dijelaskan oleh atribut original. Tetapi tidak sebaliknya: membangun classifier dari atribut lama dan menggunakannya pada contoh yang dijelaskan oleh yang direduksi tidak akan bekerja. Untungnya, yang terakhir jarang terjadi. Dalam pengaturan yang umum, seseorang akan mengeksplorasi data, memvisualisasikannya, memfilternya, memurnikannya ... dan kemudian menguji model akhir pada data original. | Atribut baru yang direduksi mendapatkan awalan “R”, yang membedakannya dari yang original. Nilai-nilai atribut baru dapat dihitung dari yang lama, tetapi tidak sebaliknya. Ini berarti bahwa jika kita membuat classifier dari atribut baru, kita dapat menggunakannya untuk mengklasifikasikan contoh yang dijelaskan oleh atribut original. Tetapi tidak sebaliknya: membangun classifier dari atribut lama dan menggunakannya pada contoh yang dijelaskan oleh yang direduksi tidak akan bekerja. Untungnya, yang terakhir jarang terjadi. Dalam pengaturan yang umum, seseorang akan mengeksplorasi data, memvisualisasikannya, memfilternya, memurnikannya ... dan kemudian menguji model akhir pada data original. |
Revision as of 08:26, 20 April 2020
Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/purgedomain.html
Widget Purge Domain dapat menghapus nilai atribut yang tidak digunakan dan atribut yang tidak berguna, mengurutkan nilai yang tersisa.
Input
Data: input dataset
Output
Data: filtered dataset
Secara definisi atribut nominal terkadang berisi nilai yang tidak muncul dalam data. Bahkan jika ini tidak terjadi dalam data original, proses memfilter data, memilih subset data dapat menghapus semua contoh yang atributnya memiliki nilai tertentu. Pada akhirnya, nilai-nilai tersebut akan mengacaukan presentasi data, terutama berbagai visualisasi, dan harus dihapus.
Setelah membersihkan atribut, mungkin akan menjadi bernilai tunggal atau, dalam dalam kasus ekstrim, tidak memiliki nilai sama sekali (jika nilai atribut ini tidak terdefinisi untuk semua contoh). Dalam kasus seperti itu, atribut tersebut dapat dihapus.
Masalah yang berbeda adalah urutan nilai atribut: jika data dibaca dari file dalam format di mana nilai-nilai tidak dinyatakan sebelumnya, mereka diurutkan "in order of appearance". Kadang-kadang kita lebih suka menyortirnya secara alfabet.
- Purge attributes.
- Purge classes.
- Purge meta attributes.
- Information on the filtering process.
- Produce a report.
- If Apply automatically is ticked, the widget will output data at each change of widget settings.
Berbagai pemurnian data dilakukan oleh widget Purge Domain. Atribut biasa dan atribut class diperlakukan secara terpisah. Untuk masing-masing, kita dapat memutuskan apakah kita ingin nilai diurutkan atau tidak. Selanjutnya, kita dapat mengizinkan widget untuk menghapus atribut dengan nilai kurang dari dua atau menghapus atribut class jika ada kurang dari dua class. Terakhir, kita dapat menginstruksikan widget untuk memeriksa nilai atribut mana yang benar-benar muncul dalam data dan menghapus nilai yang tidak digunakan. Widget tidak dapat menghapus nilai jika tidak diperbolehkan menghapus atribut, karena memiliki atribut tanpa nilai tidak masuk akal.
Atribut baru yang direduksi mendapatkan awalan “R”, yang membedakannya dari yang original. Nilai-nilai atribut baru dapat dihitung dari yang lama, tetapi tidak sebaliknya. Ini berarti bahwa jika kita membuat classifier dari atribut baru, kita dapat menggunakannya untuk mengklasifikasikan contoh yang dijelaskan oleh atribut original. Tetapi tidak sebaliknya: membangun classifier dari atribut lama dan menggunakannya pada contoh yang dijelaskan oleh yang direduksi tidak akan bekerja. Untungnya, yang terakhir jarang terjadi. Dalam pengaturan yang umum, seseorang akan mengeksplorasi data, memvisualisasikannya, memfilternya, memurnikannya ... dan kemudian menguji model akhir pada data original.
Contoh
Widget Purge Domain biasanya akan muncul setelah pemfilteran data, misalnya ketika memilih subset dari contoh yang divisualisasikan.
Dalam skema di atas, kita bermain dengan dataset adult.tab: kita memvisualisasikannya dan memilih sebagian data, yang hanya berisi empat dari lima class original. Untuk menghilangkan class kosong, kita menempatkan data melalui widget Purge Domain sebelum dikirim ke widget Box Plot. Yang terakhir hanya menunjukkan empat class yang ada di widget Purge Data output. Untuk melihat efek pemurnian data, hapus centang pada Remove unused class variabel dan amati efeknya pada widget Box Plot.