Difference between revisions of "Orange: Purge Domain"

From OnnoWiki
Jump to navigation Jump to search
 
(8 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
Removes unused attribute values and useless attributes, sorts the remaining values.
+
Widget Purge Domain dapat menghapus nilai atribut yang tidak digunakan dan atribut yang tidak berguna, mengurutkan nilai yang tersisa.
  
Inputs
+
==Input==
  
    Data: input dataset
+
Data: input dataset
  
Outputs
+
==Output==
  
    Data: filtered dataset
+
Data: filtered dataset
  
Definitions of nominal attributes sometimes contain values which don’t appear in the data. Even if this does not happen in the original data, filtering the data, selecting exemplary subsets and alike can remove all examples for which the attribute has some particular value. Such values clutter data presentation, especially various visualizations, and should be removed.
+
Pada widget Purge Domain, secara definisi atribut nominal terkadang berisi nilai yang tidak muncul dalam data. Bahkan jika ini tidak terjadi dalam data original, proses memfilter data, memilih subset data dapat menghapus semua contoh yang atributnya memiliki nilai tertentu. Pada akhirnya, nilai-nilai tersebut akan mengacaukan presentasi data, terutama berbagai visualisasi, dan harus dihapus.
  
After purging an attribute, it may become single-valued or, in extreme case, have no values at all (if the value of this attribute was undefined for all examples). In such cases, the attribute can be removed.
+
Pada widget Purge Domain, setelah membersihkan atribut, mungkin akan menjadi bernilai tunggal atau, dalam dalam kasus ekstrim, tidak memiliki nilai sama sekali (jika nilai atribut ini tidak terdefinisi untuk semua contoh). Dalam kasus seperti itu, atribut tersebut dapat dihapus.
  
A different issue is the order of attribute values: if the data is read from a file in a format in which values are not declared in advance, they are sorted “in order of appearance”. Sometimes we would prefer to have them sorted alphabetically.
+
Pada widget Purge Domain, masalah lain yang timbul adalah mengurutan nilai atribut: jika data dibaca dari file dalam format di mana nilai-nilai tidak dinyatakan sebelumnya, mereka diurutkan "in order of appearance". Kadang-kadang kita lebih suka menyortirnya secara alfabet.
  
 
[[File:PurgeDomain-stamped.png|center|200px|thumb]]
 
[[File:PurgeDomain-stamped.png|center|200px|thumb]]
  
 +
* Purge attributes.
 +
* Purge classes.
 +
* Purge meta attributes.
 +
* Information on the filtering process.
 +
* Produce a report.
 +
* If Apply automatically is ticked, the widget will output data at each change of widget settings.
  
    Purge attributes.
+
Berbagai pemurnian data dilakukan oleh widget Purge Domain. Atribut biasa dan atribut class diperlakukan secara terpisah. Untuk masing-masing, kita dapat memutuskan apakah kita ingin nilai diurutkan atau tidak. Selanjutnya, kita dapat mengizinkan widget untuk menghapus atribut dengan nilai kurang dari dua atau menghapus atribut class jika ada kurang dari dua class. Terakhir, kita dapat menginstruksikan widget untuk memeriksa nilai atribut mana yang benar-benar muncul dalam data dan menghapus nilai yang tidak digunakan. Widget tidak dapat menghapus nilai jika tidak diperbolehkan menghapus atribut, karena memiliki atribut tanpa nilai tidak masuk akal.
  
    Purge classes.
+
Pada widget Purge Domain, atribut baru yang direduksi mendapatkan awalan “R”, yang membedakannya dari yang original. Nilai-nilai atribut baru dapat dihitung dari yang lama, tetapi tidak sebaliknya. Ini berarti bahwa jika kita membuat classifier dari atribut baru, kita dapat menggunakannya untuk mengklasifikasikan contoh yang dijelaskan oleh atribut original. Tetapi tidak sebaliknya: membangun classifier dari atribut lama dan menggunakannya pada contoh yang dijelaskan oleh yang direduksi tidak akan bekerja. Untungnya, yang terakhir jarang terjadi. Dalam pengaturan yang umum, seseorang akan mengeksplorasi data, memvisualisasikannya, memfilternya, memurnikannya ... dan kemudian menguji model akhir pada data original.
  
    Purge meta attributes.
+
==Contoh==
  
    Information on the filtering process.
+
Widget Purge Domain biasanya akan muncul setelah pemfilteran data, misalnya ketika memilih subset dari contoh yang divisualisasikan.
  
    Produce a report.
+
Dalam workflow di bawah ini, kita bermain dengan dataset adult.tab: kita memvisualisasikannya dan memilih sebagian data, yang hanya berisi empat dari lima class original. Untuk menghilangkan class kosong, kita menempatkan data melalui widget Purge Domain sebelum dikirim ke widget Box Plot. Yang terakhir hanya menunjukkan empat class yang ada di widget Purge Data output. Untuk melihat efek pemurnian data, hapus centang pada Remove unused class variabel dan amati efeknya pada widget Box Plot.
 
 
    If Apply automatically is ticked, the widget will output data at each change of widget settings.
 
 
 
Such purification is done by the widget Purge Domain. Ordinary attributes and class attributes are treated separately. For each, we can decide if we want the values sorted or not. Next, we may allow the widget to remove attributes with less than two values or remove the class attribute if there are less than two classes. Finally, we can instruct the widget to check which values of attributes actually appear in the data and remove the unused values. The widget cannot remove values if it is not allowed to remove the attributes, since having attributes without values makes no sense.
 
 
 
The new, reduced attributes get the prefix “R”, which distinguishes them from the original ones. The values of new attributes can be computed from the old ones, but not the other way around. This means that if you construct a classifier from the new attributes, you can use it to classify the examples described by the original attributes. But not the opposite: constructing a classifier from the old attributes and using it on examples described by the reduced ones won’t work. Fortunately, the latter is seldom the case. In a typical setup, one would explore the data, visualize it, filter it, purify it… and then test the final model on the original data.
 
Example
 
 
 
The Purge Domain widget would typically appear after data filtering, for instance when selecting a subset of visualized examples.
 
 
 
In the above schema, we play with the adult.tab dataset: we visualize it and select a portion of the data, which contains only four out of the five original classes. To get rid of the empty class, we put the data through Purge Domain before going on to the Box Plot widget. The latter shows only the four classes which are in the Purge Data output. To see the effect of data purification, uncheck Remove unused class variable values and observe the effect this has on Box Plot.
 
 
 
[[File:PurgeDomain-example.png|center|200px|thumb]]
 
  
 +
[[File:PurgeDomain-example.png|center|600px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 08:29, 20 April 2020

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/purgedomain.html


Widget Purge Domain dapat menghapus nilai atribut yang tidak digunakan dan atribut yang tidak berguna, mengurutkan nilai yang tersisa.

Input

Data: input dataset

Output

Data: filtered dataset

Pada widget Purge Domain, secara definisi atribut nominal terkadang berisi nilai yang tidak muncul dalam data. Bahkan jika ini tidak terjadi dalam data original, proses memfilter data, memilih subset data dapat menghapus semua contoh yang atributnya memiliki nilai tertentu. Pada akhirnya, nilai-nilai tersebut akan mengacaukan presentasi data, terutama berbagai visualisasi, dan harus dihapus.

Pada widget Purge Domain, setelah membersihkan atribut, mungkin akan menjadi bernilai tunggal atau, dalam dalam kasus ekstrim, tidak memiliki nilai sama sekali (jika nilai atribut ini tidak terdefinisi untuk semua contoh). Dalam kasus seperti itu, atribut tersebut dapat dihapus.

Pada widget Purge Domain, masalah lain yang timbul adalah mengurutan nilai atribut: jika data dibaca dari file dalam format di mana nilai-nilai tidak dinyatakan sebelumnya, mereka diurutkan "in order of appearance". Kadang-kadang kita lebih suka menyortirnya secara alfabet.

PurgeDomain-stamped.png
  • Purge attributes.
  • Purge classes.
  • Purge meta attributes.
  • Information on the filtering process.
  • Produce a report.
  • If Apply automatically is ticked, the widget will output data at each change of widget settings.

Berbagai pemurnian data dilakukan oleh widget Purge Domain. Atribut biasa dan atribut class diperlakukan secara terpisah. Untuk masing-masing, kita dapat memutuskan apakah kita ingin nilai diurutkan atau tidak. Selanjutnya, kita dapat mengizinkan widget untuk menghapus atribut dengan nilai kurang dari dua atau menghapus atribut class jika ada kurang dari dua class. Terakhir, kita dapat menginstruksikan widget untuk memeriksa nilai atribut mana yang benar-benar muncul dalam data dan menghapus nilai yang tidak digunakan. Widget tidak dapat menghapus nilai jika tidak diperbolehkan menghapus atribut, karena memiliki atribut tanpa nilai tidak masuk akal.

Pada widget Purge Domain, atribut baru yang direduksi mendapatkan awalan “R”, yang membedakannya dari yang original. Nilai-nilai atribut baru dapat dihitung dari yang lama, tetapi tidak sebaliknya. Ini berarti bahwa jika kita membuat classifier dari atribut baru, kita dapat menggunakannya untuk mengklasifikasikan contoh yang dijelaskan oleh atribut original. Tetapi tidak sebaliknya: membangun classifier dari atribut lama dan menggunakannya pada contoh yang dijelaskan oleh yang direduksi tidak akan bekerja. Untungnya, yang terakhir jarang terjadi. Dalam pengaturan yang umum, seseorang akan mengeksplorasi data, memvisualisasikannya, memfilternya, memurnikannya ... dan kemudian menguji model akhir pada data original.

Contoh

Widget Purge Domain biasanya akan muncul setelah pemfilteran data, misalnya ketika memilih subset dari contoh yang divisualisasikan.

Dalam workflow di bawah ini, kita bermain dengan dataset adult.tab: kita memvisualisasikannya dan memilih sebagian data, yang hanya berisi empat dari lima class original. Untuk menghilangkan class kosong, kita menempatkan data melalui widget Purge Domain sebelum dikirim ke widget Box Plot. Yang terakhir hanya menunjukkan empat class yang ada di widget Purge Data output. Untuk melihat efek pemurnian data, hapus centang pada Remove unused class variabel dan amati efeknya pada widget Box Plot.

PurgeDomain-example.png

Referensi

Pranala Menarik