Difference between revisions of "Orange: Discretize"

From OnnoWiki
Jump to navigation Jump to search
 
(7 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
Men-diskritisasi atribut continuous dari input dataset.
+
Widget Discretize dapat men-diskritisasi atribut continuous dari input dataset.
  
 
==Input==
 
==Input==
Line 12: Line 12:
 
  Data: dataset with discretized values
 
  Data: dataset with discretized values
  
The Discretize widget discretizes continuous attributes with a selected method.
+
Discretize widget akan meng-diskritisasi attribut continuous dengan metoda yang di pilih.
  
 
[[File:Discretize-All-stamped.png|center|200px|thumb]]
 
[[File:Discretize-All-stamped.png|center|200px|thumb]]
  
* The basic version of the widget is rather simple. It allows choosing between three different discretizations.
+
* Versi dasar dari widget relatif sederhana. Dia mengijinkan untuk memilih antara tiga metoda diskritisasi.
** Entropy-MDL, invented by Fayyad and Irani is a top-down discretization, which recursively splits the attribute at a cut maximizing information gain, until the gain is lower than the minimal description length of the cut. This discretization can result in an arbitrary number of intervals, including a single interval, in which case the attribute is discarded as useless (removed).
+
** '''Entropy-MDL''', di temukan oleh Fayyad dan Irani adalah top-down discretization, yang secara recursive membagi attribute pada cut yang memaksimalkan informasi gain, sampai gain lebih rendah dari panjang deskripsi minimal cut. Diskritisasi ini dapat menghasilkan jumlah interval yang berubah-ubah, termasuk interval tunggal, dalam hal ini atribut dibuang sebagai tidak berguna (dihapus).
** Equal-frequency splits the attribute into a given number of intervals, so that they each contain approximately the same number of instances.
+
** '''Equal-frequency''' membagi atribut menjadi sejumlah interval tertentu, sehingga masing-masing berisi kira-kira jumlah instance yang sama.
** Equal-width evenly splits the range between the smallest and the largest observed value. The Number of intervals can be set manually.
+
** '''Equal-width evenly''' memisahkan kisaran antara nilai terkecil dan terbesar yang diamati. Jumlah interval dapat diatur secara manual.
** The widget can also be set to leave the attributes continuous or to remove them.
+
** Widget juga dapat diatur untuk membiarkan atribut continuous atau menghapusnya.
* To treat attributes individually, go to Individual Attribute Settings. They show a specific discretization of each attribute and allow changes. First, the top left list shows the cut-off points for each attribute. In the snapshot, we used the entropy-MDL discretization, which determines the optimal number of intervals automatically; we can see it discretized the age into seven intervals with cut-offs at 21.50, 23.50, 27.50, 35.50, 43.50, 54.50 and 61.50, respectively, while the capital-gain got split into many intervals with several cut-offs. The final weight (fnlwgt), for instance, was left with a single interval and thus removed. On the right, we can select a specific discretization method for each attribute. Attribute “fnlwgt” would be removed by the MDL-based discretization, so to prevent its removal, we select the attribute and choose, for instance, Equal-frequency discretization. We could also choose to leave the attribute continuous.
+
* Untuk memperlakukan atribut secara individual, buka Individual Attribute Settings. Ini akan menunjukkan diskritisasi spesifik dari setiap atribut dan memungkinkan perubahan. Pertama, daftar kiri atas menunjukkan titik cut-off untuk setiap atribut. Dalam snapshot, kita menggunakan entropy-MDL discretization, yang menentukan jumlah interval optimal secara otomatis; kita bisa melihatnya mendiskreditkan usia menjadi tujuh interval dengan cut-off di 21.50, 23.50, 27.50, 35.50, 43.50, 54.50 dan 61.50, sementara capital-gain dibagi menjadi banyak interval dengan beberapa cut-off. Final weight (fnlwgt), misalnya, dibiarkan dengan interval tunggal dan dengan demikian dihapus. Di sebelah kanan, kita dapat memilih metode diskritisasi khusus untuk setiap atribut. Atribut “fnlwgt” akan dihapus oleh MDL-based discretization, jadi untuk mencegahnya dihapus, kita memilih atribut dan memilih, misalnya, diskritisasi frekuensi sama. Kita juga dapat memilih untuk membiarkan atribut continuous..
* Produce a report.
+
* Buat report.
* Tick Apply automatically for the widget to automatically commit changes. Alternatively, press Apply.
+
* Contreng Apply automatically pada widget agar secara automatic commit changes. Atau, press Apply.
  
 
==Contoh==
 
==Contoh==
  
Dalam skema di bawah ini, kami menunjukkan dataset Iris dengan atribut kontinu (seperti dalam file data asli) dan dengan atribut diskritisasi.
+
Dalam skema di bawah ini, kami menunjukkan dataset Iris dengan atribut kontinu (seperti dalam file data asli) pada widget Data Table dan yang dengan atribut yang diskritisasi oleh widget Discretize pada widget Data Table(1).
 
 
[[File:Discretize-Example.png|center|200px|thumb]]
 
  
 +
[[File:Discretize-Example.png|center|600px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 11:29, 4 April 2020

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/discretize.html


Widget Discretize dapat men-diskritisasi atribut continuous dari input dataset.

Input

Data: input dataset

Output

Data: dataset with discretized values

Discretize widget akan meng-diskritisasi attribut continuous dengan metoda yang di pilih.

Discretize-All-stamped.png
  • Versi dasar dari widget relatif sederhana. Dia mengijinkan untuk memilih antara tiga metoda diskritisasi.
    • Entropy-MDL, di temukan oleh Fayyad dan Irani adalah top-down discretization, yang secara recursive membagi attribute pada cut yang memaksimalkan informasi gain, sampai gain lebih rendah dari panjang deskripsi minimal cut. Diskritisasi ini dapat menghasilkan jumlah interval yang berubah-ubah, termasuk interval tunggal, dalam hal ini atribut dibuang sebagai tidak berguna (dihapus).
    • Equal-frequency membagi atribut menjadi sejumlah interval tertentu, sehingga masing-masing berisi kira-kira jumlah instance yang sama.
    • Equal-width evenly memisahkan kisaran antara nilai terkecil dan terbesar yang diamati. Jumlah interval dapat diatur secara manual.
    • Widget juga dapat diatur untuk membiarkan atribut continuous atau menghapusnya.
  • Untuk memperlakukan atribut secara individual, buka Individual Attribute Settings. Ini akan menunjukkan diskritisasi spesifik dari setiap atribut dan memungkinkan perubahan. Pertama, daftar kiri atas menunjukkan titik cut-off untuk setiap atribut. Dalam snapshot, kita menggunakan entropy-MDL discretization, yang menentukan jumlah interval optimal secara otomatis; kita bisa melihatnya mendiskreditkan usia menjadi tujuh interval dengan cut-off di 21.50, 23.50, 27.50, 35.50, 43.50, 54.50 dan 61.50, sementara capital-gain dibagi menjadi banyak interval dengan beberapa cut-off. Final weight (fnlwgt), misalnya, dibiarkan dengan interval tunggal dan dengan demikian dihapus. Di sebelah kanan, kita dapat memilih metode diskritisasi khusus untuk setiap atribut. Atribut “fnlwgt” akan dihapus oleh MDL-based discretization, jadi untuk mencegahnya dihapus, kita memilih atribut dan memilih, misalnya, diskritisasi frekuensi sama. Kita juga dapat memilih untuk membiarkan atribut continuous..
  • Buat report.
  • Contreng Apply automatically pada widget agar secara automatic commit changes. Atau, press Apply.

Contoh

Dalam skema di bawah ini, kami menunjukkan dataset Iris dengan atribut kontinu (seperti dalam file data asli) pada widget Data Table dan yang dengan atribut yang diskritisasi oleh widget Discretize pada widget Data Table(1).

Discretize-Example.png

Referensi

Pranala Menarik