Difference between revisions of "Orange: Discretize"
Jump to navigation
Jump to search
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) (→Contoh) |
||
(9 intermediate revisions by the same user not shown) | |||
Line 2: | Line 2: | ||
− | + | Widget Discretize dapat men-diskritisasi atribut continuous dari input dataset. | |
− | + | ==Input== | |
− | + | Data: input dataset | |
− | + | ==Output== | |
− | + | Data: dataset with discretized values | |
− | + | Discretize widget akan meng-diskritisasi attribut continuous dengan metoda yang di pilih. | |
− | + | [[File:Discretize-All-stamped.png|center|200px|thumb]] | |
− | + | * Versi dasar dari widget relatif sederhana. Dia mengijinkan untuk memilih antara tiga metoda diskritisasi. | |
− | + | ** '''Entropy-MDL''', di temukan oleh Fayyad dan Irani adalah top-down discretization, yang secara recursive membagi attribute pada cut yang memaksimalkan informasi gain, sampai gain lebih rendah dari panjang deskripsi minimal cut. Diskritisasi ini dapat menghasilkan jumlah interval yang berubah-ubah, termasuk interval tunggal, dalam hal ini atribut dibuang sebagai tidak berguna (dihapus). | |
− | + | ** '''Equal-frequency''' membagi atribut menjadi sejumlah interval tertentu, sehingga masing-masing berisi kira-kira jumlah instance yang sama. | |
− | + | ** '''Equal-width evenly''' memisahkan kisaran antara nilai terkecil dan terbesar yang diamati. Jumlah interval dapat diatur secara manual. | |
− | + | ** Widget juga dapat diatur untuk membiarkan atribut continuous atau menghapusnya. | |
− | + | * Untuk memperlakukan atribut secara individual, buka Individual Attribute Settings. Ini akan menunjukkan diskritisasi spesifik dari setiap atribut dan memungkinkan perubahan. Pertama, daftar kiri atas menunjukkan titik cut-off untuk setiap atribut. Dalam snapshot, kita menggunakan entropy-MDL discretization, yang menentukan jumlah interval optimal secara otomatis; kita bisa melihatnya mendiskreditkan usia menjadi tujuh interval dengan cut-off di 21.50, 23.50, 27.50, 35.50, 43.50, 54.50 dan 61.50, sementara capital-gain dibagi menjadi banyak interval dengan beberapa cut-off. Final weight (fnlwgt), misalnya, dibiarkan dengan interval tunggal dan dengan demikian dihapus. Di sebelah kanan, kita dapat memilih metode diskritisasi khusus untuk setiap atribut. Atribut “fnlwgt” akan dihapus oleh MDL-based discretization, jadi untuk mencegahnya dihapus, kita memilih atribut dan memilih, misalnya, diskritisasi frekuensi sama. Kita juga dapat memilih untuk membiarkan atribut continuous.. | |
− | + | * Buat report. | |
− | + | * Contreng Apply automatically pada widget agar secara automatic commit changes. Atau, press Apply. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | ==Contoh== | ||
+ | Dalam skema di bawah ini, kami menunjukkan dataset Iris dengan atribut kontinu (seperti dalam file data asli) pada widget Data Table dan yang dengan atribut yang diskritisasi oleh widget Discretize pada widget Data Table(1). | ||
+ | [[File:Discretize-Example.png|center|600px|thumb]] | ||
==Referensi== | ==Referensi== |
Latest revision as of 11:29, 4 April 2020
Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/discretize.html
Widget Discretize dapat men-diskritisasi atribut continuous dari input dataset.
Input
Data: input dataset
Output
Data: dataset with discretized values
Discretize widget akan meng-diskritisasi attribut continuous dengan metoda yang di pilih.
- Versi dasar dari widget relatif sederhana. Dia mengijinkan untuk memilih antara tiga metoda diskritisasi.
- Entropy-MDL, di temukan oleh Fayyad dan Irani adalah top-down discretization, yang secara recursive membagi attribute pada cut yang memaksimalkan informasi gain, sampai gain lebih rendah dari panjang deskripsi minimal cut. Diskritisasi ini dapat menghasilkan jumlah interval yang berubah-ubah, termasuk interval tunggal, dalam hal ini atribut dibuang sebagai tidak berguna (dihapus).
- Equal-frequency membagi atribut menjadi sejumlah interval tertentu, sehingga masing-masing berisi kira-kira jumlah instance yang sama.
- Equal-width evenly memisahkan kisaran antara nilai terkecil dan terbesar yang diamati. Jumlah interval dapat diatur secara manual.
- Widget juga dapat diatur untuk membiarkan atribut continuous atau menghapusnya.
- Untuk memperlakukan atribut secara individual, buka Individual Attribute Settings. Ini akan menunjukkan diskritisasi spesifik dari setiap atribut dan memungkinkan perubahan. Pertama, daftar kiri atas menunjukkan titik cut-off untuk setiap atribut. Dalam snapshot, kita menggunakan entropy-MDL discretization, yang menentukan jumlah interval optimal secara otomatis; kita bisa melihatnya mendiskreditkan usia menjadi tujuh interval dengan cut-off di 21.50, 23.50, 27.50, 35.50, 43.50, 54.50 dan 61.50, sementara capital-gain dibagi menjadi banyak interval dengan beberapa cut-off. Final weight (fnlwgt), misalnya, dibiarkan dengan interval tunggal dan dengan demikian dihapus. Di sebelah kanan, kita dapat memilih metode diskritisasi khusus untuk setiap atribut. Atribut “fnlwgt” akan dihapus oleh MDL-based discretization, jadi untuk mencegahnya dihapus, kita memilih atribut dan memilih, misalnya, diskritisasi frekuensi sama. Kita juga dapat memilih untuk membiarkan atribut continuous..
- Buat report.
- Contreng Apply automatically pada widget agar secara automatic commit changes. Atau, press Apply.
Contoh
Dalam skema di bawah ini, kami menunjukkan dataset Iris dengan atribut kontinu (seperti dalam file data asli) pada widget Data Table dan yang dengan atribut yang diskritisasi oleh widget Discretize pada widget Data Table(1).