Difference between revisions of "Orange: Continuize"

From OnnoWiki
Jump to navigation Jump to search
(Created page with "Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/continuize.html Turns discrete variables (attributes) into numeric (“continuous”) dummy variables. Inp...")
 
 
(10 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
Turns discrete variables (attributes) into numeric (“continuous”) dummy variables.
+
Widget Continuize dapat mengubah diskrit variable (attribute) menjadi numeric (“continuous”) dummy variable.
  
Inputs
+
==Input==
  
 
     Data: input data set
 
     Data: input data set
  
Outputs
+
==Output==
  
 
     Data: transformed data set
 
     Data: transformed data set
  
The Continuize widget receives a data set in the input and outputs the same data set in which the discrete variables (including binary variables) are replaced with continuous ones.
+
Widget Continuize menerima data set dalam input dan output data set yang sama di mana variabel diskrit (termasuk variabel biner) diganti dengan continuous.
  
../../_images/Continuize-stamped.png
+
[[File:Continuize-stamped.png|center|200px|thumb]]
  
    Define the treatment of non-binary categorical variables.
 
  
    Examples in this section will assume that we have a discrete attribute status with the values low, middle and high, listed in that order. Options for their transformation are:
+
* Tentukan perlakuan variabel kategorikal non-biner.
 +
* Contoh di bagian ini akan menganggap bahwa kita memiliki status atribut diskrit dengan nilai rendah, sedang dan tinggi, yang terdaftar dalam urutan seperti itu. Pilihan untuk transformasi artibut tersebut adalah:
 +
** Nilai pertama sebagai basis: variabel kategori bernilai-N akan ditransformasikan menjadi variabel numerik N-1, masing-masing berfungsi sebagai indikator untuk salah satu nilai original kecuali untuk nilai dasar. Nilai dasar adalah nilai pertama dalam daftar. Secara default, nilai-nilai tersebut disusun berdasarkan abjad; urutan mereka dapat diubah di Edit Domain.
 +
** Dalam kasus di atas, status variabel bernilai tiga diubah menjadi dua variabel numerik, status = tengah dengan nilai 0 atau 1 yang menunjukkan apakah variabel original memiliki nilai tengah pada contoh tertentu, dan demikian pula, status = tinggi.
 +
** Nilai yang paling sering sebagai basis: mirip dengan yang di atas, kecuali bahwa nilai yang paling sering digunakan sebagai basis. Jadi, jika nilai yang paling sering dalam contoh di atas adalah menengah, maka tengah dianggap sebagai basis dan dua variabel yang baru dibangun adalah status = rendah dan status = tinggi.
 +
** Satu atribut per nilai: opsi ini untuk membuat satu variabel numerik per setiap nilai variabel original. Dalam kasus di atas, kita akan mendapatkan variabel status = rendah, status = menengah dan status = tinggi.
 +
** Abaikan atribut multinomial: menghapus variabel kategori non-biner dari data.
 +
** Perlakukan sebagai ordinal: mengubah variabel menjadi variabel numerik tunggal yang menyebutkan nilai orginal. Dalam kasus di atas, variabel baru akan memiliki nilai 0 untuk rendah, 1 untuk menengah dan 2 untuk tinggi. Sekali lagi perhatikan bahwa urutan nilai dapat diatur dalam Edit Domain.
 +
** Membagi dengan jumlah nilai: sama seperti di atas, kecuali bahwa nilai-nilai dinormalisasi ke dalam rentang 0-1. Dalam contoh kami, nilai-nilai variabel baru adalah 0, 0,5 dan 1.
 +
* Tentukan perlakuan atribut continuous. Besis opsi untuk membiarkan mereka apa adanya, kita bisa menormalkan dengan span, yang akan mengurangi nilai terendah yang ditemukan dalam data dan membaginya dengan span, sehingga semua nilai akan masuk ke dalam [0, 1]. Opsi Normalisasi dengan deviasi standar mengurangi rata-rata dan membaginya dengan deviasi standar.
 +
* Tentukan perlakuan atribut class (outcome, target). Selain membiarkannya apa adanya, opsi yang tersedia mencerminkan atribut untuk multinomial, kecuali untuk yang akan membagi hasil menjadi beberapa variabel outcome.
 +
* Opsi ini menentukan rentang variabel baru. Dalam teks di atas, kami memperkirakan rentang dari 0 hingga 1.
 +
* Hasilkan report.
 +
* Jika Apply automatically dicentang, perubahan dilakukan secara otomatis. Jika tidak, kita harus menekan Apply setelah setiap perubahan.
  
        First value as base: a N-valued categorical variable will be transformed into N-1 numeric variables, each serving as an indicator for one of the original values except for the base value. The base value is the first value in the list. By default, the values are ordered alphabetically; their order can be changed in Edit Domain.
+
==Contoh==
  
        In the above case, the three-valued variable status is transformed into two numeric variables, status=middle with values 0 or 1 indicating whether the original variable had value middle on a particular example, and similarly, status=high.
+
Pada contoh workflow di bawah ini, mari kita lihat apa output dari widget Continuize. Kita memasukan data original (Heart disease data set) ke dalam widget Data Table dan melihat bagaimana tampilannya. Kemudian kita men-continuized nilai menggunakan widget Continuize dan mengamatinya di widget Data Table(Continuized) yang lain.
 
 
        Most frequent value as base: similar to the above, except that the most frequent value is used as a base. So, if the most frequent value in the above example is middle, then middle is considered as the base and the two newly constructed variables are status=low and status=high.
 
 
 
        One attribute per value: this option constructs one numeric variable per each value of the original variable. In the above case, we would get variables status=low, status=middle and status=high.
 
 
 
        Ignore multinomial attributes: removes non-binary categorical variables from the data.
 
 
 
        Treat as ordinal: converts the variable into a single numeric variable enumerating the original values. In the above case, the new variable would have the value of 0 for low, 1 for middle and 2 for high. Again note that the order of values can be set in Edit Domain.
 
 
 
        Divide by number of values: same as above, except that values are normalized into range 0-1. In our example, the values of the new variable would be 0, 0.5 and 1.
 
 
 
    Define the treatment of continuous attributes. Besised the option to Leave them as they are, we can Normalize by span, which will subtract the lowest value found in the data and divide by the span, so all values will fit into [0, 1]. Option Normalize by standard deviation subtracts the average and divides by the standard deviation.
 
 
 
    Define the treatment of class attributes (outcomes, targets). Besides leaving it as it is, the available options mirror those for multinomial attributes, except for those that would split the outcome into multiple outcome variables.
 
 
 
    This option defines the ranges of new variables. In the above text, we supposed the range from 0 to 1.
 
 
 
    Produce a report.
 
 
 
    If Apply automatically is ticked, changes are committed automatically. Otherwise, you have to press Apply after each change.
 
 
 
Examples
 
 
 
First, let’s see what is the output of the Continuize widget. We feed the original data (the Heart disease data set) into the Data Table and see how they look like. Then we continuize the discrete values and observe them in another Data Table.
 
 
 
../../_images/Continuize-Example1.png
 
 
 
In the second example, we show a typical use of this widget - in order to properly plot the linear projection of the data, discrete attributes need to be converted to continuous ones and that is why we put the data through the Continuize widget before drawing it. The attribute “chest pain” originally had four values and was transformed into three continuous attributes; similar happened to gender, which was transformed into a single attribute “gender=female”.
 
 
 
../../_images/Continuize-Example2.png
 
  
 +
[[File:Continuize-Example1.png|center|400px|thumb]]
  
  
 +
Pada contoh kedua, kita menunjukkan penggunaan khusus widget Continuize - untuk dapat memplot proyeksi linear data dengan benar, atribut diskrit perlu dikonversi menjadi kontinu dan itulah sebabnya kita memasukan data melalui widget Continuize sebelum menggambarnya. Atribut “chest pain” awalnya memiliki empat nilai dan diubah menjadi tiga atribut kontinyu; serupa terjadi pada gender, yang diubah menjadi satu atribut “gender=female”.
  
 +
[[File:Continuize-Example2.png|center|400px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 11:40, 4 April 2020

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/continuize.html


Widget Continuize dapat mengubah diskrit variable (attribute) menjadi numeric (“continuous”) dummy variable.

Input

   Data: input data set

Output

   Data: transformed data set

Widget Continuize menerima data set dalam input dan output data set yang sama di mana variabel diskrit (termasuk variabel biner) diganti dengan continuous.

Continuize-stamped.png


  • Tentukan perlakuan variabel kategorikal non-biner.
  • Contoh di bagian ini akan menganggap bahwa kita memiliki status atribut diskrit dengan nilai rendah, sedang dan tinggi, yang terdaftar dalam urutan seperti itu. Pilihan untuk transformasi artibut tersebut adalah:
    • Nilai pertama sebagai basis: variabel kategori bernilai-N akan ditransformasikan menjadi variabel numerik N-1, masing-masing berfungsi sebagai indikator untuk salah satu nilai original kecuali untuk nilai dasar. Nilai dasar adalah nilai pertama dalam daftar. Secara default, nilai-nilai tersebut disusun berdasarkan abjad; urutan mereka dapat diubah di Edit Domain.
    • Dalam kasus di atas, status variabel bernilai tiga diubah menjadi dua variabel numerik, status = tengah dengan nilai 0 atau 1 yang menunjukkan apakah variabel original memiliki nilai tengah pada contoh tertentu, dan demikian pula, status = tinggi.
    • Nilai yang paling sering sebagai basis: mirip dengan yang di atas, kecuali bahwa nilai yang paling sering digunakan sebagai basis. Jadi, jika nilai yang paling sering dalam contoh di atas adalah menengah, maka tengah dianggap sebagai basis dan dua variabel yang baru dibangun adalah status = rendah dan status = tinggi.
    • Satu atribut per nilai: opsi ini untuk membuat satu variabel numerik per setiap nilai variabel original. Dalam kasus di atas, kita akan mendapatkan variabel status = rendah, status = menengah dan status = tinggi.
    • Abaikan atribut multinomial: menghapus variabel kategori non-biner dari data.
    • Perlakukan sebagai ordinal: mengubah variabel menjadi variabel numerik tunggal yang menyebutkan nilai orginal. Dalam kasus di atas, variabel baru akan memiliki nilai 0 untuk rendah, 1 untuk menengah dan 2 untuk tinggi. Sekali lagi perhatikan bahwa urutan nilai dapat diatur dalam Edit Domain.
    • Membagi dengan jumlah nilai: sama seperti di atas, kecuali bahwa nilai-nilai dinormalisasi ke dalam rentang 0-1. Dalam contoh kami, nilai-nilai variabel baru adalah 0, 0,5 dan 1.
  • Tentukan perlakuan atribut continuous. Besis opsi untuk membiarkan mereka apa adanya, kita bisa menormalkan dengan span, yang akan mengurangi nilai terendah yang ditemukan dalam data dan membaginya dengan span, sehingga semua nilai akan masuk ke dalam [0, 1]. Opsi Normalisasi dengan deviasi standar mengurangi rata-rata dan membaginya dengan deviasi standar.
  • Tentukan perlakuan atribut class (outcome, target). Selain membiarkannya apa adanya, opsi yang tersedia mencerminkan atribut untuk multinomial, kecuali untuk yang akan membagi hasil menjadi beberapa variabel outcome.
  • Opsi ini menentukan rentang variabel baru. Dalam teks di atas, kami memperkirakan rentang dari 0 hingga 1.
  • Hasilkan report.
  • Jika Apply automatically dicentang, perubahan dilakukan secara otomatis. Jika tidak, kita harus menekan Apply setelah setiap perubahan.

Contoh

Pada contoh workflow di bawah ini, mari kita lihat apa output dari widget Continuize. Kita memasukan data original (Heart disease data set) ke dalam widget Data Table dan melihat bagaimana tampilannya. Kemudian kita men-continuized nilai menggunakan widget Continuize dan mengamatinya di widget Data Table(Continuized) yang lain.

Continuize-Example1.png


Pada contoh kedua, kita menunjukkan penggunaan khusus widget Continuize - untuk dapat memplot proyeksi linear data dengan benar, atribut diskrit perlu dikonversi menjadi kontinu dan itulah sebabnya kita memasukan data melalui widget Continuize sebelum menggambarnya. Atribut “chest pain” awalnya memiliki empat nilai dan diubah menjadi tiga atribut kontinyu; serupa terjadi pada gender, yang diubah menjadi satu atribut “gender=female”.

Continuize-Example2.png

Referensi

Pranala Menarik