Difference between revisions of "Orange: Loading Your Data"

From OnnoWiki
Jump to navigation Jump to search
 
(10 intermediate revisions by the same user not shown)
Line 10: Line 10:
 
* Type dan peran dapat diatur di widget File.
 
* Type dan peran dapat diatur di widget File.
 
* Nama atribut di header kolom dapat didahului dengan label diikuti oleh hash. Gunakan c untuk kelas dan m untuk atribut meta, i untuk mengabaikan kolom, w untuk weight (bobot) dari kolom, dan C, D, T, S untuk tipe atribut continuous, discrete, time, and string. Contoh: C#mph, mS#name, i#dummy.
 
* Nama atribut di header kolom dapat didahului dengan label diikuti oleh hash. Gunakan c untuk kelas dan m untuk atribut meta, i untuk mengabaikan kolom, w untuk weight (bobot) dari kolom, dan C, D, T, S untuk tipe atribut continuous, discrete, time, and string. Contoh: C#mph, mS#name, i#dummy.
* Alternatif untuk notasi hash adalah format asli Orange dengan tiga baris header: yang pertama dengan nama atribut, yang kedua menentukan jenis (continuous, discrete, time, atau string), dan informasi pembuktian ketiga pada peran atribut (class, meta, weight atau ignore).
+
* Alternatif lain dari format dengan notasi hash adalah format asli data Orange dengan tiga (3) baris header: yang pertama dengan nama atribut, yang kedua menentukan jenis (continuous, discrete, time, atau string), dan informasi baris ketiga untuk meyakinkan peran atribut (class, meta, weight atau ignore).
  
 
==Data dari Excel==
 
==Data dari Excel==
Line 18: Line 18:
 
[[File:Spreadsheet1.png|center|600px|thumb]]
 
[[File:Spreadsheet1.png|center|600px|thumb]]
  
File berisi sebuah baris header, delapan instance data (baris) dan tujuh atribut data (kolom). Sel kosong dalam tabel menunjukkan entri data yang hilang. Baris mewakili gen; fungsi (class) disediakan di kolom pertama dan nama mereka di kolom kedua. Kolom yang tersisa menyimpan pengukuran yang mencirikan setiap gen. Dengan data ini, kita dapat, katakanlah, mengembangkan classifier yang akan memprediksi fungsi gen dari pengukuran karakteristiknya.
+
File berisi sebuah baris header, delapan instance data (baris) dan tujuh atribut data (kolom). Sel kosong dalam tabel menunjukkan entri data yang hilang. Baris mewakili gene; function (class) disediakan di kolom pertama dan name mereka di kolom kedua. Kolom yang tersisa menyimpan pengukuran yang mencirikan setiap gene. Dengan data ini, kita dapat, katakanlah, mengembangkan classifier yang akan memprediksi function gene dari pengukuran karakteristiknya.
  
 
Mari kita mulai dengan workflow sederhana yang membaca data dan menampilkannya dalam tabel:
 
Mari kita mulai dengan workflow sederhana yang membaca data dan menampilkannya dalam tabel:
Line 70: Line 70:
 
==Header with Attribute Type Information==
 
==Header with Attribute Type Information==
  
Consider again the sample.xlsx dataset. This time we will augment the names of the attributes with prefixes that define attribute type (continuous, discrete, time, string) and role (class or meta attribute). Prefixes are separated from the attribute name with a hash sign (#). Prefixes for attribute roles are:
+
Perhatikan lagi dataset [http://file.biolab.si/datasets/sample.xlsx sample.xlsx]. Kali ini kita akan menambah nama atribut dengan awalan yang mendefinisikan tipe atribut (continuous, discrete, time, string) dan peran (class atau meta attribute). Awalan dipisahkan dari nama atribut dengan tanda pagar ("#"). Awalan untuk peran atribut adalah:
  
 
  c: class attribute
 
  c: class attribute
Line 77: Line 77:
 
  w: instance weights
 
  w: instance weights
  
and for the type:
+
dan untuk tipe:
  
 
  C: Continuous
 
  C: Continuous
Line 84: Line 84:
 
  S: String
 
  S: String
  
This is how the header with augmented attribute names looks like in Excel (sample-head.xlsx):
+
Berikut ini tampilan header dengan nama atribut yang di augmented di Excel ([http://file.biolab.si/datasets/sample-head.xlsx sample-head.xlsx]):
  
../_images/spreadsheet-simple-head1.png
+
[[File:Spreadsheet-simple-head1.png|center|600px|thumb]]
  
We can again use a File widget to load this dataset and then render it in the Data Table:
+
Kita bisa lagi menggunakan widget File untuk memuat dataset ini dan kemudian merendernya di Tabel Data:
  
../_images/select-cols-simplified-header.png
+
[[File:Select-cols-simplified-header.png|center|600px|thumb]]
  
Notice that the attributes we have ignored (label “i” in the attribute name) are not present in the dataset.
+
Perhatikan bahwa atribut yang kita abaikan (label "i" pada nama atribut) tidak ada dalam dataset.
  
 
==Three-Row Header Format==
 
==Three-Row Header Format==
  
Orange’s legacy native data format is a tab-delimited text file with three header rows. The first row lists the attribute names, the second row defines their type (continuous, discrete, time and string, or abbreviated c, d, t, and s), and the third row an optional role (class, meta, weight, or ignore). Here is an example:
+
Format data asli milik Orange adalah file tab-delimited text dengan tiga baris header. Baris pertama mencantumkan nama atribut, baris kedua mendefinisikan tipe mereka (continuous, discrete, time dan string, atau disingkat c, d, t, dan s), dan baris ketiga peran opsional (class, meta, weight, atau ignore). Berikut ini sebuah contoh:
  
../_images/excel-with-tab1.png
+
[[File:Excel-with-tab1.png|center|600px|thumb]]
  
==Data from Google Sheets==
+
==Data dari Google Sheets==
  
Orange can read data from Google Sheets, as long as it conforms to the data presentation rules we have presented above. In Google Sheets, copy the shareable link (Share button, then Get shareable link) and paste it in the Data File / URL box of the File widget. For a taste, here’s one such link you can use: http://bit.ly/1J12Tdp, and the way we have entered it in the File widget:
+
Orange dapat membaca data dari Google Sheets, selama itu sesuai dengan aturan penyajian data yang telah diterangkan di atas. Di Google Sheets, salin link yang dapat dibagikan (tombol Share, lalu Dapatkan link yang dapat dibagikan) dan tempel di Data File / URK box di File widget. Untuk merasakannya, inilah salah satu link yang dapat kita gunakan: http://bit.ly/1J12Tdp, dan cara kita memasukkannya di widget File:
  
../_images/File-Google-Sheet.png
+
[[File:File-Google-Sheet.png|center|600px|thumb]]
  
==Data from LibreOffice==
+
==Data dari LibreOffice==
  
If you are using LibreOffice, simply save your files in Excel (.xlsx) format (available from the drop-down menu under Save As Type).
+
Jika kita menggunakan LibreOffice, cukup simpan file kita dalam format Excel (.xlsx) (tersedia dari menu drop-down di bawah Save As Type).
  
../_images/saving-tab-delimited-files.png
+
[[File:Saving-tab-delimited-files.png.jpeg|center|600px|thumb]]
  
==Datetime Format==
+
==Format Datetime Format==
  
To avoid ambiguity, Orange supports date and/or time formatted in one of the ISO 8601 formats. For example, the following values are all valid:
+
Untuk menghindari kebingungan, Orange mendukung tanggal dan/atau waktu yang diformat dalam salah satu format ISO 8601. Misalnya, nilai-nilai berikut semuanya valid:
  
 
  2016
 
  2016

Latest revision as of 09:55, 24 February 2020

Sumber: https://docs.biolab.si//3/visual-programming/loading-your-data/index.html


Orange menggunakan format datanya sendiri, tetapi juga dapat menangani Excel, comma- atau tab-delimited data file. Kumpulan data input biasanya berupa tabel, dengan instance data (sampel) dalam baris dan atribut data dalam kolom. Atribut dapat terdiri dari berbagai jenis (numeric, categorical, datetime, dan text) dan telah menetapkan peran (fitur input, atribut meta, dan class). Jenis dan peran atribut data dapat disediakan di header tabel data. Mereka juga dapat diubah di widget File, sementara peran data juga dapat dimodifikasi dengan widget Select Columns.

Singkat Kata

  • Orange dapat mengimpor file data comma- atau tab-delimited, atau file asli Excel atau dokumen Google Sheets. Gunakan File widget untuk memuat data dan, jika perlu, tentukan atribut class dan meta.
  • Type dan peran dapat diatur di widget File.
  • Nama atribut di header kolom dapat didahului dengan label diikuti oleh hash. Gunakan c untuk kelas dan m untuk atribut meta, i untuk mengabaikan kolom, w untuk weight (bobot) dari kolom, dan C, D, T, S untuk tipe atribut continuous, discrete, time, and string. Contoh: C#mph, mS#name, i#dummy.
  • Alternatif lain dari format dengan notasi hash adalah format asli data Orange dengan tiga (3) baris header: yang pertama dengan nama atribut, yang kedua menentukan jenis (continuous, discrete, time, atau string), dan informasi baris ketiga untuk meyakinkan peran atribut (class, meta, weight atau ignore).

Data dari Excel

Berikut adalah contoh dataset (sample.xlsx) yang menggunakan Excel:

Spreadsheet1.png

File berisi sebuah baris header, delapan instance data (baris) dan tujuh atribut data (kolom). Sel kosong dalam tabel menunjukkan entri data yang hilang. Baris mewakili gene; function (class) disediakan di kolom pertama dan name mereka di kolom kedua. Kolom yang tersisa menyimpan pengukuran yang mencirikan setiap gene. Dengan data ini, kita dapat, katakanlah, mengembangkan classifier yang akan memprediksi function gene dari pengukuran karakteristiknya.

Mari kita mulai dengan workflow sederhana yang membaca data dan menampilkannya dalam tabel:

File-data-table-workflow.png

Untuk me-load data, buka File widget (klik dua kali pada ikon widget), klik pada ikon browser file ("...") dan cari file yang akan diunduh (misalnya sample.xlsx) pada harddisk anda:

File.png

File Widget: Setting Attribute Type and Role

File Widget mengirimkan data ke Data Tabel. Double Klik Data Tabel untuk melihat isinya:

Table-widget.png

Orange dengan benar mengasumsikan bahwa kolom dengan nama gene dalam meta informasi, yang ditampilkan dalam Data Tabel dalam kolom yang diarsir dengan warna coklat muda. Disini belum di ketahui bahwa fungsi, kolom non-meta pertama dalam file data kita, adalah kolom class. Untuk memperbaikinya di Orange, kita dapat menyesuaikan atribut role di tampilan kolom File widget (di bawah). Double Klik label fitur di baris fungsi dan pilih target sebagai gantinya. Ini akan menetapkan atribut fungsi sebagai variabel target (class) kita.

File-set-feature-kind.png

Kita juga dapat mengubah tipe atribut dari nominal ke numerik, dari string ke datetime, dan sebagainya. Secara alami, nilai data harus sesuai dengan tipe atribut yang ditentukan. Datetime hanya menerima nilai dalam format ISO 8601, mis. 2016-01-01 16:16:01. Orange juga akan menganggap atribut tersebut numerik jika memiliki beberapa nilai yang berbeda, jika tidak maka akan dianggap nominal. Semua tipe lainnya dianggap sebagai string dan secara otomatis dikategorikan sebagai atribut meta.

Perubahan peran dan jenis atribut harus dikonfirmasi dengan mengklik tombol Apply.

Select Columns: Setting the Attribute Role

Cara lain untuk mengatur data role adalah memberi memasukan data ke widget Select Columns:

Select-columns-schema.png.jpeg

Membuka Select Columns akan memperlihatkan klasifikasi atribut Orange. Kita ingin semua atribut continuous menjadi fitur data, fungsi gene menjadi variabel target dan nama gene yang dianggap sebagai atribut meta. Kami dapat memperoleh ini dengan men-drag nama atribut di kotak di Select Columns:

Select-columns-start.png

Untuk menetapkan ulang tipe atribut dengan benar, drag atribut dengan nama fungsi ke Class Box, dan atribut bernama gene ke kotak Atribut Meta. Widget Select Columns sekarang akan terlihat seperti ini:

Select-columns-reassigned.png

Perubahan tipe atribut dalam widget Select Columns harus dikonfirmasi dengan meng-klik tombol Apply. Data dari widget ini dimasukkan ke Tabel Data yang sekarang menyajikan data seperti yang kita maksudkan:

Data-table-with-class1.png

Kita juga bisa mendefinisikan domain untuk dataset ini dengan cara yang berbeda. Katakanlah, kita bisa membuat dataset siap untuk regresi, dan menggunakan heat 0 sebagai variabel class continuous, menjaga fungsi dan nama gene sebagai variabel meta, dan menghapus heat 10 dan heat 20 dari dataset:

Select-columns-regression.png

Dengan mengatur atribut seperti di atas, rendering data dalam widget Tabel Data memberikan output berikut:

Data-table-regression1.png

Header with Attribute Type Information

Perhatikan lagi dataset sample.xlsx. Kali ini kita akan menambah nama atribut dengan awalan yang mendefinisikan tipe atribut (continuous, discrete, time, string) dan peran (class atau meta attribute). Awalan dipisahkan dari nama atribut dengan tanda pagar ("#"). Awalan untuk peran atribut adalah:

c: class attribute
m: meta attribute
i: ignore the attribute
w: instance weights

dan untuk tipe:

C: Continuous
D: Discrete
T: Time
S: String

Berikut ini tampilan header dengan nama atribut yang di augmented di Excel (sample-head.xlsx):

Spreadsheet-simple-head1.png

Kita bisa lagi menggunakan widget File untuk memuat dataset ini dan kemudian merendernya di Tabel Data:

Select-cols-simplified-header.png

Perhatikan bahwa atribut yang kita abaikan (label "i" pada nama atribut) tidak ada dalam dataset.

Three-Row Header Format

Format data asli milik Orange adalah file tab-delimited text dengan tiga baris header. Baris pertama mencantumkan nama atribut, baris kedua mendefinisikan tipe mereka (continuous, discrete, time dan string, atau disingkat c, d, t, dan s), dan baris ketiga peran opsional (class, meta, weight, atau ignore). Berikut ini sebuah contoh:

Excel-with-tab1.png

Data dari Google Sheets

Orange dapat membaca data dari Google Sheets, selama itu sesuai dengan aturan penyajian data yang telah diterangkan di atas. Di Google Sheets, salin link yang dapat dibagikan (tombol Share, lalu Dapatkan link yang dapat dibagikan) dan tempel di Data File / URK box di File widget. Untuk merasakannya, inilah salah satu link yang dapat kita gunakan: http://bit.ly/1J12Tdp, dan cara kita memasukkannya di widget File:

File-Google-Sheet.png

Data dari LibreOffice

Jika kita menggunakan LibreOffice, cukup simpan file kita dalam format Excel (.xlsx) (tersedia dari menu drop-down di bawah Save As Type).

Saving-tab-delimited-files.png.jpeg

Format Datetime Format

Untuk menghindari kebingungan, Orange mendukung tanggal dan/atau waktu yang diformat dalam salah satu format ISO 8601. Misalnya, nilai-nilai berikut semuanya valid:

2016
2016-12-27
2016-12-27 14:20:51
16:20

Referensi

Pranala Menarik