Difference between revisions of "Orange: Merge Data"

From OnnoWiki
Jump to navigation Jump to search
 
(20 intermediate revisions by the same user not shown)
Line 1: Line 1:
 
Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/mergedata.html
 
Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/mergedata.html
  
 +
Widget Merge Data menggabungkan dua dataset, berdasarkan nilai atribut yang dipilih.
  
Merges two datasets, based on values of selected attributes.
+
==Input==
  
Inputs
+
Data: input dataset
 +
Extra Data: additional dataset
  
    Data: input dataset
+
==Output==
  
    Extra Data: additional dataset
+
Data: dataset with features added from extra data
  
Outputs
+
Widget Merge Data menggabungkan Data digunakan untuk menggabungkan dua dataset secara horizontal, berdasarkan nilai atribut yang dipilih (kolom). Dalam input widget Merge Data, diperlukan dua set data, data dan data ekstra. Baris dari dua set data dicocokkan dengan nilai pasangan atribut, yang dipilih oleh pengguna. Widget Merge Data menghasilkan satu output. Ini sesuai dengan instance dari input data yang atribut (kolom) dari input data tambahan ditambahkan.
  
    Data: dataset with features added from extra data
+
Pada widget Merge Data, jika pasangan atribut yang dipilih tidak mengandung nilai unik (dengan kata lain, atribut memiliki nilai duplikat), widget Merge Data akan memberikan peringatan. Sebagai gantinya, seseorang dapat mencocokkan dengan lebih dari satu atribut. Klik pada ikon plus untuk menambahkan atribut untuk digabungkan. Hasil akhir harus merupakan kombinasi unik untuk setiap baris individual.
  
The Merge Data widget is used to horizontally merge two datasets, based on the values of selected attributes (columns). In the input, two datasets are required, data and extra data. Rows from the two data sets are matched by the values of pairs of attributes, chosen by the user. The widget produces one output. It corresponds to the instances from the input data to which attributes (columns) from input extra data are appended.
+
[[File:Merge-Data-stamped.png|center|400px|thumb]]
  
If the selected attribute pair does not contain unique values (in other words, the attributes have duplicate values), the widget will give a warning. Instead, one can match by more than one attribute. Click on the plus icon to add the attribute to merge on. The final result has to be a unique combination for each individual row.
+
* Information on main data.
 +
* Information on data to append.
 +
* Merging type:
 +
** Append columns from Extra Data outputs all rows from the Data, augmented by the columns in the Extra Data. Rows without matches are retained, even where the data in the extra columns are missing.
 +
** Find matching pairs of rows outputs rows from the Data, augmented by the columns in the Extra Data. Rows without matches are removed from the output.
 +
** Concatenate tables treats both data sources symmetrically. The output is similar to the first option, except that non-matched values from Extra Data are appended at the end.
 +
* List of attributes from Data input.
 +
* List of attributes from Extra Data input.
 +
* Hasilkan Report.
  
[[File:Merge-Data-stamped.png|center|200px|thumb]]
+
==Tipe Merging==
 
 
    Information on main data.
 
    Information on data to append.
 
 
 
    Merging type:
 
 
 
        Append columns from Extra Data outputs all rows from the Data, augmented by the columns in the Extra Data. Rows without matches are retained, even where the data in the extra columns are missing.
 
        Find matching pairs of rows outputs rows from the Data, augmented by the columns in the Extra Data. Rows without matches are removed from the output.
 
        Concatenate tables treats both data sources symmetrically. The output is similar to the first option, except that non-matched values from Extra Data are appended at the end.
 
 
 
    List of attributes from Data input.
 
    List of attributes from Extra Data input.
 
    Produce a report.
 
 
 
==Merging Types==
 
  
 
===Append Columns from Extra Data (left join)===
 
===Append Columns from Extra Data (left join)===
  
Columns from the Extra Data are added to the Data. Instances with no matching rows will have missing values added.
+
Pada widget Merge Data, kolom dari Data Ekstra ditambahkan ke Data. Instance tanpa baris yang cocok akan memiliki nilai unknown yang ditambahkan.
  
For example, the first table may contain city names and the second would be a list of cities and their coordinates. Columns with coordinates would then be appended to the data with city names. Where city names cannot be matched, missing values will appear.
+
Pada widget Merge Data, misalnya, tabel pertama mungkin berisi nama kota dan yang kedua adalah daftar kota dan koordinatnya. Kolom dengan koordinat kemudian akan ditambahkan ke data dengan nama kota. Jika nama kota tidak dapat dicocokkan, nilai unknown akan muncul.
  
In our example, the first Data input contained 6 cities, but the Extra Data did not provide Lat and Lon values for Bratislava, so the fields will be empty.
+
Pada widget Merge Data, dalam contoh, input Data pertama berisi 6 kota, tetapi Data Ekstra tidak memberikan nilai Lat dan Lon untuk Bratislava, sehingga field tersebut akan kosong (unknown).
  
[[File:MergeData Append.png|center|200px|thumb]]
+
[[File:MergeData Append.png|center|400px|thumb]]
  
 
===Find matching pairs of rows (inner join)===
 
===Find matching pairs of rows (inner join)===
  
Only those rows that are matched will be present on the output, with the Extra Data columns appended. Rows without matches are removed.
+
Pada widget Merge Data, hanya baris-baris yang cocok yang akan ada pada output, dengan kolom Data Tambahan ditambahkan. Baris yang tidak ada kecocokan akan dihapus.
  
In our example, Bratislava from the Data input did not have Lat and Lon values, while Belgrade from the Extra Data could not be found in the City column we were merging on. Hence both instances are remove - only the intersection of instances is sent to the output.
+
Pada widget Merge Data, dalam contoh, Bratislava dari input Data tidak memiliki nilai Lat dan Lon, sedangkan Beograd dari Extra Data tidak dapat ditemukan di kolom Kota yang kita gabungkan. Karenanya kedua instance dihapus - hanya intersection instance yang dikirim ke output.
  
[[File:MergeData Intersection.png|center|200px|thumb]]
+
[[File:MergeData Intersection.png|center|400px|thumb]]
  
 
===Concatenate tables (outer join)===
 
===Concatenate tables (outer join)===
  
The rows from both the Data and the Extra Data will be present on the output. Where rows cannot be matched, missing values will appear.
+
Pada widget Merge Data, baris dari Data dan Data Ekstra akan ditampilkan pada output. Menggunakan opsi Concatenate tables (outer join), maka jika baris tidak dapat dicocokkan, nilai unknown akan muncul.
  
In our example, both Bratislava and Belgrade are now present. Bratislava will have missing Lat and Lon values, while Belgrade will have a missing Population value.
+
Pada widget Merge Data, menggunakan opsi Concatenate tables (outer join) dalam contoh kita, baik Bratislava dan Belgrade sekarang hadir. Bratislava akan kehilangan nilai Lat dan Lon, sementara Belgrade akan memiliki nilai Populasi unknown.
 
 
[[File:MergeData Concatenate.png|center|200px|thumb]]
 
  
 +
[[File:MergeData Concatenate.png|center|400px|thumb]]
  
 
===Row index===
 
===Row index===
  
Data will be merged in the same order as they appear in the table. Row number 1 from the Data input will be joined with row number 1 from the Extra Data input. Row numbers are assigned by Orange based on the original order of the data instances.
+
Pada widget Merge Data, data akan digabungkan dalam urutan yang sama seperti yang muncul di tabel. Baris nomor 1 dari input Data akan bergabung dengan nomor baris 1 dari input Data Tambahan. Nomor baris ditetapkan oleh Orange berdasarkan urutan asli dari instance data.
  
 
===Instance ID===
 
===Instance ID===
  
This is a more complex option. Sometimes, data in transformed in the analysis and the domain is no longer the same. Nevertheless, the original row indices are still present in the background (Orange remembers them). In this case one can merge on instance ID. For example if you transformed the data with PCA, visualized it in the Scatter Plot, selected some data instances and now you wish to see the original information of the selected subset. Connect the output of Scatter Plot to Merge Data, add the original data set as Extra Data and merge by Instance ID.
+
Penggunaan Instance ID adalah pilihan yang lebih kompleks saat penggunaan widget Merge Data. Terkadang, data dalam ditransformasikan dalam analisis dan domain tidak lagi sama. Namun demikian, index baris asli masih ada di latar belakang (Orange mengingatnya). Dalam hal ini seseorang dapat menggabungkan instance ID. Misalnya jika anda mengubah data dengan widget PCA, memvisualisasikannya di widget Scatter Plot, memilih beberapa contoh data dan sekarang anda ingin melihat informasi asli dari subset yang dipilih. Hubungkan output widget Scatter Plot ke widget Merge Data, tambahkan data asli yang ditetapkan sebagai Data Ekstra dan bergabung dengan Instance ID.
  
[[File:MergeData-InstanceID.png|center|200px|thumb]]
+
[[File:MergeData-InstanceID.png|center|400px|thumb]]
  
===Merge by two or more attributes===
+
===Merge dengan dua atau lebih atribute===
  
Sometimes our data instances are unique with respect to a combination of columns, not a single column. To merge by more than a single column, add the Row matching condition by pressing plus next to the matching condition. To remove it, press the x.
+
Pada widget Merge Data, terkadang instance data kita unik sehubungan dengan kombinasi kolom, bukan kolom tunggal. Untuk menggabungkan lebih dari satu kolom, tambahkan kondisi pencocokan baris dengan menekan plus (+) di samping kondisi yang cocok. Untuk menghapusnya, tekan (x).
  
In the below example, we are merging by student column and class column.
+
Pada widget Merge Data, dalam contoh di bawah ini, kita menggabungkan kolom siswa dan kolom kelas.
  
[[File:MergeData-multiple.png|center|200px|thumb]]
+
[[File:MergeData-multiple.png|center|400px|thumb]]
  
Say we have two data sets with student names and the class they’re in. The first data set has students’ grades and the second on the elective course they have chosen. Unfortunately, there are two Jacks in our data, one from class A and the other from class B. Same for Jane.
+
Pada widget Merge Data, katakanlah kita memiliki dua set data dengan nama siswa dan kelas tempat mereka. Set data pertama memiliki nilai siswa dan yang kedua pada kursus elektif yang mereka pilih. Sayangnya, ada dua nama Jack di data kita, satu dari kelas A dan yang lain dari kelas B. Sama untuk nama Jane.
  
To distinguish between the two, we can match rows on both, the student’s name and her class.
+
Pada widget Merge Data, untuk membedakan keduanya, kita dapat mencocokkan baris pada keduanya, nama siswa dan kelasnya.
 
 
[[File:MergeData-multiple2.png|center|200px|thumb]]
 
  
 +
[[File:MergeData-multiple2.png|center|400px|thumb]]
  
 
==Contoh==
 
==Contoh==
  
Merging two datasets results in appending new attributes to the original file, based on a selected common attribute. In the example below, we wanted to merge the zoo.tab file containing only factual data with zoo-with-images.tab containing images. Both files share a common string attribute names. Now, we create a workflow connecting the two files. The zoo.tab data is connected to Data input of the Merge Data widget, and the zoo-with-images.tab data to the Extra Data input. Outputs of the Merge Data widget is then connected to the Data Table widget. In the latter, the Merged Data channels are shown, where image attributes are added to the original data.
+
Menggabungkan dua kumpulan data menghasilkan penambahan atribut baru ke file asli, berdasarkan pada atribut umum yang dipilih. Dalam contoh di bawah ini, kita ingin menggabungkan file zoo.tab yang hanya berisi data faktual dengan zoo-with-images.tab yang berisi gambar. Kedua file berbagi nama atribut string yang umum. Sekarang, kami membuat workflow yang menghubungkan dua file. Data zoo.tab terhubung ke Data input dari widget Merge Data, dan data zoo-with-images.tab ke Extra Data input. Output dari widget Merge Data kemudian terhubung ke widget Data Table. Dalam yang terakhir, saluran widget Merged Data ditampilkan, di mana atribut gambar ditambahkan ke data original.
 
 
[[File:MergeData-Example.png|center|200px|thumb]]
 
 
 
The case where we want to include all instances in the output, even those where no match by attribute names was found, is shown in the following workflow.
 
 
 
[[File:MergeData-Example2.png|center|200px|thumb]]
 
 
 
The third type of merging is shown in the next workflow. The output consists of both inputs, with unknown values assigned where no match was found.
 
 
 
[[File:MergeData-Example3.png|center|200px|thumb]]
 
 
 
  
 +
[[File:MergeData-Example.png|center|600px|thumb]]
  
 +
Kasus di mana kami ingin menyertakan semua instance dalam output, bahkan yang tidak ditemukan kecocokan dengan nama atribut, ditunjukkan dalam workflow berikut.
  
 +
[[File:MergeData-Example2.png|center|600px|thumb]]
  
 +
Jenis penggabungan ketiga ditunjukkan dalam workflow berikutnya. Output terdiri dari kedua input, dengan nilai yang tidak diketahui akan ditetapkan saat di mana tidak ada kecocokan ditemukan.
  
 +
[[File:MergeData-Example3.png|center|600px|thumb]]
  
 
==Referensi==
 
==Referensi==

Latest revision as of 13:19, 18 April 2020

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/mergedata.html

Widget Merge Data menggabungkan dua dataset, berdasarkan nilai atribut yang dipilih.

Input

Data: input dataset
Extra Data: additional dataset

Output

Data: dataset with features added from extra data

Widget Merge Data menggabungkan Data digunakan untuk menggabungkan dua dataset secara horizontal, berdasarkan nilai atribut yang dipilih (kolom). Dalam input widget Merge Data, diperlukan dua set data, data dan data ekstra. Baris dari dua set data dicocokkan dengan nilai pasangan atribut, yang dipilih oleh pengguna. Widget Merge Data menghasilkan satu output. Ini sesuai dengan instance dari input data yang atribut (kolom) dari input data tambahan ditambahkan.

Pada widget Merge Data, jika pasangan atribut yang dipilih tidak mengandung nilai unik (dengan kata lain, atribut memiliki nilai duplikat), widget Merge Data akan memberikan peringatan. Sebagai gantinya, seseorang dapat mencocokkan dengan lebih dari satu atribut. Klik pada ikon plus untuk menambahkan atribut untuk digabungkan. Hasil akhir harus merupakan kombinasi unik untuk setiap baris individual.

Merge-Data-stamped.png
  • Information on main data.
  • Information on data to append.
  • Merging type:
    • Append columns from Extra Data outputs all rows from the Data, augmented by the columns in the Extra Data. Rows without matches are retained, even where the data in the extra columns are missing.
    • Find matching pairs of rows outputs rows from the Data, augmented by the columns in the Extra Data. Rows without matches are removed from the output.
    • Concatenate tables treats both data sources symmetrically. The output is similar to the first option, except that non-matched values from Extra Data are appended at the end.
  • List of attributes from Data input.
  • List of attributes from Extra Data input.
  • Hasilkan Report.

Tipe Merging

Append Columns from Extra Data (left join)

Pada widget Merge Data, kolom dari Data Ekstra ditambahkan ke Data. Instance tanpa baris yang cocok akan memiliki nilai unknown yang ditambahkan.

Pada widget Merge Data, misalnya, tabel pertama mungkin berisi nama kota dan yang kedua adalah daftar kota dan koordinatnya. Kolom dengan koordinat kemudian akan ditambahkan ke data dengan nama kota. Jika nama kota tidak dapat dicocokkan, nilai unknown akan muncul.

Pada widget Merge Data, dalam contoh, input Data pertama berisi 6 kota, tetapi Data Ekstra tidak memberikan nilai Lat dan Lon untuk Bratislava, sehingga field tersebut akan kosong (unknown).

MergeData Append.png

Find matching pairs of rows (inner join)

Pada widget Merge Data, hanya baris-baris yang cocok yang akan ada pada output, dengan kolom Data Tambahan ditambahkan. Baris yang tidak ada kecocokan akan dihapus.

Pada widget Merge Data, dalam contoh, Bratislava dari input Data tidak memiliki nilai Lat dan Lon, sedangkan Beograd dari Extra Data tidak dapat ditemukan di kolom Kota yang kita gabungkan. Karenanya kedua instance dihapus - hanya intersection instance yang dikirim ke output.

MergeData Intersection.png

Concatenate tables (outer join)

Pada widget Merge Data, baris dari Data dan Data Ekstra akan ditampilkan pada output. Menggunakan opsi Concatenate tables (outer join), maka jika baris tidak dapat dicocokkan, nilai unknown akan muncul.

Pada widget Merge Data, menggunakan opsi Concatenate tables (outer join) dalam contoh kita, baik Bratislava dan Belgrade sekarang hadir. Bratislava akan kehilangan nilai Lat dan Lon, sementara Belgrade akan memiliki nilai Populasi unknown.

MergeData Concatenate.png

Row index

Pada widget Merge Data, data akan digabungkan dalam urutan yang sama seperti yang muncul di tabel. Baris nomor 1 dari input Data akan bergabung dengan nomor baris 1 dari input Data Tambahan. Nomor baris ditetapkan oleh Orange berdasarkan urutan asli dari instance data.

Instance ID

Penggunaan Instance ID adalah pilihan yang lebih kompleks saat penggunaan widget Merge Data. Terkadang, data dalam ditransformasikan dalam analisis dan domain tidak lagi sama. Namun demikian, index baris asli masih ada di latar belakang (Orange mengingatnya). Dalam hal ini seseorang dapat menggabungkan instance ID. Misalnya jika anda mengubah data dengan widget PCA, memvisualisasikannya di widget Scatter Plot, memilih beberapa contoh data dan sekarang anda ingin melihat informasi asli dari subset yang dipilih. Hubungkan output widget Scatter Plot ke widget Merge Data, tambahkan data asli yang ditetapkan sebagai Data Ekstra dan bergabung dengan Instance ID.

MergeData-InstanceID.png

Merge dengan dua atau lebih atribute

Pada widget Merge Data, terkadang instance data kita unik sehubungan dengan kombinasi kolom, bukan kolom tunggal. Untuk menggabungkan lebih dari satu kolom, tambahkan kondisi pencocokan baris dengan menekan plus (+) di samping kondisi yang cocok. Untuk menghapusnya, tekan (x).

Pada widget Merge Data, dalam contoh di bawah ini, kita menggabungkan kolom siswa dan kolom kelas.

MergeData-multiple.png

Pada widget Merge Data, katakanlah kita memiliki dua set data dengan nama siswa dan kelas tempat mereka. Set data pertama memiliki nilai siswa dan yang kedua pada kursus elektif yang mereka pilih. Sayangnya, ada dua nama Jack di data kita, satu dari kelas A dan yang lain dari kelas B. Sama untuk nama Jane.

Pada widget Merge Data, untuk membedakan keduanya, kita dapat mencocokkan baris pada keduanya, nama siswa dan kelasnya.

MergeData-multiple2.png

Contoh

Menggabungkan dua kumpulan data menghasilkan penambahan atribut baru ke file asli, berdasarkan pada atribut umum yang dipilih. Dalam contoh di bawah ini, kita ingin menggabungkan file zoo.tab yang hanya berisi data faktual dengan zoo-with-images.tab yang berisi gambar. Kedua file berbagi nama atribut string yang umum. Sekarang, kami membuat workflow yang menghubungkan dua file. Data zoo.tab terhubung ke Data input dari widget Merge Data, dan data zoo-with-images.tab ke Extra Data input. Output dari widget Merge Data kemudian terhubung ke widget Data Table. Dalam yang terakhir, saluran widget Merged Data ditampilkan, di mana atribut gambar ditambahkan ke data original.

MergeData-Example.png

Kasus di mana kami ingin menyertakan semua instance dalam output, bahkan yang tidak ditemukan kecocokan dengan nama atribut, ditunjukkan dalam workflow berikut.

MergeData-Example2.png

Jenis penggabungan ketiga ditunjukkan dalam workflow berikutnya. Output terdiri dari kedua input, dengan nilai yang tidak diketahui akan ditetapkan saat di mana tidak ada kecocokan ditemukan.

MergeData-Example3.png

Referensi

Pranala Menarik