Orange: Merge Data
Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/mergedata.html
Widget Merge Data menggabungkan dua dataset, berdasarkan nilai atribut yang dipilih.
Input
Data: input dataset Extra Data: additional dataset
Output
Data: dataset with features added from extra data
Widget Merge Data menggabungkan Data digunakan untuk menggabungkan dua dataset secara horizontal, berdasarkan nilai atribut yang dipilih (kolom). Dalam input widget Merge Data, diperlukan dua set data, data dan data ekstra. Baris dari dua set data dicocokkan dengan nilai pasangan atribut, yang dipilih oleh pengguna. Widget Merge Data menghasilkan satu output. Ini sesuai dengan instance dari input data yang atribut (kolom) dari input data tambahan ditambahkan.
Pada widget Merge Data, jika pasangan atribut yang dipilih tidak mengandung nilai unik (dengan kata lain, atribut memiliki nilai duplikat), widget Merge Data akan memberikan peringatan. Sebagai gantinya, seseorang dapat mencocokkan dengan lebih dari satu atribut. Klik pada ikon plus untuk menambahkan atribut untuk digabungkan. Hasil akhir harus merupakan kombinasi unik untuk setiap baris individual.
- Information on main data.
- Information on data to append.
- Merging type:
- Append columns from Extra Data outputs all rows from the Data, augmented by the columns in the Extra Data. Rows without matches are retained, even where the data in the extra columns are missing.
- Find matching pairs of rows outputs rows from the Data, augmented by the columns in the Extra Data. Rows without matches are removed from the output.
- Concatenate tables treats both data sources symmetrically. The output is similar to the first option, except that non-matched values from Extra Data are appended at the end.
- List of attributes from Data input.
- List of attributes from Extra Data input.
- Hasilkan Report.
Tipe Merging
Append Columns from Extra Data (left join)
Pada widget Merge Data, kolom dari Data Ekstra ditambahkan ke Data. Instance tanpa baris yang cocok akan memiliki nilai unknown yang ditambahkan.
Pada widget Merge Data, misalnya, tabel pertama mungkin berisi nama kota dan yang kedua adalah daftar kota dan koordinatnya. Kolom dengan koordinat kemudian akan ditambahkan ke data dengan nama kota. Jika nama kota tidak dapat dicocokkan, nilai unknown akan muncul.
Pada widget Merge Data, dalam contoh, input Data pertama berisi 6 kota, tetapi Data Ekstra tidak memberikan nilai Lat dan Lon untuk Bratislava, sehingga field tersebut akan kosong (unknown).
Find matching pairs of rows (inner join)
Pada widget Merge Data, hanya baris-baris yang cocok yang akan ada pada output, dengan kolom Data Tambahan ditambahkan. Baris yang tidak ada kecocokan akan dihapus.
Pada widget Merge Data, dalam contoh, Bratislava dari input Data tidak memiliki nilai Lat dan Lon, sedangkan Beograd dari Extra Data tidak dapat ditemukan di kolom Kota yang kita gabungkan. Karenanya kedua instance dihapus - hanya intersection instance yang dikirim ke output.
Concatenate tables (outer join)
Pada widget Merge Data, baris dari Data dan Data Ekstra akan ditampilkan pada output. Menggunakan opsi Concatenate tables (outer join), maka jika baris tidak dapat dicocokkan, nilai unknown akan muncul.
Pada widget Merge Data, menggunakan opsi Concatenate tables (outer join) dalam contoh kita, baik Bratislava dan Belgrade sekarang hadir. Bratislava akan kehilangan nilai Lat dan Lon, sementara Belgrade akan memiliki nilai Populasi unknown.
Row index
Pada widget Merge Data, data akan digabungkan dalam urutan yang sama seperti yang muncul di tabel. Baris nomor 1 dari input Data akan bergabung dengan nomor baris 1 dari input Data Tambahan. Nomor baris ditetapkan oleh Orange berdasarkan urutan asli dari instance data.
Instance ID
Penggunaan Instance ID adalah pilihan yang lebih kompleks saat penggunaan widget Merge Data. Terkadang, data dalam ditransformasikan dalam analisis dan domain tidak lagi sama. Namun demikian, index baris asli masih ada di latar belakang (Orange mengingatnya). Dalam hal ini seseorang dapat menggabungkan instance ID. Misalnya jika anda mengubah data dengan widget PCA, memvisualisasikannya di widget Scatter Plot, memilih beberapa contoh data dan sekarang anda ingin melihat informasi asli dari subset yang dipilih. Hubungkan output widget Scatter Plot ke widget Merge Data, tambahkan data asli yang ditetapkan sebagai Data Ekstra dan bergabung dengan Instance ID.
Merge dengan dua atau lebih atribute
Pada widget Merge Data, terkadang instance data kita unik sehubungan dengan kombinasi kolom, bukan kolom tunggal. Untuk menggabungkan lebih dari satu kolom, tambahkan kondisi pencocokan baris dengan menekan plus (+) di samping kondisi yang cocok. Untuk menghapusnya, tekan (x).
Pada widget Merge Data, dalam contoh di bawah ini, kita menggabungkan kolom siswa dan kolom kelas.
Pada widget Merge Data, katakanlah kita memiliki dua set data dengan nama siswa dan kelas tempat mereka. Set data pertama memiliki nilai siswa dan yang kedua pada kursus elektif yang mereka pilih. Sayangnya, ada dua nama Jack di data kita, satu dari kelas A dan yang lain dari kelas B. Sama untuk nama Jane.
Pada widget Merge Data, untuk membedakan keduanya, kita dapat mencocokkan baris pada keduanya, nama siswa dan kelasnya.
Contoh
Menggabungkan dua kumpulan data menghasilkan penambahan atribut baru ke file asli, berdasarkan pada atribut umum yang dipilih. Dalam contoh di bawah ini, kita ingin menggabungkan file zoo.tab yang hanya berisi data faktual dengan zoo-with-images.tab yang berisi gambar. Kedua file berbagi nama atribut string yang umum. Sekarang, kami membuat workflow yang menghubungkan dua file. Data zoo.tab terhubung ke Data input dari widget Merge Data, dan data zoo-with-images.tab ke Extra Data input. Output dari widget Merge Data kemudian terhubung ke widget Data Table. Dalam yang terakhir, saluran widget Merged Data ditampilkan, di mana atribut gambar ditambahkan ke data original.
Kasus di mana kami ingin menyertakan semua instance dalam output, bahkan yang tidak ditemukan kecocokan dengan nama atribut, ditunjukkan dalam workflow berikut.
Jenis penggabungan ketiga ditunjukkan dalam workflow berikutnya. Output terdiri dari kedua input, dengan nilai yang tidak diketahui akan ditetapkan saat di mana tidak ada kecocokan ditemukan.