Orange: Sieve Diagram
Sumber: https://docs.biolab.si//3/visual-programming/widgets/visualize/sievediagram.html
Plot sieve diagram untuk sepasang atribut.
Input
Data: input dataset
Sieve Diagram adalah metode grafis untuk memvisualisasikan frekuensi dalam tabel kontingensi dua arah dan membandingkannya dengan frekuensi yang diharapkan dengan asumsi independensi. Itu diusulkan oleh Riedwyl dan Schüpbach dalam laporan teknis pada tahun 1983 dan kemudian disebut parquet diagram (Riedwyl dan Schüpbach 1994). Dalam tampilan ini, luas setiap persegi panjang sebanding dengan frekuensi yang diharapkan, sedangkan frekuensi yang diamati ditunjukkan oleh jumlah kotak di setiap persegi panjang. Perbedaan antara frekuensi yang diamati dan frekuensi yang diharapkan (sebanding dengan standard Pearson residual) muncul sebagai density of shading, menggunakan warna untuk menunjukkan apakah penyimpangan dari independensi positif (biru) atau negatif (merah).
- Select the attributes you want to display in the sieve plot.
- Score combinations enables you to fin the best possible combination of attributes.
- Save Image saves the created image to your computer in a .svg or .png format.
- Produce a report.
Cuplikan di bawah ini menunjukkan sieve diagram untuk dataset Titanic dan memiliki atribut jenis kelamin dan survived (yang terakhir adalah atribut class dalam dataset ini). Plot menunjukkan bahwa kedua variabel sangat terkait, karena ada perbedaan besar antara frekuensi yang diamati dan yang diharapkan di keempat kuadran. Sebagai contoh, dan seperti yang disoroti dalam balon, peluang untuk selamat dari kecelakaan jauh lebih tinggi untuk penumpang wanita daripada yang diperkirakan (0,06 vs 0,15).
Pasangan atribut dengan asosiasi yang menarik memiliki strong shading, seperti diagram yang ditunjukkan pada foto di atas. Sebagai kontras, sieve diagram dari pasangan yang paling tidak menarik (usia vs bertahan hidup) ditunjukkan di bawah ini.
Contoh
Di bawah ini, kita melihat skema sederhana menggunakan dataset Titanic, di mana kita menggunakan Rank widget untuk memilih atribut terbaik (atribut dengan highest information gain, gain ratio atau Gini index) dan memasukkannya ke dalam Sieve Diagram. Ini menampilkan sieve plot untuk dua atribut terbaik, yang dalam kasus kita adalah jenis kelamin dan status. Kita melihat bahwa tingkat kelangsungan hidup di Titanic sangat tinggi untuk wanita dari kelas satu dan sangat rendah untuk crew wanita.
Sieve Diagram juga menampilkan opsi Kombinasi Skor, yang membuat peringkat atribut lebih mudah.
Referensi
Riedwyl, H., and Schüpbach, M. (1994). Parquet diagram to plot contingency tables. In Softstat ‘93: Advances in Statistical Software, F. Faulbaum (Ed.). New York: Gustav Fischer, 293-299.