Difference between revisions of "Orange: Scatter Plot"

From OnnoWiki
Jump to navigation Jump to search
 
(6 intermediate revisions by the same user not shown)
Line 1: Line 1:
 
Sumber: https://docs.biolab.si//3/visual-programming/widgets/visualize/scatterplot.html
 
Sumber: https://docs.biolab.si//3/visual-programming/widgets/visualize/scatterplot.html
  
Visualisasi Scatter plot dengan analisis eksploratif dan peningkatan visualisasi data yang pandai.
+
Visualisasi Scatter plot dengan kemampuan analisis eksploratif dan intelligent data visualization enhancements.
  
 
==Input==
 
==Input==
Line 35: Line 35:
 
* Produce a report.
 
* Produce a report.
  
For discrete attributes, jittering circumvents the overlap of points which have the same value for both axes, and therefore the density of points in the region corresponds better to the data. As an example, the scatter plot for the Titanic dataset, reporting on the gender of the passengers and the traveling class is shown below; without jittering, the scatter plot would display only eight distinct points.
+
Untuk atribut diskrit, jittering menghindari tumpang tindih titik yang memiliki nilai yang sama untuk kedua sumbu, dan karenanya kepadatan titik di wilayah tersebut lebih sesuai dengan data. Sebagai contoh, scatter plot untuk dataset Titanic, melaporkan jenis kelamin penumpang dan kelas ditunjukkan di bawah ini; tanpa jittering, scatter plot hanya akan menampilkan delapan titik berbeda.
  
 
[[File:Scatterplot-Titanic.png|center|200px|thumb]]
 
[[File:Scatterplot-Titanic.png|center|200px|thumb]]
  
Here is an example of the Scatter Plot widget if the Show class density and Show regression line boxes are ticked.
+
Berikut adalah contoh Scatter Plot widget jika Show class density dan Show regression line boxes di centang.
  
 
[[File:Scatterplot-ClassDensity.png|center|200px|thumb]]
 
[[File:Scatterplot-ClassDensity.png|center|200px|thumb]]
Line 45: Line 45:
 
==Intelligent Data Visualization==
 
==Intelligent Data Visualization==
  
If a dataset has many attributes, it is impossible to manually scan through all the pairs to find interesting or useful scatter plots. Orange implements intelligent data visualization with the Find Informative Projections option in the widget.
+
Jika dataset memiliki banyak atribut, tidak mungkin untuk men-scan secara manual semua pasangan untuk menemukan scatter plot yang menarik atau berguna. Orange mengimplementasikan intelligent data visualization dengan Find Informative Projections option di widget.
  
If a categorical variable is selected in the Color section, the score is computed as follows. For each data instance, the method finds 10 nearest neighbors in the projected 2D space, that is, on the combination of attribute pairs. It then checks how many of them have the same color. The total score of the projection is then the average number of same-colored neighbors.
+
Jika variabel kategori dipilih di Color section, skor dihitung sebagai berikut. Untuk setiap instance data, metode ini menemukan 10 nearest neighbor dalam ruang 2D yang diproyeksikan, yaitu pada kombinasi pasangan atribut. Itu kemudian memeriksa berapa banyak dari mereka memiliki warna yang sama. Skor total proyeksi kemudian adalah jumlah rata-rata neighbour yang berwarna sama.
  
Computation for continuous colors is similar, except that the coefficient of determination is used for measuring the local homogeneity of the projection.
+
Perhitungan untuk warna kontinu adalah serupa, kecuali bahwa koefisien determinasi digunakan untuk mengukur homogenitas lokal dari proyeksi.
  
To use this method, go to the Find Informative Projections option in the widget, open the subwindow and press Start Evaluation. The feature will return a list of attribute pairs by average classification accuracy score.
+
Untuk menggunakan metode ini, navigasi ke  Find Informative Projections option di widget, buka subwindow dan tekan Start Evaluation. Fitur ini akan mengembalikan daftar pasangan atribut dengan skor akurasi klasifikasi rata-rata.
  
Below, there is an example demonstrating the utility of ranking. The first scatter plot projection was set as the default sepal width to sepal length plot (we used the Iris dataset for simplicity). Upon running Find Informative Projections optimization, the scatter plot converted to a much better projection of petal width to petal length plot.
+
Di bawah ini, ada contoh yang menunjukkan utilitas peringkat. Proyeksi scatter plot pertama ditetapkan sebagai lebar sepal default untuk plot panjang sepal (kita menggunakan dataset Iris agar sederhana). Setelah menjalankan Find Informative Projections optimization, scatter plot dikonversi menjadi proyeksi yang lebih baik dari lebar kelopak ke plot panjang kelopak.
  
 
[[File:ScatterPlotExample-Ranking.png|center|200px|thumb]]
 
[[File:ScatterPlotExample-Ranking.png|center|200px|thumb]]
 
  
 
==Selection==
 
==Selection==
  
Selection can be used to manually defined subgroups in the data. Use Shift modifier when selecting data instances to put them into a new group. Shift + Ctrl (or Shift + Cmd on macOs) appends instances to the last group.
+
Selection dapat digunakan untuk menentukan subgroup yang ditentukan secara manual di data. Gunakan Shift modifier ketika memilih instance data untuk menempatkannya ke grup baru. Shift + Ctrl (atau Shift + Cmd di macOs) menambahkan instance ke grup terakhir.
  
Signal data outputs a data table with an additional column that contains group indices.
+
Signal data mengeluarkan data table dengan kolom tambahan yang berisi indeks grup.
  
 
[[File:ScatterPlot-selection.png|center|200px|thumb]]
 
[[File:ScatterPlot-selection.png|center|200px|thumb]]
Line 68: Line 67:
 
==Explorative Data Analysis==
 
==Explorative Data Analysis==
  
The Scatter Plot, as the rest of Orange widgets, supports zooming-in and out of part of the plot and a manual selection of data instances. These functions are available in the lower left corner of the widget.
+
Plot Scatter, seperti widget Orange lainnya, mendukung zoom-in dan out dari bagian plot dan pemilihan instance data secara manual. Fungsi-fungsi ini tersedia di sudut kiri bawah widget.
  
The default tool is Select, which selects data instances within the chosen rectangular area. Pan enables you to move the scatter plot around the pane. With Zoom you can zoom in and out of the pane with a mouse scroll, while Reset zoom resets the visualization to its optimal size. An example of a simple schema, where we selected data instances from a rectangular region and sent them to the Data Table widget, is shown below. Notice that the scatterplot doesn’t show all 52 data instances, because some data instances overlap (they have the same values for both attributes used).
+
Tool default adalah Select, yang memilih instance data dalam area persegi panjang yang dipilih. Pan memungkinkan kita untuk memindahkan scatter plot di sekitar pan. Dengan Zoom, kita dapat memperbesar dan memperkecil pan dengan menggerakan mouse, sementara Reset zoom mengatur ulang visualisasi ke ukuran optimal. Contoh skema sederhana, tempat kita memilih contoh data dari wilayah persegi panjang dan mengirimkannya ke Data Table widget, ditunjukkan di bawah ini. Perhatikan bahwa scatter plot tidak menampilkan semua 52 instance data, karena beberapa instance data tumpang tindih (mereka memiliki nilai yang sama untuk kedua atribut yang digunakan).
  
 
[[File:ScatterPlotExample-Explorative.png|center|200px|thumb]]
 
[[File:ScatterPlotExample-Explorative.png|center|200px|thumb]]
  
 +
==Contoh==
  
==Example==
+
Scatter Plot dapat dikombinasikan dengan widget apa pun yang menampilkan list data instance yang dipilih. Pada contoh di bawah ini, kita menggabungkan Tree dan Scatter Plot untuk menampilkan instance yang diambil dari decision tree node yang dipilih (klik sembarang node dari pohon akan mengirim satu set instance data yang dipilih ke scatterplot dan menandai instance yang dipilih dengan simbol yang diisi).
 
 
The Scatter Plot can be combined with any widget that outputs a list of selected data instances. In the example below, we combine Tree and Scatter Plot to display instances taken from a chosen decision tree node (clicking on any node of the tree will send a set of selected data instances to the scatterplot and mark selected instances with filled symbols).
 
  
 
[[File:ScatterPlotExample-Classification.png|center|200px|thumb]]
 
[[File:ScatterPlotExample-Classification.png|center|200px|thumb]]
 
  
 
==References==
 
==References==

Latest revision as of 05:59, 27 February 2020

Sumber: https://docs.biolab.si//3/visual-programming/widgets/visualize/scatterplot.html

Visualisasi Scatter plot dengan kemampuan analisis eksploratif dan intelligent data visualization enhancements.

Input

Data: input dataset
Data Subset: subset of instances
Features: list of attributes

Output

Selected Data: instances selected from the plot
Data: data with an additional column showing whether a point is selected

Scatter Plot widget menyediakan visualisasi scatter plot 2 dimensi untuk atribut yang kontinu dan bernilai diskrit. Data ditampilkan sebagai kumpulan titik, masing-masing memiliki nilai atribut sumbu x menentukan posisi pada sumbu horizontal dan nilai atribut sumbu y menentukan posisi pada sumbu vertikal. Berbagai properti grafik, seperti warna, ukuran dan bentuk titik, judul sumbu, ukuran titik maksimum, dan jittering dapat disesuaikan di sisi kiri widget. Snapshot di bawah ini menunjukkan scatter plot dataset Iris dengan matching warna atribut class.

Scatterplot-Iris-stamped.png


  • Select the x and y attribute. Optimize your projection by using Rank Projections. This feature scores attribute pairs by average classification accuracy and returns the top scoring pair with a simultaneous visualization update. Set jittering to prevent the dots overlapping. If Jitter continuous values is ticked, continuous instances will be dispersed.
  • Set the color of the displayed points (you will get colors for discrete values and grey-scale points for continuous). Set label, shape and size to differentiate between points. Set symbol size and opacity for all data points. Set the desired colors scale.
  • Adjust plot properties:
    • Show legend displays a legend on the right. Click and drag the legend to move it.
    • Show gridlines displays the grid behind the plot.
    • Show all data on mouse hover enables information bubbles if the cursor is placed on a dot.
    • Show class density colors the graph by class (see the screenshot below).
    • Show regression line draws the regression line for pair of continuous attributes.
    • Label only selected points allows you to select individual data instances and label them.
  • Select, zoom, pan and zoom to fit are the options for exploring the graph. The manual selection of data instances works as an angular/square selection tool. Double click to move the projection. Scroll in or out for zoom.
  • If Send automatically is ticked, changes are communicated automatically. Alternatively, press Send.
  • Save Image saves the created image to your computer in a .svg or .png format.
  • Produce a report.

Untuk atribut diskrit, jittering menghindari tumpang tindih titik yang memiliki nilai yang sama untuk kedua sumbu, dan karenanya kepadatan titik di wilayah tersebut lebih sesuai dengan data. Sebagai contoh, scatter plot untuk dataset Titanic, melaporkan jenis kelamin penumpang dan kelas ditunjukkan di bawah ini; tanpa jittering, scatter plot hanya akan menampilkan delapan titik berbeda.

Scatterplot-Titanic.png

Berikut adalah contoh Scatter Plot widget jika Show class density dan Show regression line boxes di centang.

Scatterplot-ClassDensity.png

Intelligent Data Visualization

Jika dataset memiliki banyak atribut, tidak mungkin untuk men-scan secara manual semua pasangan untuk menemukan scatter plot yang menarik atau berguna. Orange mengimplementasikan intelligent data visualization dengan Find Informative Projections option di widget.

Jika variabel kategori dipilih di Color section, skor dihitung sebagai berikut. Untuk setiap instance data, metode ini menemukan 10 nearest neighbor dalam ruang 2D yang diproyeksikan, yaitu pada kombinasi pasangan atribut. Itu kemudian memeriksa berapa banyak dari mereka memiliki warna yang sama. Skor total proyeksi kemudian adalah jumlah rata-rata neighbour yang berwarna sama.

Perhitungan untuk warna kontinu adalah serupa, kecuali bahwa koefisien determinasi digunakan untuk mengukur homogenitas lokal dari proyeksi.

Untuk menggunakan metode ini, navigasi ke Find Informative Projections option di widget, buka subwindow dan tekan Start Evaluation. Fitur ini akan mengembalikan daftar pasangan atribut dengan skor akurasi klasifikasi rata-rata.

Di bawah ini, ada contoh yang menunjukkan utilitas peringkat. Proyeksi scatter plot pertama ditetapkan sebagai lebar sepal default untuk plot panjang sepal (kita menggunakan dataset Iris agar sederhana). Setelah menjalankan Find Informative Projections optimization, scatter plot dikonversi menjadi proyeksi yang lebih baik dari lebar kelopak ke plot panjang kelopak.

ScatterPlotExample-Ranking.png

Selection

Selection dapat digunakan untuk menentukan subgroup yang ditentukan secara manual di data. Gunakan Shift modifier ketika memilih instance data untuk menempatkannya ke grup baru. Shift + Ctrl (atau Shift + Cmd di macOs) menambahkan instance ke grup terakhir.

Signal data mengeluarkan data table dengan kolom tambahan yang berisi indeks grup.

ScatterPlot-selection.png

Explorative Data Analysis

Plot Scatter, seperti widget Orange lainnya, mendukung zoom-in dan out dari bagian plot dan pemilihan instance data secara manual. Fungsi-fungsi ini tersedia di sudut kiri bawah widget.

Tool default adalah Select, yang memilih instance data dalam area persegi panjang yang dipilih. Pan memungkinkan kita untuk memindahkan scatter plot di sekitar pan. Dengan Zoom, kita dapat memperbesar dan memperkecil pan dengan menggerakan mouse, sementara Reset zoom mengatur ulang visualisasi ke ukuran optimal. Contoh skema sederhana, tempat kita memilih contoh data dari wilayah persegi panjang dan mengirimkannya ke Data Table widget, ditunjukkan di bawah ini. Perhatikan bahwa scatter plot tidak menampilkan semua 52 instance data, karena beberapa instance data tumpang tindih (mereka memiliki nilai yang sama untuk kedua atribut yang digunakan).

ScatterPlotExample-Explorative.png

Contoh

Scatter Plot dapat dikombinasikan dengan widget apa pun yang menampilkan list data instance yang dipilih. Pada contoh di bawah ini, kita menggabungkan Tree dan Scatter Plot untuk menampilkan instance yang diambil dari decision tree node yang dipilih (klik sembarang node dari pohon akan mengirim satu set instance data yang dipilih ke scatterplot dan menandai instance yang dipilih dengan simbol yang diisi).

ScatterPlotExample-Classification.png

References

Gregor Leban and Blaz Zupan and Gaj Vidmar and Ivan Bratko (2006) VizRank: Data Visualization Guided by Machine Learning. Data Mining and Knowledge Discovery, 13 (2). pp. 119-136. Available here.


Referensi

Pranala Menarik