Data Mining

From OnnoWiki
Jump to navigation Jump to search

Data Mining adalah proses menemukan pola dalam kumpulan data besar yang melibatkan metode yang terkait machine learning, statistik, dan sistem basis data. Data mining adalah sub-bidang ilmu komputer interdisipliner dengan tujuan keseluruhan untuk mengekstrak informasi (dengan metode cerdas) dari satu set data dan mengubah informasi menjadi struktur yang dapat dipahami untuk digunakan lebih lanjut. Data Mining adalah langkah analisis proses "Knowledge Discovery in databases", atau KDD. Selain dari langkah analisis data mentah, itu juga melibatkan aspek database dan manajemen data, pra-pemrosesan data, model dan pertimbangan inferensi, konsiderasi metrik, pertimbangan kompleksitas, pasca-pemrosesan struktur yang ditemukan, visualisasi, dan pembaruan online

Istilah "data mining" pada kenyataannya keliru, karena tujuannya adalah ekstraksi pola dan pengetahuan dari sejumlah besar data, bukan ekstraksi (penambangan) data itu sendiri. Ini juga merupakan kata kunci dan sering diterapkan pada segala bentuk data skala besar atau pemrosesan informasi (pengumpulan, ekstraksi, warehousing, analisis, dan statistik) serta aplikasi sistem pendukung keputusan komputer, termasuk kecerdasan buatan (misalnya, machine learning) dan intelijen bisnis. Pegangan praktis data mining tool dan teknik pembelajaran mesin dengan Java (yang mencakup sebagian besar materi pembelajaran mesin) pada awalnya diberi nama hanya Practical Machine Learning, dan istilah data mining hanya ditambahkan untuk alasan pemasaran. Seringkali istilah yang lebih umum (skala besar) analisis data dan analitik - atau, ketika mengacu pada metode yang sebenarnya, kecerdasan buatan dan pembelajaran mesin - lebih tepat.

Tugas data mining yang sebenarnya adalah analisis semi-otomatis atau otomatis sejumlah besar data untuk mengekstrak pola yang tidak diketahui sebelumnya yang menarik seperti kelompok catatan data (analisis kluster), catatan tidak biasa (deteksi anomali), dan dependensi (penambangan aturan asosiasi) penambangan pola berurutan). Ini biasanya melibatkan penggunaan teknik basis data seperti indeks spasial. Pola-pola ini kemudian dapat dilihat sebagai semacam rangkuman data input, dan dapat digunakan dalam analisis lebih lanjut atau, misalnya, dalam pembelajaran mesin dan analisis prediktif. Sebagai contoh, langkah penambangan data mungkin mengidentifikasi beberapa kelompok dalam data, yang kemudian dapat digunakan untuk memperoleh hasil prediksi yang lebih akurat oleh sistem pendukung keputusan. Baik pengumpulan data, persiapan data, maupun interpretasi hasil dan pelaporan merupakan bagian dari langkah penambangan data, tetapi menjadi bagian dari keseluruhan proses KDD sebagai langkah tambahan.


Data Mining Disederhanakan

DataMining-overview.jpeg

Gambaran yang lebih sederhana bisa dilihat di gambar di atas.


Metoda Data Mining Secara Umum

Metoda Contoh Algoritma Penggunaan
Estimasi (Estimate) Regresi Liniear Estimasi Waktu pengiriman Pizza
Prediksi (Prediction) Neural Network Time Series (seperti prediksi harga saham)
Klasifikasi (Classification) C4.5, Spanning Tree Prediksi Kelulusan Mahasiswa
Klastering (Clustering) k-means Clustering bunga Iris
Asosiasi (Association) FP-Growth Penawaran Barang di situs e-commerce saat kita sudah mengklik sebuah barang.


Pranala Menarik