Data Mining
Data Mining adalah proses menemukan pola dalam kumpulan data besar yang melibatkan metode yang terkait machine learning, statistik, dan sistem basis data. Data mining adalah sub-bidang ilmu komputer interdisipliner dengan tujuan keseluruhan untuk mengekstrak informasi (dengan metode cerdas) dari satu set data dan mengubah informasi menjadi struktur yang dapat dipahami untuk digunakan lebih lanjut. Data Mining adalah langkah analisis proses "Knowledge Discovery in databases", atau KDD. Selain dari langkah analisis data mentah, itu juga melibatkan aspek database dan manajemen data, pra-pemrosesan data, model dan pertimbangan inferensi, konsiderasi metrik, pertimbangan kompleksitas, pasca-pemrosesan struktur yang ditemukan, visualisasi, dan pembaruan online
Istilah "data mining" pada kenyataannya keliru, karena tujuannya adalah ekstraksi pola dan pengetahuan dari sejumlah besar data, bukan ekstraksi (penambangan) data itu sendiri. Ini juga merupakan kata kunci dan sering diterapkan pada segala bentuk data skala besar atau pemrosesan informasi (pengumpulan, ekstraksi, warehousing, analisis, dan statistik) serta aplikasi sistem pendukung keputusan komputer, termasuk kecerdasan buatan (misalnya, machine learning) dan intelijen bisnis. Pegangan praktis data mining tool dan teknik pembelajaran mesin dengan Java (yang mencakup sebagian besar materi pembelajaran mesin) pada awalnya diberi nama hanya Practical Machine Learning, dan istilah data mining hanya ditambahkan untuk alasan pemasaran. Seringkali istilah yang lebih umum (skala besar) analisis data dan analitik - atau, ketika mengacu pada metode yang sebenarnya, kecerdasan buatan dan pembelajaran mesin - lebih tepat.
Tugas data mining yang sebenarnya adalah analisis semi-otomatis atau otomatis sejumlah besar data untuk mengekstrak pola yang tidak diketahui sebelumnya yang menarik seperti kelompok catatan data (analisis kluster), catatan tidak biasa (deteksi anomali), dan dependensi (penambangan aturan asosiasi) penambangan pola berurutan). Ini biasanya melibatkan penggunaan teknik basis data seperti indeks spasial. Pola-pola ini kemudian dapat dilihat sebagai semacam rangkuman data input, dan dapat digunakan dalam analisis lebih lanjut atau, misalnya, dalam pembelajaran mesin dan analisis prediktif. Sebagai contoh, langkah penambangan data mungkin mengidentifikasi beberapa kelompok dalam data, yang kemudian dapat digunakan untuk memperoleh hasil prediksi yang lebih akurat oleh sistem pendukung keputusan. Baik pengumpulan data, persiapan data, maupun interpretasi hasil dan pelaporan merupakan bagian dari langkah penambangan data, tetapi menjadi bagian dari keseluruhan proses KDD sebagai langkah tambahan.