Pengertian Data Mining

Pengertian Data Mining, Apa itu Data Mining? 

Banyaknya cara pandang dan pengetahuan yang berbeda membuat para ahli memberikan definisi berbeda tentang Data Mining. Sebagian ahli menyatakan bahwa Data Mining adalah langkah analisis terhadap proses penemuan pengetahuan di dalam basis data atau knowledge discovery in databases yang disingkat KDD (Fayyad et al. 1996). Pengetahuan bisa berupa pola data atau relasi antar data yang valid (yang tidak diketahui sebelumnya). 

Data Mining merupakan gabungan sejumlah disiplin ilmu komputer (ACM 2006), (Clifton 2010), yang didefinisikan sebagai proses penemuan pola-pola baru dari kumpulan-kumpulan data sangat besar, meliputi metode-metode yang  merupakan irisan dari artificial intelligence, machine learning, statistics, dan database systems (ACM 2006). 

Data Mining ditujukan untuk mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat dimengerti manusia serta meliputi basisdata dan managemen data, prapemrosesan data, pertimbangan model dan inferensi, ukuran ketertarikan, pertimbangan kompleksitas, pascapemrosesan terhadap struktur yang ditemukan, visualisasi, dan online updating (ACM 2006). 

Mengapa Perlu Data Mining? 

Beberapa tahun terakhir, data semakin heterogen dan kompleks dengan volume yang meningkat cepat secara eksponensial. dilansir dari web newgensapps.com bahwa :

"the accumulated volume of big data will increase from 4.4 zettabytes to roughly 44 zettabytes or 44 trillion GB. Originally, data scientists maintained that the volume of data would double every two years thus reaching the 40 ZB point by 2020" 

Oleh karena itu, saat ini dikenal istilah big data , yang menggambarkan volume data sangat besar, terstruktur maupun tidak terstruktur, yang membanjiri dunia bisnis. Big data dapat dianalisis sehingga perusahaan dapat mengambil keputusan-keputusan strategis bisnis dengan lebih baik. 

Dalam big data, tentu saja Anda akan kesulitan membaca dan mengetahui pola-pola dan relasi-relasi data jika dilakukan secara manual atau konvensional. Sebagai contoh, suatu perusahaan operator seluler dengan ratusan juta pelanggan, dalam setahun bisa menghasilkan miliaran data penggunaan komunikasi suara, SMS, dan internet. Dari miliaran data tersebut, bagaimana menemukan pola-pola pelanggan dalam menggunakan komunikasi suara, SMS, dan internet? 

Pola tersebut bisa dilihat dalam suatu periode tertentu, misalnya bulan, minggu, hari, bahkan jam. Bagaimana klasifikasi/segmentasi pelanggan? Bagaimana relasi antara komunikasi suara, SMS, dan internet? Bagaimana pola komunikasi antara pelanggan seluler di suatu operator dengan pelanggan operator lain? Semua pertanyaan tersebut tentu saja sulit dijawab jika analisis data dilakukan secara konvensional. 

Penambangan data adalah teknik yang relatif cepat dan mudah  untuk menemukan pengetahuan, pola dan/atau relasi antar data, secara matis. Dengan menggabungkan empat disiplin ilmu komputer seperti  pada definisi di atas, pengetahuan bisa ditemukan dalam lima proses berurutan: seleksi, prapemrosesan, transformasi, data mining, dan  interpretasi/evaluasi (Fayyad et al. 1996). 

Kegunaan Data Mining 

Secara umum, kegunaan data mining dapat dibagi menjadi dua: deskriptif dan prediktif. Deskriptif berarti data mining digunakan untuk mencari polapola yang dapat dipahami manusia yang menjelaskan karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan prediksi. 

Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokkan ke dalam enam kelompok berikut ini (Fayyad et al. 1996): Klasifikasi (classificationi): men-generalisasi struktur yang diketahui untuk diaplikasikan pada data-data baru. Misalkan, klasifikasi penyakit ke dalam sejumlah jenis, klasifikasi email ke dalam spam atau bukan. Klasterisasi (clustering): mengelompokkan data, yang tidak diketahui label kelasnya, ke dalam sejumlah kelompok tertentu sesuai dengan  ukuran kemiripannya. Regresi (regression ): menemukan suatu fungsi yang memodelkan data  dengan galat (kesalahan prediksi) seminimal mungkin. 

Deteksi anomali (anomaly detection): mengidentifikasi data yang tidak umum, bisa berupa outlier (pencilan), perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut. 

Demikian Pengertian Data Mining semoga bermanfaat.

LihatTutupKomentar