Aplikasi dan Etika dalam Data Mining

Marketing dan Bisnis 

Pada suatu perusahaan, banyak proses bisnis dari hulu sampai hilir yang perlu didesain secara serius untuk mendapatkan benefit dan/atau profit yang maksimal dengan biaya pengeluaran yang seminimal mungkin. 

Misalkan, proses pemilihan vendor dan rekan bisnis yang paling baik, model promosi yang efektif dan tepat sasaran, proses mendeteksi kecurangan pelanggan sehingga perusahaan tidak mengalami kerugian besar, sistem CRM (customer relationship management) yang handal, dan banyak lagi 

yang lain. Berikut ini beberapa contoh aplikasi data mining dalam bidang marketing dan bisnis secara luas: 

Market Basket Analysis 

Market basket analysis (analisis keranjang belanja) atau yang dikenal dengan association rule (aturan asosiasi) adalah salah satu konsep menarik dalam data mining yang berusaha menemukan asosiasi atau keterkaitan data. 

Diberi nama market basket analysis karena pada awal ditemukannya, konsep ini berkaitan dengan barang-barang yang berada di dalam keranjang belanjaan yang secara langsung menunjukkan tingkah laku konsumen saat berbelanja. 

Misalkan, 90 dari 100 konsumen yang membeli margarin, ternyata mereka juga membeli tepung. Hal ini berarti asosiasi antara margarin dan tepung sangatlah kuat, misalnya dinyatakan dalam ukuran prosentase sebesar 90%. 

Konsep ini bisa digunakan untuk tujuan yang baik bagi pedagang maupun pelanggan, seperti menempatkan barang-barang yang memiliki asosiasi kuat di tempat yang berdekatan sehingga pelanggan lebih mudah menemukannya. 

Misalkan, margarin, tepung, dan gula diletakkan di posisi yang sangat berdekatan karena ketiganya memiliki asosiasi kuat. Tetapi, konsep ini bisa disalahgunakan untuk mencari keuntungan maksimal dan bahkan bisa membuat pelanggan merasa dirugikan. Misalkan, membuat promosi berupa potongan harga untuk barang A, tetapi diam-diam menaikkan harga untuk barang B yang memiliki asosiasi sangat kuat dengan barang A. 

Masalah ini pernah muncul pada tahun 2001. Menjelang hari lebaran, ada seorang yang berbelanja bahan-bahan membuat kue di sebuah supermarket besar yang menawarkan potongan harga (diskon) hingga 30% untuk produk margarin. 

Tertarik dengan harga margarin yang sangat murah dan berasumsi bahwa harga barang-barang lainnya pasti murah, dia membeli tepung dalam jumlah banyak. Keesokan harinya, dia pergi ke supermarket lain yang tidak menawarkan potongan harga. Dia terkejut 

ketika mengetahui harga tepung di situ 604 lebih murah daripada di supermarket pertama. Setelah dikalkulasi, total harga margarin dan tepung secara keseluruhan lebih murah di supermarket yang tidak menawarkan potongan harga. Dia merasa terkecoh. 

Beberapa bulan kemudian dia baru tahu bahwa teknik penjualan dengan potongan harga pada supermarket pertama itu ternyata menggunakan konsep market basket analysis atau association rule. 

Secara hukum, jual beli seperti di atas adalah sah karena konsumen dianggap sudah melihat dan merasa cocok dengan label harga barang yang tertera. 

Pihak supermarket tentu saja merasa tidak bersalah dan justru menyalahkan konsumen yang tidak bersikap kritis dan teliti. Di sisi supermarket, promosi yang dibuat adalah sebuah strategi untuk mendapatkan keuntungan. 

Namun, di sisi konsumen, promosi yang dibuat supermarket tersebut bisa membuat mereka merasa terkecoh dan merasa dirugikan. Bagaimanapun, promosi yang jujur seperti “Margarin diskon 30% sedangkan tepung naik 40”% apakah mungkin dilakukan? Tentu saja tidak. Jadi, yang sebaiknya dilakukan konsumen adalah bersikap kritis, teliti, dan bijak dalam menilai segala bentuk promosi. 

Recommender System 

Ketika perusahaan harus memilih satu vendor atau rekan bisnis di antara banyak pilihan yang tersedia, diperlukan usaha dan biaya cukup besar untuk melakukan proses ini. Masalah ini bisa diselesaikan dengan mudah menggunakan recommender system (sistem perekomendasi). 

Sistem ini bisa dibangun menggunakan teknik perangkingan yang pada dasarnya menggunakan teknik klasifikasi atau klasterisasi. 

Hal lainnya dalah masalah pemilihan pegawai berdasarkan historinya. Misalkan, lulusan universitas mana yang seringkali menunjukkan performansi bagus. Sehingga perusahaan bisa memfokuskan rekrutasi dari lulusan sejumlah universitas tertentu saja. 

Churn Prediction 

Suatu perusahaan telekomunikasi seluler dengan jumlah pelanggan yang mencapai 100 juta orang perlu memprediksi pelanggan mana yang loyal dan tidak loyal sehingga bisa menentukan promosi yang tepat sasaran kepada setiap kategori pelanggan. 

Misalkan, jika terdapat 60% pelanggan yang diprediksi termasuk kategori tidak loyal dan mungkin berpindah (churn) ke operator lain, maka perusahaan ini bisa membuat promosi yang lebih menarik dan tepat supaya tidak kehilangan sangat  banyak pelanggan. 

Promosi bisa difokuskan hanya untuk kategori pelanggan tersebut saja tanpa perlu promosi untuk kategori pelanggan yang loyal. Dengan demikian, biaya promosi bisa ditekan. Hal yang sama juga bisa dilakukan untuk perusahaan lain yang bergerak dalam bisnis apapun. 

Lebih luas lagi, masalah ini digunakan untuk membangun sistem optimasi untuk CRM yang lebih lengkap dan menyeluruh. Sistem prediksi churn ini bisa dibangun menggunakan teknik klasifikasi atau klasterisasi. 

Fraud Detection 

Perusahaan telekomunikasi yang memiliki ratusan juta pelanggan akan menghasilkan baisdata sangat besar. Dari sekian ratus juta pelanggan, mungkin saja terdapat sejumlah kecil pelanggan yang melakukan kecurangan. 

Misalnya, tagihan telepon pelanggan pascabayar biasanya di kisaran ratusan ribu rupiah per bulan dan dibayar secara lancar. Tetapi, beberapa bulan terakhir tagihannya mencapai puluhan juta rupiah per bulan. Pembayaran mulai tersendat, dan akhirnya tidak lagi membayar, sehingga perusahaan dirugikan. 

Mengingat jumlah pelanggan yang mencapai jutaan, sulit dideteksi pola tagihan pelanggan mana yang berpotensi melakukan kecurangan seperti di atas. Tetapi, dengan teknik data mining, masalah ini bisa diselesaikan dengan mudah yaitu dengan membangun fraud detection (pendeteksi kecurangan). Sistem ini bisa dibangun menggunakan teknik anomaly detection. 

Sains dan Teknik Data Mining

Saat ini, dunia sains dan teknik sangat banyak menggunakan teknik data mining untuk menyelesaikan permasalahan yang sangat kompleks, seperti genetika, medis, teknik elektro, dan sebagainya. 

Pada ilmu biologi, suatu masalah yang sangat dikenal adalah pencocokan susunan genetika manusia yang disebut dengan dioxiribo nucleic acid (DNA). Suatu teknik yang disebut seguence mining bisa membantu kita memahami pemetaan hubungan darah antar manusia. 

Metode data mining yang bisa digunakan adalah multifactor dimensionality reduction (Zhu et al. 2007). 

Data mining juga digunakan pada bidang teknik tenaga listrik. Beberapa masalah yang bisa diselesaikan adalah bagaimana memonitor kondisi peralatan listrik tegangan tinggi, bagaimana memprediksi kebutuhan daya per hari, per minggu atau per bulan sehingga daya listrik yang diproduksi bisa sesuai dengan kebutuhan (Suyanto 2008).

Selama ini, sistem prediksi beban listrik per jam yang berhasil dibuat memiliki rata-rata galat atau tingkat kesalahan Cukup besar, di atas 10%. Jika galat ini bisa direduksi hingga di bawah 1%, maka perusahaan listrik bisa menghemat ribuan atau bahkan jutaan mega watt daya yang selama ini terbuang percuma karena biaya penyimpanan listrik ke dalam baterai memang sangat mahal. Teknik data mining yang bisa digunakan adalah klasterisasi dan prediksi. 

Seni dan Hiburan Data Mining


Pada bidang seni musik, kita bisa membuat sistem klasifikasi yang secara otomatis mengelompokkan ribuan atau bahkan jutaan lagu ke dalam sejumlah genre musik. Hal ini bisa menghemat waktu dan biaya. 

Etika dalam Data Mining 

Data mining bisa memberikan dampak negatif maupun positif bergantung pada penggunaannya. Jika tidak memperhatikan etika penggunaan data, khususnya yang berhubungan dengan data pribadi pelanggan, maka data mining bisa berdampak negatif. 

Misalkan, klasterisasi pelanggan berdasarkan suku bangsa, agama, ras, golongan, usia, maupun gender bisa berujung pada masalah diskriminasi dan bisa merugikan suatu kelompok tertentu. Tetapi, ketika data mining digunakan untuk masalah medis yang harus membedakan gender atau usia tertentu, maka hal ini justru berefek positif. 

Misalkan, ada suatu jenis penyakit yang peluangnya lebih besar diderita oleh kaum wanita atau oleh kelompok usia tertentu, maka sudah seharusnya pihak medis melakukan penanganan secara berbeda. 

Masalah etika yang lain adalah mengenai pemakaian data pengguna, seperti Facebook misalnya. Berdasarkan data-data pengguna di Indonesia yang saat ini mencapai puluhan juta orang, Facebook bisa melakukan penggalian data untuk mendapatkan banyak informasi dan pengetahuan mengenai masyarakat Indonesia. 

Produk seperti apa yang disukai, bagaimana kebiasaan dan tingkah lakunya, kapan masyarakat Indonesia beraktivitas, dan banyak lagi lainnya yang bisa digunakan oleh berbagai perusahaan untuk membuat produk yang paling sesuai bagi masyakarat Indonesia. 

Berbeda dengan Indonesia yang memberikan kebebasan sangat luas, Cina justru melarang Facebook sejak Juli 2009 (Winoto 2009). Mengapa Cina melarang 350 juta pengguna internet di negerinya untuk mengakses Facebook? Dua alasan yang teramat penting adalah yang berhubungan dengan isu politik dan ekonomi. 

Facebook bisa digunakan oleh rakyat Cina untuk menyebarkan informasi yang berlawanan dengan pemerintah sehingga hal ini bisa menyebabkan ketidak-stabilan politik. 

Sedangkan secara ekonomi, data pengguna bisa digali lebih jauh untuk mengetahui lebih banyak tentang tingkah laku dan kebiasaan rakyat Cina yang bisa dimanfaatkan bangsa lain untuk membuat produk yang sesuai bagi rakyat Cina. 

Pelarangan Facebook ini jelas akan melindungi produk lokal Cina secara kuat agar tidak kalah oleh produk asing. Sebagai gantinya, pemerintah Cina membuat media sosial yang diberi nama Sina Weibo yang digunakan oleh lebih dari 200 juta rakyat Cina. 

Sina Weibo dikontrol dengan sangat ketat. Pengguna tidak boleh memakai nama samaran ketika membuat akun agar pemerintah mudah mengontrol semua aktivitasnya demi menjaga stabilitas politik dan kesejahteraan ekonomi rakyatnya. 

Pemerintah Cina tetap konsisten dengan kebijakan ini meski banyak komplain dari pihak asing yang berlindung di balik alasan kebebasan informasi, padahal pihak asing itu memiliki memiliki kepentingan ekonomi yang sangat besar jika bisa memasukkan produk ke Cina yang memiliki lebih dari satu milyar penduduk. 

Berbeda dengan dua masalah sebelumnya, pembatasan informasi yang dilakukan Google juga mendapatkan sorotan tajam mengenai etika jurnalistik. 

Google menggunakan apa yang disebut “filter bubble” untuk memberikan informasi secara terbatas bergantung data personal pengguna (Pariser 2012), (Silverstein 2011). 

Pada pidatonya di acara TED (Pariser 2011), Eli Pariser mencontohkan bagaimana Google memberikan hasil berbeda untuk kata kunci “Egypt” yang dilakukan oleh dua orang pengguna. Untuk pengguna bernama Scott, dua dari lima hasil pencarian tertinggi menunjukkan cerita tentang protes warga Mesir (Egyptian). 

Sementara itu, untuk pengguna kedua yang bernama Daniel, tidak ada satupun dari lima hasil tertingginya yang memberikan cerita tentang protes warga Mesir, tetapi malah memberikan cerita perjalanan (traveling) ke Mesir. 

Ilustrasi di atas menunjukkan bahwa Google memberikan informasi bergantung data personal pengguna yang dipelajari menggunakan teknik data mining. 

Google melakukan “filter bubble” yang disesuaikan dengan preferensi pengguna sehingga pengguna tidak mendapatkan kesempatan untuk mendapatkan informasi baru yang lebih luas. 

Google menggunakan teknik data mining yang memungkinnya menemukan sejumlah klaster pengguna secara cepat dan mudah sehingga bisa melakukan personalisasi hasil pencarian yang sesuai dengan klaster pengguna.

Hal ini membuat google mendapatkan keuntungan sangat besar dari eksploitasi data pengguna untuk kepentingan politik maupun ├ękonomi pihak atau kelompok tertentu.p