Materi oleh Anne Regina Nancy Toar
Kali ini membahas tentang konsep data
mining dan bagaimana proses data mining secara garis besar. Kita awali dengan
membahas tentang definisi data mining.
Data mining dikenal juga dengan
knowledge discovery in database, atau istilah yang sedang tren belakangan ini
adalah data science. Ini adalah cabang ilmu yang membahas tentang pemrosesan
data untuk mendapatkan tren atau pola yang bermanfaat dari kumpulan data. Tren
atau pola yang bermanfaat ini sering disebut dengan informasi.
Perlu kita pahami dulu apa itu data,
informasi dan pengetahuan.
- Data adalah fakta, angka, atau
hal/kejadian tanpa konteks dan bersifat objektif.
- Informasi adalah data yang telah
diorganisasikan/dikelola/diproses sehingga mempunyai arti.
- Pengetahuan adalah campuran dari
pengalaman, nilai, informasi, dan wawasan, yang merupakan kerangka untuk
memahami pengalaman dan informasi baru serta untuk mengambil tindakan yang
tepat pada situasi yang bervariasi dan tak pasti.
Ilustrasi tentang data, informasi dan
pengetahuan dalam gambar di atas mudah-mudahan memperjelas dan memberikan
gambaran bagaimana tingkatan data, informasi dan pengetahuan.
Dari mana kita peroleh data?
Dalam era big data sekarang ini data
bisa diperoleh dari mana-mana dengan bentuk yang bermacam-macam. Tetapi
kumpulan data tanpa pemrosesan belum memiliki arti, sehingga salah satu ilmuwan
mengatakan, “Today, we are drowning in data and starved for information.”
Berdasarkan sumbernya, data dapat
digolongkan menjadi 3:
1. Data yang dihasilkan oleh mesin
2. Data yang dihasilkan oleh masyarakat
atau individu secara personal
3. Data yang dihasilkan dalam suatu
organisasi
Sumber data terbesar adalah data yang
dihasilkan oleh mesin. Contohnya antara lain data yang didapat dari sensor,
gambar satelit, jaringan mobile phone, dll. Dalam satu kali penerbangan pesawat
terbang misalnya, dihasilkan sekitar setengah terabyte data dari segala sensor
dan peralatan yang ada pada pesawat. Belum lagi data yang dihasilkan oleh smart
device, contoh yang sederhana misalnya sport tracker yang dapat mendeteksi
detak jantung, jumlah langkah, berapa km jarak yang sudah ditempuh. Tinggal
dikalikan saja jumlah smart device di dunia dan besar data yang dikumpulkan,
akan didapat volume data yang warbyasah besarnya.
Sementara itu, perkembangan teknologi
web dan sosial media juga mendorong individu untuk menyumbang data dalam jumlah
yang cukup besar. Data harian dari facebook misalnya, dikatakan volumenya lebih
besar daripada data perpustakaan di seluruh amerika. Belum data dari sosial media
lainnya (twitter, IG, linkedIn, dll), wiki, blog, email, dokumen, video, audio.
Data yang dihasilkan oleh masyarakat
atau individu tersebut memiliki format yang tidak terstruktur (unstructured
data) yang menimbulkan tantangan sendiri untuk menganalisisnya. Kemudian jenis
data yang ketiga, data dalam organisasi. Jenis data ini yang paling sering kita
temui jika biasa berkecimpung di dunia database. Data dari organisasi umumnya
bentuknya terstruktur, berada dalam basis data, tetapi tidak terintegrasi (data silos). Contohnya
antara lain, data transaksi keuangan, e-commerce, data medical records, data
hrd organisasi, dll.
Mengapa “menambang” data?
Data yang begitu banyak yang sudah
dijelaskan tadi, sebagian besar tidak pernah dianalisis sama sekali. Seringkali
informasi tersembunyi didalam data dan sulit untuk dibuktikan keberadaannya.
Istilah “data mining” sendiri dipakai
pertama kali oleh para ahli statistik.
Awalnya istilah tersebut dipakai dalam
konotasi negatif, karena dianggap sebagai upaya ekstraksi informasi yang tidak
didukung oleh data. Namun dengan kemajuan ilmu komputer dan machine learning,
cabang ilmu data mining semakin berkembang. Bahkan kini perkembangan teknologi
big data membuka peluang-peluang baru untuk melakukan analisis terhadap data
dengan jumlah yang besar. Banyak contoh pengaplikasian data mining dalam
kehidupan sehari-hari. Dalam dunia bisnis dan ekonomi, terutama dipakai untuk
mengenali konsumen dan memprediksi perilaku konsumen.
Bagaimana kerangka kerja dalam data
mining?
Tahapan dalam proses data mining adalah
sbb:
1.
Mengenali masalah yang akan dipecahkan
2.
Memahami data
3.
Pra pemrosesan data
4.
Pemodelan data
5.
Evaluasi
Tahap pertama adalah mengenali masalah
yang akan dipecahkan.
Contoh: kita ingin mengaplikasikan
teknik data mining untuk meningkatkan kualitas produk. Sebagai langkah awal,
kita harus mendefinisikan pertanyaan atau masalah. Dapat dimulai dari
pertanyaan yang umum seperti, kenapa sangat banyak keluhan dari konsumen?
Bagaimana cara meningkatkan margin laba per unit? Bagaimana cara mengantisipasi
dan memperbaiki kekurangan manufaktur untuk menghindari pengiriman produk yang
cacat?
Dari sana, pertanyaan-pertanyaan yang
lebih spesifik dapat dirumuskan. Sampai akhirnya semakin mengerucut dan
masalahnya semakin tajam dan memungkinkan kita untuk melanjutkan ke tahap
berikutnya.
Tahap kedua adalah memahami data.
Dari masalah yang telah dirumuskan tadi,
kita telusuri lebih lanjut
Variabel-variabel apa yang terkait dengan
pemecahan masalah?
Variabel apa yang perlu dipakai?
Siapa yang memiliki data yang
diperlukan?
Dari mana data itu berasal?
Bagaimana data disimpan?
Bagaimana kita bisa mendapatkan data
tersebut?
Apakah ada sesuatu dalam data tersebut
yang tidak kita pahami? dll, dst.
Setelah kita benar-benar bisa
mengidentifikasi dan memahami aset data yang kita punya, baru kita bisa lanjut.
Tahap ketiga adalah pra pemrosesan data.
Pada dasarnya semua data dapat dimining.
Namun perlu kita sadari bahwa data memiliki tipe dan format yang berbeda-beda
sehingga berbeda pula penangannya. Sumber data tidak hanya terbatas pada data
terstruktur yang berada dalam basis data saja. Seringkali justru dalam data
yang tidak terstruktur terkandung informasi yang sangat kaya. Tahap pra
pemrosesan data meliputi banyak aktifitas. Antara lain, pembersihan data dari
anomali (outlier) atau data yang hilang. Memperbaiki format data yang tidak
konsisten. Atau dalam text mining dikenal aktifitas tokenisasi, stemming,
pembobotan, dll.
Perlu kita ingat bahwa tahap kedua dan
ketiga ini sangat penting dalam proses data mining.
Input data sampah hanya akan
menghasilkan output sampah juga. Data yang tidak akurat atau tidak lengkap bisa
jadi lebih buruk daripada tidak ada data sama sekali, karena keputusan
berdasarkan sebagian data atau data yang salah akan menghasilkan keputusan yang
salah atau tidak menyeluruh.
Tahap keempat adalah pemodelan data.
Dalam tahap ini data set yang didapat
dari tahap sebelumnya diinputkan ke dalam algoritma sesuai dengan masalah yang
ingin kita pecahkan. Ada banyak tipe algoritma dalam data mining. Beberapa di
antaranya: regresi, klasifikasi, clustering, association rule, decision tree,
recommender system, anomaly detection.
Kemudian masuk tahap berikutnya, yaitu evaluasi
Salah satu jebakan dalam data mining
adalah bahwa pola yang kita temukan belum tentu bermakna. Penyebabnya bisa jadi
karena teknik yang dipakai salah atau memang tidak ada pola yang menarik dalam
data. Evaluasi bisa dilakukan dengan sejumlah metode, baik matematis maupun
logis. Selain itu juga seringkali diperlukan pendapat ahli untuk menarik
kesimpulan yang barangkali tidak dapat diukur secara matematis, tetapi tetap
diperlukan untuk menilai model atau pengetahuan yang dihasilkan.
#ask metode matematikA itu maksdnya gmna
kak
Jawab:
Pakek rumus. Misal dalam proses
klasifikasi
akurasi = jumlah data yang
diklasifikasikan secara tepat dibagi (jumlah data yang diklasifikasikan tepat +
data yang salah diklasifikasi)
#ask kalau maksudnya pola tidak bermakna
itu seperti apa kak? kita bisa menyadarinya kalau pola salah?
Jawab:
Contohnya mungkin bisa dilihat pada
kasus Google Flu Trend. Jadi Google sekitar tahun 2009 berusaha memprediksi
kondisi terjadinya flu berdasarkan keyword pencarian terkait flu. Pada awalnya
sepertinya ada korelasi antara keyword pencarian dengan jumlah penderita flu. Asumsinya
orang yang kena flu akan googling mengenai flu, algoritmanya menghasilkan hasil
yang cepat dibandingkan dengan prediksi yang dikeluarkan oleh lembaga resmi. Namun
lama kelamaan hasil prediksi dari google tersebut melenceng sangat jauh. Lembaga
resmi mengeluarkan prediksi berdasarkan data pasien dari dokter. Sementara
sumber data google adalah keyword pencarian. Lah yang googling terkait flu kan
belum tentu penderita flu
Buat yang ingin coba2 bermain dengan
data mining, ini beberapa tools open source yang dapat digunakan untuk data
mining antara lain: RapidMiner, KNIME, Orange, WEKA. RapidMiner dan KNIME yang
paling mudah dipakai katanya sih.
👆tampilan
awal rapidminer
tersedia tutorial yg lumayan gampang
diikuti
Bisa diunduh dari
https://rapidminer.com/
Silahkan bagi yang ingin mencoba
Kalau bahasa pemrograman yang biasa
dipakai java atau python. Tetapi yang sedang banyak dipakai sekarang python
dengan scikit learn.
https://docs.rapidminer.com/downloads/DataMiningForTheMasses.pdf
referensi yg bagus utk belajar data
mining 👆
sekian, terima kasih telah mengunjungi blog saya.