ke3

Minggu, 29 Oktober 2017

Data Mining

Materi oleh Anne Regina Nancy Toar

Kali ini membahas tentang konsep data mining dan bagaimana proses data mining secara garis besar. Kita awali dengan membahas tentang definisi data mining.
Data mining dikenal juga dengan knowledge discovery in database, atau istilah yang sedang tren belakangan ini adalah data science. Ini adalah cabang ilmu yang membahas tentang pemrosesan data untuk mendapatkan tren atau pola yang bermanfaat dari kumpulan data. Tren atau pola yang bermanfaat ini sering disebut dengan informasi.
Perlu kita pahami dulu apa itu data, informasi dan pengetahuan.
-       Data adalah fakta, angka, atau hal/kejadian tanpa konteks dan bersifat objektif.
-       Informasi adalah data yang telah diorganisasikan/dikelola/diproses sehingga mempunyai arti.
-   Pengetahuan adalah campuran dari pengalaman, nilai, informasi, dan wawasan, yang merupakan kerangka untuk memahami pengalaman dan informasi baru serta untuk mengambil tindakan yang tepat pada situasi yang bervariasi dan tak pasti.

Ilustrasi tentang data, informasi dan pengetahuan dalam gambar di atas mudah-mudahan memperjelas dan memberikan gambaran bagaimana tingkatan data, informasi dan pengetahuan.
Dari mana kita peroleh data?
Dalam era big data sekarang ini data bisa diperoleh dari mana-mana dengan bentuk yang bermacam-macam. Tetapi kumpulan data tanpa pemrosesan belum memiliki arti, sehingga salah satu ilmuwan mengatakan, “Today, we are drowning in data and starved for information.”
Berdasarkan sumbernya, data dapat digolongkan menjadi 3:
1. Data yang dihasilkan oleh mesin
2. Data yang dihasilkan oleh masyarakat atau individu secara personal
3. Data yang dihasilkan dalam suatu organisasi

Sumber data terbesar adalah data yang dihasilkan oleh mesin. Contohnya antara lain data yang didapat dari sensor, gambar satelit, jaringan mobile phone, dll. Dalam satu kali penerbangan pesawat terbang misalnya, dihasilkan sekitar setengah terabyte data dari segala sensor dan peralatan yang ada pada pesawat. Belum lagi data yang dihasilkan oleh smart device, contoh yang sederhana misalnya sport tracker yang dapat mendeteksi detak jantung, jumlah langkah, berapa km jarak yang sudah ditempuh. Tinggal dikalikan saja jumlah smart device di dunia dan besar data yang dikumpulkan, akan didapat volume data yang warbyasah besarnya.
Sementara itu, perkembangan teknologi web dan sosial media juga mendorong individu untuk menyumbang data dalam jumlah yang cukup besar. Data harian dari facebook misalnya, dikatakan volumenya lebih besar daripada data perpustakaan di seluruh amerika. Belum data dari sosial media lainnya (twitter, IG, linkedIn, dll), wiki, blog, email, dokumen, video, audio.
Data yang dihasilkan oleh masyarakat atau individu tersebut memiliki format yang tidak terstruktur (unstructured data) yang menimbulkan tantangan sendiri untuk menganalisisnya. Kemudian jenis data yang ketiga, data dalam organisasi. Jenis data ini yang paling sering kita temui jika biasa berkecimpung di dunia database. Data dari organisasi umumnya bentuknya terstruktur, berada dalam basis data, tetapi  tidak terintegrasi (data silos). Contohnya antara lain, data transaksi keuangan, e-commerce, data medical records, data hrd organisasi, dll.

Mengapa “menambang” data?
Data yang begitu banyak yang sudah dijelaskan tadi, sebagian besar tidak pernah dianalisis sama sekali. Seringkali informasi tersembunyi didalam data dan sulit untuk dibuktikan keberadaannya.
Istilah “data mining” sendiri dipakai pertama kali oleh para ahli statistik.
Awalnya istilah tersebut dipakai dalam konotasi negatif, karena dianggap sebagai upaya ekstraksi informasi yang tidak didukung oleh data. Namun dengan kemajuan ilmu komputer dan machine learning, cabang ilmu data mining semakin berkembang. Bahkan kini perkembangan teknologi big data membuka peluang-peluang baru untuk melakukan analisis terhadap data dengan jumlah yang besar. Banyak contoh pengaplikasian data mining dalam kehidupan sehari-hari. Dalam dunia bisnis dan ekonomi, terutama dipakai untuk mengenali konsumen dan memprediksi perilaku konsumen.
Bagaimana kerangka kerja dalam data mining?
Tahapan dalam proses data mining adalah sbb:
1.  Mengenali masalah yang akan dipecahkan
2.  Memahami data
3.  Pra pemrosesan data
4.  Pemodelan data
5.  Evaluasi

Tahap pertama adalah mengenali masalah yang akan dipecahkan.
Contoh: kita ingin mengaplikasikan teknik data mining untuk meningkatkan kualitas produk. Sebagai langkah awal, kita harus mendefinisikan pertanyaan atau masalah. Dapat dimulai dari pertanyaan yang umum seperti, kenapa sangat banyak keluhan dari konsumen? Bagaimana cara meningkatkan margin laba per unit? Bagaimana cara mengantisipasi dan memperbaiki kekurangan manufaktur untuk menghindari pengiriman produk yang cacat?
Dari sana, pertanyaan-pertanyaan yang lebih spesifik dapat dirumuskan. Sampai akhirnya semakin mengerucut dan masalahnya semakin tajam dan memungkinkan kita untuk melanjutkan ke tahap berikutnya.

Tahap kedua adalah memahami data.
Dari masalah yang telah dirumuskan tadi, kita telusuri lebih lanjut
Variabel-variabel apa yang terkait dengan pemecahan masalah?
Variabel apa yang perlu dipakai?
Siapa yang memiliki data yang diperlukan?
Dari mana data itu berasal?
Bagaimana data disimpan?
Bagaimana kita bisa mendapatkan data tersebut?
Apakah ada sesuatu dalam data tersebut yang tidak kita pahami? dll, dst.
Setelah kita benar-benar bisa mengidentifikasi dan memahami aset data yang kita punya, baru kita bisa lanjut.

Tahap ketiga adalah pra pemrosesan data.
Pada dasarnya semua data dapat dimining. Namun perlu kita sadari bahwa data memiliki tipe dan format yang berbeda-beda sehingga berbeda pula penangannya. Sumber data tidak hanya terbatas pada data terstruktur yang berada dalam basis data saja. Seringkali justru dalam data yang tidak terstruktur terkandung informasi yang sangat kaya. Tahap pra pemrosesan data meliputi banyak aktifitas. Antara lain, pembersihan data dari anomali (outlier) atau data yang hilang. Memperbaiki format data yang tidak konsisten. Atau dalam text mining dikenal aktifitas tokenisasi, stemming, pembobotan, dll.
Perlu kita ingat bahwa tahap kedua dan ketiga ini sangat penting dalam proses data mining.
Input data sampah hanya akan menghasilkan output sampah juga. Data yang tidak akurat atau tidak lengkap bisa jadi lebih buruk daripada tidak ada data sama sekali, karena keputusan berdasarkan sebagian data atau data yang salah akan menghasilkan keputusan yang salah atau tidak menyeluruh.

Tahap keempat adalah pemodelan data.
Dalam tahap ini data set yang didapat dari tahap sebelumnya diinputkan ke dalam algoritma sesuai dengan masalah yang ingin kita pecahkan. Ada banyak tipe algoritma dalam data mining. Beberapa di antaranya: regresi, klasifikasi, clustering, association rule, decision tree, recommender system, anomaly detection.

Kemudian masuk tahap berikutnya, yaitu evaluasi
Salah satu jebakan dalam data mining adalah bahwa pola yang kita temukan belum tentu bermakna. Penyebabnya bisa jadi karena teknik yang dipakai salah atau memang tidak ada pola yang menarik dalam data. Evaluasi bisa dilakukan dengan sejumlah metode, baik matematis maupun logis. Selain itu juga seringkali diperlukan pendapat ahli untuk menarik kesimpulan yang barangkali tidak dapat diukur secara matematis, tetapi tetap diperlukan untuk menilai model atau pengetahuan yang dihasilkan.

#ask metode matematikA itu maksdnya gmna kak
Jawab:
Pakek rumus. Misal dalam proses klasifikasi
akurasi = jumlah data yang diklasifikasikan secara tepat dibagi (jumlah data yang diklasifikasikan tepat + data yang salah diklasifikasi)

#ask kalau maksudnya pola tidak bermakna itu seperti apa kak? kita bisa menyadarinya kalau pola salah?
Jawab:
Contohnya mungkin bisa dilihat pada kasus Google Flu Trend. Jadi Google sekitar tahun 2009 berusaha memprediksi kondisi terjadinya flu berdasarkan keyword pencarian terkait flu. Pada awalnya sepertinya ada korelasi antara keyword pencarian dengan jumlah penderita flu. Asumsinya orang yang kena flu akan googling mengenai flu, algoritmanya menghasilkan hasil yang cepat dibandingkan dengan prediksi yang dikeluarkan oleh lembaga resmi. Namun lama kelamaan hasil prediksi dari google tersebut melenceng sangat jauh. Lembaga resmi mengeluarkan prediksi berdasarkan data pasien dari dokter. Sementara sumber data google adalah keyword pencarian. Lah yang googling terkait flu kan belum tentu penderita flu

Buat yang ingin coba2 bermain dengan data mining, ini beberapa tools open source yang dapat digunakan untuk data mining antara lain: RapidMiner, KNIME, Orange, WEKA. RapidMiner dan KNIME yang paling mudah dipakai katanya sih.
👆tampilan awal rapidminer
tersedia tutorial yg lumayan gampang diikuti
Bisa diunduh dari https://rapidminer.com/
Silahkan bagi yang ingin mencoba
Kalau bahasa pemrograman yang biasa dipakai java atau python. Tetapi yang sedang banyak dipakai sekarang python dengan scikit learn.
https://docs.rapidminer.com/downloads/DataMiningForTheMasses.pdf

referensi yg bagus utk belajar data mining 👆
sekian, terima kasih telah mengunjungi blog saya.

Tidak ada komentar:

Posting Komentar

Metode Perancangan Basis Data

 Metode perancangan basis data secara umum dikelompokkan kedalam: 1. Preliminary Design 2. Scratching Methode 1. Preliminary Design, Cirinya...