Pendahuluan
Manusia telah “secara manual” mengekstrak pola dari data selama
berabad-abad, tetapi meningkatnya volume data yang di zaman modern telah
menyerukan pendekatan yang lebih otomatis. Metode awal untuk
mengidentifikasi pola-pola dalam data termasuk Bayes ‘teorema (1700) dan
Analisis Regresi (1800). Proliferasi, di mana-mana dan meningkatkan
kekuatan teknologi komputer telah meningkat pengumpulan data dan
penyimpanan. Seperti kumpulan data telah tumbuh dalam ukuran dan
kompleksitas, tangan langsung-analisis data telah semakin telah ditambah
dengan tidak langsung, pemrosesan data otomatis. Ini telah dibantu
oleh penemuan-penemuan lain dalam ilmu komputer, seperti jaringan
saraf, Clustering, Genetic algorithms (1950), Keputusan pohon (1960)
dan Dukungan mesin vektor (1980). Diperlukan sebuah metode sebagai
penerapan pengumpulan data yang dapat menampung, menganalisis secara
akurat data yang bagitu besar, metode tersebut hingga saat ini dikenal
sebagai Data Mining.
Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data
berupa pengetahuan yang selama ini tidak diketahui secara manual.
Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan
sedikit barang berharga dari sejumlah besar material dasar. Karena itu
DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent), machine learning, statistik
dan database. Data mining adalah proses menerapkan metode ini untuk
data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti
lain Data mining adalah proses untuk penggalian pola-pola dari data.
Data mining menjadi alat yang semakin penting untuk mengubah data
tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai
praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan
penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis,
ilmuwan dan pemerintah untuk menyaring volume data seperti catatan
perjalanan penumpang penerbangan, data sensus dan supermarket scanner
data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu
dalam analisis koleksi pengamatan perilaku. Data tersebut rentan
terhadap collinearity karena diketahui keterkaitan. Fakta yang tak
terelakkan data mining adalah bahwa subset/set data yang dianalisis
mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi
contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian
lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat
ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti
Choice Modelling untuk data yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol
untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining
dalam penerapannya antara lain: clustering, classification, association
rule mining, neural network, genetic algorithm dan lain-lain. Yang
membedakan persepsi terhadap Data Mining adalah perkembangan
teknik-teknik Data Mining untuk aplikasi 1 pada database skala besar.
Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat
dipakaiuntuk data skala kecil saja.
Proses Data Mining
Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat dibagi menjadi beberapa tahap:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.
Teknik Data Mining
Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan
assosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan
assosiatif dapat diketahui dengan dua parameter, support yaitu
persentase kombinasi item tsb. dalam database dan confidence yaitu
kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang
paling populer dikenal sebagai Apriori dengan paradigma generate and
test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar
aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat
support minimum. Kombinasi item yang memenuhi syarat tsb. disebut
frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang
memenuhi syarat confidence minimum. Algoritma baru yang lebih efisien
bernama FP-Tree.
2. Classification Classification adalah proses untuk menemukan model
atau fungsi yang menjelaskan atau membedakan konsep atau kelas data,
dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui. Model itu sendiri bisa berupa aturan
“jika-maka”, berupa decision tree, formula matematis atau neural
network. Decision tree adalah salah satu metode classification yang
paling populer karena mudah untuk
diinterpretasi oleh manusia. Disini setiap percabangan menyatakan
kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data.
Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir-
akhir ini telah dikembangkan algoritma yang mampu menangani data skala
besar yang tidak dapat ditampung di main memory seperti RainForest.
Metode-metode classification yang lain adalah Bayesian, neural network,
genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.
Proses classification biasanya dibagi menjadi dua fase : learning dan
test. Pada fase learning, sebagian data yang telah diketahui kelas
datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase
test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk
mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini
dapat dipakai untuk prediksi kelas data yang belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan classification dimana
kelas data telah ditentukan sebelumnya, clustering melakukan
penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan
clustering dapat dipakai untuk memberikan label pada kelas data yang
belum diketahui itu. Karena itu clustering sering digolongkan sebagai
metode unsupervised learning. Prinsip dari clustering adalah
memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan
kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan
memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur
kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam
atribut yang dimiliki data. Beberapa kategori algoritma clustering yang
banyak dikenal adalah metode partisi dimana pemakai harus menentukan
jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan
pada salah satu partisi, metode lain yang telah lama dikenal adalah
metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan
cluster kecil menjadi cluster lebih besar dan top-down yang memecah
cluster besar menjadi cluster yang lebih kecil.
Kelemahan 3 metode ini adalah bila bila salah satu
penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat
didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah
menggabungkan metode hierarki dengan metode clustering lainnya seperti
yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode
berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu
data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data
dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data
tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk
cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.
Implementasi (Penerapan)
Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining:
- Analisa pasar dan manajemen.
Solusi yang dapat diselesaikan dengan data mining, diantaranya:
Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu,
Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer,
Menilai loyalitas Customer, Informasi Summary.
- Analisa Perusahaan dan Manajemen resiko.
Solusi yang dapat diselesaikan dengan data mining, diantaranya:
Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya
(Resource Planning), Persaingan (Competition).
- Telekomunikasi.
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat
dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih
harus ditangani secara manual.
- Keuangan.
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini
menggunakan data mining untuk me-nambang trilyunan dari berbagai
subyek seperti property, rekening bank dan transaksi keuangan lainnya
untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan
(seperti money laundry) .
- Asuransi.
Australian Health Insurance Commision menggunakan data mining untuk
mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi
tetap dilakukan oleh peserta asuransi .
- Olahraga.
IBM Advanced Scout menggunakan data mining untuk menganalisis
statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam
rangka mencapai keunggulan bersaing (competitive advantage) untuk tim
New York Knicks dan Miami Heat.
- Astronomi.
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar
Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal
ini merupakan salah satu kesuksesan penerapan data mining di bidang
astronomi dan ilmu ruang angkasa.
- Internet Web surf-aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses
halaman Web khususnya yang berkaitan dengan pemasaran guna melihat
prilaku dan minat customer serta melihat ke- efektif-an pemasaran
melalui Web.
Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence perusahaan.
Pembangunan perangkat lunak data mining dengan metode clustering
menggunakan algoritma hirarki divisive untuk pengelompokan customer
dalam studi kasus ini, fungsi – fungsi yang dipakai adalah fungsi untuk
menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok
customer.
Kami juga mempunyai artikel yang terkait dengan algoritma hirarki divisive, bisa di download disini:
BalasHapushttp://repository.gunadarma.ac.id/bitstream/123456789/2425/1/03-02-005-Implementasi%5BArimbi%5D.pdf
semoga bermanfaat :D