Lompat ke konten Lompat ke sidebar Lompat ke footer

Permasalahan Dalam Data Mining

Pengertian data Mining

Data mining yaitu proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.

Permasalahan Pada Data Mining

Sistem data mining berdasar pada basis data yang menyediakan data mentah dan ini memunculkan permasalahan dalam basis data yang cenderung dinamis, tidak lengkap, ber-noise dan besar. Permasalahan lain muncul sebagai akhir dari kecukupan dan relevansi dari warta yang disimpan.

Sumber Gambar: ilmuskripi.com

Basis data seringkali didesain untuk tujuan yang berbeda dari data mining dan kadangkala properti atau atribut yang akan menyederhanakan pekerjaan pembelajaran tidak tersedia atau tidak sanggup dimintai dari dunia nyata. Data yang tidak meyakinkan menjadikan permasalahan alasannya yaitu bila ada atribut-atribut esensial bagi pengetahuan ihwal domain aplikasi tidak ada dalam data tidak memungkinkan untuk menemukan pengetahuan yang sempurna mengenai domain yang diberikan.Sebagai contoh, kita tidak sanggup mendiagnosa malaria dari basis data pasien bila basis data tersebut tidak mengandung jumlah sel darah merah pasien.

Baca Juga: Model dan Struktur Data Warehouse pada Data Mining

Basis data biasanya dicemari oleh error sedemikian sampai tidak sanggup diasumsikan bahwa data secara keseluruhan benar.Atribut-'atribut yang ada pada subyek atau pertimbangan ukuran sanggup memunculkan kesalahan (error) sedemikian sampai beberapa teladan mungkin menjadi mis-klasifikasi.Error dalam salah satu nilai atribut atau warta kelas dikenal sebagai noise. Secara nyata'ada kemungkinan kita perlu sekali untuk menghilangkan noise dari warta pembagian terstruktur mengenai ketika hal ini mempengaruhi akurasi hukum yang dibangkitkan secara keseluruhan.

Data yang hilang sanggup dibenahi dengan Sistem inovasi dalam aneka macam cara, ibarat :
  1. Secara sederhana dengan mengabaikan nilai-nilai yang hilang.
  2. Menghilangkan record yang berhubungan.
  3. Menebak nilai yang hilang dari nilai-nilai yang diketahui.
  4. Memperlakukan data .yang hilang sebagai sebuah nilai khusus yang dimasukkan sebagai aksesori dalam domain atribut. .
  5. Atau menghitung rata-rata nilai yang hilang memakai teknik Bayesian.
Data yang mengandung noise dalam pengertian menjadi tidak teliti merupakan karakteristik dari semua koleksi data dan secara khus'us cocok untuk sebuah distribusi statistik biasa ibarat Gaussian ketika nilai-nilai yang salah merupakan kesalahan masukan data.
Ketidakjelasan (uncertainty) menunjuk kepada kepelikan error dan tingkat noise dalam data. Presisi data merupakan saah satu pertimbangan penting dalam sistem penemuan.

Baca Juga: Perbedaan Data Warehouse dan Sistem OLTP pada Data Mining

Basis data cenderung menjadi besar dan dinamis dalam hal isinya yang selalu berubah ketika warta ditambahkan, dimodifikasi atau dihapus. Permasalahan dalam hal ini dari sudut pandang data mining yaitu bagaimana menjamin bahwa aturan-aturan tersebut up-to-date dan konsisten dengan warta paling terkini. luga sistem pembelajaran memiliki time-sensitive ketika beberapa nilai data berubah terhadap waktu dan system inovasi dipengaruhi oleh ketepatan waktu dari data tersebut.