Lompat ke konten Lompat ke sidebar Lompat ke footer

Proses Dalam Data Warehouse Pada Data Mining

Pengertian Data Warehoause pada Data Mining

Data Warehouse didefinisikan sebagai daerah penyimpanan data terpusat yang sanggup di-query untuk manfaat bisnis. Data warehousing merupakan teknik gres yang powerful yang membuatnya mungkin untuk mengekstrak data operasional yang diarsipkan dan mengatasi ketidakkonsistensian dari format-format data warisan yang berbeda.

Baca Juga: Karakteristik Data Warehouse pada Data Mining 

Sumber gambar: datawarehouse4u.info

Proses Data Warehouse pada Data Mining

Tahap pertama dalam data warehousing ialah menyekat warta operasional kini Misalnya menjaga keamanan dan integrasi aplikasi 0LTP mission-critical dikala kita mengakses basis data yang lebih luas. Hasil basisdata atau data warehouse mungkin menghabiskan ratusan gigabyte atau bahkan terabytes dari ruang disk. Apa yang diharapkan lalu ialah teknik efisien untuk menyimfian dan mengambil kembali sejumlah warta secara besar-besaran. Organisasi-organisasi yang besar menemukan bahwa hanya sistem pengolahan pararel memperlihatkan bandWidth yang cukup.

Data warehouse mengambil kembali data dari bermacam basisdata operasional yang beraneka ragam. Data lalu ditransformasikan dan dikirimkan ke data warehouse menurut model yang dipilih (atau definisi pemetaan]. Proses transformasi dan perpindahan data yang dijalankan pada dikala update data ke warehouse diharapkan sehingga seharusnya ada beberapa bentuk automatisasLuntuk mengatur dan menjalankan fungsi-fungsi ini. Informasi yang menggambarkan model dan definisi dari elemen data sumber disebut dengan “metadata”.Metadata diartikan sebagai bagaimana end-user menemukan dan memahami data dalam warehouse dan merupakan bab penting dari warehouse tersebut.

Paling tidak,metadata harus terdiri dari :
  1. Struktur data
  2. Algoritma yang dipakai untuk meringkas (summary).
  3. Dan pemetaan dari lingkungan operasional ke data warehouse.
Pembersihan data merupakan aspek penting dari pembuatan sebuah data warehouse yang efisien dalam hal menghilangkan aspek-aspek tertentu dari data operasional menyerupai warta transaksi level rendah yang memperlambat waktu query. Tahap pencucian harus dibuat sedinamis mungkin untuk mengakomodasi semua tipe query bahkan mungkin dikala membutuhkan warta level rendah. Data harus diekstrak dari sumber produksi pada interval yang tetap dan disatukan secara terpusat kecuali proses pencucian untuk menghilangkan duplikasi dan beda rekonsil antara bermacam bentuk kumpulan data.

Baca Juga: Pengertian Gudang Data (Data WareHouse) pada Data Mining 

Setelah data dibersihkan lalu ditransfer ke dalam data warehouse yang secara khusus merupakan sebuah basisdata yang besar pada sebuah kotak yang punya performasi tinggi menyerupai Sekolah Menengah Pertama (Symmetric Multi—Processing) atau MPP (Massively Parallel Processing). Iumlah kekuatan perekahan merupakan aspek penting lainnya dari data warehouse alasannya ialah kompleksitas menjadi bab dalam pengolahan query ad hoc dan kuantitas data yang luas yang ingin dipakai organisasi dalam warehouse. Suatu data warehouse sanggup dipakai dalam aneka macam cara misalkan dipakai sebagai sentra penyimpanan yang menghadapi pertanyaan-pertanyaan yang dijalankan atau dipakai menyerupai sebuah pasar data. Pasar data yang merupakan warehouse kecil sanggup dibuat untuk  menyediakan himpunan bab dari toko utama dan meringkas warta sesuai dengan kebutuhan dari kelompok atau departemen tertentu. Secara umum, pendekatan toko sentra memakai struktur data yang sangat sederhana dengan asumsi-asumsi yang sangat kecil mengenai relasi antardata, padahal pasar sering memakai basisdata multidimensi yang sanggup mempercepat proses query sebagaimana mereka sanggup memiliki struktur data yang mencerminkan sebagian besar pertanyaan-pertanyaan yang serupa. .

Banyak vendor memiliki produk yang menyediakan satu atau lebih fungsi-fungsi data warehouse diatas. Meski begitu, sanggup juga memakai sejumlah kerja-yang-penting dan pemrograman khusus untuk melengkapi kebutuhan operasional antar produk dari banyak vendor untuk memungkinkan mereka melaksanakan proses—proses data warehouse yang diperlukan. Implementasi khusus terdiri dari adonan produk—produk dari bermacam suplier.