Nazatushima , Mohd Arshad (2003) Pembersihan data untuk gudang dan perlombongan data (Cleaning data for warehousing and mining) / Nazatushima Mohd Arshad. Undergraduates thesis, University of Malaya.
Abstract
Pembersihan data bagi gudang dan perlombongan data atau nama ringkasnya CD4SWAM merupakan satu kajian yang menggabungkan dua pangkalan data dari format berbeza menjadi satu format piawai. Pangkalan data yang telah digabungkan itu kemudiannya akan mengalami proses pembersihan data menggunakan teknik nilai yang hilang (missing values). Data yang telah dibersihkan itu kemudiannya akan dimasukkan ke dalam gudang data bagi memudahkan aktiviti perlombongan data. Proses pembersihan data merupakan mengenal pasti data-data yang bermasalah dan kemudiannya diperbetulkan menjadi data berguna (maklumat) CD4WAM ini akan bertindak selaku pembantu bagi pihak pentadbir gudang data dalam mengurus serta melancarkan tugasan harian mereka. Selain itu, ia juga membantu pihak pengurusan atasan dalam membuat kesimpulan dan keputusan berasaskan kepada himpunan data yang banyak. Terdapat 3 teknik yang dugunakan dalam proses pembersihan data iaitu nilai yang hilang (missing values), kebisingan data (noisy data) dan ketidakkonsistinan (inconsistent data) CD4WAM yang bakal dihasilkan ini akan memfokus kepada teknik nilai yang hilang. Bagi merealisasikannya, perisian-perisian seperti Visual Basic 6.0, Microsoft Access 2000 dan SQL Server 7.0 digunakan. Selain itu, CD4WAM dijangka mengelakan kesukaran capaian kembali maklumat yang diperlukan oleh pihak pentadbiran syarikat. Di samping itu juga, ia memastikan agar hanya maklumat yang berguna sahaja yang terdapat di dalam gudang data. Oleh itu, adalah diharapkan agar CD4WAM ini mampu memberi manfaat kepada pihak pentadbir gudang data dan menjadi salah satu sumber penting bagi memperolehi maklumat serta penyelenggaraan data.
Actions (For repository staff only : Login required)