پاکسازی داده ها – تخمین داده های ناموجود Missing Values
همانطور که در مطلب قبل بیان کردیم پیش پردازش داده ها دارای 4 گام اصلی می باشد 1- پاکسازی داده (data cleaning)، 2- یکپارچه سازی داده (data integration)، 3- کاهش داده (data reduction) و در نهایت تبدیل داده (data transformation).
پاکسازی داده اولین بخشی که قصد درایم در مورد تکنیک های آن صحبت کنیم. مهمترین فعالیت های این بخش عبارتند از
تخمین داده های ناموجود (Missing Values)
هموار سازی نویز ها (smooth out noise) – این مفهوم رو بیشتر در مثال توضیح خواهیم داد
مشخص کردن داده های پرت (outlier)
تصحیح ناسازگاری ها در داده ها
در چند مطلب آینده هر یک از زیر بخش های مربوط به پاکسازی داده ها را به صوت مفصل بررسی خواهیم نمود.
بخش اول: تخمین داده های ناموجود (Missing Values)
فرض کنید شما حجم زیادی از داده ها دراید اگر بخشی از اطلاعات وجود نداشته باشد چکار خواهید کرد؟ در ادامه راه حل های مقابله با این مشکل را بررسی خواهیم کرد
راه حل اول برای تخمین داده های ناموجود ، حذف داده: ساده ترین تکنیک و روشی که می توانیم در این زمینه از آن استفاده کنیم این است که داده را به صورت کامل از مجموعه داده ای حذف کنیم. این تکنیک بسیار ساده می باشد، اما در استفاده از آن باید بسیار دقت نمود. این تکنیک چه زمانی استفاده خواهد شد.
کاربرد اول: عدم وجود داده های ضروری
داده های که ما با انها سر و کار داریم به دو بخش تقسیم می شود
داده های ضروری و با اهمیت
داده های غیر ضروری
وقتی داده های ضروری ناموجود باشد، با توجه به اهمیت این داده ها اگر تخمین ما درست نباشد ممکن است خروجی تکنیک های داده کاوی را تحت تاثیر قرار بدهد، در نتیجه می تواند تکنیک مناسبی باشد. البته اگر تخمین ما قابل قبول باشد، تکنیک حذف چندان قابل قبول نخواهد بود.
کاربرد دوم: زمانی که داده های ناموجود در یک قلم داده ای زیاد باشد، می توان آن داده را حذف نمود. فرض کنید در یک ردیف از فاکتور فروش، نام کالا و تعداد کالای فروش رفته ناموجود است. در این مورد بهتر است آن قلم داده ای را از فاکتور فروش حذف کنیم. چون تعداد داده های ناموجود زیاد است، حذف داده می تواند تکنیک مناسبی باشد.
تکینک حذف وقتی زیاد انجام شود ممکن است کل داده ها را تحت تاثیر قرار دهد و در نتیجه خروجی داده کاوی را ناکارآمد کند. در نیتجه در استفاده از این روش باید دقت نمود که خروجی داده کاوی را تحت تاثیر قرار ندهد. در کل حذف داده ها چندان روش کار آمدی نمی باشد.
روش دیگری نیز برای تخمین داده های ناموجود ، ارائه شده است که در مطالب بعدی به آنها می پردازیم.
منبع (اطلاعات بیشتر)
MrMining.ir