قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم. در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین داده های گم شده (داده های ناموجود) یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است
- پاکسازی داده
- تخمین داده های ناموجود
- هموار سازی نویز ها
- مشخص کردن داده های پرت
- تصحیح ناسازگاری ها در داده ها
- یکپارچه سازی داده
- کاهش داده
- تبدیل داده
ما توی مطالب قبلی روش حذف داده ، تعیین داده ها توسط کاربر ، استفاده از یک مقدار کلی و ثابت برای داده های ناموجود و استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …) رو بررسی کردیم. در این مطلب سایر روش های رو را مورد بررسی قرار می دهیم.
روش پنجم: استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …) داده های دسته بندی شده. این روش رو میشه بهبود روش چهارم دونست (اطلاعات در مورد روش چهرام در این مطلب). در روش چهام اگر یک مقدار وجود نداشت، میانگین تمامی مقادیر موجود را حساب می کردیم و به جای مقدار نا موجود قرار می دادیم. در این روش سعی میکنیم که نزدیکترین نمونه ها به مقدار ناموجود رو انتخاب کنیم و بر اساس اون مقدار رو مشخص کنیم. با یک مثال توضیح می دیم.
فرض کنید ما صاحب یک کارخانه هستیم که تعدادی ربات بخشی از فعالیت های کارخانه را انجام می دهند. بعضی از ربات ها وظیفه جابجا کردن قطعات سنگین را بر عهده دارند، بعضی از ربات ها جوشکاری انجام می دهند و بعضی از ربات ها برشکاری انجام میدهند. هر ربات تعدادی قطعه دارد که پس از مدتی از کار می افتند و باید تعویض شوند. قصد داریم تحلیل را برای بازه های خرید این قطعات ارائه بدهیم به طوری که همیشه قطعه یدک در کارخانه وجود داشته باشد تا کار مختل نشود. در این تحلیل ما نیاز داریم تا طول عمر قطعات را داشته باشیم. متأسفانه طول عمر بعضی از قطعات استفاده شده در دست نیست و به علت خطای انسانی از بین رفته است. خوب حالا ما برای تخمین طول عمر دوتا کار می تونیم بکنیم (فرض کنید طول عمر قطعه 1 روی می خواهیم تخمین بزنیم)
- استفاده از روش چهارم: طول عمر تمام قطعه 1 ها رو توی همه ربات ها حساب کنیم و میانگین اون رو برای مقادیر ناموجود قطعه 1 بزاریم.
- استفاده از روش پنجم: ابتدا میاییم ربات ها رو سه دسته کنیم. ربات های حمل بار، ربات های جوشکار و ربات ها برش کار. برای هر کدوم از این دسته ها میانگین طول عمر قطعه 1 رو جداگانه حساب کنیم و مقادیر ناموجود رو بر اساس اینکه ماب کدوم ربات بوده مقادیر میانگین متناظر اون رو بزاریم. این کار رو به این دلیل انجام میدیم که تخمین ما دقیق تر باشه. از اونجای که ما سه دسته ربات داریم و هر کدام فعالیت های مختلفی انجام می دهند. از این ممکن است طول عمر یک قطعه در سه نوع ربات یکسان نباشد.
روش ششم : استفاده از محتمل ترین مقدار (the most probable value) برای پر کردن برای داده های گم شده . the most probable value رو میشه بهترین مقدار نیز ترجمه کرد. در این روش از تکنیک های مانند رگرسیون regression، استنتاج، درخت تصمیم گیری و … استفاده می شود.
به عنوان مثال فرض کنید ما میزان خرید یک مشتری را ندارد قصد دارین آن را حدس بزنید، می تواند از درخت تصمیم گیری یا استنتاج مبتنی بر شبکه بیزین استفاده کرد. (در مورد این مفاهیم و شیوه محاسبه اونا بعدا بیشتر توضیح می دیم)
ما 6 روش تعیین داده های گم شده رو معرفی کردیم، توی مطلب بعدی یک مقایسه خواهیم داشت روی این 6 روش و معایب و مزایایی هر کدوم رو بیان می کنیم.
منبع (اطلاعات بیشتر)
MrMining.ir