پاسخ به: آموزش داده کاوی از صفر تا صد
دوشنبه 22 آذر 1395 7:58 PM
قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم. در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین داده های گم شده (داده های ناموجود) یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است
ما توی مطالب قبلی روش حذف داده ، تعیین داده ها توسط کاربر ، استفاده از یک مقدار کلی و ثابت برای داده های ناموجود و استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …) رو بررسی کردیم. در این مطلب سایر روش های رو را مورد بررسی قرار می دهیم.
روش پنجم: استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …) داده های دسته بندی شده. این روش رو میشه بهبود روش چهارم دونست (اطلاعات در مورد روش چهرام در این مطلب). در روش چهام اگر یک مقدار وجود نداشت، میانگین تمامی مقادیر موجود را حساب می کردیم و به جای مقدار نا موجود قرار می دادیم. در این روش سعی میکنیم که نزدیکترین نمونه ها به مقدار ناموجود رو انتخاب کنیم و بر اساس اون مقدار رو مشخص کنیم. با یک مثال توضیح می دیم.
فرض کنید ما صاحب یک کارخانه هستیم که تعدادی ربات بخشی از فعالیت های کارخانه را انجام می دهند. بعضی از ربات ها وظیفه جابجا کردن قطعات سنگین را بر عهده دارند، بعضی از ربات ها جوشکاری انجام می دهند و بعضی از ربات ها برشکاری انجام میدهند. هر ربات تعدادی قطعه دارد که پس از مدتی از کار می افتند و باید تعویض شوند. قصد داریم تحلیل را برای بازه های خرید این قطعات ارائه بدهیم به طوری که همیشه قطعه یدک در کارخانه وجود داشته باشد تا کار مختل نشود. در این تحلیل ما نیاز داریم تا طول عمر قطعات را داشته باشیم. متأسفانه طول عمر بعضی از قطعات استفاده شده در دست نیست و به علت خطای انسانی از بین رفته است. خوب حالا ما برای تخمین طول عمر دوتا کار می تونیم بکنیم (فرض کنید طول عمر قطعه 1 روی می خواهیم تخمین بزنیم)
روش ششم : استفاده از محتمل ترین مقدار (the most probable value) برای پر کردن برای داده های گم شده . the most probable value رو میشه بهترین مقدار نیز ترجمه کرد. در این روش از تکنیک های مانند رگرسیون regression، استنتاج، درخت تصمیم گیری و … استفاده می شود.
به عنوان مثال فرض کنید ما میزان خرید یک مشتری را ندارد قصد دارین آن را حدس بزنید، می تواند از درخت تصمیم گیری یا استنتاج مبتنی بر شبکه بیزین استفاده کرد. (در مورد این مفاهیم و شیوه محاسبه اونا بعدا بیشتر توضیح می دیم)
ما 6 روش تعیین داده های گم شده رو معرفی کردیم، توی مطلب بعدی یک مقایسه خواهیم داشت روی این 6 روش و معایب و مزایایی هر کدوم رو بیان می کنیم.
منبع (اطلاعات بیشتر)
MrMining.ir