پاسخ به: آموزش داده کاوی از صفر تا صد
سه شنبه 2 آذر 1395 9:16 PM
پیش پردازش داده ها : منشاء ایجاد داده های ناقص (Incomplete)
همانطور که درقبلا بیان کردیم وجود دادههای ناقص، غیر دقیق و ناسازگار در پایگاه داده های بزرگ دور از انتظار نیست و معمولا یکی از مشکلات کار با پایگاه داده های بزرگ است.
داده های ناقص بر خلاف داده های غیر دقیق اصلا وجود ندارد. به عبارت دیگر در داده های غیر دقیق ممکن بود داده های نامعتبر درج شوند، ولی در داده های ناقص ممکن است، بخشی از اطلاعات وجود نداشته باشد.
با توجه به اهمیت داده های ناقص در این مطلب قصد داریم مهمترین دلایل به وجود آمدن داده های ناقص را بررسی کنیم:
1.عدم دسترسی به داده ها در هنگام ثبت داده ها: ممکن است داده های که ما به آنها نیاز داریم در زمان ثبت دادهها در دسترس نبوده باشد. فرض کنید قرار است برای هر ایرانی یک کارت هوشمند ملی صادر شود و هر فرد برای خودش یک کد اختصاصی خواهد داشت. این طرح قرار است از آخر امسال اجرا شود. سازمان ما برنامه ای دارد که در آن اطلاعات مشتریان ثبت شده است. با توجه به اینکه تا چند وقت دیگر هر فردی یک کد ملی هوشمند خواهد داشت، ما بخشی را به نرم افزارهای شرکت اضافه کرده ایم که کد ملی هوشمند مشتریان را نیز در یافت کند. حال فرض کنید دو سال از اجرای طرح گذشته است. سوال مهم اینجاست که آیا همه مشتریان ما کد ملی هوشمند ثبت شده دارند؟ پاسخ منفی است. مشتریانی قبل از اجرای کارت ملی هوشمند، اطلاعاتشان ثبت شده است این بخش داده ای وجود ندارد. پس داده ناقص در پایگاه داده خواهیم داشت.
2.داده های که در زمان ثبت مهم نبودند ولی بعدا مهم شده: یک مثال واقعی از این نوع داده ها، ثبت اطلاعات در اپراتورهای همراه بود. در ابتدا که افراد برای خرید سیم کارت به اپراتورها مراجعه می کردند اطلاعات کد ملی آنها دریافت نمی شود چون مهم نبود. بعد از گذشت مدتی با توجه به بعضی از سوء استفاده های که از سیم کارتهای خریداری شده می شود. ثبت کد ملی، خریدار سیم کارت اجباری شد. ثبت کد ملی سیم کارت های فروش رفته قبلی یکی از معضلات اپراتورهای همراه بود که راه حل های نیز توسط اپراتورها در پیش گرفته شد تا بتوانن این داده ناقص را کامل کنند.
3.عدم ثبت داده به علت غیر قابل فهم بودن یا اشتباه سخت افزاری: یک شرکت خدماتی را فرض کنید که اطلاعات مشتریان خود را ثبت میکند. بعضی مواقع اطلاعات شناسنامه ای مربوط خریدار (مثلا نام پدر) به دلایلی مانند عجله بخش پذیرش شرکت، ناخوانا بوده اطلاعات شناسنامه ای، همراه نداشتن شناسنامه مشتری و … ممکن است این اطلاعات درج نگردد.
تا اینجا انواع دلایل مربوط به داده های غیردقیق و ناقص را بررسی کردیم در مطلب بعدی دلایل به وجود آمدن داده های ناسازگار را نیز بررسی خواهیم کرد و پس از آن وارد بحث پیش پردازش داده ها می شویم.
منبع (اطلاعات بیشتر)
http://mrmining.ir/2016/11/20/%D9%BE%DB%8C%D8%B4-%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7-%D9%85%D9%86%D8%B4%D8%A7%D8%A1-%D8%A7%DB%8C%D8%AC%D8%A7%D8%AF-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7-2/