پاسخ به: آموزش داده کاوی از صفر تا صد
جمعه 28 آبان 1395 6:51 PM
پیش پردازش داده ها : منشاء ایجاد داده های غیر دقیق (inaccurate)
همانطور که در مطلب قبل (پیش پردازش داده ها) بیان کردیم د وجود دادههای ناقص، غیر دقیق و ناسازگار در پایگاه داده های بزرگ دور از انتظار نیست و معمولا یکی از مشکلات کار با پایگاه داده های بزرگ است. اشنایی با این داده ها و منشاء انها می تواند در پیش پردازش داده ها بیسیار موثر باشد. در این مطلب قصد داریم دلایل ایجاد اینگونه دادههای نامناسب را بررسی کنیم.
شناسایی دلایل ایجاد هر نوع از داده ها ناقص، غیر دقیق و ناسازگار، یک پیش نیاز برای گام پیش پردازش داده ها می باشد.
در این بخش دلایل ایجاد داده های نادقیق را بررسی میکنیم
ابزارهای جمع آوری داده ممکن است دارای خطا باشند: در بسیاری از حوزه ها ثبت اطلاعات و داده ها توسط ابزارها انجام می شود و اگر ابزارها دچار مشکل بشوند ممکن است داده های دارای خطا و نامعتبر را ثبت کنند. به عنوان نمونه میتوان به داده های هواشناسایی اشاره کرد. فرض کنیدبه علت مشکلی که در دما سنج مورد استفاده به علت ایجاد مشکل دما را با 2 درجه اختلاف نمایش دهد. این امر باعث می شود که اطلاعات نادرست ثبت گردد. ممکن است بزاری که جمع آوری داده را انجام میدهد دقت مورد نظر ما را نداشته باشد.
خطاهای انسانی در ثبت داده: هر چه میزان افرادی که با یک سیستم کار میکنند بیشتر شود احتمال رخ دادن خطای انسانی بیشتر می شود. به عنوان مثال کاربر ممکن است تعداد کالای وارد شده را منفی وارد کند. بخشی زیادی از این گونه خطاها را می توان به کمک برنامه نویسی و کنترل های که روی ورودی داده داریم، رفع کنیم. اما بعضی از انواع خطاها به راحتی قابل تشخصی نیستند. به عنوان مثال یک کاربر ممکن است تاریخ تولد یا شماره تماس خود را اشتباه وارد کند. این نوع خطاها با عنوان خطاهای “خطاهای پنهان” یاد می شوند و از بدترین نوع داده های غیر دقیق هستند، زیرا پی بردن به داده اشتباه بسیار سخت و در بعضی موراد غیر ممکن است.
خطا در انتقال داده: خطاهای انتقال می تواند منشاء ابزاری یا انسانی داشته باشند
منشاء ابزاری: فرض کنید ما قصد داریم دو پایگاه داده را بر روی دو سیستم مختلف با یکدیگر ترکیب کنیم. یکی از اتفاقاتی که هنگام انتقال داده می تواند رخ دهد مشکلات مربوط به بافر است. به عنوان مثال در زمان همگام سازی داده ها، محدودیت های اندازه بافر می تواند باعث ثبت داده نامعتبر گردد.
منشأ انسانی: فرض کنید ما دو تا پایگاه داده داریم که در یکی از آنها جنسیت افراد به صورت “مرد” یا “زن” ذخیره شده است و در پایگاه داده دیگر جنسیت با “0” و “1” ذخیره شده است، صفر به معنای این است که کاربر زن است و یک به معنای این است که کاربر مرد است. هنگام که می خواهیم داده ها را یکسان کنیم (مثلا همه را به قالب “مرد” یا “زن” تبدیل کنیم) ممکن است در تبدیل داده ها خطا رخ دهد.
تا اینجا انواع دلایل مربوط به داده های غیردقیق را بررسی کردیم در مطالب بعدی دلایل به وجود آمدن داده های ناقص و ناسازگار را نیز بررسی خواهیم کرد و پس از آن وارد بحث پیش پردازش داده ها می شویم. و مهمترین فعالیت های حوزه پیش پردازش داده ها را مورد بررسی قرار می دهیم.
منبع
http://mrmining.ir/2016/11/11/%D9%BE%DB%8C%D8%B4-%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7-%D9%85%D9%86%D8%B4%D8%A7%D8%A1-%D8%A7%DB%8C%D8%AC%D8%A7%D8%AF-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7/