پاسخ به: آموزش داده کاوی از صفر تا صد
یک شنبه 23 آبان 1395 7:59 PM
هدف پیش پردازش داده (Data Preprocessing) ایجاد داده های کامل، سازگار و دقیق
هدف پیش پردازش داده این است که بتوانیم داده های دقیق ( accuracy )، کامل ( completeness ) و سازگار ( consistency ) برای انجام داده کاوی داشته باشیم. همانطور که تا کنون چندین بار اشاره کردیم، داده کاوی بسیار به مناسب بودن داده ای که برای پردازش به ما داده میشود وابسته است. هر چه داده ها دقیق تر، سازگارتر و کامل تر باشند نتایج حاصل از داده کاوی نیز به همان اندازه مفیدتر و سودمندتر خواهند بود.
ما گفتیم داده ها باید دقیق ، کامل و سازگار باشند. ابن به چه معناست. با یک مثال این سه واژه رو توضیح میدیم. فرض کنید داده های یک شرکت فروش قطعات الکترونیکی رو به ما دادن تا داده کاوی انجام بدیم. فرض میکنیم اهداف انجام داده کاوی، توسط مدیران شرکت مشخص شده است. حالا داده های شرکت می خواهیم یک نگاهی بندازیم. خوب توی این داده ها چه معایب و نقایصی رو ممکن است بهش بخوریم (برای هر نمونه برای مشخص شده هدف پیش پردازش داده مثال های بیان شده است):
داده های ناقص (incomplete) : مثال های از داده های ناقص
عدم وجود مقدار برای یکی از داده های که به آن نیاز داریم : فرض کنید برای داده کاوی ما به نام محصول، قیمت و تعداد محصول فروش رفته از هر محصول نیاز داریم، اولین مشکلی که ممکن است با آن برخورد کنیم آن است، در بعضی موارد اطلاعات یکی از سه قلم ذکر شده ثبت نشده باشه. این خودش یک نوع داده ناقص است.
داده ای که به آن نیاز داریم ولی اصلا ذخیره نشده است : فرض کنید در یک گام داده کاوی نیاز داشته باشید بدانید که آیا برای یک محصول خاص تبلیغیات تلویزیونی انجام شده است یا خیر. مشکلی که ممکن است اینجا رخ بدهد این است که، اصلاً همچنین دادهای ثبت نشده است. (تفاوت با بالایی این است که آنجا ممکن در بعضی از موارد مثلا نام کالا ثبت نشده باشد، در این مثال اصلا همچین داده ای ذخیره نشده است)
داده غیر دقیق (inaccurate or noisy): مثال های از داده های غیر دقیق
خطاها در دادههای وارد شده: کاربر به جای قیمت، تعداد کالا را وارد کرده باشه. یا اینکه مقدار منفی برای تعداد کالای فروخته شده وارد کرده باشد (بر خلاف داده های ناقص در داده های غیر دقیق، مقدار وجود دارد ولی نادرست است)
داده ناسازگار (inconsistent) : مثال های از داده های ناسازگار
در یک کاربر کد کالای خازن را 1005 وارد کرده و یک کاربر دیگر کد 1008 را برای خازن وارد کرده است.
یک کاربر سوییچ را با دو تا “ی” وارد کرده است و یک سوئیچ را با یک “ئ” و یک “ی” وارد کرده است.
برای اینکه ما بتونیم داده کاوی رو بخوبی انجام بدیم باید بتونیم این داده های ناقص، ناسازگار و غیر دقیق رو تبدیل کنیم به داده های دقیق، سازگار و کامل. در مطالب بعدی این موارد رو به صورت کامل به همراه تکنیک های اون بررسی میکنیم. به عبارت دیگر هدف پیش پردازش داده داشتن داده های بدون مشکل است.
منبع
http://mrmining.ir/2016/11/07/%D9%87%D8%AF%D9%81-%D9%BE%DB%8C%D8%B4-%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%D8%AF%D8%A7%D8%AF%D9%87-data-preprocessing-%D8%A7%DB%8C%D8%AC%D8%A7%D8%AF-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7%DB%8C/