داده كاوي چيست؟

vahid_a

کاربر تازه وارد

تاریخ عضویت : اردیبهشت 1390

تعداد پست ها : 1

محل سکونت : خراسان شمالي

داده كاوي چيست؟
پنج شنبه 29 اردیبهشت 1390 4:58 PM

حتماً تاکنون بارهاعبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانندانقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه هایمشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاًفایده انقلاب دیجیتال در زندگی فکر کرده اید؟ در طول دهه گذشته با پیشرفتروز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2برابر می شود. در این میان سازمانهایی موفقند که بتوانند حداقل 7% داده هایشان راتحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد دادههایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده هاهستند تشنه دانش می باشند. بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلابتکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزههای مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفتهو زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجاتبزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری ازموارد دیگر می باشد. داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ،هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاویفرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، درحجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درکباشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی وفرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود. کاوش داد ه ها بهمعني کنکاش داده هاي موجود در پايگاه داده و انجام تحليل هاي مختلف بر روي آن بهمنظور استخراج اطلاعات مي باشد. داده كاویفرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینههای كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احرازاعتبار می‌شوند . هدف اصلی داده كاویپیش بینیاست. و به صورت دقیق ترمیتوان گفت : "کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابلدرک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمولقابل دستيابي نيستند" ‌فرایند داده ‌كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید 3. بهره برداری. مرحله 1 : كاوش معمولا‌این‌مرحله با آماده سازی داده ها صورت می گیرد كه ممكن استشامل پاك سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه‌هايي‌‌ ازركوردها‌با‌حجم‌عظیمی‌از ‌متغييرها( فیلدها ) باشد . سپس با توجه‌به‌ماهیت‌مسالهتحلیلی‌، این‌مرحله‌به‌مدل‌هاي‌‌ ‌پیش بیني ساده یا مدل‌های‌آماری‌و‌گرافیكی برایشناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدل‌ها برای استفاده در مرحله بعدی نیازدارد .

مرحله 2:ساخت و احراز اعتبار مدل این‌مرحله‌به‍ بررسی‌مدل‌هايمختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد. شاید این مرحلهساده به نظر برسد، اما اينطورنیست. تكنیك‌های‌متعددی‌برای‌ر سیدن‌به‌این‌هدف توسعهیافتند.و " ارزیابی رقابتی مدل ها"‌نام گرفتند. بدین منظور مدل‌های مختلف برایمجموعه داده‌های یكسان‌‌به‌كار‌می‌روند‌ تا‌كارآیی‌شان‌با‌هم مقایسه‌شود ،‌سپس مدلیكه‌بهترین كارآیی راداشته باشد‌، انتخاب می‌شود.‌این‌تكنیك‌ها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning مرحله 3 : بهره برداری آخرین‌مرحله‌مدلی‌راكه‌د رمرحله قبل‌انتخاب‌شده است، درداده‌های‌جدیدبه كار‌می‌گیردتا پیش‌بینی‌هاي‌خروجی‌های مورد انتظاررا تولیدنماید.داده كاوی‌به‌عنوان‌ابزار‌مدی ریت‌اطلاعات‌برای‌تصمیمگیری‌،‌عمومیت‌یافته‌است . اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه موردتوجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصولآماری نظیر(Exploratory Data Analysis (EDA)می باشد. بااین وجود تفاوت عمدهای بین داده كاوی و EDA وجود‌دارد‌.داده‌كاوی‌بی��تر‌ به ‌برنامه ‌های ‌كاربردیگرایش دارد تا ماهیت اصلی پدیده .به عبارتی‌داده كاوی كمتر با شناسایی روابط بینمتغیرها سروكار دارد . مفاهیم اساسی در داده كاوی Bagging: این مفهوم برای تركیب رده بندی های پیش بینیشده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بينيبسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( باجایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت هایمتفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده ازنمونه ها ،‌یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود كهدرخت های مختلف آنرا پیش بینی كرده اند . Boosting: این مفهوم برای تولید مدل‌های چندگانه (برایپیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفادهوترتیبی از classifier ها را تولید خواهد كرد . Meta-Learning : این مفهوم برای تركیب پیشبینی‌های حاصل از چند مدل به كار می‌رود.و هنگامی كه انواع مدل‌های موجود در پروژهخیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك ازكامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.تجربه نشان می‌دهدكهتركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی هایحاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرارداد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.