گام اول داده کاوی : شناخت داده ها
یک شنبه 9 آبان 1395 8:59 PM
هر چه شناخت ما از دادهها بیشتری باشه، خروجی داده کاوی مفیدتر و کاربردیتر خواهد بود.توی این مطلب و چند مطلب بعدی میخواهیم یکم در مورد دادهها و ویژگیهای اونا صحبت کنیم.
ابتدا لازمه تا انواع دادههای که ممکنه باهاش سروکار داشته باشید رو معرفی میکنیم
دادههای Nominal : مقادیری که این دادههای می گیرن شامل یک رنج میشه. مثلاً شغل فرد. مقادیری که داده میگیره میتونه معلم، پزشک، برنامه نویس، کشاورز و … باشه
دادههای Binary: این دادهها رو میشه یک زیر مجموعه از Nominal دونیت که مقداریش شامل دو حالت بیشتر نیست. مثلاً جنسیت می تونه مرد یا زن باشه. یا مثلاً سیگاری بودن فرد که می تونه بله/خیر باشه.
دادههای Ordinal: این دادههای هم یک حالت خاص از دادههای Nominal هستند. مهمترین تفاوت این دسته با Nominal اینکه، مقادیری که قبول میکنه دارای یک ترتیب هستند. یک نمونه از این موارد سطح تحصیلات فرد است (دیپلم، فوق دیپلم، کارشناسی، کارشناسی ارشد و دکتری)
بقیه انواع دادههای رو توی مطالب بعدی معرفی میکنیم.
یک سؤال مهم خوب دونستن اینکه دادههای توی این سه دسته قرار مگیرین چه مزیتی داره. قصد ندارم وارد بحثهای تخصصی بشم ولی وقتی ما بدونیم داده ما یکی از سه مورد بالا هست، باید حواسمونن باشه تعریف ویژگیهای مانند میانگین، میانه، مقدار کمینه (minimum)، مقدار بیشینه (maximum)، برای اونا بدون معنا است.
خوب این کجا به درد می خوره. بعضی از الگوریتمها داده کاوی نوع داده رو محدود میکنن به انواعی که بشه از اونا مثلاً میانگین و میانه و … گرفت. خوب اگر از یکی از داده های فوق توی اون الگوریتم ها استفاده کنیم ممکنه نتایج مطلوبی به همراه نداشته باشه
http://mrmining.ir/2016/10/18/%DA%AF%D8%A7%D9%85-%D8%A7%D9%88%D9%84-%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D8%A7%D9%88%DB%8C-%D8%B4%D9%86%D8%A7%D8%AE%D8%AA-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7/