تاثیر انتخاب کلید واژه3

hasantaleb

کاربر طلایی1

تاریخ عضویت : شهریور 1387

تعداد پست ها : 58933

محل سکونت : اصفهان

● فرمول‌بندی سؤال
بطور كلی، بهترین راه برای ساختن سوال جستجوی مناسب در طول یك جستجوی اینترنتی، برای نیمی از جستجوکنندگان مشخص نیست. یك راه عادی برای چنین جستجوکنندگانی این است كه یك یا چند كلمه پی‌درپی را در جعبه جستجو تایپ كنند، اما این روش در موتورهای جستجو نتایج متفاوتی را نشان می دهد. بعضی موتورهای جستجو یك عملگر (OR) بین كلمات اضافه می‌كنند (infoseek)، بعضی دیگر یك عملگر (And) مثل (Altavista, google) و بعضی ممكن است حتی آن را یك عبارت تلقی كنند مانند (Look smart). این سه روش مختلف نتایج كاملاً متفاوتی را بدست می‌دهند كه بیشتر از آنكه جستجوکننده را راهنمائی كند، او را سردرگم می‌كند. به عنوان مثال، یك جستجوی اینترنتی كه از پنج كلمه عادی با عملگر (And) بین آنها استفاده می‌كند، X پاسخ از یك پایگاه اطلاعاتی بازیابی می‌كند. همین جستجو با همان پنج كلمه و در همان پایگاه اطلاعاتی با استفاده از عملگر (OR) بین كلمات، y پاسخ بدست می‌دهد در حالیكه تعداد y پاسخ بسیار بیشتر از X پاسخ است.
از این مطلب مشخص شد كه بسیاری از كاربران فرمول‌بندی سؤال جستجو را مشكل تصور می کنند. لنكستر بیان کرد که این مساله از سال ۱۹۶۸ كه كیفیت پائین فرمول‌بندی سؤال، دلیل اصلی شكستها در جستجو بودند، وجود داشته است.
در طول بررسی كه بر روی ۳۱۶ كاربر صورت گرفت، اسپینك، باتمن[۴۳] و جانسن[۴۴] بیان كردند كه تعداد كمی از كاربران از عملگرهای منطقی استفاده می کنند که تنها بخشی از این استفاده ها، صحیح و اصولی است. آنها همچنین با عبارتهای جستجو و ساختن اصطلاحات مناسب جستجو و سؤالات جستجوی پیچیده مشكل داشتند.
كسلر[۴۵](۱۹۹۷) در عین حال ادعا كرد که اگر به استراتژی جستجو و كاربرد صحیح طرحهای موجود توجه شود، از اینترنت می‌توان اطلاعات منحصربه فرد و قابل توجهی را استخراج كرد. تلاشهایی نیز انجام شد تا راه دیگری را به جستجوگران پیشنهاد دهد تا بتوانند سؤالات جستجوی خودشان را بسازند. فرانتس و شاپیرو[۴۶] الگوریتمی ساختند كه بطور اتوماتیك پرسشهایی را با عملگرهای بولی می‌ساخت. این الگوریتم از آنجائی كه پس زمینه‌ای را كه كاربران برای تصحیح فرمول بندی پرسشها بكار می‌بردند می‌پذیرفت، انجام موفقیت‌آمیز جستجو را تضمین می‌كرد.(فرانتس و دیگران)
گاش[۴۷] و اسمیت[۴۸](۱۹۹۳) یك سیستم تخصصی را برای كمك به جستجوی پیوسته آزمایش كردند كه سؤالات را بطور اتوماتیك فرمول‌بندی می‌كرد و تلاش می‌كرد كه نتایج جستجو را پیشرفت دهد. این سیستم تعداد پرسشهای موردنیاز را كاهش و دقت را افزایش می داد و رتبه‌بندی مرتبط را بهبود می بخشید.
در طول این پروژه، مقایسه‌ای بین طول كلید واژه‌های بكار رفته و موفقیت جستجوی اینترنتی انجام خواهد شد.
● میزان موفقیت جستجو
لنكستر در مورد عواملی بحث كرده كه سالها قبل از اختراع موتورهای جستجوی اینترنتی بر میزان موفقیت جستجوی پیوسته تأثیرگذار بودند. با این وجود، اخیراً بسیاری از نویسندگان با این نظر موافقند که موافقند كه کاربران باید بدانند كه چگونه اطلاعات را از منابع الكترونیكی بازیابی کنند.(کرونج[۴۹] و کلارک[۵۰]، ۱۹۹۹)
تعداد زیادی از نویسندگان ادعا می کنند که یافتن اطلاعات مرتبط در اینترنت بسیار مشكل است:
▪ اخیراً، فرایند جستجو کاملا نامطلوب است.(شرمن[۵۱]، ۱۹۹۹).
▪ ظاهراً بعضی پاسخ‌دهندگان، زمانی كه در حال جستجوی لیست اصطلاحات بكار برده در جستجوهایشان بودند، سردرگم می‌شدند.(اسپینک، باتمن و جانسن)
▪ توانایی كاربر در مشخص كردن اصطلاحات مناسب برای جستجو و روشن كردن سؤالات پیچیده جستجو، ظاهراً بسیار پایین است.(همانجا)
▪ همانطور كه وب جهانگستر رشد می‌كند، اكتشاف و بازیابی مواد آموزشی مفید نیز بطور نامعلومی رشد می‌كند.(ساتن[۵۲]، ۱۹۹)
▪ فقط ۳۳ درصد كاربران اینترنت موافق یا شدیداً موافق این گفته‌اند: «اجرای جستجوی موضوعی در اینترنت آسان است»)ووربیج، ۱۹۹۹)[۵۳]
▪ جستجوی اطلاعات در اینترنت بسیار مشكل است.)همانجا)
▪ جستجوی اطلاعات برای دانش‌آموزانی كه می‌خواهند كار پیدا كردن پاسخ مناسب یا یافتن یك وب سایت خوب را كاهش دهند، یك فرآیند پیچیده و مشكل است.(والاس[۵۴]، کوپرمن[۵۵] و کراژیک[۵۶]، ۲۰۰۰)
▪ هم جستجوگران با تجربه و هم مبتدی‌ها در اعمالشان اصلاً اطمینان نداشتند.)وولفرام[۵۷] و دیمیترف[۵۸]، ۱۹۹۷)
بسیاری شواهد به این حقیقت اشاره دارند كه بیشتر جستجوکنندگان وب یافتن و بازیابی اطلاعات مرتبط در اینترنت را مشكل می‌دانند.● وضع كنونی
اساراسویك[۵۹](۱۹۹۹) با تفكر در پنجاه سال پیشرفت در این حوزه، وضع كنونی علم اطلاع رسانی و بازیابی اطلاعات را به بهترین نحو خلاصه كرد:
▪ علم اطلاع رسانی نظمهای گوناگونی را پوشش می دهد.
▪ علم اطلاع رسانی ذاتاً با تكنولوژی اطلاعات در ارتباط است.
▪ علم اطلاع رسانی نقش فعالی در تكامل تدریجی جامعه اطلاعاتی بازی می‌كند.
اینگورسن[۶۰] تعدادی دیگر از رشته‌هایی كه بر علم اطلاع رسانی تأثیر دارند را بر می شمرد:
▪ ریاضیات و ارتباطات (با همپوشانی در تئوری اطلاعات)
▪ بوم‌شناسی، جامعه‌شناسی و زبانشناسی (با همپوشانی در زبانشناسی اجتماعی)
▪ روانشناسی، هوش مصنوعی و علم كامپیوتر.
ساراسویك سه عقیده نیرومند و اساسی كه علم اطلاعات بر مبنای آنها استوار است را ذكر می‌كند كه عبارتند از: بازیابی اطلاعات، ارتباط و تأثیر متقابل. بنابراین او بطور واضحی بازیابی اطلاعات را به عنوان بخشی از علم اطلاع رسانی رده‌بندی می‌كند.
● روش
وسیله‌ای برای اندازه‌گیری جنبه‌های گوناگون تجارب یك جستجوكننده طراحی، ‌آزمایش، تصحیح و سپس بكار گرفته شد. طرحی كه بكار رفت نیاز به ثبت عناصر گوناگونی درباره جستجویی كه در حال انجام بوده است، داشت. بطور كلی ۱۱۰۹ آموزشیار از سه قاره كه در بیشتر از ۲۰ مؤسسه آموزش عالی پراكنده بودند در این مطالعه شركت كردند. به هر گروه شركت كننده ۳۰ دقیقه وقت داده شد تا در مورد یك موضوع دانشگاهی به انتخاب خودشان و با استفاده از هر برنامه و روش كه خودشان دوست دارند، جستجو كنند. هیچ راهنمایی در انتخاب موتورهای جستجو دیا عملگرها به آنها ارائه نشد.
پاسخهای تعدادی از شركت‌كنندگان باید به دلیل تنوع عوامل خارجی حذف می‌شد. دلیل این پاسخها كه به عنوان بی‌ارزش رده‌بندی شده بودند، عبارت بود از:
▪ پاسخ دهندگانی كه از جستجوی كلید واژه‌ای استفاده نكرده بودند.
▪ اطلاعات نادرستی كه پاسخهای غیرممكنی را نشان می‌داد.
▪ فرم هایی كه ناقص بودند و بعضی از اطلاعات حیاتی در آنها وجود نداشت.
تمام ۵۴۰ پاسخ دهنده باقی ماندند و نتایج فرمهای آنها، برای این مطالعه بكار رفت. بعضی داده‌های شخصی استاندارد در فرمها سؤال شده بود از قبیل (سن، جنس، نژاد). یكی دیگر از مواردی كه سوال شده بود این بود: كلید واژه‌هایی را كه در جستجو به كار برده‌اید بنویسید و این مورد دیگری بود كه در موفقیت جستجو مؤثر است. این ارزشها برای تعیین وجود یا عدم وجود رابطه بینشان بررسی شدند.
● نتایج و تجزیه و تحلیل تحقیق
از ۵۴۰ پاسخ دهنده باقیمانده ۳۷۲ نفر مذكر و ۱۵۲نفر مؤنث بودند (شانزده شركت كننده هم جنسیتشان مشخص نشده بود).
توزیع سن شركت كنندگان از ۱۷ تا ۵۸ سال بود. این سنین در سه گروه طبقه بندی شده بودند. اولین گروه شامل پاسخ دهندگانی جوان‌تر از ۲۰ سال (۱۵۵نفر)، دومین گروه بین ۲۵-۲۰ سال (۲۹۵) و آخرین گروه بزرگتر از ۲۵ سال (۶۹نفر) در نظر گرفته شد. ۲۱نفر هم بودند كه سنشان مشخص نشده بود.
توزیع نژادی عبارت بود از ۹۷ نفر آسیایی، ۷۷نفر دو رگه، ۵۴ نفر سیاهپوست و ۲۹۵ نفر سفید. نژادهفده نفر دیگر مشخص نشده بود.
۱۰۹ نفر از پاسخ دهندگان فقط از یك كلید واژه و ۴۳۱ نفر باقیمانده، بیشتر از یك كلید واژه در جستجویشان استفاده كرده بودند.
برای هر یك از این چهار عنصر (جنسیت، سن،‌ نژاد و تعداد كلید واژه‌ها) تحلیلی بر روی نتایج انجام شد. سپس این تحلیل‌ها، تركیب و تحلیل آماری شدند تا تأثیر آنها در جستجو برای نتیجه‌گیری این تحقیق مشخص شود.
● جنسیت – نتایج و تحلیل
توزیع نتایج بدست آمده از پاسخ دهندگان بر حسب جنسیت در جدول شماره ۱ آمده است.
برای كلیه شركت كنندگان، هم مذكر و هم مؤنث، تعداد كسانی كه هیچ پاسخی نداده بودند بیشتر از كسانی بود كه پاسخ قابل قبولی داده بودند.
با این وجود بدون تحلیل آماری مشخص نبود كه آیا ارتباطی میان جنسیت شركت كنندگان و میزان موفقیت جستجو وجود دارد یا خیر.
یك آزمون خی دو گسستگی نشان داد كه هیچ ارتباط مهمی بین جنسیت شركت كنندگان و یافتن نتایج با یك یا دو كلید واژه وجود ندارد.
جدول ۱: توزیع نتایج بدست آمده از پاسخ دهندگان بر حسب جنسیت
مذكر/ مؤنث/ جمع
تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد
عدم پاسخگویی/ ۲۱۹/ ۸۷/۵۸/ ۹۷/ ۸۲/۶۳/ ۳۱۶/ ۹۹/۷۰
پاسخ قابل قبول/ ۱۵۳/ ۱۳/۴۱/ ۵۵/ ۱۸/۳۶/ ۲۰۸/ ۰۱/۲۹
جمع/ ۳۷۲/ ۰۰/۱۰۰/ ۱۵۲/ ۰۰/۱۰/ ۵۲۴/ ۰۰/۱۰۰
● سن- نتایج و تحلیل
رابطه بین سن و موفقیت جستجو نیز ارزیابی شد. با یك بررسی سطحی نتایج مندرج در جدول شماره ۲ مشخص شد كه هرچه سن كاربر بالاتر باشد، احتمال پیدا نكردن یك پاسخ قابل قبول هم بیشتر است. با حركت در میان این سه گروه سنی از جوان به پیر، میزان موفقیت از ۴۶درصد به ۳۹درصد و به ۲۸ درصد كاهش پیدا می‌كند. تحلیل آماری بیشتری لازم بود تا این ادعا ثابت شود.
آزمون خی دو برای داده‌های گسسته نشان داد كه رابطه مهمی بین نتایج بدست آمده و گروههای سنی شركت‌كنندگان وجود دارد (احتمال = ۰۳۴۳/۰). در نتیجه ثابت شد كه احتمال اینكه پاسخ دهندگان جوانتر نتایج قابل قبولی بدست آورند، بیشتر از پاسخ‌دهندگان مسن‌تر بود.
جدول ۲: توزیع نتایج بدست آمده از پاسخ دهندگان بر حسب سن
سن ۱۹-۰/ سن ۲۵-۲۰/ سن ۲۵+/ جمع
تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد
عدم پاسخگویی/ ۸۴/ ۱۹/۵۴/ ۱۸۰/ ۰۲/۶۱/ ۵۰/ ۴۶//۷۲/ ۳۲۵/ ۱۹/۶۰
پاسخ قابل قبول /۷۱/ ۸۱/۴۵/ ۱۱۵/ ۹۸/۳۸/ ۱۹/ ۵۴/۲۷/ ۲۱۵/ ۸۱/۳۹
جمع/ ۱۵۵/ ۰۰/۱۰۰/ ۲۹۵/ ۰۰/۱۰۰/ ۶۹/ ۰۰/۱۰۰/ ۵۱۹/ ۰۰/۱۰۰
● نژاد- نتایج و تحلیل
سپس ارتباط میان موفقیت جستجو و نژاد كاربران مورد بررسی قرار گرفت. این روابط در جدول شماره ۳ آورده شده است.
با بررسی نتایج مشخص شده در میان كاربران با نژادهای مختلف، آسیایی‌ها كمترین موفقیت را بدست آوردند (۲۸درصد) و به ترتیب، دورگه‌ها ۳۵درصد، سیاهپوستان ۴۱ درصد و سفید پوستها بالاترین موفقیت یعنی ۴۵ درصد را بدست آورند. با استفاده از آزمون خی دو برای داده های گسسته، مشخص شد كه روابط معناداری میان نژاد كاربران و نتایج بدست آمده از جستجوی اینترنتی آنها، وجود دارد.(احتمال =۰۱۸۹/۰). سفیدپوستها بیشتر از سیاهپوست ها، آسیایی‌ها و دو رگه‌ها به موفقیت در جستجو دست یافتند.
جدول ۳: توزیع نتایج بدست آمده از پاسخ دهندگان بر حسب نژاد
آسیایی/ دورگه/ سیاهپوست/ سفیدپوست/ جمع
تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد
عدم پاسخگویی / ۷۰/ ۱۶/۲۷/ ۵۰/ ۹۴/۶۴/ ۳۲/ ۲۶/۵۹/ ۱۶۲/ ۹۲/۵۴/ ۳۱۴/ ۰۴/۶۰
نتایج قابل قبول /۲۷/ ۸۴/۲۷/ ۲۷/ ۰۶/۳۵/ ۲۲/ ۷۴/۴۰/ ۱۳۳/ ۰۸/۴۵/ ۲۰۹/ ۹۶/۳۹
جمع /۹۷/ ۰۰/۱۰۰/ ۷۷/ ۰۰/۱۰۰/ ۵۴/ ۰۰//۱۰۰/ ۲۹۵/ ۰۰/۱۰۰/ ۵۲۳/ ۰۰/۱۰۰
● تعداد كلید واژه‌ها – نتایج و تحلیل
مقایسه چهارم و آخر، تعداد كلید واژه‌های بكار رفته توسط كاربران، در جدول ۴ بررسی شده است. یك تحلیل سطحی نشان می‌دهد كه تفاوت زیادی در میزان موفقیت بین كاربرانی كه فقط از یك كلید واژه استفاده می‌كنند (میزان موفقیت كم) و كسانی كه دو یا بیشتر كلید واژه بكار می‌برند وجود دارد. بطور تخصصی‌تر، بدست آوردن نتیجه قابل قبول در جستجو، زمانی كه از دو یا چند كلید واژه استفاده می شود، ۵/۵ برابر زمانی است كه یك كلیدواژه مورد جستجو قرار می گیرد.
یك آزمون خی دو برای گسستگی نشان داد كه رابطه معنی داری میان تعداد كلیدواژه‌های بكار رفته و نتایج بدست آمده در جستجو وجود دارد. (احتمال =۰۲۲۸/۰)
جدول۴: توزیع نتایج بدست آمده از پاسخ دهندگان بر حسب انتخاب كلید واژه
تك واژه‌ای/ دو یا چند واژه‌ای/ جمع
تعداد/ درصد/ تعداد/ درصد/ تعداد/ درصد
عدم پاسخگویی/ ۷۶/ ۰۷/۱۴/ ۲۴۹/ ۱۱/۴۶/ ۳۲۵/ ۱۸/۶۰
پاسخهای قابل قبول/ ۳۳/ ۱۱/۶/ ۱۸۲/ ۷۷/۳۳/ ۲۱۵/ ۸۲/۳۹
جمع /۱۰۹/ ۱۸/۲۰/ ۴۳۱/ ۸۸/۷۹/ ۵۴۰/ ۰۰/۱۰۰
● تحلیل تركیبی جنسیت، سن، نژاد و كلید واژه‌ها
مؤلفان بعداً چهار عنصر را برای نتیجه‌گیری با هم تركیب كردند. جدول شماره ۵ نتایج رگراسیون منطقی است كه با داده‌ها مطابقت داده شده تا معین شود كدام متغیرها برای بدست آوردن نتایج در جستجوهای اینترنتی با هم بكار رفته‌اند. یك انتخاب گزینشی نشان داد كه تعداد كلید واژه‌ها، سن و نژاد گروههای پاسخ‌دهندگان بهترین تعیین كننده است كه آیا در یك جستجوی اینترنتی نتیجه‌ای حاصل می‌شود یا خیر.
جدول ۵: نتایج آماری تركیبی
تأثیر/ DF/ Wald Chi-Square/ Pr>Chi-Square
سن/ ۱/ ۳۴۰۰/۴/ ۰۳۷۲/۰
نژاد/ ۳/ ۶۰۸۳/۹/ ۰۲۲۲/۰
كلید واژه/ ۱/ ۰۷۲۷/۴/ ۰۴۳۶/۰
● نتیجه و پیشنهادات
روشن شد كه خصیصه‌های دموگرافیك كاربران اینترنت، بر نتیجه جستجوی آنها تاثیرگذار است. آشكار است كه نژاد، سن و تعداد كلید واژه‌ها، تأثیر قابل ملاحظه‌ای بر بروندادها دارند اما جنسیت اینچنین نیست. تعداد كلید واژه‌ها بیشترین تأثیر را دارد (كلید واژه‌های بیشتر میزان موفقیت بیشتری را به همراه دارد) و به دنبال آن، سن (جوانترها میزان موفقیت بیشتری را كسب می‌كنند) و نژاد (كاربران سفید میزان موفقیت بیشتری نسبت به دیگران كسب می‌كنند) در رده‌های بعدی قرار دارند.
مطالعات زیادی بر روی مسئله جنسیت انجام شده اما هیچكدام نتوانسته ثابت كند كه جنسیت بر روی موفقیت جستجوی اینترنتی تأثیر دارد و این زمینه را برای تحقیقات آینده فراهم می‌كند.
تفاوت قابل توجهی در عمل بین نژادهای متفاوت وجود دارد. از آنجائی كه بیشتر شركت كنندگان در این تحقیق از افریقای شمالی بودند، تأثیر تاریخ تبعیض نژادی، احتمالاً در این تفاوت آشكارا قابل ادعاست. اگر چه چشم‌اندازهای سیاسی در حال تغییر است، شركت كنندگان در این مطالعه هنوز نتایج دیدگاه آپارتاید در گذشته آنها و فقدان آموزش صحیح را با خود به یدك می‌كشند.
تفاوت در گروههای مختلف سنی ظاهراً نشان می‌دهد كه كاربران جوانتر در كاربرد تكنولوژی برای دستیابی به پاسخ توانایی بیشتری دارند. در مورد كاربران جوان تر، بكارگیری كامپیوتر و اینترنت در سنین پائین باعث بوجود آمدن این برتری در دستیابی به موفقیت در جستجوی اینترنتی می باشد. مطالعات اولیه این حقیقت را آشكار كرده كه محققانی كه بر روی پروژه تكواژه ای كار می‌كردند، دریافتند نمایه هایی كه از عبارتهای یك كلمه‌ای استفاده كرده‌اند، نتایج بهتری از نمایه های چند كلمه‌ای بدست می‌دهند.(رابرتسون)
نتیجه برای تعداد كلید واژه‌ها ظاهراً با كارهای اولیه‌ای كه بر روی این سیستم انجام شده، در تضاد است. با این وجود سیستم تكواژه ای با روش نمایه سازی اطلاعات سر و كار دارد در حالی كه این پروژه بیشتر به روش بازیابی اطلاعات می پردازد.
دلیل این تفاوتها دامنه وسیع اطلاعات موجود در اینترنت است كه باعث موفقیت سیستم تكواژه ای برای سالها شده است. یك آزمایش سریع با جستجوی تك واژه‌ای در گوگل برای كلمه Weather ۴۱۴۰۰۰۰۰ پاسخ و برای كلمه Research، ۹۶۴۰۰۰۰۰ پاسخ به دست می‌دهد. حتی یك جستجو در مورد كلمه Information Technology ، ۳۵۸۰۰۰۰ پاسخ داد. این موارد نشان می‌دهد كه جستجوی تكواژه‌ای در اینترنت روش سودمندی نیست. تحقیقات آینده در این زمینه بر موفقیت كاربرد عبارتهای مفرد با تلفظ مشكل و منحصر به فرد نسبت به جستجوی تكواژه‌ای تمركز دارد. به عنوان مثال در طول یك جستجو در گوگل، كلمات Anorexia , Derailleurهر كدام فقط ۹۸۰۰۰ و ۵۵۰۰۰۰ پاسخ ارایه می‌دهند.
بالاخره شایان ذكر است كه سن، نژاد و طول كلید واژه عواملی هستند كه در موفقیت جستجو نتایج آنچنان شگفت‌آوری به دست نمی‌دهند. با این وجود، این حقیقت كه جنسیت، میزان موفقیت جستجو را به میزان زیادی تعیین نمی‌كند جالب توجه است و می‌تواند عنوانی برای تحقیقات بعدی باشد.
ترجمه:محمدامین عرفان منش دانشجوی کارشناسی ارشد دانشگاه شیراز فهیمه کشمیری دانشجوی کارشناسی ارشد

عالم محضر خداست درمحضر خدا گناه نکنید حضرت امام (ره)

شنبه 2 بهمن 1389 8:17 PM