تاثیر انتخاب کلید واژه
هدف این تحقیق، تعیین تأثیر انتخاب كلید واژهها و خصیصههای دموگرافیك بر موفقیت در جستجوی اینترنتی از طریق تحقیق تجربی میباشد. آزمایشی بر روی ۱۱۰۹ نفر انجام شد كه در سه قاره و در ۴۶ مؤسسه آموزش عالی پراكنده بودند. روابط متنوعی در این آزمایش مورد بررسی قرار گرفت كه عبارت بودند از روابط بین: تعداد كلید واژههای بكار رفته، سن، نژاد، جنسیت و میزان موفقیت در جستجو. نتایج ثابت كرد كه سه مورد اول تأثیر قابل توجهی بر موفقیت در جستجو دارند در حالی كه تأثیر جنسیت جزئی است.
بشر برای قرنها درگیر ذخیره سازی دادهها و اطلاعات بوده است. بازیابی مؤثر اطلاعات مرتبط در مدت زمانی كوتاه، همیشه یک مساله معمول تجربه شده در این حوزه به شمار می رفته است. هدف این مقاله گزارش از یك مطالعه ادبی و یك تحقیق تجربی در زمینه بازیابی اطلاعات مرتبط از اینترنت میباشد.
فعالیت در زمینه ذخیره سازی و بازیابی اطلاعات حدوداً از اوایل هزاره سوم قبل از میلاد شروع شده است. سومریها به عنوان اولین مردمی بودند كه با هدف كمك به طبقات مختلف اجتماعی برای كاركرد بهتر، شروع به ذخیره سازی و ردهبندی مواد نوشتاری در مجموعه كتابخانهها كردند. فعالیتهای روزانه و ادبیات بر روی الواح گلی ثبت و در مناطق بخصوص نگهداری می شدند. این مدارک تنها دارای برچسبی بودند كه شامل كلمه آغازین سند بود و این تنها روش نمایه سازی اسناد محسوب می شد. تهیه فیزیكی این برچسبهای گلی، به عنوان یكی از اولین تكنولوژیها به سمت پایهگذاری نمایه سازی محسوب می شود. این كتابخانهها در فقدان ابزارهای تكنولوژیكی پیشرفته كه بازیابی اطلاعات را ممكن سازد، بیشتر شبیه به مجموعههایی از اسناد برچسب زده بودند.
نمایه سازی و رده بندی ساده نسخ خطی، در طی قرون وسطی انجام می شد. در نتیجه طرحهای كدگذاری و كلیدهای الفبایی که مورد استفاده قرار می گرفت، نمایه سازانی که درگیر این كارها بودند، نشئه هایی از تصوف آنها را فرا گرفته بود. فهرستنویسی در قرون وسطی با به کارگیری فهرستبرگههای دستنویس شروع شد.
عصر كامپیوترهای ابرقدرت امروزی كه از طریق فهرستهای مقلوب و جستجوهای خطی ایجاد شدهاند، ثابت كرده است كه برای قدرت بخشیدن به ذخیره سازی و بازیابی اطلاعات، بسیار به تكنولوژی محتاجیم. این تكنولوژی كه قدرتش رو به افزایش است، بر مكانیسم های جستجو فشارهای اقتصادی وارد میآورد و حالا هر مشخصه و ویژگی مدرک میتواند با یك پرسش در جستجو مطابقت داده شود. در حقیقت، هم اكنون هیچ مانع تكنیكی وجود ندارد كه یك نمایه را از اینكه شامل هر ویژگی از یك سند مشخص باشد، محروم كند. یك مثال اولیه از این مورد، فهرست های انجیل است. از قبیل فهرست كامل استرانگ[۱] كه برای اولین بار در سال ۱۸۹۰ منتشر شد.
● پیشینه پژوهش
تحقیقات زیادی در زمینه بازیابی اطلاعات بطور عام و بازیابی اطلاعات از اینترنت بصورت خاص، انجام شده است. بعضی از این تحقیقات در اینجا مقایسه و مرور شدهاند.
● كارهای اولیه
ایدهآل ترین نمایش یك سند این است كه آن را نمایه سازی كنیم، اما فقدان اولیه مدارک و محدودیتهای بعدی ابزارهای تكنولوژیكی (مانند فضای ذخیره)، دستیابی به این ایدهآل را غیرممكن می ساخت. در اواخر دهه ۱۹۵۰ و دهه ۱۹۶۰ میلادی، استفاده از نام نویسنده در ناحیه نمایش محتوای سند، كار برجستهای بود. سیستم بحث برانگیز تکواژه ای، در بریتانیا و آمریكا علایق را برانگیخت و منجر به آزمایشهای كرنفیلد[۲] شد كه توسط كلوردون[۳]، كین[۴]، رابرتسون[۵] و تونتا[۶] مورد بحث قرار گرفت.(۱۹۹۶)
در این سیستم، اسناد از طریق یك اصطلاح مفرد كه از عنوان سند یا چكیده آن استخراج میشد، نمایه سازی میشدند. بعد از یك سری آزمایشهای برنامهریزی شده، نتایج سیستم تکواژه ای با روشهای نمایه سازی سنتیتر كه مورد استفاده بودند، مقایسه شدند. این مقایسه ظاهراً به دلیل عدم توافق در مورد قضاوت صحیح از نتایج آزمایش، شکست خورد و مباحث در این مورد بی نتیجه ماند. یك گروه از آزمایش كنندگان ادعا كردند كه سیستم تکواژه ای خوب عمل می کرد در حالی كه دیگران كاملاً مخالف این ادعا بودند.(الیس[۷]، ۱۹۹۶)
سری واقعی آزمایشات در کالج ایرونتیک[۸] در کرانفیلد انگلستان انجام شدند. مقایسه علمی دیگری در این زمان بین سیستم تکواژه ای و نمونه اصلاح شده ردهبندی دهدهی جهانی صورت گرفت. مجموعه ای از دویست سند در مورد دانش فضانوردی استخراج شده و به عنوان مجموعه اصلی مدارک به کار گرفته شدند. سپس از میان آنها، چهل مدرک استخراج شده و برای ایجاد چهل تقاضای ساختگی بکار رفتند. فرضیه این بود كه اگر سؤال شماره یك مطرح شود، سند شماره یك باید به عنوان مرتبط ترین سند از مجموعه دویست سند برگزیده شود. اگرچه محدودیت های کاملا اجتناب ناپذیری در تحقیق مشهود بود، این تحقیق تأثیرگذاری سیستم تکواژه ای را فراتر از ردهبندی دهدهی جهانی اثبات كرد.(همان)
این آزمایش با آزمایش كرنفیلد۱[۹] دنبال شد كه شامل مقایسهای میان چهار سیستم نمایه سازی متفاوت بود. در این آزمایش، از مجموعهای شامل هجده هزار سند اصلی استفاده شد که تمام این مدارک، با هر چهار روش نمایه سازی شدند. با استفاده از همان روشی كه در آزمایش قبلی بكار رفته بود، هزار و دویست تقاضا بر اساس این اسناد، طرح شد. تحقیقاتی انجام شد و موفقیت یا شكست برای هر كدام، بررسی و ذكر گردید. اجرای چهار سیستم نمایه سازی، تقریبا با سطح موفقیتی بین ۸/۷۳ تا ۸۲ درصد انجام شد. دوباره این موضوع به اثبات رسید که سیستم تکواژه ای در مقایسه با سیستم های سنتی تر مرسوم، در یک سطح کارایی قرار دارد. بسیاری نویسندگان انتقادات گستردهای در مقابل آزمایش كرانفیلد۱ مطرح كردند كه اكثر آنها از عقیده بکارگیری اسناد در طرح سوالات ساختگی، نشأت میگرفت.(همانجا)
بعداً آزمایشهای دیگری كه كرانفیلد۲[۱۰] نامیده میشد نیز انجام شد. این سری بررسی ها به جای اینکه تنها یک آزمایش از سیستم های نمایه سازی باشد، مبتنی بر طرح ها و زبانهای متفاوت نمایه سازی بود. بطور كلی ۲۱۱ سؤال تحقیقاتی از نویسندگان اصلی هر سند (از بین ۱۴۰۰ سند نمونه) پرسیده شد. بنابراین میزان تأثیر این آزمایش در مقایسه با كرانفیلد۱ بطور واضحی مرتبط بود. این آزمایش ثابت كرد كه زبانهای نمایه سازی تکواژه ای بهترین كارایی را دارند و جامعیت و مانعیت با هم دارای رابطه معکوس هستند.(همان)
دو تحقیق دیگر توسط تونتا[۱۱] انجام شد كه مطالعه سیستم بازیابی تمام متن بلیر و مارون[۱۲] و دیگری پروژه ردهبندی دهدهی دیویی پیوسته ماركی و دمیر[۱۳] بودند. بلیر و مارون در مطالعاتشان از مانعیت و جامعیت به عنوان معیارهای عملكردی در مورد یک پایگاه اطلاعاتی چهل هزار سندی و بر اساس ۵۱ سؤال از دو حقوقدان، استفاده كردند. آنها ثابت كردند كه اشكالات مربوط به جامعیت بیشتر از آنچه كه مورد انتظار بود رخ داده و اینكه نسبت متوسط مانعیت و جامعیت به ترتیب ۷۹درصد و ۲۰درصد بود.
ماركی و دمیر نظام دهدهی دیویی را به عنوان ابزاری در جستجوی پیوسته به کار گرفتند و مشاهده کردند كه هیچ رابطهای میان مانعیت جستجوهای پیوسته و رضایت جستجو کنندگان مشاهده نشد. آزمایشاتی كه در طول این پروژه تحقیقاتی انجام شد، موضوع به کارگیری تکواژه به عنوان كلید جستجو را دوباره تداعی خواهد كرد، که بواسطه آن، مقایسههای جالبی با سیستم تکواژه ای که قبلا بحث شد، فراهم خواهد آمد.