پاسخ به:دانلود مقالات کامپیوتر
پنج شنبه 24 فروردین 1391 7:12 PM
احمدي علي، زمانيان مهدي، فرزين هادي، خالقي محمود، محمدي تاکامي محسن |
كنفرانس ملي سالانه انجمن كامپيوتر ايران 1387;اسفند 1387(14) |
کلید واژه: پالايش هوشمند، پالايش محتوا، شناسايي صفحات وب، صفحات غير اخلاقي، پروفايل صفحات، رنگ پوست |
خلاصه:
روش هاي موجود براي پالايش صفحات وب بيشتر مبتني بر سد كردن نشاني هاي اينترنتي خاص از طريق جستجو در يك ليست مرجع از صفحات غير مجاز و يا با استفاده از تحليل ساده متن از طريق جستجوي كلمات كليدي خاص در صفحات است. مشكل اصلي اين روش ها نياز براي به روزرساني مداوم فهرست نشاني ها و نيز ميزان قابل توجه اشتباه گرفتن صفحه هاي مجاز در آنهاست. در اين مقاله يك روش پالايش هوشمند براي پالايش صفحات غيراخلاقي را پيشنهاد كرده ايم كه با استفاده از هر سه نوع ويژگي ساختاري، متني و تصويري و تركيب سلسله مراتبي آنها يك دسته بندي هوشمند با دقت بالا (روي FN و FP هر دو) را به دست مي دهد. الگوريتم روي 2600 صفحه وب شامل 1400 صفحه غيراخلاقي (داراي متن، تصوير، يا هر دو) انگليسي و فارسي و 1200 صفحه مجاز شامل صفحات پزشكي، سلامت، ورزشي و غيره مورد آزمايش قرار گرفته و دقت دسته بندي بالاي 95% را به همراه داشته است. |