CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب

عنوان مقاله: تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب
شناسه ملی مقاله: ICEEE03_155
منتشر شده در سومین کنفرانس مهندسی برق و الکترونیک ایران در سال 1390
مشخصات نویسندگان مقاله:

سامان باشباغی - آزمایشگاه مهندسی زبان گروه کامپیوتر دانشگاه بوعلی سینا همدان
عبدالحمید پیله ور

خلاصه مقاله:
با توجه به گسترش اسنادی که روزانه به زبانهای مختلف روی اینترنت قرار میگیرند مساله تشخیص زبان خودکار متون اهمیت می یابد دراین مقاله از سیستم تشخیص زبان به منظور دسته بندیو پالایش صفحات غیراخلاقی وب براساس محتوا استفاده کرده ایم این سیستم قابلیت تشخیص 10 زبان پرکاربرد در صفحات غیراخلاقی وب از جمله زبان فارسی را دارا می باشد بدین منظور یک روش ترکیبی جدید پیشنهاد شده است که از سه قسمت پردازش URL پردازش Encoding صفحه و پردازش متن موجوددر صفحه تشکیل شده است این سیستم همچنین دارای یک رای دهنده است که نتایج هر سه قسمت را برای تولید خروجی مناسب ترکیب می کند. همچنین از مجموعه وب سایت های غیراخلاقی تهیه شده و برچسب خورده به عنوان مجموعه داده ها جهت ایجاد یک مدل زبانی برای هر زبان و ارزیابی سیستم پیشنهادی بهره گرفته ایم که به میانگین دقتی در حدود 95% رسیده ایم.

کلمات کلیدی:
دسته بندی متن، تشخیص خودکار زبان، پالایش صفحات وب، وب سایت های غیراخلاقی و تصفیه محتوایی متون

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/125387/