استفاده از تکنیک های حفاری وب جهت استخراج صفحاتی با بیشترین تشابه به صفحه مورد نظر
محل انتشار: دهمین کنفرانس دانشجویی مهندسی برق ایران
سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 997
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ISCEE10_227
تاریخ نمایه سازی: 7 آذر 1390
چکیده مقاله:
با افزایش و رشد وب، داده های موجود در آن به سرعت در حال افزایشند در طی ده سال اخیر حجم عظیمی از داده ها ی مورد نیاز انسان در وب ذخیره شده است. علی رغم حجم عظیم داده های در دسترس در وب، طبق آمارهای اعلام شده تقریبا ٩٩ % داده های موجود برای ، ٩٩ % کاربران بدون استفاده می باشد. به طور کلی استخراج اطلاعات از وب نیازمند استفاده از تکنیک هایی مثل پردازش زبان طبیعی ١ بازیابی اطلاعات ٢، پایگاه داده ها ٣، یادگیری ماشین ٤، حفاری داده ٥و...است در این مقاله در ابتدا به مبحث حفاری وب ٦خواهیم پرداخت و شاخه های مختلف آن را مطرح کرده و در انتها الگوریتمی مطرح خواهیم کرد که بر اسا س ساختار فراپیوندی میان صفحات شبیهترین صفحه به صفحه مد نظر را می یابد. جهت ارزیابی الگوریتم مطرح شده از دادگانی که از سایتPersian blog جمع آوری شده استفاده نمودیم. مقایسه نتایج حاصل از روش پیشنهادی با نتایج حاصل از google نشان دهنده حدود ٨٠ % همپوشانی با نتایج موتور جستجوگرgoogle است.
کلیدواژه ها:
نویسندگان
زهرا شعاعی شیره جینی
تهران آزاد دانشگاه صنعتی شریف
پروین عابدی
دانشگاه آزاد اسلامی واحد شوشتر
نغمه حیدری
دانشگاه جندی شاپوراهواز
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :