CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی روش های استخراج داده وب مبتنی بر آنتالوژی

عنوان مقاله: بررسی روش های استخراج داده وب مبتنی بر آنتالوژی
شناسه ملی مقاله: ECECON01_001
منتشر شده در کنفرانس ملی سیستم های هوشمند و محاسبات سریع در سال 1399
مشخصات نویسندگان مقاله:

حوریه شیرازی - دانشجوی دکتری دانشگاه آزاد اسلامی واحد فردوس ایران
سیدمحمد جوادی مقدم - عضو هیئت علمی گروه کامپیوتر دانشگاه بزرگمهر قائنات قاین ایران

خلاصه مقاله:
استخراج داده های وب یکی از مهم ترین مسائلی است که می تواند مورد مطالعه با استفاده از ابزارهای مختلف علمی قرار گیرد که در محدوده گسترده ای از برنامه های کاربردی است. بسیاری از روش هایی که برای استخراج داده از وب سایت طراحی شده است برای حل مشکلات خاص و در حوزه های موقت به کار می رود. سیستم های استخراج داده های وب دسته وسیعی از نرم افزارهای برنامه های کاربردی برای استخراج داده های وب از منابع وب هستند. یک سیستم استخراج داده های وب معمولا در تعامل با یک منبع وب و عصاره داده های ذخیره شده می باشد. به عنوان مثال اگر منبع یک صفحه وب HTML باشد محتوای خارج شده می تواند از علائم در صفحه و همچنین متن کاملی از خود صفحه باشد و در نهایت داده های استخراج شده ممکن است پس از پردازش به ساختار فرمت مناسب تبدیل و ذخیره شود. یک روش مهم برای استخراج Text Mining استفاده از استخراج اطلاعات به زبان طبیعی است. استخراج اطلاعات IE تقطیر داده های ساختار یافته و یا دانش از متن بدون ساختار یافته که به وسیله شناسایی منابع برای موجودیت نام و روابط بین این موجودیت ها بدست می آید.همچنین ما در این بحث وارد یکی از شاخه های متن کاوی که هستی شناسی نام دارد می شویم به طوری که عناصر تشکیل دهنده هستی شناسی جمعیت خواص و روابط غیر طبقه بندی را شامل می شود. در این تحقیق انواع تکنیک ها و روش های استخراج داده وب و همچنین مزایا و معایب هرکدام بررسی می شوند.

کلمات کلیدی:
استخراج داده، وب کاوی، الگوریتم تطبیق درخت، پوشش وب، هستی شناسی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1152578/