استخراج محتوای مفید صفحات وب بر اساس DOM و تکنیک ها
سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 399
فایل این مقاله در 17 صفحه با فرمت PDF و WORD قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
NSOECE05_027
تاریخ نمایه سازی: 10 تیر 1396
چکیده مقاله:
شبکه جهانی وب به عنوان یک سرویس جهانی است که به طور گسترده ای توزیع شده است ویک مرکز سرویس اطلاعات جهانی برای اخبار، آگهی ها، اطلاعات مصرف کننده، مدیریت مالی، آموزش و پرورش، دولت، تجارت الکترونیک و خیلی از سرویس های اطلاعاتی دیگر است؛ بنابراین صفحات وب اینترنت به طور معمول شامل مقدار زیادی از محتوای بی ارزش نظیر تبلیغات، جستجو، فیلترکردن پانل، هدرها، پاصفحه ها، لینک های ناوبری، اطلاعات کپی رایت و... است. محتوای مفید، محتوای اصلی از صفحه وب است که اطلاعات مورد نیاز را به کاربر می دهد. بیشتر دریافت کننده ها و کاربران نهایی فقط محتوای مفید را جستجو می کنند و نیاز به استخراج محتوای مفید از صفحات وب دارند. برای استخراج محتوای مفید از صفحه وب به طور صحیح، محتوای مفید و محتوای بی ارزش از صفحه وب باید به وضوح شناخته شده باشند. برای تمایز بین محتوای مفید و بی ارزش در یک صفحه وب، نیاز به تقسم بندی صفحه وب به بلوک های معنایی است.دراین مقاله روش های اتوماتیک استخراج محتوای مفید وب از صفحات وب از جمله استخراج محتوا از طریق لینک ها، صفات، کلمات و مدل های یادگیری مورد بررسی قرار میگیرند.
کلیدواژه ها:
نویسندگان
زیبا جعفری
دانشگاه آزاد اسلامی واحد کرمان،ایران
محمد احمدی نیا
دانشگاه آزاد اسلامی واحد کرمان،ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :