استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules
سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 792
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CITCOMP02_283
تاریخ نمایه سازی: 7 اسفند 1396
چکیده مقاله:
امروزه دستیابی به داده ، اشتراک داده ، استخراج اطلاعات از داده و استفاده از این اطلاعات ، به امری حیاتی برای کارشناسان فناوری تبدیل شده است. با توجه به رشد انفجاری اینترنت و گسترش و افزایش چشم گیر صفحات وب و همچنین تولید منابع اطلاعاتی بزرگ در وب سایت ها و نیاز بشری به اطلاعات جدید و بروز، داده کاوی در وب به یکی از مهمترین و محبوبترین تکنیک ها جهت کشف اطلاعات و دانش مورد توجه قرار گرفته است. با این حال بسیاری از اطلاعات زاید و بی ربط از قبیل پانل ناوبری، جدول محتوا، تبلیغات، کاتالوگ خدمات، منوها و غیره... در این صفحات وجود دارد. درنتیجه محتوای صفحات وب به دو صورت محتوای مفید (اصلی) و غیرمفید(غیر اصلی) درنظرگرفته شده اند. بیشتر دریافت کننده ها وکاربران نهایی فقط محتوای مفید را جستجو می کند. دراین روش پس از استاندارد سازی صفحه وب و ایجاد درخت DOM، بهترین گره فرزند گره والد طبق الگوریتم وزن دهی انتخاب ، و سپس بهترین مسیر انتخاب و در نهایت بهترین گره نمونه انتخاب می شود و در آخر ویژگی های درخت نمونه استخراج و سپس با گره های همنام گره نمونه تطبیق داده می شود و به عنوان محتوا نمایش داده می شوند. . راه حل ارایه شده بر روی چندین مجموعه داده اعمال گردیده است ونتایج حاصل ، بیانگر دقت و فراخوانی و فاکتورF به ترتیب 992/0 و984/0 و 987/0 می باشد.
کلیدواژه ها:
نویسندگان
مهدی محمدی
دانشجوی کارشناسی ارشد مهندسی نرم افزار گروه کامپیوتر ، دانشکده فنی مهندسی ، واحد میبد ، دانشگاه آزاد اسلامی ، یزد ، ایران
محمدجواد کارگر
استادیار گروه مهندسی کامپیوتر ، دانشگاه علم و فرهنگ ، تهران ، ایران