CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

استخراج معنایی رکوردهای داده از صفحات وب توصیف محصول

عنوان مقاله: استخراج معنایی رکوردهای داده از صفحات وب توصیف محصول
شناسه ملی مقاله: ACCSI14_140
منتشر شده در چهاردهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1387
مشخصات نویسندگان مقاله:

امین کشاورزی - عضو هیات علمی دانشگاه آزاد اسلامی
فرزاد پیروی - عضو هیات علمی دانشگاه آزاد اسلامی
امیر مسعود رحمانی - عضو هیات علمی دانشگاه آزاد اسلامی
راضیه کشاورزی - دانشگاه پیام نور

خلاصه مقاله:
با استفاده از سیستم های استخراج اطلاعات می توان پرس و جوهای خود را به جای داده های وب، بر روی اطلاعات ساخت یافته انجام داد. با استفاده از هستان شناسی می توان استخراج اطلاعات را به صورت معنایی انجام داد. در این مقاله به کمک هستان شناسی و با استفاده از معیار آماری واریانس یک روش هوشمند جهت استخراج رکوردهای داده، در صفحات توصیف محصول که نوعی از صفحات وب نیمه ساخت یافته هستند، ارائه شده است. در روش پیشنهادی ابتدا ناحیه اصلی صفحه وب که شامل رکوردهای داده است به کمک هستان شناسی و با استفاده از واریانس تشخیص داده می شود و در مرحله بعد با استفاده از الگوریتم تطبیق برچسب، رکوردهای داده موجود در ناحیه اصلی استخراج می شوند. این روش بر عکس روش های موجود علاوه بر ساختار صفحات وب، محتوای آن ها را نیز درنظر می گیرد و دارای دقت وپوشش بالاتری است.

کلمات کلیدی:
استخراج اطلاعات، صفحات توصیف محصول، هستان شناسی (ontology)، تطبیق برچسب (tag)

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/60888/