یک روش استخراج اتوماتیک داده از وب بر مبنای آنترولوژی

سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,368

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC01_029

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

روشهای متعددی برای استخراج داده از صفحات وب مطرح شده است که نوعا بدلیل وابستگی به ساختار گرامری متن صفحات، دارای پیچیدگی و نقاط ضعف مخصوص به خود هستند. اخیرا رویکرد استفاده از آنتولوژی وب معنایی مطرح شده که در مراحل اولیه خود می باشد. در این مقاله یک روش مبتنی بر آنتولوژی برای استخراج داده از صفحات وب پیشنهاد شده است. این روش با استفاده از مفاهیم موجود در آنتولوژی دامنه پژوهش در علوم کامپیوتر و تکنیکهای پردازش زبان طبیعی، داده های موجود در صفحات وب را به فرم ساخت یافته و قابل پرس و جو استخراج می نماید. روش ما انعطاف پذیر و مستقل از گرامر متن صفحات وب بوده و مشکلات ناش از تغییر ساختار صفحات وب را بطور قابل توجهی برطرف نموده است. نتایج حاصل از استخراج داده نشان میدهد که این روش با دقت بالایی آیتم های داده را شناسایی و استخراج می نماید.

نویسندگان

بهرام امینی

مدرس گروه کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد، دانشکده فنی و

حسن ابوالحسنی

استادیار، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر