CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یک روش استخراج اتوماتیک داده از وب بر مبنای آنترولوژی

عنوان مقاله: یک روش استخراج اتوماتیک داده از وب بر مبنای آنترولوژی
شناسه ملی مقاله: IDMC01_029
منتشر شده در اولین کنفرانس داده کاوی ایران در سال 1386
مشخصات نویسندگان مقاله:

بهرام امینی - مدرس گروه کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد، دانشکده فنی و
حسن ابوالحسنی - استادیار، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر

خلاصه مقاله:
روشهای متعددی برای استخراج داده از صفحات وب مطرح شده است که نوعا بدلیل وابستگی به ساختار گرامری متن صفحات، دارای پیچیدگی و نقاط ضعف مخصوص به خود هستند. اخیرا رویکرد استفاده از آنتولوژی وب معنایی مطرح شده که در مراحل اولیه خود می باشد. در این مقاله یک روش مبتنی بر آنتولوژی برای استخراج داده از صفحات وب پیشنهاد شده است. این روش با استفاده از مفاهیم موجود در آنتولوژی دامنه پژوهش در علوم کامپیوتر و تکنیکهای پردازش زبان طبیعی، داده های موجود در صفحات وب را به فرم ساخت یافته و قابل پرس و جو استخراج می نماید. روش ما انعطاف پذیر و مستقل از گرامر متن صفحات وب بوده و مشکلات ناش از تغییر ساختار صفحات وب را بطور قابل توجهی برطرف نموده است. نتایج حاصل از استخراج داده نشان میدهد که این روش با دقت بالایی آیتم های داده را شناسایی و استخراج می نماید.

کلمات کلیدی:
آنتولوژی ، وب معنایی ، استخراج داده ، وب

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/33006/