یک روش استخراج اتوماتیک داده از وب بر مبنای آنترولوژی
محل انتشار: اولین کنفرانس داده کاوی ایران
سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,368
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC01_029
تاریخ نمایه سازی: 20 خرداد 1386
چکیده مقاله:
روشهای متعددی برای استخراج داده از صفحات وب مطرح شده است که نوعا بدلیل وابستگی به ساختار گرامری متن صفحات، دارای پیچیدگی و نقاط ضعف مخصوص به خود هستند. اخیرا رویکرد استفاده از آنتولوژی وب معنایی مطرح شده که در مراحل اولیه خود می باشد. در این مقاله یک روش مبتنی بر آنتولوژی برای استخراج داده از صفحات وب پیشنهاد شده است. این روش با استفاده از مفاهیم موجود در آنتولوژی دامنه پژوهش در علوم کامپیوتر و تکنیکهای پردازش زبان طبیعی، داده های موجود در صفحات وب را به فرم ساخت یافته و قابل پرس و جو استخراج می نماید. روش ما انعطاف پذیر و مستقل از گرامر متن صفحات وب بوده و مشکلات ناش از تغییر ساختار صفحات وب را بطور قابل توجهی برطرف نموده است. نتایج حاصل از استخراج داده نشان میدهد که این روش با دقت بالایی آیتم های داده را شناسایی و استخراج می نماید.
کلیدواژه ها:
نویسندگان
بهرام امینی
مدرس گروه کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد، دانشکده فنی و
حسن ابوالحسنی
استادیار، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر