|
يك روش استخراج اتوماتيك داده از وب بر مبناي آنترولوژي Fulltext
نويسندهگان:
[ بهرام اميني ] - مدرس گروه كامپيوتر، دانشگاه ازاد اسلامي واحد نجف آباد، دانشكده فني و مهندسي [ حسن ابوالحسني ] - استاديار، دانشگاه صنعتي شريف، دانشكده مهندسي كامپيوتر
خلاصه مقاله:
روشهاي متعددي براي استخراج داده از صفحات وب مطرح شده است كه نوعا بدليل وابستگي به ساختار گرامري متن صفحات، داراي پيچيدگي و نقاط ضعف مخصوص به خود هستند. اخيرا رويكرد استفاده از آنتولوژي وب معنايي مطرح شده كه در مراحل اوليه خود مي باشد. در اين مقاله يك روش مبتني بر آنتولوژي براي استخراج داده از صفحات وب پيشنهاد شده است. اين روش با استفاده از مفاهيم موجود در آنتولوژي دامنه پژوهش در علوم كامپيوتر و تكنيكهاي پردازش زبان طبيعي، داده هاي موجود در صفحات وب را به فرم ساخت يافته و قابل پرس و جو استخراج مي نمايد. روش ما انعطاف پذير و مستقل از گرامر متن صفحات وب بوده و مشكلات ناش از تغيير ساختار صفحات وب را بطور قابل توجهي برطرف نموده است. نتايج حاصل از استخراج داده نشان ميدهد كه اين روش با دقت بالايي آيتم هاي داده را شناسايي و استخراج مي نمايد.
كلمات كليدي:
آنتولوژي ، وب معنايي ، استخراج داده ، وب
فایل PDF حاوی متن کامل این مقاله در حال حاضر در سایت موجود نمیباشد.
[ لينک دايمي به اين صفحه: http://www.civilica.com/Paper-IDMC01-IDMC01_029.html ]
|