CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)
عنوان
مقاله

استخراج اطلاعات از صفحات وب بر اساس ساختار آن ها

اعتبار موردنیاز: ۱ | تعداد صفحات: ۱۱ | تعداد نمایش خلاصه: ۲۵۸۳ | نظرات: ۰
سال انتشار: ۱۳۸۶
کد COI مقاله: IDMC01_049
زبان مقاله: فارسی
فایل PDF حاوی متن کامل این مقاله در حال حاضر در سایت موجود نمی‌باشد.

راهنمای دانلود فایل کامل این مقاله

متن کامل این مقاله منتشر نشده و درپایگاه سیویلیکا موجود نمی باشد.

منبع مقالات سیویلیکا دبیرخانه کنفرانسها است. برخی از دبیرخانه ها اقدام به انتشار اصل مقاله نمی نمایند. به منظور تکمیل بانک مقالات موجود، چکیده این مقالات در سایت درج می شوند ولی به دلیل عدم انتشار اصل مقاله، امکان ارائه آن وجود ندارد.

خرید و دانلود PDF مقاله

اصل مقاله (فول تکست) فوق منتشر نشده و یا در سایت موجود نیست و امکان خرید آن فراهم نمی باشد

مشخصات نویسندگان مقاله استخراج اطلاعات از صفحات وب بر اساس ساختار آن ها

  میثم قادریان - دانشجوی کارشناسی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی امیرکبیر
  احسان درویشی - دانشجوی کارشناسی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی امیرکبیر
  حسن ابوالحسنی - استادیار دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شریف

چکیده مقاله:

در این مقاله روشی برای استخراج اطلاعات ساخت یافته از صفحات وب مانند صفحات ویژگی های محصولات ارایه شده است. اکثر روش های موجود برای استخراج اطلاعات بر پایه استنتاج لفافه (wrapper) می باشند. بر خلاق روش استنتاج لفافه که به مجموعه اولیه ای از صفحات برچسب گذاری شده نیاز دارد، این روش یک روش یادگیری بدون ناظر است، هنگامی که یک صفحه جدید با هیچ کدام از صفحات برچسب گذاری شده مطابقت نداشته باشد آن صفحه را برچسب گذاری شده بیشتر گشته که به این ترتیب صفحات جدید بیشتری با صفحات برچسب گذاری شده قبلی مطابقت پیدا می کنند، بنابراین برچسب های آن ها به راحتی انتخاب می گردد. این روش بر خلاف روش استنتاج لفافه، با اجتناب از برچسب گذاری صفحاتی که دارای قالب یکسان هستند، مشکل اساسی یادگیری استنتاجی را حل می کند. مجموعه صفحات برچسب گذاری صفحاتی که دارای قالب یکسان هستند، مشکل اساسی یادگیری استنتاجی را حل می کند. مجموعه صفحات بر چسب دار ممکن است قالب تمام صفحات را پوشش ندهد، چرا که داده های ساخت یافته بر روی وب معمولا در چند قالب ثابت قرار می گیرند و صفحاتی که از یک قالب استفاده می کنند، می توانند با استفاده از یک نمونه صفحه برچسب دار، استخراج شوند. معیارهای موجود بر مبنای فاصله اقلدیسی یا شباهت متنی، به علت تفاوت در موارد استخراج شده از صفحات مختلف به راحتی قابل اجرا نمی باشد. برای رفع مشکل مذکور این مقاله یک معیار شباهت جدید مبتنی بر ساختار صفحات وب را ارایه می دهد که بر روی صفحات وب قالب دار به راحتی اجرا می گردد. نتایج آزمایش این روش در استخراج اطلاعات ، نشان می دهد که با دقت بالاتری نسبت به روش استنتاج لفافه اطلاعات خواسته شده را استخراج می کند.

کلیدواژه‌ها:

استخراج اطلاعات ، داده کاوی

کد مقاله/لینک ثابت به این مقاله

برای لینک دهی به این مقاله، می توانید از لینک زیر استفاده نمایید. این لینک همیشه ثابت است و به عنوان سند ثبت مقاله در مرجع سیویلیکا مورد استفاده قرار میگیرد:
https://www.civilica.com/Paper-IDMC01-IDMC01_049.html
کد COI مقاله: IDMC01_049

نحوه استناد به مقاله:

در صورتی که می خواهید در اثر پژوهشی خود به این مقاله ارجاع دهید، به سادگی می توانید از عبارت زیر در بخش منابع و مراجع استفاده نمایید:
قادریان, میثم؛ احسان درویشی و حسن ابوالحسنی، ۱۳۸۶، استخراج اطلاعات از صفحات وب بر اساس ساختار آن ها، اولین کنفرانس داده کاوی ایران، تهران، دانشگاه صنعتی امیرکبیر، موسسه پژوهشی داده پردازان گیتا، https://www.civilica.com/Paper-IDMC01-IDMC01_049.html

در داخل متن نیز هر جا که به عبارت و یا دستاوردی از این مقاله اشاره شود پس از ذکر مطلب، در داخل پارانتز، مشخصات زیر نوشته می شود.
برای بار اول: (قادریان, میثم؛ احسان درویشی و حسن ابوالحسنی، ۱۳۸۶)
برای بار دوم به بعد: (قادریان؛ درویشی و ابوالحسنی، ۱۳۸۶)
برای آشنایی کامل با نحوه مرجع نویسی لطفا بخش راهنمای سیویلیکا (مرجع دهی) را ملاحظه نمایید.

علم سنجی و رتبه بندی مقاله

مشخصات مرکز تولید کننده این مقاله به صورت زیر است:
نوع مرکز:
تعداد مقالات: ۲۹۵۳۸
در بخش علم سنجی پایگاه سیویلیکا می توانید رتبه بندی علمی مراکز دانشگاهی و پژوهشی کشور را بر اساس آمار مقالات نمایه شده مشاهده نمایید.

مدیریت اطلاعات پژوهشی

اطلاعات استنادی این مقاله را به نرم افزارهای مدیریت اطلاعات علمی و استنادی ارسال نمایید و در تحقیقات خود از آن استفاده نمایید.

مقالات مرتبط جدید

شبکه تبلیغات علمی کشور

به اشتراک گذاری این صفحه

اطلاعات بیشتر درباره COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.