استخراج محتوای مفید صفحات وب بر اساس DOM و تکنیک ها

زیبا جعفری; محمد احمدی نیا

استخراج محتوای مفید صفحات وب بر اساس DOM و تکنیک ها

محل انتشار: پنجمین کنفرانس بین المللی مهندسی کامپیوتر ،برق و الکترونیک

سال انتشار: 1395

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 399

فایل این مقاله در 17 صفحه با فرمت PDF و WORD قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/611386

شناسه ملی سند علمی:

NSOECE05_027

تاریخ نمایه سازی: 10 تیر 1396

چکیده مقاله:

شبکه جهانی وب به عنوان یک سرویس جهانی است که به طور گسترده ای توزیع شده است ویک مرکز سرویس اطلاعات جهانی برای اخبار، آگهی ها، اطلاعات مصرف کننده، مدیریت مالی، آموزش و پرورش، دولت، تجارت الکترونیک و خیلی از سرویس های اطلاعاتی دیگر است؛ بنابراین صفحات وب اینترنت به طور معمول شامل مقدار زیادی از محتوای بی ارزش نظیر تبلیغات، جستجو، فیلترکردن پانل، هدرها، پاصفحه ها، لینک های ناوبری، اطلاعات کپی رایت و... است. محتوای مفید، محتوای اصلی از صفحه وب است که اطلاعات مورد نیاز را به کاربر می دهد. بیشتر دریافت کننده ها و کاربران نهایی فقط محتوای مفید را جستجو می کنند و نیاز به استخراج محتوای مفید از صفحات وب دارند. برای استخراج محتوای مفید از صفحه وب به طور صحیح، محتوای مفید و محتوای بی ارزش از صفحه وب باید به وضوح شناخته شده باشند. برای تمایز بین محتوای مفید و بی ارزش در یک صفحه وب، نیاز به تقسم بندی صفحه وب به بلوک های معنایی است.دراین مقاله روش های اتوماتیک استخراج محتوای مفید وب از صفحات وب از جمله استخراج محتوا از طریق لینک ها، صفات، کلمات و مدل های یادگیری مورد بررسی قرار میگیرند.

کلیدواژه ها:

وب کاوی ، استخراج محتوای مفید ، مدل شی سند ، استانداردسازی صفحه وب ، مدل یادگیری وب

نویسندگان

زیبا جعفری

دانشگاه آزاد اسلامی واحد کرمان،ایران

محمد احمدی نیا

دانشگاه آزاد اسلامی واحد کرمان،ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Heuristic Approach for Web Content Extraction" International Journal of 4Aه ...
Erdinc Uzun &Hayri Volkan Agun & Tark Yerlikaya "A hybrid ...
Chaw Su Win&Mie Mc Su Thwin "Web Page Segmentation and ...
Extraction for Effective Information Retrieval" International Journal of Computer & ...
K Ajmera, K Deulkar :Web Content Extraction Techniques: A S ...
Madhura R. Kaddu1, Dr. R. B. Kuulkarni" A Review on ...
Ms. Pranjali G. Gondse1, Professor Anjali _ Raut :Main Content ...
R.Gunasundar & Dr.S .Karthikeyan _ STUDY OF CONTENT EXTRACT ION ...
Shobhit Srivastava & Mohd. Haroon & Abhishek Bajaj :Web Document ...
Yao Zhao, Yuanxin Zhao, Rongheng Lin, Hua Zou" Mining Service ...
C. Kohlschitter, P. Fankhauser, W. Nejdl, Boilerplate detection using shallow ...
Emilio Ferrara , Pasquale De Meo, Giacomo Fiumara , Robert ...
Yan Guo, Huifeng Tang, Linhai Song, Yu Wang, Guodong Ding ...
A.Laender, B. Ribeiro-Neto et.al, _ A brief survey of Web ...
Jon M, Kleinberg, ":Authoritative _ in a hyperlinked environment: In ...
Aanshi Bhardwaj & Veenu Mangat :A Novel Approach for Content ...
D.Insa, J.Silva and S.Tamarit, "Using the words/lea. ratio in the ...
S.Shen and H.Zhang, :Block-level links based content extrac tion" , ...
K Nethra and J Anitha" web content extraction using hybrid ...
. Ms. Shalaka B. Patil, Prof. Rushali A. Deshmukh _ ...

نمایش کامل مراجع