استخراج خودکار محتوای مفید صفحات وب با استفاده از آتوماهاتای یادگیر

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 772

فایل این مقاله در 15 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CITCOMP01_171

تاریخ نمایه سازی: 16 شهریور 1395

چکیده مقاله:

با توسعه سریع اینترنت، منابع اطلاعاتی متعددی به صورت صفحات HTML در شبکه جهانی وب منتشر شده اند. با این حال بسیاری از اطلاعات زائد و بی ربط در اینترنت وجود دارد از قبیل پانل ناوبری، جدول محتوا، تبلیغات، اظهارات حق انحصاری، کاتالوگ خدمات، سیاست حفظ حریم خصوصی و غیره. درنتیجه محتوای صفحات وب به دو صورت محتوای مفید (اصلی) و غیرمفید (غیر اصلی) درنظرگرفته شده اند. بیشتر دریافت کننده ها وکاربران نهایی فقط محتوای مفید را جستجو می کنند و نیاز به استخراج محتوای مفید از صفحات وب دارند که باید مشخص باشند. محتوای مفید، محتوای اصلی از صفحه وب است که بسیاری از اطلاعات مورد نیاز را به کاربر می دهد .در این مقاله، روشی جهت استخراج محتوای مفید صفحات وب پیشنهاد شده که ابتدا یک صفحه وب را دریافت می کند و بعد از استاندارد نمودن آن صفحه وب، درخت DOM را ایجاد می کند سپس مسیرهای درخت DOM از ریشه تا برگ استخراج می شوند. بعد از آن معادل با هر مسیر، یک اتوماتای یادگیر تصادفی تعیین می شود و به کمک آن وضعیت هربلوک جهت مفید بودن یا نبودن در یک فرآیند تکراری مشخص می شوند. درنهایت بلوک های حاوی محتوای مفید صفحات وب استخراج می شوند. این مدل می تواند نتایج موتورهای جستجو، تلخیص محتوای وب و برنامه های کاربردی داده کاوی را بالا ببرد. یک راه حل مفید خاص برای استخراج محتوای وب است. راه حل ارائه شده بر روی یک مجموعه داده ویکی اعمال گردیده است ونتایج حاصل ، بیانگر دقت و فراخوانی به ترتیب 97.2% و 98.1% می باشد.

نویسندگان

زیبا جعفری

دانشگاه آزاد اسلامی واحد کرمان،ایران

محمد احمدی نیا

دانشگاه آزاد اسلامی واحد کرمان،ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Chaw Su Win&Mie Mie Su Thwin "Web Page Segmentation and ...
  • _ Uzun &Hayri Volkan Agun & Tark Yerlikaya "A hybrid ...
  • R.Gunasundar & Dr. S.Karthikeyan _ STUDY GOF CONTENT EXTRAC TION ...
  • Ms. Pranjali G. Gondse1, Professor Anjali B. Raut" Main Content ...
  • Narendra K. S., Thathachar M A. L.; "Learning automata: An ...
  • Narendra K.S., Thathachar M A. L. "Learning automata a survey"; ...
  • Mance, E., and Stephanie, S., H., _ _ inforcement learming: ...
  • Neha Gupta &Dr. Saba Hilal _ Heuristic Approach for Web ...
  • L akshmivarahar S., Thathachar M A. L.; "Absolutely expedient learning ...
  • Mars, P., Chen, I. R., and Nambiar, R., Learning algorithms ...
  • applications in signal processing, control and c ommuni cations, CRC ...
  • Thathachar M A. L., Bhaskar R. H.; "Learning automata with ...
  • Yan Guo, Huifeng Tang, Linhai Song, Yu Wang, Guodong Ding ...
  • Shobhit Srivastava & Mohd. Haroon & Abhishek Bajaj _ Document ...
  • Neha Gupta &Dr. Saba Hilal _ Heuristic Approach for Web ...
  • A. Laender, B. Ribeiro-Neto et.al, _ A brief survey of ...
  • Aanshi Bhardwaj & Veenu Mangat ":A Novel Approach for Content ...
  • D.Insa, J.Silva and S.Tamarit, "Using the words/leafs ratio in the ...
  • S.Shen and H.Zhang, "Block-level links based content extraction" , Fourth ...
  • K Ajmera, K Deulkar _ Content Extraction Techniques: A survey ...
  • [2] D. Gibson, K. Punera, and A. Tomkins. The volume ...
  • International Conference On World Wide Web, pages 830 _ 839, ...
  • [3] Baohua Liao, Bo Cheng, Chuanchang Liu, Junli angCheng, Gang ...
  • Ms. Shalaka B. Patil, Prof. Rushali A. Deshmukh " Enhancing ...
  • Madhura R. Kaddu , Dr.R.B .Kulkarni" To Extract Informative Content ...
  • K Nethra and J Anitha" web content extraction using hybrid ...
  • http ://www. search- engines-book. c om/c ollections/ ...
  • نمایش کامل مراجع