A Focused Crawler Based on Topic Mining Approach

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 553

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CITCONF03_263

تاریخ نمایه سازی: 12 تیر 1395

چکیده مقاله:

A focused crawler is a crawler that returns relevant pages related to a specific topic. This kind of crawler hasadvantages over a general crawler because of low cost and efficiency. In this paper, we present and implement asimple, focused crawler that works based on topic mining approach. This focused crawler, starts from specific seeds,calculates the similarity of each page with a specific page that we have given as our initial topic. With thesecalculations that are based on vectors dot products, we sort all of the pages based on this score, and therefore at theend we have a set of relevant pages to the specific page.

نویسندگان

Alireza Asgharian

Computer Department of Isfahan University

Amir Savari

Computer Department of Isfahan University

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • S. Chakrabarti, M. van den Berg, B. Dom, "Focused crawling: ...
  • P.M.E. De Bra, R.D.J. Post, "Information Retrieval in the World ...
  • S. Ganesh, M. Jayaraj, V. Kalyan, S. Murthy and G. ...
  • S. Bri, L. Page, "The anatomy of large-scale hypertext Web ...
  • Jon M. Kleinberg, "Authoritative Sources in a Hyperlinked Environment", Journal ...
  • .J. Cho, H. Garcia-Molina, and L. Page, "Efficient crawling through ...
  • Brants, Thorsten, Francine Chen, and Ioannis Tsochantaridi, "Topic-based document segmentation ...
  • McLachlan, Geoffrey, and Thriyambakam Krishnan. The EM algorithm and extension, ...
  • نمایش کامل مراجع