Impact of linguistic and ontology information on improvement of Persian text clustering

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 602

فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CBCONF01_0020

تاریخ نمایه سازی: 16 شهریور 1395

چکیده مقاله:

In Persian language, words have various writing forms and it is impossible to cover all the grammatical points of words by applying a series of certain rules. For this reason, automatic key words extraction from Persian texts is complex and difficult. In this paper, we try to provide more meaningful keywords by using linguistic information and thesaurus. By using thesaurus that has a structured system, we can complete and improve the equivalent, hierarchical and dependent words. So we can increase adaptation between users' search and textual key words and also comprehensiveness of the search.At the first stage, unimportant and general words are removed. Then the roots of words are extracted and in the following, a numerical weight is assigned to each word to define the importance of words by using weighting methods that shows the amount of importance of word in relation to text subject and in comparison with other used words in the text. The above operations specially using thesaurus would cause a more accurate text classification and also somehow hierarchical category of texts in information retrieval context is specified. Test results on some text in different subjects show accurately and ability of proposed method in extracting key words in adaptation with user's demand and lead to more accurate text clustering.

نویسندگان

Farzad Tarhani

Assistant Professor, Department of Management, Malek Ashtar University, Tehran

Maryam Hourali

Assistant Professor, Department of Computer Engineering, Malek Ashtar University, Tehran,

Ali Nozari

Graduate Student, Department of Computer Engineering, Artificial Intelligence orientation, Malek Ashtar University, Tehran

Reza Javidan

Assistant Professor, Department of Management, Shiraz Industrial University, Shiraz

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • الهی منش. محمد حسین، مینایی. بهروز، " رده بندی متون ...
  • رامی. مهدی، فاطری. سهیل _ _ اتفاده از ترکیب شبکه ...
  • حسین بیات. محمد، حسینی خوزانی. سید محمد، گاپله. محبوبه، " ...
  • عربی نرئی. سمیه، وحیدی اصل. مجتبی _ مینایی بیدگلی . ...
  • همایون پور. محمدمهدی _ مقصودی. نوشین " ارائه روشی جدید ...
  • مشیری . احمد، "فاز اول طرح جامع پیکرهی زبان فارسی ...
  • A.Horri(1383), instruction of preparing and extending a monolingual thesaurus, scientific ...
  • F. khosravi; (1379), ASFA Persian thesaurus , national library of ...
  • M. Bijan Khan(1383), role of linguistic statues in written Grammar: ...
  • Barari. L., Analoie. M. and Garme. M., (2005), "Machin Learning ...
  • Basiri. M. A., Nemati. Sh. and Ghasemaghaie. N., (2007), "A ...
  • Conclusion and future works ...
  • Bina. B., Rahgozar. M. and Dehmobed A..(2007), "Automatic Persian Text ...
  • C. H. Wan, L. H. Lee, R. Rajkumar, D. Isa, ...
  • D. Choi, B. Ko, H. Kim, P. Kim, (2014), "Text ...
  • F. Colace, M. D. Santo, L. Greco, P. Napoletano, (2014), ...
  • G. Suarez-Tangil, J. E. Tapiador, P. Peris-Lopez, J. Blasco, (2014), ...
  • H. Guana, J. Zhoua, B. Xiaob, M. Guoa, T. Yangc, ...
  • J.J. Garcia Adev, J.M. Pikatza Atxa, M. Ubeda Carrillo, E. ...
  • L. LeI, Y. HUANG, Z. LIU, (2011), "Chinese text classification ...
  • L. Pereira, R. Rijo, _ Silva, M. Agostinho, (2013), "ICD9-based ...
  • Maghsoodi. N. and Hom ayoonpour. M. M., (2009), "A Novel ...
  • V. Garla, C. Taylor, C. Brandt, (2013), _ 'Sem i-supervised ...
  • Y. Yu, W. Pedrycz, D. Miao, (2014), "Multi-label classification by ...
  • Z. Yao, C. Zhi-Min, (2012), "An Optimized NBC Approach in ...
  • نمایش کامل مراجع