مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 677

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

COMPUTER01_197

تاریخ نمایه سازی: 22 مهر 1394

چکیده مقاله:

خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهش های مختلفی در این زمینه برای استاد زبان های مختلف، از جلمه فارسی و انگلیسی، انجام شده است. هدف این پژوهش مقایسه ی خوشه بندی متن های هم طراز فارسی و انگلیسی می باشد. در این پژوهش پس از استخراج پردازهای ویژگی با روشی یکسان از جلمه های هم طراز دو زبان فارسی و انگلیسی ، و اعمال روش PCA به این بردارها، با استفاده از روش K - میانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه ی خوشه های این دو زبان نشان داد که تفاوت های میان دو زبان فارسی و انگلیسی بر کیفیت خوشه بندی متن ها تاثیر می گذارد. در این آزمایش ها خوشه های حاصل از هیچ یک از زیان های فارسی و انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان می دهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود و روشی که برای یک زیان مناسب است. الزاماً برای زبانی دیگر نیز انتخاب مناسبی نمی باشد.

کلیدواژه ها:

خوشه بندی ، پیکره ی موازی دو زبانه ی میزان ، K- میانگین ، تحلیل مولفه های اصلی (PCA)

نویسندگان

عاطفه خزاعی

دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

محمد قاسم زاده

عضو هیئت علمی دانشگاه یزد، یزد، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Sholom, M. W., Nitin, I., Tong, Z., (2010). Fundamentals of ...
  • Windfuhr, G., (2009). The Iranian Languages. Routledge. ...
  • Van Rijsbergen, C.J., (1978). Automatic classification in information retrieval. Drexel ...
  • Van Risbergen, C.J., (1979). Information Retrieval. London: Butterworths. ...
  • Turney, P. D. (2006). Similarity of semantic relations. Computational Linguistics, ...
  • Ando, R. K. (2000). Latent semantic space: Iterative scaling improves ...
  • Ferragina, P., Gulli, A. (2005). A personalized search engine based ...
  • Hotho, A., Maedche, A., and Staab, S. (2001) Ontology -based ...
  • Croft, W.B., (1979). Using Boolean queries with a clustered fie ...
  • Robinson. KA, Dickersin, K. (2002). Development of a highly sensitive ...
  • Arasteh A., Elahimanesh M.H., Sharif A., Minaei-Bidgoli B., (2012), Semantically ...
  • Parvin H., Dahbashi A., Parvin S., Minaei-Bidgoli B., (2012), Improving ...
  • Ghayoomi, M., (2012), Word clustering for Persian statistical parsing. In ...
  • Supreme Council of Information and C ommunication Technology. (2013). Mizan ...
  • The Word Vector Tool, _ .sf.net (last visited 2014-01-01). ...
  • Natural Language Processing Tool Ver 1.1, Ferdowsi University. ...
  • Han, J., AND Kamber, M., (2001), Data Mining: Concepts and ...
  • Duda, R.O., Hart, P.E., David G. Stork, (2000), Pattern Classification ...
  • Cai, D. (2009), Spectral Regression: A Regression Framework for Efficient ...
  • نمایش کامل مراجع