مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی

عاطفه خزاعی; محمد قاسم زاده

مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی

محل انتشار: همایش ملی علوم و مهندسی کامپیوتر با محوریت امنیت ملی و توسعه پایدار

سال انتشار: 1393

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 677

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/387558

شناسه ملی سند علمی:

COMPUTER01_197

تاریخ نمایه سازی: 22 مهر 1394

چکیده مقاله:

خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهش های مختلفی در این زمینه برای استاد زبان های مختلف، از جلمه فارسی و انگلیسی، انجام شده است. هدف این پژوهش مقایسه ی خوشه بندی متن های هم طراز فارسی و انگلیسی می باشد. در این پژوهش پس از استخراج پردازهای ویژگی با روشی یکسان از جلمه های هم طراز دو زبان فارسی و انگلیسی ، و اعمال روش PCA به این بردارها، با استفاده از روش K - میانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه ی خوشه های این دو زبان نشان داد که تفاوت های میان دو زبان فارسی و انگلیسی بر کیفیت خوشه بندی متن ها تاثیر می گذارد. در این آزمایش ها خوشه های حاصل از هیچ یک از زیان های فارسی و انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان می دهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود و روشی که برای یک زیان مناسب است. الزاماً برای زبانی دیگر نیز انتخاب مناسبی نمی باشد.

کلیدواژه ها:

خوشه بندی ، پیکره ی موازی دو زبانه ی میزان ، K- میانگین ، تحلیل مولفه های اصلی (PCA)

نویسندگان

عاطفه خزاعی

دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

محمد قاسم زاده

عضو هیئت علمی دانشگاه یزد، یزد، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Sholom, M. W., Nitin, I., Tong, Z., (2010). Fundamentals of ...
Windfuhr, G., (2009). The Iranian Languages. Routledge. ...
Van Rijsbergen, C.J., (1978). Automatic classification in information retrieval. Drexel ...
Van Risbergen, C.J., (1979). Information Retrieval. London: Butterworths. ...
Turney, P. D. (2006). Similarity of semantic relations. Computational Linguistics, ...
Ando, R. K. (2000). Latent semantic space: Iterative scaling improves ...
Ferragina, P., Gulli, A. (2005). A personalized search engine based ...
Hotho, A., Maedche, A., and Staab, S. (2001) Ontology -based ...
Croft, W.B., (1979). Using Boolean queries with a clustered fie ...
Robinson. KA, Dickersin, K. (2002). Development of a highly sensitive ...
Arasteh A., Elahimanesh M.H., Sharif A., Minaei-Bidgoli B., (2012), Semantically ...
Parvin H., Dahbashi A., Parvin S., Minaei-Bidgoli B., (2012), Improving ...
Ghayoomi, M., (2012), Word clustering for Persian statistical parsing. In ...
Supreme Council of Information and C ommunication Technology. (2013). Mizan ...
The Word Vector Tool, _ .sf.net (last visited 2014-01-01). ...
Natural Language Processing Tool Ver 1.1, Ferdowsi University. ...
Han, J., AND Kamber, M., (2001), Data Mining: Concepts and ...
Duda, R.O., Hart, P.E., David G. Stork, (2000), Pattern Classification ...
Cai, D. (2009), Spectral Regression: A Regression Framework for Efficient ...

نمایش کامل مراجع