مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی
عنوان مقاله: مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی
شناسه ملی مقاله: COMPUTER01_197
منتشر شده در همایش ملی علوم و مهندسی کامپیوتر با محوریت امنیت ملی و توسعه پایدار در سال 1393
شناسه ملی مقاله: COMPUTER01_197
منتشر شده در همایش ملی علوم و مهندسی کامپیوتر با محوریت امنیت ملی و توسعه پایدار در سال 1393
مشخصات نویسندگان مقاله:
عاطفه خزاعی - دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران
محمد قاسم زاده - عضو هیئت علمی دانشگاه یزد، یزد، ایران
خلاصه مقاله:
عاطفه خزاعی - دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران
محمد قاسم زاده - عضو هیئت علمی دانشگاه یزد، یزد، ایران
خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهش های مختلفی در این زمینه برای استاد زبان های مختلف، از جلمه فارسی و انگلیسی، انجام شده است. هدف این پژوهش مقایسه ی خوشه بندی متن های هم طراز فارسی و انگلیسی می باشد. در این پژوهش پس از استخراج پردازهای ویژگی با روشی یکسان از جلمه های هم طراز دو زبان فارسی و انگلیسی ، و اعمال روش PCA به این بردارها، با استفاده از روش K - میانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه ی خوشه های این دو زبان نشان داد که تفاوت های میان دو زبان فارسی و انگلیسی بر کیفیت خوشه بندی متن ها تاثیر می گذارد. در این آزمایش ها خوشه های حاصل از هیچ یک از زیان های فارسی و انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان می دهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود و روشی که برای یک زیان مناسب است. الزاماً برای زبانی دیگر نیز انتخاب مناسبی نمی باشد.
کلمات کلیدی: خوشه بندی، پیکره ی موازی دو زبانه ی میزان، K- میانگین، تحلیل مولفه های اصلی (PCA)
صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/387558/