CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی

عنوان مقاله: مقایسه ی خوشه بندی متن های یک پیکره ی موازی فارسی - انگلیسی
شناسه ملی مقاله: COMPUTER01_197
منتشر شده در همایش ملی علوم و مهندسی کامپیوتر با محوریت امنیت ملی و توسعه پایدار در سال 1393
مشخصات نویسندگان مقاله:

عاطفه خزاعی - دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران
محمد قاسم زاده - عضو هیئت علمی دانشگاه یزد، یزد، ایران

خلاصه مقاله:
خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهش های مختلفی در این زمینه برای استاد زبان های مختلف، از جلمه فارسی و انگلیسی، انجام شده است. هدف این پژوهش مقایسه ی خوشه بندی متن های هم طراز فارسی و انگلیسی می باشد. در این پژوهش پس از استخراج پردازهای ویژگی با روشی یکسان از جلمه های هم طراز دو زبان فارسی و انگلیسی ، و اعمال روش PCA به این بردارها، با استفاده از روش K - میانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه ی خوشه های این دو زبان نشان داد که تفاوت های میان دو زبان فارسی و انگلیسی بر کیفیت خوشه بندی متن ها تاثیر می گذارد. در این آزمایش ها خوشه های حاصل از هیچ یک از زیان های فارسی و انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان می دهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود و روشی که برای یک زیان مناسب است. الزاماً برای زبانی دیگر نیز انتخاب مناسبی نمی باشد.

کلمات کلیدی:
خوشه بندی، پیکره ی موازی دو زبانه ی میزان، K- میانگین، تحلیل مولفه های اصلی (PCA)

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/387558/