CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

خوشه بندی خودکار کلمات بر اساس مقوله های نحوی برای سیستم های بازشناسی گفتار پیوسته فارسی

عنوان مقاله: خوشه بندی خودکار کلمات بر اساس مقوله های نحوی برای سیستم های بازشناسی گفتار پیوسته فارسی
شناسه ملی مقاله: ACCSI13_178
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:

محمد بحرانی - آزمایشگاه پردازش گفتار دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف
حسین صامتی - استادیار و عضو هیئت علمی دانشکده مهندسی کامپوتر دانشگاه صنعتی شریف
نازیلا حافظی - آزمایشگاه پردازش گفتار دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف
سعیده ممتازی - آزمایشگاه پردازش گفتار دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف

خلاصه مقاله:
در این مقاله روش جدیدی برای خوشه بندی کلمات به منظور ساخت مدل زبانی n-gram برای زبان فارسی ارائه شده است که دران مشکل پیچیدگی روش های خودکار و سرگشتگی بالای روش های دستی به حداقل رسیده است. در این روش هر کلمه با یک بردار ویژگی نمایش داده می شود که این بردار معرف امار مقوله های نحوی مربوط به آن کلمه است. سپس بردارهای حاصل با استفاده از الگوریتم k-means خوشه بندی می شوند، پیاده سازی و آزمایش های مربوط بر روی پیکره متنی زبان فارسی که شامل حدود 10 میلیون کلمه می باشد، صورت گرفته است. نتایج بیانگر کاهش 34 درصدی در سرگشتگی و کاهش 16 درصدی در نرخ خطای بازشناسی نسبت به روش های دستی مبتنی بر مقوله های نحوی است.

کلمات کلیدی:
مدل n-gram ، خوشه بندی شده ، بازشناسی گفتار پیوسته ، مقوله نحوی ، پیکره متنی زبان فارسی ، خوشه بندی کلمات

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41772/