CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

استفاده از یادگیری استقرایی قوانین برای جداسازی تصویری کلمات فارسی و لاتین

عنوان مقاله: استفاده از یادگیری استقرایی قوانین برای جداسازی تصویری کلمات فارسی و لاتین
شناسه ملی مقاله: ACCSI08_031
منتشر شده در هشتمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1381
مشخصات نویسندگان مقاله:

هادی صدوقی یزدی - دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
مهدی آبادی - دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
احسان اله کبیر - دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق

خلاصه مقاله:
برای بازشناسی اسناد چند زبانه باید بتوان بهطور خودکار نوع زبان هر کلمه را تشخیص داد. در این مقاله، با استفاده از یادگیری استقرایی قوانین، روشی برای جداسازی تصویری کلمات فارسی و لاتین در متون چاپی ارائه میشود. در روش پیشنعادی از 6 ویژگی تصویری استفاده شده است. مجموعه ویژگی های استخراجشده از 896 نمونه آموزشی تصاویر کلمات فارسی و لاتین با انودع قلم ها به عنوان ورودی به ابزار یادگیری قانون c4.5 داده شد. این ابزار بر اساس این ویژگی ها 13 قانون برای جداسازی کلمات فارسی و لاتین تولید کرد. با استفاده از این قوانین در یک مجموعه ازمون 1420 کلمه ای، حدود 94% از کلمات به درستی طبقه بندی شدند.

کلمات کلیدی:
بازشناسی متون چاپی ، متون چند زبانه ، جداسازی تصویری کلمات ، یادگیری استقرایی قوانین ، C4.5

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/46713/