تشخیص فونتهای فارسی در متون چاپی با استفاده از ادغام ویژگی های تبدیل های چندمقیاسی و آشکارسازهای مستقل از مقیاس

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 651

فایل این مقاله در 21 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT06_090

تاریخ نمایه سازی: 24 شهریور 1398

چکیده مقاله:

این تحقیق الگوریتم جدیدی را برای تشخیص فونت نوری فارسی و به عنوان گام نخست در تشخیص حروف فارسی نوری ارائه می دهد. الگوریتم پیشنهادشده از آشکارساز مستقل از مقیاس، توصیف گر بر پایه ی مشتق جهتی و دسته بندی K-means در حوزه تبدیل کانتورلت برای شناسایی فونت فارسی استفاده می نماید.در الگوریتم پیشنهادشده با اعمال تبدیل کانتورلت بر روی تصویر می توان اطلاعات مقیاسی و جهتی زیرباند های تصویر را به دست آورد و سپش با استفاده از آشکارساز مستقل از مقیاس، نقاط کلیدی را استخراج کرد و با به دست اوردن توصیف گر برای هر نقطه کلیدی و دستهبندی K-means یک هیستوگرام برای هر تصویر به دست می اید که فراوانی توصیف گر نقاط کلیدی را حول مرکز خوشه ها نشان می دهد، سپس با آموزش کلاسه بند SVM مرز بین کلاس ها تعیین می گردد و تصاویر جدید با توجه به مرز های به دست آمده طبقه بندی می گردند. با توجه به اینکه زبان فارسی ویژگیهای چالش برانگیزی برای OCR دارد نیاز به تشخیص فونت نوری فارسی یا POFR را به عنوان گامی حیاتی در سیستمهای تشخیص حروف نوری افزایش می دهد. الگوریتم پیشنهادشده در عمل نتایج مطلوبی دارد و با میانگین نرخ تشخیص 95 درصدی عملکردی فراتر از الگوریتم های پیشنهادشده در گذشته برای POFR به کار می رود.

کلیدواژه ها:

تشخیص فونت نوری فارسی ، آشکار ساز مستقل از مقیاس ، تبدیل کانتورلت ، SVM چندکلاسه

نویسندگان

یاسمین شیشه گر

دانشجوی کارشناسی ارشد، دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران

سعید نصری

استادیار، دانشکده مهندسی برق، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران عضو مرکز تحقیقات پردازش دیجیتالی و بینایی ماشین، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران