CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

استخراج کلمات کلیدی جهت طبقه بندی متون فارسی

عنوان مقاله: استخراج کلمات کلیدی جهت طبقه بندی متون فارسی
شناسه ملی مقاله: IDMC01_118
منتشر شده در اولین کنفرانس داده کاوی ایران در سال 1386
مشخصات نویسندگان مقاله:

سمیه عربی نرئی - دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه
مجتبی وحیدی اصل - دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه
بهروز مینایی بیدگلی - استادیار کامپیوتر- دانشگاه علم و صنعت ایران- دانشکده مهندسی کامپیوتر

خلاصه مقاله:
با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری رو شهایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری م ییابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. هدف ما در این مقاله، استخراج کلمات کلیدی موجود در مستندات فارسی، بر اساس معماری پیشنهادی، به منظور طبقه بندی کارآمد آنها در موتورهای جستجو اس ت. روش ارائه شده شامل دو مرحله اصلی است: مراحل پیش پردازش و عملیات استخراج کلمات کلیدی . بدی نمنظور از ترکیبی از تکنی کهای الهام گرفته ازWordnet و الگوریتم ،Porter تطبیق یافته با زبان فارسی، و تکنیک )Luhn روشی برای خلاص هسازی متن. در این روش به هر جمله یک فاکتور اهمیت داده م یشود، و جملات با بیشترین فاکتور اهمیت برای ایجاد خلاصه استفاده می شوند)، بهبود یافته، استفاده شده است. برای تسریع عملیات استخراج کلما ت کلیدی، از ساختمان داده ای مانند جداول درهم سازی و ساختارTrie استفاده می کنیم. یکی از مهمترین مسائلی که در این فرآیند، مورد توجه قرار گرفته، پوشش کلیه حالات دستوری کلمات و صورت های نگارشی مختلف آنها در زبان فارسی اس ت. بر اساس بررس یهای انجام شده بر روی یکصد متن فارسی و مقایسه نتایجِ بدست آمده با روش های دیگر، این روش م یتواند کلمات کلیدی موجود در متون را با دقت و سرعت بیشتری استخراج نماید به گون های که این کلمات کلیدی، بیانگر مضمون اصلی متن باشند.

کلمات کلیدی:
استخراج کلمات کلیدی، پی شپردازش، طبقه بندی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/33094/