CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)
عنوان
مقاله

استخراج کلمات کلیدی جهت طبقه بندی متون فارسی

اعتبار موردنیاز: ۱ | تعداد صفحات: ۹ | تعداد نمایش خلاصه: ۴۶۸۶ | نظرات: ۰
سال انتشار: ۱۳۸۶
کد COI مقاله: IDMC01_118
زبان مقاله: فارسی
فایل PDF حاوی متن کامل این مقاله در حال حاضر در سایت موجود نمی‌باشد.

راهنمای دانلود فایل کامل این مقاله

متن کامل این مقاله منتشر نشده و درپایگاه سیویلیکا موجود نمی باشد.

منبع مقالات سیویلیکا دبیرخانه کنفرانسها است. برخی از دبیرخانه ها اقدام به انتشار اصل مقاله نمی نمایند. به منظور تکمیل بانک مقالات موجود، چکیده این مقالات در سایت درج می شوند ولی به دلیل عدم انتشار اصل مقاله، امکان ارائه آن وجود ندارد.

خرید و دانلود PDF مقاله

اصل مقاله (فول تکست) فوق منتشر نشده و یا در سایت موجود نیست و امکان خرید آن فراهم نمی باشد

مشخصات نویسندگان مقاله استخراج کلمات کلیدی جهت طبقه بندی متون فارسی

  سمیه عربی نرئی - دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه
  مجتبی وحیدی اصل - دانشجوی کارشناس یارشد نر مافزار- دانشگاه علم و صنعت ایران- دانشکده مه
  بهروز مینایی بیدگلی - استادیار کامپیوتر- دانشگاه علم و صنعت ایران- دانشکده مهندسی کامپیوتر

چکیده مقاله:

با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری رو شهایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری م ییابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. هدف ما در این مقاله، استخراج کلمات کلیدی موجود در مستندات فارسی، بر اساس معماری پیشنهادی، به منظور طبقه بندی کارآمد آنها در موتورهای جستجو اس ت. روش ارائه شده شامل دو مرحله اصلی است: مراحل پیش پردازش و عملیات استخراج کلمات کلیدی . بدی نمنظور از ترکیبی از تکنی کهای الهام گرفته ازWordnet و الگوریتم ،Porter تطبیق یافته با زبان فارسی، و تکنیک )Luhn روشی برای خلاص هسازی متن. در این روش به هر جمله یک فاکتور اهمیت داده م یشود، و جملات با بیشترین فاکتور اهمیت برای ایجاد خلاصه استفاده می شوند)، بهبود یافته، استفاده شده است. برای تسریع عملیات استخراج کلما ت کلیدی، از ساختمان داده ای مانند جداول درهم سازی و ساختارTrie استفاده می کنیم. یکی از مهمترین مسائلی که در این فرآیند، مورد توجه قرار گرفته، پوشش کلیه حالات دستوری کلمات و صورت های نگارشی مختلف آنها در زبان فارسی اس ت. بر اساس بررس یهای انجام شده بر روی یکصد متن فارسی و مقایسه نتایجِ بدست آمده با روش های دیگر، این روش م یتواند کلمات کلیدی موجود در متون را با دقت و سرعت بیشتری استخراج نماید به گون های که این کلمات کلیدی، بیانگر مضمون اصلی متن باشند.

کلیدواژه‌ها:

استخراج کلمات کلیدی، پی شپردازش، طبقه بندی.

کد مقاله/لینک ثابت به این مقاله

برای لینک دهی به این مقاله، می توانید از لینک زیر استفاده نمایید. این لینک همیشه ثابت است و به عنوان سند ثبت مقاله در مرجع سیویلیکا مورد استفاده قرار میگیرد:
https://www.civilica.com/Paper-IDMC01-IDMC01_118.html
کد COI مقاله: IDMC01_118

نحوه استناد به مقاله:

در صورتی که می خواهید در اثر پژوهشی خود به این مقاله ارجاع دهید، به سادگی می توانید از عبارت زیر در بخش منابع و مراجع استفاده نمایید:
عربی نرئی, سمیه؛ مجتبی وحیدی اصل و بهروز مینایی بیدگلی، ۱۳۸۶، استخراج کلمات کلیدی جهت طبقه بندی متون فارسی، اولین کنفرانس داده کاوی ایران، تهران، دانشگاه صنعتی امیرکبیر، موسسه پژوهشی داده پردازان گیتا، https://www.civilica.com/Paper-IDMC01-IDMC01_118.html

در داخل متن نیز هر جا که به عبارت و یا دستاوردی از این مقاله اشاره شود پس از ذکر مطلب، در داخل پارانتز، مشخصات زیر نوشته می شود.
برای بار اول: (عربی نرئی, سمیه؛ مجتبی وحیدی اصل و بهروز مینایی بیدگلی، ۱۳۸۶)
برای بار دوم به بعد: (عربی نرئی؛ وحیدی اصل و مینایی بیدگلی، ۱۳۸۶)
برای آشنایی کامل با نحوه مرجع نویسی لطفا بخش راهنمای سیویلیکا (مرجع دهی) را ملاحظه نمایید.

کدام مقالات به این منبع استناد نموده اند

علم سنجی و رتبه بندی مقاله

مشخصات مرکز تولید کننده این مقاله به صورت زیر است:
نوع مرکز:
تعداد مقالات: ۲۷۷۱۱
در بخش علم سنجی پایگاه سیویلیکا می توانید رتبه بندی علمی مراکز دانشگاهی و پژوهشی کشور را بر اساس آمار مقالات نمایه شده مشاهده نمایید.

مدیریت اطلاعات پژوهشی

اطلاعات استنادی این مقاله را به نرم افزارهای مدیریت اطلاعات علمی و استنادی ارسال نمایید و در تحقیقات خود از آن استفاده نمایید.

مقالات مرتبط جدید

شبکه تبلیغات علمی کشور

به اشتراک گذاری این صفحه

اطلاعات بیشتر درباره COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.