نام کاربري رمز عبور

    فراموشي رمز عبور | ثبت نام | راهنماي ثبت نام | راهنماي کاربران | پشتيباني کاربران

ISSN 1735-5540

English Pages

21 مهر 1387

 

 

 

لينك‌ها

[ گزارش اشكال در مقاله | بازگشت | جستجو | ليست كنفرانس‌ها ]

اطلاعات مقاله

[ اعتبار مورد نياز: 1 | تعداد صفحات: 7 | 92 بار مشاهده چكيده | 0 بار دريافت متن كامل ]

عنوان مقاله: گام نخست در كاوش متون فارسي
سرفصل مربوط:
سال انتشار: 1386
نوع ارايه:
محل انتشار: [ اولين كنفرانس داده كاوي ايران ]
زبان مقاله: فارسي حجم فايل:

نمايش خلاصه مقاله

لطفا اگر نقد و نظری درباره این مقاله دارید آن را درج کنید: [ نوشتن نقد بر اين مقاله ]

گام نخست در كاوش متون فارسي  Fulltext 

نويسنده‌گان:

[ آذر شاهقليان ] - دانشگاه آزاد اسلامي واحد نجف آباد،
[ محمدحسين سرايي ] - عضو هيأت علمي دانشگاه صنعتي اصفهان، استاد مدعو دانشگاه آزاد اسلامي واحد نجف آباد
[ علي شالبافزاده ] - دانشگاه صنعتي اصفهان

خلاصه مقاله:

طبقه بندي بر مبناي فاصله براي طبقه بندي متون فارسي پيشنهاد داده شده است . طبقه بند، در فاز يادگيري، مجموعه - اي از متون آموزشي را براي استخراج ويژگيهاي دستهها بررسي ميكند تا خصوصيات اصلي ويژه دسته را بدست آورد . بطوريكه در فاز تست طبقهبند، اين ويژگيهاي مختص دسته براي طبقه بندي متون طبقهبندي نشده بهكار ميرود . از stemming براي كاهش ديمانسيون بردارهاي ويژگي استفاده ميشود . دقت طبقهبند بوسيله اعمال الگوريتم روي مجموعه جمعآوري شدهاي از متون فارسي، مورد آزمايش قرار گرفته است . نتايج حاصله نشان ميدهد كه طبقهبند پيشنهادي از دقت بالايي برخوردار است . مجموعهاي از متون فارسي كه از روي سايتهاي خبري موجود در وب جمع آوري شده است، براي انجام اين تحقيق بكار ميرود . اين متون در ابتدا بوسيله از بين بردن علائم نقطهگذاري و كلمات بيفايده، پيش پردازش ميشوند . در طبقهبند براي نمايش هر متن از يك بردار ويژگي استفاده ميشود كه شامل كلمات شاخص و ميزان تكرار آن كلمات در متن ميباشد . پيشگويي طبقهبند بر پايه فرضيات آماري استوار است كه متوني كه در دسته يكساني قرار ميگيرند، ويژگيهاي مشابهي دارند . براي طبقهبندي متن جديد، ابتدا بردار ويژگي آن متن ساخته شده، سپس با بردارهاي ويژگي دستهها مقايسه ميشود . دسته برنده، دستهاي است كه به متن جديد نزديكتر است . اين ايده طبقهبندي k-NN ميباشد


كلمات كليدي:

طبقهبندي متن، يادگيري ماشين، زبان فارسي، K-NN Classifier


فایل PDF حاوی متن کامل این مقاله در حال حاضر در سایت موجود نمی‌باشد.


[ لينک دايمي به اين صفحه: http://www.civilica.com/Paper-IDMC01-IDMC01_021.html ]

نمايش صفحه قابل چاپ خلاصه مقاله معرفي مقاله به ديگران
راهنمایی دریافت اصل مقاله

منبع مقالات سيويليکا دبيرخانه کنفرانسها است. برخي از دبيرخانه ها اقدام به انتشار اصل مقاله نمي نمايند. به منظور تکميل بانک مقالات موجود، چکيده اين مقالات در سايت درج مي شوند ولي به دليل عدم انتشار اصل مقاله، امکان ارائه آن وجود ندارد.

دريافت اصل مقاله (ویژه اعضا)

اصل مقاله فوق منتشر نشده و يا در سايت موجود نيست.

خرید اصل مقاله

اصل مقاله فوق منتشر نشده و يا در سايت موجود نيست.

قابلیت پرداخت حق عضویت از هر کجای ایران از طریق حساب جام بانک ملت سیویلیکا عضو مجمع ناشران الکترونیک ایران و تحت حمایت قوانین ناشران الکترونیک می باشد سیویلیکا ثبت شده در کتابخانه ملی جمهوری اسلامی ایران تحت شماره ISSN 1735-5540 سیویلیکا، برگزیده جشنواره رسانه های دیجیتال کشور طرف قرارداد با سامانه پرداخت الکترونیک بانک سامان به منظور پذیرش کلیه کارتهای شتاب عضو سازمان نظام صنفی کشور وتحت حمایت قوانین این سازمان مجهز به سیستم ارسال خودکار SMS و اطلاع رسانی به کاربران قابلیت عضویت با استفاده از کارتهای عضویت سیویلیکا. کنفرانسها می توانند این کارتها را به جای سی دی کنفرانس در اختیار شرکت کنندگان قرار دهند.

سایر مجموعه ها: بانک پروژه ها و تحقیقات دانشجویی | بانک اطلاعاتی شرکتهای عمرانی | بنانیوز

دفتر مرکزی: تهران، خیابان کارگر شمالی، بالاتر از پمپ بنزین امیرآباد، کوچه زمرد، شماره 22، طبقه دوم. تلفن: 88008044 - نمابر: 88335451 | نمایندگیها
مدیریت پروژه