|
گام نخست در كاوش متون فارسي Fulltext
نويسندهگان:
[ آذر شاهقليان ] - دانشگاه آزاد اسلامي واحد نجف آباد، [ محمدحسين سرايي ] - عضو هيأت علمي دانشگاه صنعتي اصفهان، استاد مدعو دانشگاه آزاد اسلامي واحد نجف آباد [ علي شالبافزاده ] - دانشگاه صنعتي اصفهان
خلاصه مقاله:
طبقه بندي بر مبناي فاصله براي طبقه بندي متون فارسي پيشنهاد داده شده است . طبقه بند، در فاز يادگيري، مجموعه - اي از متون آموزشي را براي استخراج ويژگيهاي دستهها بررسي ميكند تا خصوصيات اصلي ويژه دسته را بدست آورد . بطوريكه در فاز تست طبقهبند، اين ويژگيهاي مختص دسته براي طبقه بندي متون طبقهبندي نشده بهكار ميرود . از stemming براي كاهش ديمانسيون بردارهاي ويژگي استفاده ميشود . دقت طبقهبند بوسيله اعمال الگوريتم روي مجموعه جمعآوري شدهاي از متون فارسي، مورد آزمايش قرار گرفته است . نتايج حاصله نشان ميدهد كه طبقهبند پيشنهادي از دقت بالايي برخوردار است . مجموعهاي از متون فارسي كه از روي سايتهاي خبري موجود در وب جمع آوري شده است، براي انجام اين تحقيق بكار ميرود . اين متون در ابتدا بوسيله از بين بردن علائم نقطهگذاري و كلمات بيفايده، پيش پردازش ميشوند . در طبقهبند براي نمايش هر متن از يك بردار ويژگي استفاده ميشود كه شامل كلمات شاخص و ميزان تكرار آن كلمات در متن ميباشد . پيشگويي طبقهبند بر پايه فرضيات آماري استوار است كه متوني كه در دسته يكساني قرار ميگيرند، ويژگيهاي مشابهي دارند . براي طبقهبندي متن جديد، ابتدا بردار ويژگي آن متن ساخته شده، سپس با بردارهاي ويژگي دستهها مقايسه ميشود . دسته برنده، دستهاي است كه به متن جديد نزديكتر است . اين ايده طبقهبندي k-NN ميباشد
كلمات كليدي:
طبقهبندي متن، يادگيري ماشين، زبان فارسي، K-NN Classifier
فایل PDF حاوی متن کامل این مقاله در حال حاضر در سایت موجود نمیباشد.
[ لينک دايمي به اين صفحه: http://www.civilica.com/Paper-IDMC01-IDMC01_021.html ]
|