|
مقايسه دستهبندي متون فارسي با استفاده از الگوريتمهاي kNN و fkNN وانتخاب ويژگيها بر اساس بهره اطلاعات و فركانس سند Fulltext
نويسندهگان:
[ محمداحسان بصيري ] - گروه كامپيوتر دانشگاه اصفهان [ شهلا نعمتي ] - دانشكده برق و كامپيوتر دانشگاه صنعتي اصفهان [ ناصر قاسم آقايي ] - گروه كامپيوتر دانشگاه اصفهان
خلاصه مقاله:
در اين مقاله به بررسي دستهبندي متن فارسي با استفاده از الگوريتمهايfkNN و kNN خواهيم پرداخت. آزمايشها بر روي ششصد سند متني كه به شش دسته تقسيم ميشوند، انجام شدهاند.
هدف اساسي اين بررسي، مقايسه دو الگوريتم مذكور براي دستهبندي متن فارسي و تركيب آنها با روشهاي انتخاب ويژگي بهره اطلاعات IG و فركانس سندDF است. از اين دو روش براي انتخاب ويژگيها و كاستن از ابعاد فضاي ويژگيها استفاده شده است. نتايج نشان ميدهند كه دقت الگوريتمfkNN از الگوريتم kNN بهتر است. همچنين دقت دستهبندي با استفاده از تركيبIG و fkNN از ساير تركيبها بيشتر ميباشد. دقت دسته بندي در بهترين حالت به 0/804دقت ميكرو- 1F و 0/755دقت ماكرو - F1 رسيد . همچنين ميتوان نتيجه گرفت كهIG بيشتر از DF دقت را بالا ميبرد . در بين
دستههاي موجود بهترين دستهبندي در مورد بزرگترين دسته يعني اسناد مربوط به دسته اقتصادي انجام گرفت. دقت دستهبندي براي اين
كلمات كليدي:
دستهبندي متن، انتخاب ويژگي، دسته بند kNN،(K-Nearest Neighborمدل ،(bag-of-words) BOW پيش پردازش متن
[ لينک دايمي به اين صفحه: http://www.civilica.com/Paper-ACCSI13-ACCSI13_192.html ]
|