تعیین بهترین تابع تشابه با استفاده از درصد تشخیص
سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 761
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CEIT01_219
تاریخ نمایه سازی: 9 تیر 1393
چکیده مقاله:
زمانی که پایگاه داده ها شامل رکوردهایی هستند که از منابع داده ای مختلف جمع آوری شده اند، ممکن است این رکوردها شامل مقادیری باشند که به موجودیت یکسانی اشاره می کنند اما دارای نمایش های مختلفی باشند. بنابر این برای افزایش دقت و صحت داده ها، از پاکسازی داده ها استفاده می شود. عنصر اساسی پاکسازی داده ها، شناسایی رکورد تکراری می باشد. تشخیص رکورد تکراری، فرآیند شناسایی جفت رکوردی است که نشان دهنده یک موجودیت یکسان در پایگاه داده می باشد. الگوریتم های بسیاری در این زمینه برای تطابق فیلد و رکود مطرح شده است. در این مقاله بعضی از الگوریتم های تطابق فیلد بیان شده است. بهترین الگوریتم با استفاده از درصد تشخیص تعیین شده است. هرچه درصد تشخیص بالاتر باشد، تابع عملکرد بهتری دارد. این روش بر روی مجموعه داده restaurant اجرا شده است. نتایج اجرای این روش نشان می دهد که برای فیلد name تابع Q-gram با مقدار 0/942105 درصد تشخیص بالاتری دارد و بهترین تابع برای این فیلد می باشد. برای فیلد addr تابع Jaccard با مقدار 0/942105 بهترین تابع است. برای فیلد city سه تابع Edit Distance, LCS, Q-gram با مقدار 0/847368 عملکرد بهتری دارند.
کلیدواژه ها:
نویسندگان
مینا قاری زاده بیرق
دانشجوی کارشناسی ارشد، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر
علی فرزان
عضو هیئت علمی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر
شاهین اکبرپور
عضو هیئت علمی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :