تعیین بهترین تابع تشابه با استفاده از درصد تشخیص

مینا قاری زاده بیرق; علی فرزان; شاهین اکبرپور

تعیین بهترین تابع تشابه با استفاده از درصد تشخیص

محل انتشار: اولین کنفرانس ملی نوآوری در مهندسی کامپیوتر و فنآوری اطلاعات

سال انتشار: 1392

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 761

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/262816

شناسه ملی سند علمی:

CEIT01_219

تاریخ نمایه سازی: 9 تیر 1393

چکیده مقاله:

زمانی که پایگاه داده ها شامل رکوردهایی هستند که از منابع داده ای مختلف جمع آوری شده اند، ممکن است این رکوردها شامل مقادیری باشند که به موجودیت یکسانی اشاره می کنند اما دارای نمایش های مختلفی باشند. بنابر این برای افزایش دقت و صحت داده ها، از پاکسازی داده ها استفاده می شود. عنصر اساسی پاکسازی داده ها، شناسایی رکورد تکراری می باشد. تشخیص رکورد تکراری، فرآیند شناسایی جفت رکوردی است که نشان دهنده یک موجودیت یکسان در پایگاه داده می باشد. الگوریتم های بسیاری در این زمینه برای تطابق فیلد و رکود مطرح شده است. در این مقاله بعضی از الگوریتم های تطابق فیلد بیان شده است. بهترین الگوریتم با استفاده از درصد تشخیص تعیین شده است. هرچه درصد تشخیص بالاتر باشد، تابع عملکرد بهتری دارد. این روش بر روی مجموعه داده restaurant اجرا شده است. نتایج اجرای این روش نشان می دهد که برای فیلد name تابع Q-gram با مقدار 0/942105 درصد تشخیص بالاتری دارد و بهترین تابع برای این فیلد می باشد. برای فیلد addr تابع Jaccard با مقدار 0/942105 بهترین تابع است. برای فیلد city سه تابع Edit Distance, LCS, Q-gram با مقدار 0/847368 عملکرد بهتری دارند.

کلیدواژه ها:

پاکسازی داده ها ، تطابق فیلد ، الگوریتم های تشابه فیلد ، تشخیص رکورد تکراری

نویسندگان

مینا قاری زاده بیرق

دانشجوی کارشناسی ارشد، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر

علی فرزان

عضو هیئت علمی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر

شاهین اکبرپور

عضو هیئت علمی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Databases, Master Thesis, California State University, Islands, December 201 1. ...
Kadhum Alnoory, Methaq.. Performance Evaluation of Similarity Functions for Duplicate ...
Bilenko, M. and Raymond Mooney, J., "Adaptive duplicate detection using ...
Elmagadin, A, "Duplicate Record Detection: A Survey", IEEE Transactions _ ...
Jebamalar Tamilselvi, J. and Saravanan, V, "Detection and Elimination of ...
.vol. 5, No.2, pp. 145-164, 2009. ...
Muller, H. and Freytag, J, "Problems, Methods, and Challenges in ...
Naumann, F. and Herschel, M., "An Introduction to Duplicate Detection", ...
Management, Morgan Claypool publisher, Vol. 1, pp. 1- 87, 2010. ...
Sabbagh, M. and Khalilpour, V., "Presenting vector space based method ...
_ _ _ of approaches used for data reconciliatio. A ...
Management, Lecture Notes in Computer Science, Vol. 6184, pp. 729-74 ...
Science University of Pennsylvania, Philadelphia, PA191O4, 2000. ...
Christen, Peter, _ Comparison of Personal Name Matching: Techniques and ...
Paskalev, Plamen, Antonov, Anatoliy, "Intelligent Application for Duplication Detection", International ...
Ristad, Eric Sven, Yianilos, Peter N. "Learning String- Edit Distance! ...
Y ANG, Zhenglu, KIT SUREGAWA, Masaru, "A Study _ Similar ...

نمایش کامل مراجع