بررسی روشهای برآورد میسان تشابه فیلدها در پایگاه داده های بسرگ

مینا قاری زاده بیرق; محمدرضا درخشی

بررسی روشهای برآورد میسان تشابه فیلدها در پایگاه داده های بسرگ

محل انتشار: همایش ملی علوم و مهندسی کامپیوتر

سال انتشار: 1391

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 708

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/228259

شناسه ملی سند علمی:

NCCSE01_007

تاریخ نمایه سازی: 9 بهمن 1392

چکیده مقاله:

تشخیص رکورد تکراری، فرآیند شناسایی رکوردهای چندگانه و مختلف است که به یک شی یا نهاد منحصر به فرد از جهان واقعی اشاره می کند. تشخیص رکوردهای تکراری یکی از گام های اساسی در افزایش صحت و درستی داده هاست. اولین گام از فرآیند تشخیص تکرار، برآورد میزان شباهت فیلدهاست. الگوریتم های تطابق فیلد به روش های مبتنی بر کاراکتر، توکن و آوایی طبقه بندی شده است. در این مقاله الگوریتم هایی مانند TF-IDF, Q-grams, Jaro, Edit Distance و SotfTF-IDF برای برآورد میزان شباهت فیلدها معرفی شده است. سپس معیارهای ارزیابی که شامل Recall< Precision و F-measure می باشد بر روی الگوریتم ها انجام شده است. هر چه مقادیر معیارهای ارزیابی بالاتر باشد کارایی الگوریتم بهتر است. پس از مقایسه الگوریتم ها این نتیجه حاصل شده است که مقدار F-measure الگوریتم SoftTf-IDF بالاتر است. به این ترتیب بهترین کارایی را در بین الگوریتم ها داراست.

کلیدواژه ها:

پاکسازی داده ها ، تشخیص رکورد تکراری ، برآورد میزان شباهت فیلدها ، معیارهای ارزیابی

نویسندگان

مینا قاری زاده بیرق

دانشجوی کارشناسی ارشد نرم افزار دانشگاه آزاد اسلامی واحد شبستر

محمدرضا درخشی

عضو هیئت علمی گروه کامپیوتر دانشگاه تبریز

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Muller, H, Freytag, J, "Problems, Methods, and Challenges in Comprehensive ...
Singhal, Y, Sharma, A, Singh, R, "Comparison of approaches used ...
Sabbagh, M, Khalilpour, V, "Presenting vector space based method in ...
Elmagadin, A, "Duplicate Record Detection:A Survey", IEEE Transactions on Knowledge ...
Daggupati, Bhanupreeti, Unsupervised Duplicate Detection (UDD) of Query Results from ...
Joanne Zhu, J, Ungar, Lyle H, "String Edit Analysis for ...
Christen, Peter, _ Comparison of Personal Name Matching: Techniques and ...
Paskalev, Plamen, Antonov, Anatoliy, "Intelligent Application for Duplication Detection", International ...
Ristad, Eric Sven, Yianilos, Peter N., "Learning String-Edit Distance", IEEE ...
YANG, Zhenglu, KIT SUREGAWA, Masaru, "A Study on Similar String ...
Cohen, WilliamW., Ravikumar, Pradeep, Fienberg, Stephen E., _ Comparison of ...
Bilenko, Mikhail, Learnable Similarity Functions and Their Applications to Record ...
Ohanekwu, Timothy E., Ezeife, C.I., _ Token-Based Data Cleaning Technique ...
Varghese, Cyju Elizabeth, Naveen Sundar, G., "Record Matching _ Improving ...
Bilenko, Mikhail, Mooney, Raymond J., "On Evaluation and TrainingSet Construction ...
Deepa, K., Rangarajan, Dr.R., _ Approach to Duplicate Record Detection ...
Bilenko, Mikhail, Mooney, Raymond J., "Employing Trainable String Similarity Metrics ...
Integration" , Proceedings of the IJCAI-2003 Workshop _ Information Integration ...
Wellner, Ben, Castano, Jose, Pustejovsky, James, "Adaptive String Similarity Metrics ...

نمایش کامل مراجع