ارائهی روش اعتبارسنجی دادهها مبتنی بر هستی شناسی در پایگاهدادهها

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 986

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NCECN01_187

تاریخ نمایه سازی: 7 بهمن 1393

چکیده مقاله:

در دنیای امروزی، استفاده ی وسیع و رو به رشد از سیستم های اطلاعاتی کامپیوتری، منجر به پایگاه داده هایی با حجم عظیم از داده ها می گردد. حفظ و ارتقای کیفیت این مقادیر کلان از داده ها، امری ضروری و اجتناب ناپذیر می باشد. موضوع پاکسازی داده ها به منظور ارتقای کیفیت داده ها مطرح گردیده است. اعتبارسنجی یکی از گام های اصلی در فرآیند پاکسازی داده ها می باشد که برای تشخیص داده ها ی دارای خطا، اطلاعات ناقص یا نادرست به کار می رود. وجود خطا در داده ها منجر به کاهش کیفیت داده ها و دقت در فرآیند پاکسازی داده ها می گردد، بنابراین نیاز به استفاده از یکسری تکنیک های هوشمند به چشم می خورد تا بتوان از طریق آنها و به طور خودکار، داده های معتبر و نامعتبر را تشخیص داد. با توجه به حجم عظیم و روز افزون داده ها، بررسی صحت داده ها، با روش های دستی غیر ممکن است. اغلب روش های موجود، نظیر اعتبارسنج های استاتیک وابسته به حوزه می باشند و نیاز به بررسی داده ها و تعریف دستی قوانین اعتبارسنجی توسط افراد خبره وجود دارند. به منظور حل مشکلات موجود، روش اعتبارسنجی مبتنی بر هستان شناسی پیشنهاد می گردد. با توجه به اینکه فیلد به عنوان واحد پایه ی اطلاعات در پایگاه های داده مطرح می-گردد، بنابراین روش پیشنهادی برای اعتبارسنجی داده ها در سطح فیلد ارائه شده است. این روش، از اطلاعات هستان شناسی عناوین فیلدها، به منظور تعیین موارد معتبر و نامعتبر در مقادیر فیلدها بهره می برد. با انجام یک سری آزمایش ها، اجرای الگوریتم پیشنهادی و مقایسه با روش های موجود بر روی داده های یکسان و واقعی، می توان به این نتیجه رسید که با اجرای الگوریتم پیشنهادی، معیار کارایی دقت در مقایسه با روش های موجود، حداقل 25/1 درصد و حداکثر 7/8 درصد افزایش یافته است. معیار کارایی بازخوانی روش پیشنهادی، حداقل 00/1 درصد و حداکثر 1216/7 درصد افزایش یافته است. معیار کارایی Fدر روش پیشنهادی، حداقل 18/1 درصد و حداکثر 918/7 درصد افزایش یافته است.

نویسندگان

مریم اسماعیل زاده قلعه جوقی

گروه کامپیوتر، واحد شبستر، دانشگاه آزاد اسلامی واحد شبستر، ایران

محمدرضا فیضی درخشی

گروه کامپیوتر، دانشگاه تبریز، تبریز، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • شمس فرد، مهرنوش، عبداله زاده بارفروش، احمد، 1381، استخراج دانش ...
  • صباغ نوبریان، مهسا، 1389، شناسایی و حذف رکوردهای تکراری در ...
  • فیضی درخشی، محمدرضا، روحانی، آزاده، صباغ نوبریان، مهسا، 1389، ارائه ...
  • Bruggemann, Stefan, Aden, Thomas, 2007, Ontology Based Data Validation and ...
  • Esmailzadeh Ghaleh-Jughi, Maryam, Feizi-D erakhshi, M oh ammad-Reza, 2012, A ...
  • Jourdan, Guy-Vincent, 2008, Data Validation, Data N eutralization, Data Footprint: ...
  • Li, Man, Du, Xiao-Yong, Wang, Shan, 2005, Learning Ontology From ...
  • نمایش کامل مراجع