بهبود مدل فلگی-سانتر در اتصال رکوردی با استفاده از مدل لگ خطی و اصلاح وزن

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 205

فایل این مقاله در 23 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_STAT-17-1_009

تاریخ نمایه سازی: 31 تیر 1402

چکیده مقاله:

امروزه با دسترسی روزافزون به پایگا‎ه های داده اداری و حجم بالای داده های ثبت شده در سازمان ها، روش های سنتی گردآوری و تحلیل داده ها به دلیل بار پاسخ گویی بالا کارایی لازم را ندارند. بر این اساس، گذار از روش های گردآوری سنتی به روش های مدرن گردآوری و تحلیل داده ها با رویکرد آمارهای ثبتی مبنا بیش از پیش مورد توجه تحلیلگران داده ها قرار گرفته است. در روش های ثبتی مبنا، ایجاد یک پایگاه داده یکپارچه از طریق اتصال رکوردهای پایگاه های داده دستگاه های مختلف اهمیت ویژه ای دارد. بسیاری از الگوریتم های اتصال رکوردی بر پایه مدل فلگی و سانتر توسعه یافته است. یکی از نقص های مدل فلگی-سانتر این است که به درون اطلاعات موجود در مقادیر متغیرها نفوذ نمی کند و مقادیر متغیرهای رشته ای (رایج بودن یا نادر بودن مقدار ویژگی موردنظر) در آن اهمیت ندارد. در این ‎مقاله به معرفی روشی پرداخته می شود که بتواند با اصلاح وزن های جورسازی مدل فلگی-سانتر، این تفاوت ها را در مقادیر یک متغیر رشته ای در مدل فلگی-سانتر القا کند. از‎‎ طرف دیگر، مدلی که فلگی و سانتر پیشنهاد داده اند و روشی که برای تعدیل وزن های جورسازی در اتصال فراوانی مبنای رکوردها معرفی می شود، بر اساس فرض استقلال شرطی بنا شده اند. در برخی مسائل اتصال رکوردی، در تطابق و عدم تطابق میان متغیرهای مشترک مورد استفاده در جورسازی، فرض استقلال شرطی برقرار نیست. یک راهکار مورد استفاده در چنین حالتی، استفاده از مدل لگ-خطی است که امکان وجود اثرات متقابل میان متغیرهای جورسازی در مدل را فراهم می کند. ‎‎‎ در این مقاله به دو روش تعمیم مدل فلگی ‎‐‎سانتر، یکی با رویکرد اصلاح وزن های جورسازی و دیگری با رویکرد مدل لگ‎ ‎خطی با حضور اثرات متقابل میان متغیرهای اتصال دهنده در شرایطی که فرض استقلال شرطی برقرار نباشد، پرداخته می شود. روش های معرفی شده برای اتصال رکوردی در این مقاله، روی مجموعه داده های نیروی کار مرکز آمار ایران با استفاده از نرم افزار ‎R‎ پیاده سازی شده اند.

نویسندگان

زهرا رضائی قهرودی

دانشگاه تهران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • ‎ آقامحمدی، ژ. و رضائی قهرودی، ز. ‎(۱۴۰۱)‎. اتصال رکوردی ...
  • موفقی اردستانی ، ع. و رضائی قهرودی ‎ز. ‎(۱۴۰۱)‎. تعمیم ...
  • ‎Arasu‎, ‎A.‎, ‎Götz‎, ‎M.‎, ‎and Kaushik‎, ‎R‎. ‎(۲۰۱۰)‎, ‎On Active ...
  • ‎Beltadze‎, ‎D‎. ‎(۲۰۲۰)‎, ‎Developing Methodology for the Register-based Census in ...
  • ‎Blackwell‎, ‎L.‎, ‎Charlesworth‎, ‎A‎. ‎and Rogers‎, ‎N (۲۰۱۵)‎, ‎Linkage of ...
  • ‎‎Christen‎, ‎P‎. ‎(۲۰۱۲)‎, Data Matching‎: ‎Concepts and Techniques for Record ...
  • ‎Churches‎, ‎T‎. ‎(۲۰۰۳)‎, ‎A Proposed Architecture and Method of Operation ...
  • ‎Cochinwala‎, ‎M.‎, ‎Kurien‎, ‎V.‎, ‎Lalk‎, ‎G‎. ‎and Shasha‎, ‎D‎. ‎(۲۰۰۱)‎, ...
  • ‎Dunn‎, ‎H‎. ‎(۱۹۴۶)‎, ‎Record linkage‎, American Journal of Public Health ...
  • ‎Elfeky‎, ‎M.‎, ‎Verykios‎, ‎V.‎, ‎Elmagarmid‎, ‎A.‎, ‎Ghanem‎, ‎T‎. ‎and Huwait‎, ...
  • ‎Fair‎, ‎M‎. ‎(۲۰۰۴)‎, ‎Generalized Record Linkage System–Statistics Canada’s Record Linkage ...
  • ‎Fellegi‎, ‎I‎. ‎and Sunter‎, ‎A‎. ‎(۱۹۶۹)‎, ‎A Theory for Record ...
  • ‎Gardner‎, ‎E.‎, ‎Miles‎, ‎H.‎, ‎Bahn‎, ‎A‎. ‎and Romano‎, ‎J‎. ‎(۱۹۶۳)‎. ...
  • ‎Guha‎, ‎S.‎, ‎Reiter‎, ‎J‎. ‎and Mercatanti‎, ‎A‎. ‎(۲۰۲۰)‎. ‎Bayesian Causal ...
  • ‎‎Han‎, ‎J.‎, ‎Pei‎, ‎J‎. ‎and Kamber‎, ‎M‎. ‎(۲۰۱۱)‎. Data Mining‎: ...
  • ‎Hovy‎, ‎D‎. ‎(۲۰۲۰)‎. ‎ Text Analysis in Python for Social ...
  • ‎James‎, ‎G.‎, ‎Witten‎, ‎D.‎, ‎Hastie‎, ‎T‎. ‎and Tibshirani‎, ‎R‎. ‎(۲۰۱۳)‎. ...
  • ‎‎Jaro‎, ‎M‎. ‎(۱۹۸۹)‎. ‎Advances in Record-linkage Methodology as Applied to ...
  • ‎‎‎Li, X., Xu, H., Shen, C., & Grannis, S. (۲۰۱۸). ...
  • ‎‎‎Mancini‎, ‎L.‎, ‎Valentino‎, ‎L.‎, ‎Borrelli‎, ‎F‎. ‎and Marcone‎, ‎L‎. ‎(۲۰۱۲)‎. ...
  • ‎ McVeigh,‎ ‎B.‎, ‎Spahn‎, ‎B‎. ‎and Murray‎, ‎J‎. ‎(۲۰۱۹)‎. ‎Scaling ...
  • ‎Michelson‎, ‎M‎. ‎and Knoblock‎, ‎C (۲۰۰۶)‎. ‎Learning Blocking Schemes for ...
  • ‎Newcombe‎, ‎H‎. ‎and Kennedy‎, ‎J‎. ‎(۱۹۶۲)‎. ‎Record Linkage‎: ‎Making Maximum ...
  • ‎Newcombe‎, ‎H.‎, ‎Kennedy‎, ‎J.‎, ‎Axford‎, ‎S‎. ‎and James‎, ‎A (۱۹۵۹)‎. ...
  • ‎Rahm‎, ‎E‎. ‎and Do‎, ‎H‎. ‎(۲۰۰۰)‎. ‎Data Cleaning‎: ‎Problems and ...
  • ‎Sadinle‎, ‎M‎. ‎(۲۰۱۷)‎. ‎Bayesian Estimation of Bipartite Matchings for Record ...
  • ‎Sarawagi‎, ‎S‎. ‎(۲۰۰۸)‎. ‎Information extraction‎, ‎ Foundations and Trends in ...
  • Schürle, J. (۲۰۰۵). A method for consideration of conditional dependencies ...
  • ‎Winkler‎, ‎W‎. ‎(۱۹۹۳)‎. ‎Improved Decision Rules in the Fellegi-Sunter Model ...
  • ‎ آقامحمدی، ژ. و رضائی قهرودی، ز. ‎(۱۴۰۱)‎. اتصال رکوردی ...
  • موفقی اردستانی ، ع. و رضائی قهرودی ‎ز. ‎(۱۴۰۱)‎. تعمیم ...
  • ‎Arasu‎, ‎A.‎, ‎Götz‎, ‎M.‎, ‎and Kaushik‎, ‎R‎. ‎(۲۰۱۰)‎, ‎On Active ...
  • ‎Beltadze‎, ‎D‎. ‎(۲۰۲۰)‎, ‎Developing Methodology for the Register-based Census in ...
  • ‎Blackwell‎, ‎L.‎, ‎Charlesworth‎, ‎A‎. ‎and Rogers‎, ‎N (۲۰۱۵)‎, ‎Linkage of ...
  • ‎‎Christen‎, ‎P‎. ‎(۲۰۱۲)‎, Data Matching‎: ‎Concepts and Techniques for Record ...
  • ‎Churches‎, ‎T‎. ‎(۲۰۰۳)‎, ‎A Proposed Architecture and Method of Operation ...
  • ‎Cochinwala‎, ‎M.‎, ‎Kurien‎, ‎V.‎, ‎Lalk‎, ‎G‎. ‎and Shasha‎, ‎D‎. ‎(۲۰۰۱)‎, ...
  • ‎Dunn‎, ‎H‎. ‎(۱۹۴۶)‎, ‎Record linkage‎, American Journal of Public Health ...
  • ‎Elfeky‎, ‎M.‎, ‎Verykios‎, ‎V.‎, ‎Elmagarmid‎, ‎A.‎, ‎Ghanem‎, ‎T‎. ‎and Huwait‎, ...
  • ‎Fair‎, ‎M‎. ‎(۲۰۰۴)‎, ‎Generalized Record Linkage System–Statistics Canada’s Record Linkage ...
  • ‎Fellegi‎, ‎I‎. ‎and Sunter‎, ‎A‎. ‎(۱۹۶۹)‎, ‎A Theory for Record ...
  • ‎Gardner‎, ‎E.‎, ‎Miles‎, ‎H.‎, ‎Bahn‎, ‎A‎. ‎and Romano‎, ‎J‎. ‎(۱۹۶۳)‎. ...
  • ‎Guha‎, ‎S.‎, ‎Reiter‎, ‎J‎. ‎and Mercatanti‎, ‎A‎. ‎(۲۰۲۰)‎. ‎Bayesian Causal ...
  • ‎‎Han‎, ‎J.‎, ‎Pei‎, ‎J‎. ‎and Kamber‎, ‎M‎. ‎(۲۰۱۱)‎. Data Mining‎: ...
  • ‎Hovy‎, ‎D‎. ‎(۲۰۲۰)‎. ‎ Text Analysis in Python for Social ...
  • ‎James‎, ‎G.‎, ‎Witten‎, ‎D.‎, ‎Hastie‎, ‎T‎. ‎and Tibshirani‎, ‎R‎. ‎(۲۰۱۳)‎. ...
  • ‎‎Jaro‎, ‎M‎. ‎(۱۹۸۹)‎. ‎Advances in Record-linkage Methodology as Applied to ...
  • ‎‎‎Li, X., Xu, H., Shen, C., & Grannis, S. (۲۰۱۸). ...
  • ‎‎‎Mancini‎, ‎L.‎, ‎Valentino‎, ‎L.‎, ‎Borrelli‎, ‎F‎. ‎and Marcone‎, ‎L‎. ‎(۲۰۱۲)‎. ...
  • ‎ McVeigh,‎ ‎B.‎, ‎Spahn‎, ‎B‎. ‎and Murray‎, ‎J‎. ‎(۲۰۱۹)‎. ‎Scaling ...
  • ‎Michelson‎, ‎M‎. ‎and Knoblock‎, ‎C (۲۰۰۶)‎. ‎Learning Blocking Schemes for ...
  • ‎Newcombe‎, ‎H‎. ‎and Kennedy‎, ‎J‎. ‎(۱۹۶۲)‎. ‎Record Linkage‎: ‎Making Maximum ...
  • ‎Newcombe‎, ‎H.‎, ‎Kennedy‎, ‎J.‎, ‎Axford‎, ‎S‎. ‎and James‎, ‎A (۱۹۵۹)‎. ...
  • ‎Rahm‎, ‎E‎. ‎and Do‎, ‎H‎. ‎(۲۰۰۰)‎. ‎Data Cleaning‎: ‎Problems and ...
  • ‎Sadinle‎, ‎M‎. ‎(۲۰۱۷)‎. ‎Bayesian Estimation of Bipartite Matchings for Record ...
  • ‎Sarawagi‎, ‎S‎. ‎(۲۰۰۸)‎. ‎Information extraction‎, ‎ Foundations and Trends in ...
  • Schürle, J. (۲۰۰۵). A method for consideration of conditional dependencies ...
  • ‎Winkler‎, ‎W‎. ‎(۱۹۹۳)‎. ‎Improved Decision Rules in the Fellegi-Sunter Model ...
  • نمایش کامل مراجع