پاسخ به:مقالات پژوهش هاي آماري ايران
جمعه 5 خرداد 1391 11:19 AM
6 : مجله پژوهش هاي آماري ايران بهار و تابستان 1386; 4(1):91-107. |
پيوند احتمالاتي رکوردهاي فارسي با داده هاي گم شده |
فلاح افشين,محمدزاده درودي محسن* |
* گروه آمار، دانشكده علوم پايه، دانشگاه تربيت مدرس، پل نصر، بزرگراه جلال آل احمد، تهران، ايران |
پيوند رکوردها براي شناسايي واحدهاي يکسان در يک يا چند مجموعه داده لاتين در مقالات متعدد مورد بررسي قرار گرفته و روش هاي مناسبي ارايه شده است. اما پيوند رکوردهايي که اطلاعات آن ها به زبان فارسي ثبت شده است، به دليل ويژگي هاي خاص نوشتارهاي فارسي و نبود استاندارد ثبت اطلاعات، با مسايل خاصي مواجه مي باشد. در اين مقاله ضمن معرفي پيوند رکوردها بر اساس يک مدل احتمالاتي، روش هايي براي آماده سازي فايل ها به روش استانداردسازي و بلوک بندي و انتخاب متغيرهاي شناساگر ارايه مي شوند، که پيوند احتمالاتي رکوردهاي فارسي را ميسر سازند. براي مقابله با داده هاي گم شده که از جمله مسايل مهم کاربردي در پيوند رکوردها محسوب مي شوند، روش جديدي پيشنهاد شده است، که احتمال وجود داده هاي گم شده را نيز در مدل پيوند رکوردها لحاظ مي کند. سپس نحوه برآورد پارامترهاي اين مدل با الگوريتم EM ارايه شده است. براي افزايش تعداد فيلدهاي قابل مقايسه نيز الگوريتمي مبتني بر افراز فيلدهاي مرکب ارايه گرديده است. سپس نحوه کاربست روش هاي ارايه شده براي پيوند احتمالاتي رکوردهاي حاصل از سرشماري هاي کارگاهي در يک منطقه جغرافيايي ايران، نشان داده شده است. |
كليد واژه: رکورد، فيلد، انطباق، پيوند رکوردها، نسبت درست نمايي، الگوريتم EM |
نسخه قابل چاپ |