Original Title: Estimation of the Correlation Coefficient for a Bivariate Normal Distribution with Missing Data
Source: li01.tci-thaijo.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប៉ាន់ស្មានមេគុណសហសម្ព័ន្ធសម្រាប់ការចែកចាយធម្មតាទ្វេអថេរ (Bivariate Normal Distribution) ដែលមានទិន្នន័យបាត់បង់

ចំណងជើងដើម៖ Estimation of the Correlation Coefficient for a Bivariate Normal Distribution with Missing Data

អ្នកនិពន្ធ៖ Juthaphorn Sinsomboonthong (Department of Statistics, Faculty of Science, Kasetsart University, Bangkok 10900, Thailand)

ឆ្នាំបោះពុម្ព៖ 2011, Kasetsart Journal (Natural Science)

វិស័យសិក្សា៖ Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការប៉ាន់ស្មានមេគុណសហសម្ព័ន្ធ (Correlation Coefficient) សម្រាប់ទិន្នន័យដែលមានការចែកចាយធម្មតាទ្វេអថេរ ដែលមានទិន្នន័យបាត់បង់ (Missing Data) ដែលតែងតែបង្កឱ្យមានភាពលម្អៀង និងភាពមិនច្បាស់លាស់ក្នុងការវិភាគទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឧបករណ៍ប៉ាន់ស្មានថ្មីមួយដោយប្រើវិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀង Jackknife និងបានវាយតម្លៃវាប្រៀបធៀបទៅនឹងមេគុណ Pearson តាមរយៈការក្លែងធ្វើកុំព្យូទ័រ (Simulation study) ដែលមានទំហំសំណាក និងភាគរយទិន្នន័យបាត់បង់ខុសៗគ្នា។

ការវិភាគលើទិន្នន័យសង្កេតពេញលេញ (Complete Observation Analysis)
ការប៉ាន់ស្មានតាមវិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀង (Jackknife's Method of Bias Reduction)
ការក្លែងធ្វើកុំព្យូទ័រចំនួន ២០០០ ដង ដោយមានការបាត់បង់ទិន្នន័យ ១០%, ២០%, និង ៣០% (Simulation Study)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សម្រាប់សំណាកទំហំធំកម្រិត ៣០ ទៅ ៦០ និងមានភាគរយទិន្នន័យបាត់បង់ខ្ពស់ ឧបករណ៍ប៉ាន់ស្មានដែលបានស្នើមានភាពលម្អៀងដាច់ខាតតិចជាង ០.០០៤ ដែលទាបជាងមេគុណ Pearson យ៉ាងច្បាស់។
កំហុសមធ្យមការ៉េ (Mean Square Error - MSE) របស់ឧបករណ៍ប៉ាន់ស្មានថ្មី មិនមានភាពខុសគ្នាពីឧបករណ៍ប៉ាន់ស្មាន Pearson នោះទេនៅក្នុងគ្រប់ស្ថានភាពនៃការសិក្សា។
នៅពេលទំហំសំណាកកាន់តែធំ ភាពលម្អៀងរបស់ឧបករណ៍ប៉ាន់ស្មានដែលបានស្នើនេះត្រូវបានកាត់បន្ថយរហូតដល់សូន្យ ដែលផ្តល់អត្ថប្រយោជន៍ខ្ពស់សម្រាប់ការអនុវត្តក្នុងការស្រាវជ្រាវជាក់ស្តែង និងការវិភាគទិន្នន័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Pearson Correlation Coefficient មេគុណសហសម្ព័ន្ធ Pearson សម្រាប់ទិន្នន័យសង្កេតពេញលេញ	ងាយស្រួលគណនា និងប្រើប្រាស់ទូទៅ ជាជម្រើសដ៏សមស្របសម្រាប់ការវិភាគទិន្នន័យធម្មតាដែលមិនមានបញ្ហាបាត់បង់ច្រើន។	មានភាពលម្អៀង (Bias) ខ្ពស់នៅពេលមានទិន្នន័យបាត់បង់ច្រើន និងទំហំសំណាកតូច ឬនៅពេលមេគុណសហសម្ព័ន្ធមិនកៀកនឹងសូន្យ។	មានភាពលម្អៀងដាច់ខាត (Absolute bias) ខ្ពស់ជាងវិធីសាស្រ្តដែលបានស្នើនៅពេលដែលទំហំសំណាកមានចន្លោះពី ៣០ ទៅ ៦០ ជាមួយនឹងទិន្នន័យបាត់បង់ច្រើនជាង ១០%។
Proposed Estimator (Jackknife's method) ឧបករណ៍ប៉ាន់ស្មានដែលបានស្នើដោយប្រើវិធីសាស្រ្ត Jackknife	កាត់បន្ថយភាពលម្អៀងបានយ៉ាងមានប្រសិទ្ធភាពសម្រាប់សំណាកធំ ដែលមានអត្រាបាត់បង់ទិន្នន័យខ្ពស់ ដោយរក្សានូវភាពសុក្រឹតខ្ពស់។	ត្រូវការការគណនាស្មុគស្មាញ និងស៊ីពេលច្រើនជាងមុន ដោយទាមទារការដកចេញទិន្នន័យម្តងមួយៗ (leave-one-out) ដើម្បីគណនាសារជាថ្មី។	ភាពលម្អៀងដាច់ខាតត្រូវបានកាត់បន្ថយមកត្រឹមកម្រិតតិចជាង ០.០០៤ សម្រាប់ទំហំសំណាក ៣០ និង ៦០ ដោយកំហុសមធ្យមការ៉េ (MSE) មិនមានភាពខុសគ្នាពីវិធីសាស្រ្ត Pearson ឡើយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើកុំព្យូទ័រ (Simulation study) ដែលមិនត្រូវការធនធានសម្ភារៈរូបវន្តថ្លៃៗឡើយ ប៉ុន្តែទាមទារចំណេះដឹងផ្នែកស្ថិតិ និងកម្មវិធីកុំព្យូទ័រដើម្បីដំណើរការគណនា។

Hardware: កុំព្យូទ័រយួរដៃ ឬកុំព្យូទ័រលើតុស្តង់ដារដែលមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការដំណើរការកូដក្លែងធ្វើទិន្នន័យយ៉ាងហោចណាស់ ២០០០ ដង។
Software: កម្មវិធីវិភាគស្ថិតិ ឬភាសាសរសេរកូដដូចជា R, Python (ជាមួយ NumPy, SciPy), ឬ SAS។
Expertise: ចំណេះដឹងផ្នែកស្ថិតិជាន់ខ្ពស់ ជាពិសេសការយល់ដឹងស៊ីជម្រៅលើការចែកចាយទ្វេអថេរ (Bivariate normal distribution) និងវិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀងកម្រិតខ្ពស់ (Jackknife method)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យក្លែងធ្វើ (Simulated data) តាមទម្រង់ការចែកចាយធម្មតាទ្វេអថេរ ជាមួយនឹងការបាត់បង់ទិន្នន័យដោយចៃដន្យ (Missing Completely at Random - MCAR) ពុំមែនជាទិន្នន័យជាក់ស្តែងពីប្រជាជនណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាវិធីសាស្រ្តនេះអាចយកទៅអនុវត្តបានយ៉ាងទូលំទូលាយលើគ្រប់វិស័យ ដរាបណាទិន្នន័យគោលមានលក្ខណៈចែកចាយធម្មតា និងការបាត់បង់ទិន្នន័យកើតឡើងដោយចៃដន្យ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តនេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានយ៉ាងប្រសើរនៅក្នុងបរិបទនៃការស្រាវជ្រាវនៅកម្ពុជា ជាពិសេសនៅពេលការប្រមូលទិន្នន័យជួបប្រទះបញ្ហាបាត់បង់ព័ត៌មាន។

វិស័យសុខាភិបាល និងវេជ្ជសាស្ត្រ (Healthcare & Medicine): អាចប្រើប្រាស់ក្នុងការវិភាគទិន្នន័យអ្នកជំងឺនៅមន្ទីរពេទ្យនានា (ឧទាហរណ៍៖ មន្ទីរពេទ្យកាល់ម៉ែត) ដែលជាញឹកញាប់អ្នកជំងឺមិនបានមកតាមដានសុខភាពទៀងទាត់ ដែលបណ្តាលឱ្យកំណត់ត្រាតេស្តសុខភាពមានការបាត់បង់ និងមិនពេញលេញ។
វិស័យអប់រំ និងចិត្តវិទ្យា (Education & Psychology): សាកសមសម្រាប់ការសិក្សាស្រាវជ្រាវរបស់សាកលវិទ្យាល័យ (ឧទាហរណ៍៖ សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ) លើពិន្ទុសិស្ស ឬកម្រិតយល់ដឹង ដោយមានសិស្សខ្លះអវត្តមានអំឡុងពេលប្រឡងឬមិនបានឆ្លើយសំណួរស្ទង់មតិគ្រប់ជ្រុងជ្រោយ។
វិស័យកសិកម្ម និងបរិស្ថាន (Agriculture & Environment): អាចអនុវត្តលើការវិភាគទិន្នន័យអាកាសធាតុ ឬទិន្នផលកសិកម្មនៅតាមបណ្តាខេត្តនានា ដែលស្ថានីយ៍វាស់វែងខ្លះអាចជួបបញ្ហាបច្ចេកទេស និងខកខានក្នុងការកត់ត្រាទិន្នន័យប្រចាំថ្ងៃមួយចំនួន។

ជារួម ឧបករណ៍ប៉ាន់ស្មាន Jackknife នេះផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំមួយក្នុងការវិភាគទិន្នន័យមិនពេញលេញ ដែលជួយឱ្យអ្នកស្រាវជ្រាវកម្ពុជាអាចធ្វើការសន្និដ្ឋានបានត្រឹមត្រូវនិងមានភាពជឿជាក់ជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃស្ថិតិ និងទិន្នន័យបាត់បង់: ស្វែងយល់ពីគោលគំនិតនៃការចែកចាយធម្មតាទ្វេអថេរ (Bivariate normal distribution) និងប្រភេទនៃការបាត់បង់ទិន្នន័យ (Missing Completely at Random - MCAR) ដោយអានសៀវភៅស្ថិតិ ឬឯកសារណែនាំពី DataCamp និង Coursera។
ជំហានទី២៖ ស្វែងយល់ពីវិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀង Jackknife: សិក្សាពីទ្រឹស្តីនៃវិធីសាស្រ្ត Jackknife ដែលពាក់ព័ន្ធនឹងការទាញយកសំណាកម្តងមួយៗ (leave-one-out sampling) ដើម្បីគណនាមេគុណសហសម្ព័ន្ធឡើងវិញ និងស្វែងយល់ពីរបៀបដែលវាកាត់បន្ថយភាពលម្អៀង (Bias reduction)។
ជំហានទី៣៖ អនុវត្តការសរសេរកូដក្លែងធ្វើទិន្នន័យ (Simulation): ប្រើប្រាស់កម្មវិធីសរសេរកូដដូចជា R (តាមរយៈ RStudio) ឬ Python (ដោយប្រើបណ្ណាល័យ NumPy និង SciPy) ដើម្បីបង្កើតកូដទិន្នន័យក្លែងធ្វើ ដែលមានទំហំសំណាក និងកំណត់ភាគរយទិន្នន័យបាត់បង់ (១០%, ២០%, ៣០%) ដូចក្នុងឯកសារស្រាវជ្រាវ។
ជំហានទី៤៖ សរសេរកូដអនុវត្តវិធីសាស្រ្តប៉ាន់ស្មានទាំងពីរ: សរសេរអនុគមន៍ (Function) នៅក្នុង Python ឬ R ដើម្បីគណនាមេគុណសហសម្ព័ន្ធ Pearson ធម្មតា និងការគណនាតាមវិធីសាស្រ្ត Jackknife រួចដំណើរការវា ២០០០ ដង ដើម្បីប្រៀបធៀបលទ្ធផលភាពលម្អៀងដាច់ខាត (Absolute bias) និងកំហុសមធ្យមការ៉េ (MSE)។
ជំហានទី៥៖ អនុវត្តលើគម្រោងទិន្នន័យជាក់ស្តែង (Real-world Application): ទាញយកសំណុំទិន្នន័យពិតប្រាកដដែលមានទិន្នន័យបាត់បង់ពីវិបផតថលកម្ពុជា (ឧទាហរណ៍ Open Development Cambodia) រួចប្រើកូដដែលបានបង្កើត ដើម្បីប៉ាន់ស្មានទំនាក់ទំនងនៃអថេរពីរ និងសរសេររបាយការណ៍សន្និដ្ឋានពីលទ្ធផល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Bivariate Normal Distribution (ការចែកចាយធម្មតាទ្វេអថេរ)	ជាទម្រង់ស្ថិតិដែលអថេរពីរមានទំនាក់ទំនងគ្នា ហើយអថេរនីមួយៗមានការចែកចាយរាងដូចជួង (Bell curve)។ វាត្រូវបានប្រើដើម្បីសិក្សាពីរបៀបដែលអថេរទាំងពីរប្រែប្រួលជាមួយគ្នាក្នុងពេលតែមួយ។	ដូចជាការមើលទំនាក់ទំនងរវាងកម្ពស់ និងទម្ងន់របស់មនុស្សមួយក្រុម ដែលជាទូទៅមនុស្សខ្ពស់ច្រើនតែធ្ងន់ ហើយតម្លៃទាំងពីរនេះប្រមូលផ្តុំច្រើននៅចំណុចកណ្តាល។
Correlation Coefficient (មេគុណសហសម្ព័ន្ធ)	ជារង្វាស់ស្ថិតិដែលបង្ហាញពីកម្រិត និងទិសដៅនៃទំនាក់ទំនងរវាងអថេរពីរ ដែលមានតម្លៃចន្លោះពី -១ ដល់ ១។ តម្លៃខិតជិត ១ ឬ -១ បញ្ជាក់ពីទំនាក់ទំនងខ្លាំង។	ដូចជាត្រីវិស័យនិងរង្វាស់ល្បឿន ដែលប្រាប់យើងថា តើឡានពីរគ្រឿងកំពុងបើកទៅទិសដៅតែមួយឬផ្ទុយគ្នា ហើយល្បឿនរបស់ពួកគេប្រែប្រួលស្របគ្នាកម្រិតណា។
Jackknife's method (វិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀង Jackknife)	ជាបច្ចេកទេសក្នុងស្ថិតិដើម្បីវាយតម្លៃកំហុស ឬកាត់បន្ថយភាពលម្អៀង (Bias) នៃការប៉ាន់ស្មាន ដោយដកទិន្នន័យចេញម្តងមួយៗ (leave-one-out) រួចធ្វើការគណនាសារជាថ្មីរហូតអស់ទិន្នន័យគ្រប់តួ ដើម្បីរកតម្លៃមធ្យមដែលសុក្រឹតជាងមុន។	ដូចជាការភ្លក់សម្លមួយឆ្នាំងដោយសាកល្បងដកគ្រឿងផ្សំចេញម្តងមួយមុខៗ ដើម្បីចង់ដឹងថាគ្រឿងផ្សំណាមួយដែលធ្វើឲ្យសម្លនោះប្រៃពេកឬសាបពេក។
Missing Completely at Random (ការបាត់បង់ទិន្នន័យដោយចៃដន្យ)	ជាស្ថានភាពដែលទិន្នន័យខ្លះមិនត្រូវបានកត់ត្រា ឬបាត់បង់ដោយមិនមានមូលហេតុជាក់លាក់ណាមួយទាក់ទងនឹងតម្លៃនៃទិន្នន័យនោះ ឬអថេរផ្សេងទៀតឡើយ (អត្រានៃការបាត់បង់គឺស្មើគ្នាសម្រាប់គ្រប់ករណី)។	ដូចជាសៀវភៅបញ្ជីវត្តមានសិស្សដែលត្រូវទឹកភ្លៀងលុបឈ្មោះខ្លះដោយចៃដន្យ ដោយវាមិនពាក់ព័ន្ធថាសិស្សដែលរលុបឈ្មោះនោះជារបស់សិស្សពូកែ ឬសិស្សខ្សោយនោះទេ។
Absolute bias (ភាពលម្អៀងដាច់ខាត)	ជាទំហំនៃភាពខុសគ្នារវាងតម្លៃដែលប៉ាន់ស្មានបានពីគំរូ និងតម្លៃពិតប្រាកដនៃប្រជាជនគោល ដោយមិនគិតពីសញ្ញាដក ឬបូក (យកតម្លៃដាច់ខាត)។	ដូចជាការទាយទម្ងន់ផ្លែឪឡឹក បើអ្នកទាយខុស ១គីឡូ (មិនថាអ្នកទាយលើស ១គីឡូ ឬទាយខ្វះ ១គីឡូទេ) គឺរាប់ថាអ្នកមានភាពលម្អៀង ១គីឡូដូចគ្នា។
Mean Square Error (កំហុសមធ្យមការ៉េ / MSE)	ជារង្វាស់ដែលវាយតម្លៃភាពសុក្រឹតនៃរូបមន្តប៉ាន់ស្មាន ដោយគណនាមធ្យមនៃកំហុសការ៉េ (ភាពខុសគ្នារវាងតម្លៃប៉ាន់ស្មាន និងតម្លៃពិត)។ វាវាស់ទាំងភាពលម្អៀង (Bias) និងភាពប្រែប្រួលរាយប៉ាយ (Variance) នៃទិន្នន័យ។	ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងស៊ីប បើព្រួញបាញ់ទៅចំក្បែរៗគ្នាតែខុសចំណុចកណ្តាល នោះកំហុសមធ្យមការ៉េប្រាប់ពីចម្ងាយសរុបនៃព្រួញទាំងអស់ពីចំណុចកណ្តាលនោះ។
Simulation study (ការសិក្សាតាមការក្លែងធ្វើកុំព្យូទ័រ)	ជាការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិតជាច្រើនពាន់ដង ក្នុងគោលបំណងសាកល្បង និងវាយតម្លៃប្រសិទ្ធភាពនៃរូបមន្ត ឬវិធីសាស្រ្តស្ថិតិណាមួយនៅក្រោមលក្ខខណ្ឌផ្សេងៗគ្នា។	ដូចជាការប្រើប្រាស់ម៉ាស៊ីន Simulator ដើម្បីសាកល្បងសមត្ថភាពអ្នកបើកបរយន្តហោះ ក្នុងស្ថានភាពអាកាសធាតុផ្សេងៗ មុនពេលឲ្យគាត់ទៅបើកយន្តហោះពិតប្រាកដ។
Complete observation analysis (ការវិភាគលើទិន្នន័យសង្កេតពេញលេញ)	ជាវិធីសាស្រ្តវិភាគទិន្នន័យដែលប្រើប្រាស់តែគូទិន្នន័យ (រវាងអថេរពីរ) ដែលមានតម្លៃពេញលេញទាំងសងខាង និងផាត់ចោលនូវគូទិន្នន័យណាដែលមានបាត់តម្លៃម្ខាងៗចេញពីការវិភាគ។	ដូចជាការរាប់ចំនួនគូស្វាមីភរិយាក្នុងកម្មវិធីជប់លៀង ដោយរាប់តែគូណាដែលមកទាំងពីរនាក់ ហើយមិនរាប់អ្នកដែលមកតែឯង (ដោយដៃគូអវត្តមាន) នោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖