Original Title: Krawtchouk’s Polynomial for Hypergeometric Distribution Approximation
Source: li01.tci-thaijo.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ពហុធា Krawtchouk សម្រាប់ការប៉ាន់ស្មានរបាយអ៉ីពែរធរណីមាត្រ

ចំណងជើងដើម៖ Krawtchouk’s Polynomial for Hypergeometric Distribution Approximation

អ្នកនិពន្ធ៖ Juthaphorn Sinsomboonthong (Department of Statistics, Faculty of Science, Kasetsart University, Bangkok 10900, Thailand.)

ឆ្នាំបោះពុម្ព៖ 2014, Agriculture and Natural Resources

វិស័យសិក្សា៖ Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការប៉ាន់ស្មានរបាយអ៉ីពែរធរណីមាត្រ (Hypergeometric distribution) ដែលមានភាពស្មុគស្មាញនៅពេលប្រភាគគំរូធំជាង ០.១ ដោយស្នើឡើងនូវរូបមន្តប្រូបាប៊ីលីតេទ្វេធាកែសម្រួលថ្មីមួយ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់ការធ្វើត្រាប់តាម (Simulation study) ដើម្បីប្រៀបធៀបភាពត្រឹមត្រូវនិងប្រសិទ្ធភាពនៃវិធីសាស្ត្រប៉ាន់ស្មានចំនួនបីផ្សេងគ្នាដោយផ្អែកលើការវាស់វែងចម្ងាយ។

ការបង្កើតរូបមន្តប្រូបាប៊ីលីតេទ្វេធាកែសម្រួលដោយពង្រីកពហុធា (Krawtchouk's polynomials)
ការវាស់វែងចម្ងាយបម្រែបម្រួលសរុប (Total variation distance) ជាសូចនាករភាពត្រឹមត្រូវ
ការធ្វើត្រាប់តាមស្ថានភាពចំនួន ២៨៨ ផ្សេងៗគ្នាសម្រាប់ការប្រៀបធៀប (Simulation of 288 situations)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ចម្ងាយបម្រែបម្រួលសរុបនៃប្រូបាប៊ីលីតេទ្វេធាដែលបានកែសម្រួលមានកម្រិតទាបជាងប្រូបាប៊ីលីតេទ្វេធាធម្មតា និង Ord សម្រាប់គ្រប់ស្ថានភាពទាំងអស់ទាំង ២៨៨។
តម្លៃនៃចម្ងាយបម្រែបម្រួលខិតជិតដល់សូន្យនៅពេលដែលប្រភាគនៃការដកសំណាក (Sampling fraction) មានទំហំតូច។
សម្រាប់ប្រជាជនទំហំធំរហូតដល់ ២០,០០០ វិធីសាស្ត្រទាំងបីមិនបង្ហាញភាពខុសគ្នានៃប្រសិទ្ធភាពគួរឱ្យកត់សម្គាល់នោះទេ នៅពេលប្រភាគគំរូធំជាង ០.១។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Hypergeometric Distribution (Exact) ការគណនារបាយអ៉ីពែរធរណីមាត្រជាក់ស្តែង (Baseline)	ផ្តល់តម្លៃប្រូបាប៊ីលីតេពិតប្រាកដ និងជាក់ស្តែងបំផុតដោយមិនចាំបាច់មានការប៉ាន់ស្មាន។	មានភាពលំបាកក្នុងការគណនា និងរៀបចំទម្រង់បែបបទវិភាគតាមបែបគណិតវិទ្យានៅពេលចំនួនប្រជាជនមានទំហំធំខ្លាំង។	ជាតម្លៃគោល (Baseline) សម្រាប់វាស់វែងគម្លាត (TVD) នៃវិធីសាស្ត្រប៉ាន់ស្មានផ្សេងៗទៀត។
Binomial Approximation ការប៉ាន់ស្មានតាមរបាយទ្វេធាធម្មតា	ងាយស្រួលគណនា និងមានប្រសិទ្ធភាពគ្រប់គ្រាន់នៅពេលប្រភាគគំរូ (Sampling fraction, f) តូចជាង ឬស្មើ ០.១។	បាត់បង់ភាពត្រឹមត្រូវនៅពេលប្រភាគគំរូ (f) ធំជាង ០.១ ដែលធ្វើឱ្យមានកំហុស (Error) កើនឡើងខ្លាំង។	ចម្ងាយបម្រែបម្រួលសរុប (TVD) ឡើងដល់ប្រហែល ០.១២ សម្រាប់ f=0.4, p=0.02 និង N=100 ដែលជាតម្លៃខ្ពស់ជាងគេ។
Ord's Approximation ការប៉ាន់ស្មានរបស់ Ord	ផ្តល់លទ្ធផលគ្រាន់បើជាងការប៉ាន់ស្មានទ្វេធាធម្មតា ក្នុងការរក្សាគម្លាតបម្រែបម្រួលឱ្យនៅទាបជាង ០.០៤។	នៅតែមិនអាចយកឈ្នះវិធីសាស្ត្រ Modified Binomial បានទេ បើទោះជាប្រភាគគំរូធំ ឬតូចក្តី។	ចម្ងាយបម្រែបម្រួលសរុប (TVD) មិនលើសពី ០.០៤ សម្រាប់ចំនួនប្រជាជន (N) ពី 100 ដល់ 20000 ពេល f > 0.1។
Modified Binomial Approximation (using Krawtchouk's Polynomial) ការប៉ាន់ស្មានទ្វេធាដែលបានកែសម្រួលដោយប្រើពហុធា Krawtchouk	មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានចម្ងាយបម្រែបម្រួលសរុប (TVD) តូចជាងគេជានិច្ច ទោះជាប្រភាគគំរូមានទំហំធំជាង ០.១ ក៏ដោយ។	រូបមន្តមានភាពស្មុគស្មាញវែងអន្លាយ និងទាមទារការគណនាថ្នាក់ខ្ពស់ (រហូតដល់ r=4) ជាងវិធីសាស្ត្រធម្មតា។	គម្លាត (TVD) ខិតជិតសូន្យបំផុតសម្រាប់ f តូច និងមានតម្លៃទាបជាងគេបំផុតធៀបនឹងវិធីសាស្ត្រផ្សេងទៀតសម្រាប់គ្រប់ស្ថានភាពទាំង ២៨៨។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ចំៗពីឧបករណ៍ដែលត្រូវប្រើក៏ដោយ ការធ្វើត្រាប់តាម (Simulation study) លើស្ថានភាពចំនួន ២៨៨ ផ្សេងៗគ្នា ទាមទារឱ្យមានកម្មវិធីកុំព្យូទ័រផ្នែកស្ថិតិ និងចំណេះដឹងគណិតវិទ្យា។

Software: ទាមទារកម្មវិធីវិភាគស្ថិតិ ឬសរសេរកូដដូចជា R, Python (SciPy/NumPy), MATLAB ឬ SAS ដើម្បីដំណើរការការធ្វើត្រាប់តាម និងគណនា TVD។
Hardware: កុំព្យូទ័រយួរដៃធម្មតា (Standard CPU) អាចដំណើរការបាន ព្រោះការគណនារូបមន្តប្រូបាប៊ីលីតេមិនទាមទារថាមពលកុំព្យូទ័រខ្នាតធំ (GPU) នោះទេ។
Expertise: ត្រូវការចំណេះដឹងជ្រៅជ្រះផ្នែកទ្រឹស្តីប្រូបាប៊ីលីតេ (Probability Theory) ការវិភាគចំនួន (Numerical Analysis) និងពហុធា (Orthogonal Polynomials)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យធ្វើត្រាប់តាម (Simulated Data) ដោយកុំព្យូទ័រ ផ្អែកលើទ្រឹស្តីគណិតវិទ្យាសុទ្ធសាធ (Theoretical Mathematics)។ ដោយសារវាមិនពាក់ព័ន្ធនឹងទិន្នន័យជីវសាស្ត្រ ឬប្រជាសាស្ត្រជាក់ស្តែង វាមិនមានបញ្ហាលម្អៀងទិន្នន័យ (Data Bias) ឡើយ។ ភាពគ្មានលម្អៀងនេះធានាថារូបមន្តអាចត្រូវយកទៅអនុវត្តបានជាសកល រួមទាំងការសិក្សាស្ថិតិក្នុងប្រទេសកម្ពុជាផងដែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

រូបមន្តប្រូបាប៊ីលីតេដែលបានកែសម្រួលនេះ មានសារៈប្រយោជន៍ខ្ពស់សម្រាប់ការងារវិភាគស្ថិតិ និងការគ្រប់គ្រងគុណភាពនៅប្រទេសកម្ពុជា។

National Institute of Statistics (NIS) / វិទ្យាស្ថានជាតិស្ថិតិ: មានប្រយោជន៍សម្រាប់ការរចនាការចុះស្ទង់មតិប្រជាជនកម្ពុជា ឬជំរឿនកសិកម្ម ដែលជារឿយៗត្រូវប្រើប្រាស់បច្ចេកទេសដកសំណាកដោយមិនដាក់ចូលវិញ (Simple random sampling without replacement)។
Garment & Manufacturing Quality Control / ការត្រួតពិនិត្យគុណភាពរោងចក្រ: មន្ត្រីត្រួតពិនិត្យគុណភាព (QA/QC) នៅតាមរោងចក្រកាត់ដេរក្នុងប្រទេសកម្ពុជា អាចប្រើប្រាស់វាដើម្បីគណនា និងបង្កើតផែនការដកសំណាកទទួលយក (Acceptance-sampling plans) ឱ្យបានកាន់តែច្បាស់លាស់។
Public Health Research (e.g., CDHS) / ស្ទង់មតិសុខភាពសាធារណៈ: ជួយដល់អ្នកស្រាវជ្រាវសុខភាពសាធារណៈក្នុងការប៉ាន់ស្មានទំហំនៃការឆ្លងជំងឺ ឬលក្ខណៈណាមួយក្នុងចំណោមប្រជាជនតាមតំបន់គោលដៅ ពេលប្រភាគគំរូធៀបនឹងប្រជាជនសរុបមានទំហំធំ។

ជារួម វិធីសាស្ត្រនេះផ្តល់នូវឧបករណ៍គណិតវិទ្យាដ៏រឹងមាំសម្រាប់អ្នកស្ថិតិ និងអ្នកស្រាវជ្រាវកម្ពុជា ក្នុងការបង្កើនភាពត្រឹមត្រូវនៃរបាយការណ៍របស់ពួកគេ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃរបាយប្រូបាប៊ីលីតេ: និស្សិតត្រូវស្វែងយល់ឱ្យបានច្បាស់ពីភាពខុសគ្នារវាង Hypergeometric Distribution និង Binomial Distribution ព្រមទាំងលក្ខខណ្ឌ Sampling with/without replacement។
ជំហានទី២៖ ស្វែងយល់ពីគណិតវិទ្យាពហុធា (Polynomial Mathematics): អនុវត្តការគណនារូបមន្ត Orthogonal Polynomials ជាពិសេសការយល់ដឹងពី Krawtchouk’s polynomials ដោយសាកល្បងគណនាតាមសមីការងាយៗ (k0 ដល់ k4) ដែលមានក្នុងឯកសារស្រាវជ្រាវនេះ។
ជំហានទី៣៖ សរសេរកូដសម្រាប់ធ្វើត្រាប់តាម (Programming Simulation): ប្រើប្រាស់កម្មវិធី R Programming ឬ Python (តាមរយៈ SciPy និង NumPy) ដើម្បីសរសេរកូដគណនា និងប្រៀបធៀប Total Variation Distance (TVD) រវាងការប៉ាន់ស្មានទាំងបី។
ជំហានទី៤៖ អនុវត្តការវិភាគលើទិន្នន័យជាក់ស្តែង (Real-world Application): ទាញយកសំណុំទិន្នន័យបើកចំហ (Open Data) ពី National Institute of Statistics របស់កម្ពុជា ដើម្បីធ្វើការសាកល្បងអនុវត្តន៍រូបមន្តប៉ាន់ស្មានថ្មីនេះ ទៅលើការគណនាប្រូបាប៊ីលីតេនៃលក្ខណៈប្រជាសាស្ត្រណាមួយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hypergeometric Distribution (របាយអ៉ីពែរធរណីមាត្រ)	ជារបាយប្រូបាប៊ីលីតេដែលត្រូវបានប្រើដើម្បីគណនាឱកាសនៃការទទួលបានលទ្ធផលជាក់លាក់មួយ នៅពេលដែលការដកសំណាកត្រូវបានធ្វើឡើងដោយមិនមានការដាក់វត្ថុនោះចូលទៅក្នុងបណ្តុំដើមវិញ (Without replacement) ដែលធ្វើឱ្យប្រូបាប៊ីលីតេនៃការទាញយកម្តងៗមានការប្រែប្រួល។	វាប្រៀបដូចជាការចាប់បៀចេញពីហ៊ូដោយមិនដាក់ចូលវិញ ដែលរាល់ពេលអ្នកចាប់បានសន្លឹកមួយ ឱកាសក្នុងការចាប់បានសន្លឹកបន្ទាប់នឹងផ្លាស់ប្តូរជានិច្ច។
Binomial Distribution (របាយទ្វេធា)	ជារបាយប្រូបាប៊ីលីតេដែលវាស់វែងចំនួនដងនៃភាពជោគជ័យក្នុងព្រឹត្តិការណ៍សាកល្បងដែលមានលទ្ធផលតែពីរ (ជោគជ័យ ឬបរាជ័យ) ដោយរាល់ការសាកល្បងនីមួយៗគឺឯករាជ្យពីគ្នា (With replacement)។	វាប្រៀបដូចជាការបោះកាក់រាល់ដង ដែលមិនថាអ្នកបោះប៉ុន្មានដងទេ ឱកាសចេញ 'ក្បាល' ឬ 'ប៉ោល' គឺនៅតែ ៥០/៥០ ដដែល។
Krawtchouk’s Polynomial (ពហុធា Krawtchouk)	គឺជាទម្រង់សមីការគណិតវិទ្យា (Orthogonal polynomials) ដែលមានទំនាក់ទំនងយ៉ាងជិតស្និទ្ធជាមួយរបាយទ្វេធា ហើយត្រូវបានប្រើប្រាស់ក្នុងការសិក្សានេះដើម្បីពង្រីក និងកែតម្រូវការប៉ាន់ស្មានឱ្យកាន់តែសុក្រឹត។	វាប្រៀបដូចជាប៊ូតុងកែតម្រូវរលកសញ្ញាវិទ្យុ (Fine-tuning) ដែលជួយចាប់យកសំឡេងដែលនៅមិនច្បាស់ ឱ្យមកជាច្បាស់ល្អត្រឹមត្រូវ។
Sampling Fraction (ប្រភាគនៃការដកសំណាក)	គឺជាផលធៀបរវាងទំហំនៃគំរូដែលត្រូវបានជ្រើសរើស (n) ធៀបនឹងទំហំនៃប្រជាជនសរុប (N)។ នៅពេលប្រភាគនេះមានទំហំធំ (>0.1) ការប្រើប្រាស់រូបមន្តធម្មតានឹងមានកំហុសច្រើន។	វាប្រៀបដូចជាការដួសទឹកស៊ុបមួយស្លាបព្រាពីឆ្នាំងធំ (ប្រភាគតូច) ធៀបនឹងការដួសស៊ុបពាក់កណ្តាលឆ្នាំង (ប្រភាគធំ) ដែលធ្វើឱ្យរសជាតិឬបរិមាណដែលនៅសល់ប្រែប្រួលខ្លាំង។
Total Variation Distance (ចម្ងាយបម្រែបម្រួលសរុប)	ជារង្វាស់ស្ថិតិដែលប្រាប់ពីកម្រិតនៃភាពខុសគ្នា (ឬកំហុស) រវាងរបាយប្រូបាប៊ីលីតេពីរផ្សេងគ្នា។ តម្លៃកាន់តែខិតជិតសូន្យ មានន័យថាការប៉ាន់ស្មានកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។	វាប្រៀបដូចជាការយកស្រមោលពីរមកត្រួតស៊ីគ្នា ហើយវាស់មើលថាមានគែមណាខ្លះដែលលៀនចេញមិនស៊ីគ្នា។ បើលៀនចេញតិច មានន័យថាវាដូចគ្នាខ្លាំង។
Simple Random Sampling without Replacement (ការជ្រើសរើសគំរូចៃដន្យសាមញ្ញដោយមិនដាក់ចូលវិញ)	ជាបច្ចេកទេសជ្រើសរើសគំរូដែលសមាជិកនីមួយៗមានឱកាសស្មើគ្នាក្នុងការត្រូវបានជ្រើសរើស ប៉ុន្តែនៅពេលដែលសមាជិកណាមួយត្រូវបានជ្រើសរើសហើយ វាមិនអាចត្រូវបានជ្រើសរើសជាលើកទីពីរនោះទេ។	ដូចជាការចាប់ឆ្នោតយករង្វាន់ ដែលអ្នកឈ្នះរួចហើយមិនអាចចូលរួមចាប់ឆ្នោតម្តងទៀតបានទេ។
Ord’s Probability / Approximation (ការប៉ាន់ស្មានរបស់ Ord)	ជារូបមន្តស្ថិតិជំនួសមួយបែបដែលត្រូវបានបង្កើតឡើងដើម្បីប៉ាន់ស្មានរបាយអ៉ីពែរធរណីមាត្រទៅជារបាយទ្វេធា ដែលជាទូទៅផ្តល់លទ្ធផលល្អប្រសើរជាងរូបមន្តធម្មតា ប៉ុន្តែនៅមានកម្រិតបើធៀបនឹងរូបមន្តថ្មី។	ដូចជាការប្រើរូបមន្តកាត់កេរ្តិ៍ចាស់មួយដើម្បីព្យាករណ៍អាកាសធាតុ ដែលមានភាពត្រឹមត្រូវល្មម ប៉ុន្តែមិនអាចប្រៀបនឹងប្រព័ន្ធផ្កាយរណបថ្មីបានទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖