Original Title: Application of imputation methods for missing values of PM10 and O3 data: Interpolation, moving average and K-nearest neighbor methods
Source: doi.org/10.34172/EHEM.2021.25
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តវិធីសាស្ត្រប៉ាន់ស្មានទិន្នន័យបាត់បង់សម្រាប់តម្លៃ PM10 និង O3៖ វិធីសាស្ត្រ Interpolation, Moving Average និង K-Nearest Neighbor

ចំណងជើងដើម៖ Application of imputation methods for missing values of PM10 and O3 data: Interpolation, moving average and K-nearest neighbor methods

អ្នកនិពន្ធ៖ Parisa Saeipourdizaj (Tabriz University of Medical Sciences, Iran), Parvin Sarbakhsh (Tabriz University of Medical Sciences, Iran), Akbar Gholampour (Tabriz University of Medical Sciences, Iran)

ឆ្នាំបោះពុម្ព៖ 2021 Environmental Health Engineering and Management Journal

វិស័យសិក្សា៖ Environmental Health / Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់នៅក្នុងការវាស់ស្ទង់គុណភាពខ្យល់ (កំហាប់ PM10 និង O3) ដែលតែងតែកើតមានដោយសារការខូចម៉ាស៊ីន ឬកំហុសបច្ចេកទេស ដែលអាចប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃការវិភាគទិន្នន័យបរិស្ថាន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការក្លែងបន្លំទិន្នន័យបាត់បង់ក្នុងអត្រា ១០%, ២០% និង ៣០% រួចសាកល្បងវិធីសាស្ត្រប៉ាន់ស្មាន (Imputation) ចំនួន ៨ ផ្សេងគ្នា ដើម្បីប្រៀបធៀបប្រសិទ្ធភាពរបស់វាដោយប្រើសូចនាករស្ដង់ដារ។

វិធីសាស្ត្រប៉ាន់ស្មានទិន្នន័យ (Imputation Methods) រួមមាន Mean, EM algorithm, Regression, CART, PMM, Interpolation, Moving Average, និង KNN
ការវាយតម្លៃប្រសិទ្ធភាពដោយប្រើប្រាស់សូចនាករ (Performance Indicators) ដូចជា R2, MAE, និង RMSE
ការធ្វើគំរូទិន្នន័យគុណភាពខ្យល់តាមពេលវេលា និងលំហ (Spatio-temporal analysis)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ Interpolation, Moving Average (ជាពិសេស EWMA), និង K-Nearest Neighbor (KNN) បង្ហាញលទ្ធផលល្អបំផុតក្នុងការប៉ាន់ស្មានទិន្នន័យបាត់បង់សម្រាប់សារធាតុបំពុលទាំងពីរប្រភេទ។
ក្បួនដោះស្រាយស្មុគស្មាញដូចជា Predictive Mean Matching (PMM) មិនមានប្រសិទ្ធភាពល្អនោះទេ ទោះបីជាបានបញ្ចូលព័ត៌មានអវកាស និងពេលវេលាក៏ដោយ។
វិធីសាស្ត្រដែលផ្អែកលើព័ត៌មានមុននិងក្រោយ (Before-and-after information) មានភាពស័ក្តិសមបំផុតសម្រាប់បំពេញទិន្នន័យកំហាប់ខ្យល់បំពុលដែលជាប្រភេទស៊េរីពេលវេលា (Time series)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Linear Interpolation (LINT) វិធីសាស្ត្រ Linear Interpolation	មានភាពសាមញ្ញ និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យប្រភេទស៊េរីពេលវេលា (Time Series) ដែលការពឹងផ្អែកលើទិន្នន័យមុននិងក្រោយមានកម្រិតខ្ពស់។	អាចមានភាពលំអៀង ឬមិនសុក្រឹត ប្រសិនបើមានចន្លោះនៃការបាត់បង់ទិន្នន័យធំ ឬវែងពេកដោយគ្មានទិន្នន័យយោងនៅក្បែរនោះ។	ផ្តល់លទ្ធផលល្អដាច់គេបំផុត (ឧ. R2=0.822, RMSE=15.14, MAE=8.33 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។
Exponential Weighted Moving Average (EWMA) វិធីសាស្ត្រមធ្យមភាគផ្លាស់ទីផ្តល់ទម្ងន់អិចស្ប៉ូណង់ស្យែល	ផ្តល់ទម្ងន់ទៅលើទិន្នន័យសង្កេតដែលនៅក្បែរចន្លោះបាត់បង់ច្រើនជាងទិន្នន័យនៅឆ្ងាយ ដែលធ្វើឱ្យការប៉ាន់ស្មានកាន់តែមានភាពប្រាកដនិយម។	ទាមទារការកំណត់ទំហំផ្ទាំងវីនដូ (Window Size) និងកត្តាផ្តល់ទម្ងន់ឱ្យបានត្រឹមត្រូវ ដើម្បីទទួលបានប្រសិទ្ធភាពខ្ពស់។	ជាប់ចំណាត់ថ្នាក់ទី២ ក្នុងការផ្តល់លទ្ធផលត្រឹមត្រូវ (ឧ. R2=0.808, RMSE=15.64 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។
K-Nearest Neighbor (KNN) វិធីសាស្ត្រ K-Nearest Neighbor	ងាយស្រួលយល់ និងប្រើប្រាស់ចំណុចចុងសងខាងនៃចន្លោះទិន្នន័យដែលបាត់ ដើម្បីទាញយកតម្លៃប៉ាន់ស្មានបានយ៉ាងរហ័ស។	ប្រសិទ្ធភាពអាចធ្លាក់ចុះ ប្រសិនបើទិន្នន័យជិតខាងមានការប្រែប្រួលឡើងចុះខ្លាំងមិនប្រក្រតី។	មានដំណើរការល្អគួរជាទីគាប់ចិត្ត និងស្ថិតក្នុងលំដាប់ទី៣ (ឧ. R2=0.777, RMSE=16.85 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។
Predictive Mean Matching (PMM) វិធីសាស្ត្រ Predictive Mean Matching	ធានាថាតម្លៃដែលប៉ាន់ស្មានបាននឹងស្ថិតក្នុងចន្លោះទិន្នន័យជាក់ស្តែងជានិច្ច ដោយមិនបង្កើតតម្លៃដែលមិនអាចកើតមានឡើយ។	មិនស័ក្តិសមសោះសម្រាប់ទិន្នន័យជាស៊េរីពេលវេលា (Time Series) ទោះបីជាមានការបន្ថែមអថេរពេលវេលា និងទីតាំងភូមិសាស្ត្រក៏ដោយ។	ផ្តល់លទ្ធផលខ្សោយបំផុតក្នុងការសាកល្បងទាំងអស់ (ឧ. R2=0.052, RMSE=37.71 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនទាមទារធនធានកុំព្យូទ័រ (Supercomputer) ធំដុំនោះទេ ប៉ុន្តែត្រូវការកម្មវិធីស្ថិតិ និងកញ្ចប់កូដជាក់លាក់។

Software: កម្មវិធី R (ជំនាន់ 4.0.2) ជាមួយកញ្ចប់ 'mice' (3.9.0), 'imputeTS' (3.1), 'VIM' (6.0.0), កម្មវិធី SPSS ជំនាន់ 25, និង Microsoft Excel។
Hardware: កុំព្យូទ័រផ្ទាល់ខ្លួនកម្រិតមធ្យម (Standard PC) គឺគ្រប់គ្រាន់សម្រាប់ការដំណើរការ និងគណនាទិន្នន័យប្រមាណ ២៤,០០០ ជួរ។
Dataset: ទិន្នន័យកំហាប់គុណភាពខ្យល់វាស់ម៉ោងនីមួយៗ (Hourly mean concentrations) រយៈពេលច្រើនខែ។
Expertise: ចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ និងស្ថិតិ (Time-series analysis និង Missing Data Mechanisms)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យកំហាប់ PM10 និង O3 ពីស្ថានីយត្រួតពិនិត្យនៅទីក្រុង Tabriz ប្រទេសអ៊ីរ៉ង់ ក្នុងឆ្នាំ២០១៧ ដោយមានការដកចេញនូវទិន្នន័យរដូវក្តៅ និងរដូវរងា។ ទោះបីជាអាកាសធាតុអ៊ីរ៉ង់ខុសពីកម្ពុជាក៏ដោយ ប៉ុន្តែលក្ខណៈគណិតវិទ្យានៃទិន្នន័យខ្យល់បំពុលជា 'ស៊េរីពេលវេលា (Time Series)' គឺដូចគ្នា ដែលធ្វើឱ្យស្ថាប័នកម្ពុជាអាចយកវិធីសាស្ត្រទាំងនេះមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពខ្ពស់ដោយមិនបារម្ភពីភាពលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រប៉ាន់ស្មានទិន្នន័យ (Imputation methods) ទាំងនេះពិតជាមានភាពចាំបាច់ និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ស្ថាប័នគ្រប់គ្រងបរិស្ថាននៅកម្ពុជា។

ស្ថានីយត្រួតពិនិត្យគុណភាពខ្យល់របស់ក្រសួងបរិស្ថាន (MoE): អាចប្រើប្រាស់វិធីសាស្ត្រ Interpolation ឬ EWMA ដើម្បីបំពេញចន្លោះទិន្នន័យដោយស្វ័យប្រវត្តិ នៅពេលម៉ាស៊ីនវាស់គុណភាពខ្យល់នៅរាជធានីភ្នំពេញ ឬខេត្តព្រះសីហនុជួបបញ្ហាបច្ចេកទេស ឬដាច់ភ្លើង។
ការស្រាវជ្រាវសុខភាពសាធារណៈ (Public Health Research): ជួយឱ្យសាកលវិទ្យាល័យ ឬវិទ្យាស្ថានស្រាវជ្រាវ (ដូចជា NIPH) មានទិន្នន័យ PM10 ពេញលេញសម្រាប់យកទៅវិភាគស្វែងរកទំនាក់ទំនងរវាងការបំពុលខ្យល់ និងជំងឺផ្លូវដង្ហើមនៅកម្ពុជាបានត្រឹមត្រូវ។
ប្រព័ន្ធប្រកាសអាសន្នគុណភាពខ្យល់ (Air Quality Early Warning Systems): ធ្វើឱ្យប្រព័ន្ធព្យាករណ៍សន្ទស្សន៍គុណភាពខ្យល់ (AQI) ដំណើរការបានរលូនជាប្រចាំ ទោះបីជាមានការបាត់បង់ទិន្នន័យពីសេនស័រ (Sensors) មួយចំនួនក្នុងកម្រិតពី ១០% ទៅ ៣០% ក៏ដោយ។

ជារួម សម្រាប់ទិន្នន័យបរិស្ថានកម្ពុជា ការជ្រើសរើសវិធីសាស្ត្រសាមញ្ញដែលពឹងផ្អែកលើព័ត៌មាន 'មុននិងក្រោយ' (ដូចជា Linear Interpolation និង Moving Average) គឺជាជម្រើសដ៏ល្អបំផុត និងចំណាយធនធានតិចជាងការប្រើក្បួន Machine Learning ស្មុគស្មាញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងសម្អាតទិន្នន័យបឋម (Data Collection & Pre-processing): ប្រមូលទិន្នន័យគុណភាពខ្យល់ (PM10, O3, ឬ PM2.5) ជាម៉ោងពីស្ថានីយវាស់វែង ហើយប្រើប្រាស់មុខងារ Z-score នៅក្នុងកម្មវិធី Excel ឬ SPSS ដើម្បីកំណត់ និងលុបតម្លៃទិន្នន័យដែលខុសប្រក្រតីខ្លាំង (Outliers)។
កំណត់អត្តសញ្ញាណយន្តការនៃការបាត់បង់ទិន្នន័យ (Identify Missing Mechanism): ត្រូវវិភាគថាតើទិន្នន័យដែលបាត់នោះស្ថិតក្នុងទម្រង់ MCAR, MAR, ឬ MNAR ដោយផ្អែកលើទ្រឹស្តី Rubin's Theory។ សម្រាប់ទិន្នន័យគុណភាពខ្យល់ ជាទូទៅវាស្ថិតក្នុងទម្រង់ MAR (Missing At Random) ដែលងាយស្រួលក្នុងការធ្វើ Imputation។
អនុវត្តវិធីសាស្ត្រប៉ាន់ស្មាន (Implement Imputation Methods): ប្រើប្រាស់កម្មវិធី R រួមជាមួយកញ្ចប់កូដ imputeTS និង VIM ដើម្បីដំណើរការក្បួនដោះស្រាយ Linear Interpolation, KNN, និង EWMA ទៅលើចន្លោះទិន្នន័យដែលបានបាត់បង់។
វាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាព (Evaluate and Validate Performance): ប្រើប្រាស់វិធីសាស្ត្រ Training-Testing លើទិន្នន័យពេញលេញ (ដោយសាកល្បងលុបទិន្នន័យ ១០%, ២០%, ៣០%) បន្ទាប់មកគណនាសូចនាករ R-squared (R2), RMSE, និង MAE ដើម្បីបញ្ជាក់ថាវិធីសាស្ត្រណាដែលផ្តល់កំហុសតិចបំផុតមុននឹងយកទៅប្រើជាផ្លូវការ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Imputation	ការប៉ាន់ស្មាន ឬការបំពេញតម្លៃទិន្នន័យដែលបាត់បង់ដោយប្រើប្រាស់វិធីសាស្ត្រស្ថិតិ ឬក្បួនដោះស្រាយផ្សេងៗ ដោយផ្អែកលើទិន្នន័យដែលនៅសេសសល់ ដើម្បីកុំឱ្យខូចខាតដល់ការវិភាគទាំងមូល។	ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយដោយមើលអត្ថន័យនៃពាក្យនៅខាងមុខ និងខាងក្រោយវា។
Interpolation	វិធីសាស្ត្រគណិតវិទ្យាក្នុងការបង្កើតចំណុចទិន្នន័យថ្មីនៅចន្លោះចំណុចទិន្នន័យដែលគេស្គាល់មុននិងក្រោយ ជាពិសេសមានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់សម្រាប់ទិន្នន័យស៊េរីពេលវេលា។	ដូចជាការគូសបន្ទាត់ត្រង់ភ្ជាប់ពីចុងម្ខាងនៃស្ពានដែលបាក់ទៅចុងម្ខាងទៀត ដើម្បីប៉ាន់ស្មានថាតើស្ពាននោះមានរាងយ៉ាងម៉េចនៅកន្លែងដែលបាក់។
Moving average	ការគណនាមធ្យមភាគនៃសំណុំទិន្នន័យរងតាមលំដាប់លំដោយពេលវេលា ដើម្បីរំលេចនិន្នាការទិន្នន័យ និងបំពេញទិន្នន័យដែលបាត់ដោយផ្អែកលើតម្លៃដែលនៅក្បែរៗនោះបំផុត។	ដូចជាការសួរមិត្តភក្តិ ២ ឬ ៣ នាក់ដែលអង្គុយជិតអ្នកបំផុតពីពិន្ទុប្រឡងរបស់ពួកគេ ដើម្បីយកមកទាយពីពិន្ទុប្រឡងរបស់អ្នកដែលគ្រូមិនទាន់ប្រាប់។
K-Nearest Neighbor (KNN)	ក្បួនដោះស្រាយទស្សន៍ទាយតម្លៃដោយផ្អែកលើចំណុចទិន្នន័យដែលនៅជិតវា ឬស្រដៀងវាបំផុតចំនួន K ដែលជាទូទៅវាប្រើចំណុចចុងសងខាងនៃចន្លោះទិន្នន័យដែលបាត់។	ដូចជាការទស្សន៍ទាយថាបុគ្គលម្នាក់ចូលចិត្តញ៉ាំអ្វី ដោយមើលទៅលើចំណូលចិត្តរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ចំនួន ៣ ទៅ ៥ នាក់។
Predictive mean matching (PMM)	វិធីសាស្ត្របំពេញទិន្នន័យដែលដំណើរការដោយការស្វែងរកតម្លៃប៉ាន់ស្មានតាមរយៈម៉ូដែល តែកាលណាទាយបានហើយ វានឹងទៅចាប់យកតម្លៃពិតប្រាកដណាមួយពីទិន្នន័យសង្កេតដែលមានតម្លៃស្រដៀងគ្នាមកជំនួសវិញ។	ដូចជាការរកអ្នកជំនួសតួសម្តែងដែលឈឺ ដោយជ្រើសរើសយកតួផ្សេងទៀតក្នុងក្រុមដែលមានកម្ពស់និងមុខមាត់ស្រដៀងគាត់បំផុតមកលេងជំនួស។
Missing at random (MAR)	យន្តការដែលប្រូបាប៊ីលីតេនៃការបាត់បង់ទិន្នន័យអាស្រ័យតែលើអថេរដែលបានសង្កេតឃើញរួចហើយ (ដូចជាពេលវេលា ឬទីតាំង) ប៉ុន្តែមិនអាស្រ័យលើតម្លៃនៃទិន្នន័យដែលបាត់នោះទេ។	ដូចជាសិស្សអវត្តមានប្រឡងដោយសារតែថ្ងៃនោះមានភ្លៀងធ្លាក់ខ្លាំង (ជាកត្តាខាងក្រៅដែលយើងដឹង) មិនមែនអវត្តមានដោយសារតែគាត់រៀនខ្សោយហើយខ្លាចធ្លាក់នោះទេ។
Root mean square error (RMSE)	រង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃកម្រិតនៃកំហុសរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃជាក់ស្តែង ដោយតម្លៃកំហុសកាន់តែតូចបញ្ជាក់ថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។	ដូចជាការវាស់ចម្ងាយសរុបនៃព្រួញទាំងអស់ដែលអ្នកបាញ់ខុសពីចំណុចកណ្តាលនៃផ្ទាំងស៊ីប កាលណាចម្ងាយសរុបកាន់តែខ្លី មានន័យថាអ្នកបាញ់កាន់តែចំគោលដៅ។
EM algorithm	ក្បួនដោះស្រាយ Expectation-Maximization គឺជាវិធីសាស្ត្រគណនាដែលធ្វើការប៉ាន់ស្មានតម្លៃប៉ារ៉ាម៉ែត្រម្តងហើយម្តងទៀតជាវដ្ត ដើម្បីរកតម្លៃអតិបរមានៃលទ្ធភាពទិន្នន័យដែលបាត់ ដោយពឹងផ្អែកលើការចែកចាយស្ថិតិ។	ដូចជាការលៃតម្រូវប៊ូតុងរលកវិទ្យុចុះឡើងៗបន្តិចម្តងៗ រហូតទាល់តែអ្នកស្តាប់លឺសំឡេងចម្រៀងបានច្បាស់បំផុតដោយគ្មានសម្លេងរំខាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖