Original Title: Application of imputation methods for missing values of PM10 and O3 data: Interpolation, moving average and K-nearest neighbor methods
Source: doi.org/10.34172/EHEM.2021.25
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តវិធីសាស្ត្រប៉ាន់ស្មានទិន្នន័យបាត់បង់សម្រាប់តម្លៃ PM10 និង O3៖ វិធីសាស្ត្រ Interpolation, Moving Average និង K-Nearest Neighbor

ចំណងជើងដើម៖ Application of imputation methods for missing values of PM10 and O3 data: Interpolation, moving average and K-nearest neighbor methods

អ្នកនិពន្ធ៖ Parisa Saeipourdizaj (Tabriz University of Medical Sciences, Iran), Parvin Sarbakhsh (Tabriz University of Medical Sciences, Iran), Akbar Gholampour (Tabriz University of Medical Sciences, Iran)

ឆ្នាំបោះពុម្ព៖ 2021 Environmental Health Engineering and Management Journal

វិស័យសិក្សា៖ Environmental Health / Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់នៅក្នុងការវាស់ស្ទង់គុណភាពខ្យល់ (កំហាប់ PM10 និង O3) ដែលតែងតែកើតមានដោយសារការខូចម៉ាស៊ីន ឬកំហុសបច្ចេកទេស ដែលអាចប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃការវិភាគទិន្នន័យបរិស្ថាន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការក្លែងបន្លំទិន្នន័យបាត់បង់ក្នុងអត្រា ១០%, ២០% និង ៣០% រួចសាកល្បងវិធីសាស្ត្រប៉ាន់ស្មាន (Imputation) ចំនួន ៨ ផ្សេងគ្នា ដើម្បីប្រៀបធៀបប្រសិទ្ធភាពរបស់វាដោយប្រើសូចនាករស្ដង់ដារ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Linear Interpolation (LINT)
វិធីសាស្ត្រ Linear Interpolation
មានភាពសាមញ្ញ និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យប្រភេទស៊េរីពេលវេលា (Time Series) ដែលការពឹងផ្អែកលើទិន្នន័យមុននិងក្រោយមានកម្រិតខ្ពស់។ អាចមានភាពលំអៀង ឬមិនសុក្រឹត ប្រសិនបើមានចន្លោះនៃការបាត់បង់ទិន្នន័យធំ ឬវែងពេកដោយគ្មានទិន្នន័យយោងនៅក្បែរនោះ។ ផ្តល់លទ្ធផលល្អដាច់គេបំផុត (ឧ. R2=0.822, RMSE=15.14, MAE=8.33 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។
Exponential Weighted Moving Average (EWMA)
វិធីសាស្ត្រមធ្យមភាគផ្លាស់ទីផ្តល់ទម្ងន់អិចស្ប៉ូណង់ស្យែល
ផ្តល់ទម្ងន់ទៅលើទិន្នន័យសង្កេតដែលនៅក្បែរចន្លោះបាត់បង់ច្រើនជាងទិន្នន័យនៅឆ្ងាយ ដែលធ្វើឱ្យការប៉ាន់ស្មានកាន់តែមានភាពប្រាកដនិយម។ ទាមទារការកំណត់ទំហំផ្ទាំងវីនដូ (Window Size) និងកត្តាផ្តល់ទម្ងន់ឱ្យបានត្រឹមត្រូវ ដើម្បីទទួលបានប្រសិទ្ធភាពខ្ពស់។ ជាប់ចំណាត់ថ្នាក់ទី២ ក្នុងការផ្តល់លទ្ធផលត្រឹមត្រូវ (ឧ. R2=0.808, RMSE=15.64 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។
K-Nearest Neighbor (KNN)
វិធីសាស្ត្រ K-Nearest Neighbor
ងាយស្រួលយល់ និងប្រើប្រាស់ចំណុចចុងសងខាងនៃចន្លោះទិន្នន័យដែលបាត់ ដើម្បីទាញយកតម្លៃប៉ាន់ស្មានបានយ៉ាងរហ័ស។ ប្រសិទ្ធភាពអាចធ្លាក់ចុះ ប្រសិនបើទិន្នន័យជិតខាងមានការប្រែប្រួលឡើងចុះខ្លាំងមិនប្រក្រតី។ មានដំណើរការល្អគួរជាទីគាប់ចិត្ត និងស្ថិតក្នុងលំដាប់ទី៣ (ឧ. R2=0.777, RMSE=16.85 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។
Predictive Mean Matching (PMM)
វិធីសាស្ត្រ Predictive Mean Matching
ធានាថាតម្លៃដែលប៉ាន់ស្មានបាននឹងស្ថិតក្នុងចន្លោះទិន្នន័យជាក់ស្តែងជានិច្ច ដោយមិនបង្កើតតម្លៃដែលមិនអាចកើតមានឡើយ។ មិនស័ក្តិសមសោះសម្រាប់ទិន្នន័យជាស៊េរីពេលវេលា (Time Series) ទោះបីជាមានការបន្ថែមអថេរពេលវេលា និងទីតាំងភូមិសាស្ត្រក៏ដោយ។ ផ្តល់លទ្ធផលខ្សោយបំផុតក្នុងការសាកល្បងទាំងអស់ (ឧ. R2=0.052, RMSE=37.71 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនទាមទារធនធានកុំព្យូទ័រ (Supercomputer) ធំដុំនោះទេ ប៉ុន្តែត្រូវការកម្មវិធីស្ថិតិ និងកញ្ចប់កូដជាក់លាក់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យកំហាប់ PM10 និង O3 ពីស្ថានីយត្រួតពិនិត្យនៅទីក្រុង Tabriz ប្រទេសអ៊ីរ៉ង់ ក្នុងឆ្នាំ២០១៧ ដោយមានការដកចេញនូវទិន្នន័យរដូវក្តៅ និងរដូវរងា។ ទោះបីជាអាកាសធាតុអ៊ីរ៉ង់ខុសពីកម្ពុជាក៏ដោយ ប៉ុន្តែលក្ខណៈគណិតវិទ្យានៃទិន្នន័យខ្យល់បំពុលជា 'ស៊េរីពេលវេលា (Time Series)' គឺដូចគ្នា ដែលធ្វើឱ្យស្ថាប័នកម្ពុជាអាចយកវិធីសាស្ត្រទាំងនេះមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពខ្ពស់ដោយមិនបារម្ភពីភាពលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រប៉ាន់ស្មានទិន្នន័យ (Imputation methods) ទាំងនេះពិតជាមានភាពចាំបាច់ និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ស្ថាប័នគ្រប់គ្រងបរិស្ថាននៅកម្ពុជា។

ជារួម សម្រាប់ទិន្នន័យបរិស្ថានកម្ពុជា ការជ្រើសរើសវិធីសាស្ត្រសាមញ្ញដែលពឹងផ្អែកលើព័ត៌មាន 'មុននិងក្រោយ' (ដូចជា Linear Interpolation និង Moving Average) គឺជាជម្រើសដ៏ល្អបំផុត និងចំណាយធនធានតិចជាងការប្រើក្បួន Machine Learning ស្មុគស្មាញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងសម្អាតទិន្នន័យបឋម (Data Collection & Pre-processing): ប្រមូលទិន្នន័យគុណភាពខ្យល់ (PM10, O3, ឬ PM2.5) ជាម៉ោងពីស្ថានីយវាស់វែង ហើយប្រើប្រាស់មុខងារ Z-score នៅក្នុងកម្មវិធី ExcelSPSS ដើម្បីកំណត់ និងលុបតម្លៃទិន្នន័យដែលខុសប្រក្រតីខ្លាំង (Outliers)។
  2. កំណត់អត្តសញ្ញាណយន្តការនៃការបាត់បង់ទិន្នន័យ (Identify Missing Mechanism): ត្រូវវិភាគថាតើទិន្នន័យដែលបាត់នោះស្ថិតក្នុងទម្រង់ MCAR, MAR, ឬ MNAR ដោយផ្អែកលើទ្រឹស្តី Rubin's Theory។ សម្រាប់ទិន្នន័យគុណភាពខ្យល់ ជាទូទៅវាស្ថិតក្នុងទម្រង់ MAR (Missing At Random) ដែលងាយស្រួលក្នុងការធ្វើ Imputation។
  3. អនុវត្តវិធីសាស្ត្រប៉ាន់ស្មាន (Implement Imputation Methods): ប្រើប្រាស់កម្មវិធី R រួមជាមួយកញ្ចប់កូដ imputeTS និង VIM ដើម្បីដំណើរការក្បួនដោះស្រាយ Linear Interpolation, KNN, និង EWMA ទៅលើចន្លោះទិន្នន័យដែលបានបាត់បង់។
  4. វាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាព (Evaluate and Validate Performance): ប្រើប្រាស់វិធីសាស្ត្រ Training-Testing លើទិន្នន័យពេញលេញ (ដោយសាកល្បងលុបទិន្នន័យ ១០%, ២០%, ៣០%) បន្ទាប់មកគណនាសូចនាករ R-squared (R2), RMSE, និង MAE ដើម្បីបញ្ជាក់ថាវិធីសាស្ត្រណាដែលផ្តល់កំហុសតិចបំផុតមុននឹងយកទៅប្រើជាផ្លូវការ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Imputation ការប៉ាន់ស្មាន ឬការបំពេញតម្លៃទិន្នន័យដែលបាត់បង់ដោយប្រើប្រាស់វិធីសាស្ត្រស្ថិតិ ឬក្បួនដោះស្រាយផ្សេងៗ ដោយផ្អែកលើទិន្នន័យដែលនៅសេសសល់ ដើម្បីកុំឱ្យខូចខាតដល់ការវិភាគទាំងមូល។ ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយដោយមើលអត្ថន័យនៃពាក្យនៅខាងមុខ និងខាងក្រោយវា។
Interpolation វិធីសាស្ត្រគណិតវិទ្យាក្នុងការបង្កើតចំណុចទិន្នន័យថ្មីនៅចន្លោះចំណុចទិន្នន័យដែលគេស្គាល់មុននិងក្រោយ ជាពិសេសមានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់សម្រាប់ទិន្នន័យស៊េរីពេលវេលា។ ដូចជាការគូសបន្ទាត់ត្រង់ភ្ជាប់ពីចុងម្ខាងនៃស្ពានដែលបាក់ទៅចុងម្ខាងទៀត ដើម្បីប៉ាន់ស្មានថាតើស្ពាននោះមានរាងយ៉ាងម៉េចនៅកន្លែងដែលបាក់។
Moving average ការគណនាមធ្យមភាគនៃសំណុំទិន្នន័យរងតាមលំដាប់លំដោយពេលវេលា ដើម្បីរំលេចនិន្នាការទិន្នន័យ និងបំពេញទិន្នន័យដែលបាត់ដោយផ្អែកលើតម្លៃដែលនៅក្បែរៗនោះបំផុត។ ដូចជាការសួរមិត្តភក្តិ ២ ឬ ៣ នាក់ដែលអង្គុយជិតអ្នកបំផុតពីពិន្ទុប្រឡងរបស់ពួកគេ ដើម្បីយកមកទាយពីពិន្ទុប្រឡងរបស់អ្នកដែលគ្រូមិនទាន់ប្រាប់។
K-Nearest Neighbor (KNN) ក្បួនដោះស្រាយទស្សន៍ទាយតម្លៃដោយផ្អែកលើចំណុចទិន្នន័យដែលនៅជិតវា ឬស្រដៀងវាបំផុតចំនួន K ដែលជាទូទៅវាប្រើចំណុចចុងសងខាងនៃចន្លោះទិន្នន័យដែលបាត់។ ដូចជាការទស្សន៍ទាយថាបុគ្គលម្នាក់ចូលចិត្តញ៉ាំអ្វី ដោយមើលទៅលើចំណូលចិត្តរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ចំនួន ៣ ទៅ ៥ នាក់។
Predictive mean matching (PMM) វិធីសាស្ត្របំពេញទិន្នន័យដែលដំណើរការដោយការស្វែងរកតម្លៃប៉ាន់ស្មានតាមរយៈម៉ូដែល តែកាលណាទាយបានហើយ វានឹងទៅចាប់យកតម្លៃពិតប្រាកដណាមួយពីទិន្នន័យសង្កេតដែលមានតម្លៃស្រដៀងគ្នាមកជំនួសវិញ។ ដូចជាការរកអ្នកជំនួសតួសម្តែងដែលឈឺ ដោយជ្រើសរើសយកតួផ្សេងទៀតក្នុងក្រុមដែលមានកម្ពស់និងមុខមាត់ស្រដៀងគាត់បំផុតមកលេងជំនួស។
Missing at random (MAR) យន្តការដែលប្រូបាប៊ីលីតេនៃការបាត់បង់ទិន្នន័យអាស្រ័យតែលើអថេរដែលបានសង្កេតឃើញរួចហើយ (ដូចជាពេលវេលា ឬទីតាំង) ប៉ុន្តែមិនអាស្រ័យលើតម្លៃនៃទិន្នន័យដែលបាត់នោះទេ។ ដូចជាសិស្សអវត្តមានប្រឡងដោយសារតែថ្ងៃនោះមានភ្លៀងធ្លាក់ខ្លាំង (ជាកត្តាខាងក្រៅដែលយើងដឹង) មិនមែនអវត្តមានដោយសារតែគាត់រៀនខ្សោយហើយខ្លាចធ្លាក់នោះទេ។
Root mean square error (RMSE) រង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃកម្រិតនៃកំហុសរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃជាក់ស្តែង ដោយតម្លៃកំហុសកាន់តែតូចបញ្ជាក់ថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។ ដូចជាការវាស់ចម្ងាយសរុបនៃព្រួញទាំងអស់ដែលអ្នកបាញ់ខុសពីចំណុចកណ្តាលនៃផ្ទាំងស៊ីប កាលណាចម្ងាយសរុបកាន់តែខ្លី មានន័យថាអ្នកបាញ់កាន់តែចំគោលដៅ។
EM algorithm ក្បួនដោះស្រាយ Expectation-Maximization គឺជាវិធីសាស្ត្រគណនាដែលធ្វើការប៉ាន់ស្មានតម្លៃប៉ារ៉ាម៉ែត្រម្តងហើយម្តងទៀតជាវដ្ត ដើម្បីរកតម្លៃអតិបរមានៃលទ្ធភាពទិន្នន័យដែលបាត់ ដោយពឹងផ្អែកលើការចែកចាយស្ថិតិ។ ដូចជាការលៃតម្រូវប៊ូតុងរលកវិទ្យុចុះឡើងៗបន្តិចម្តងៗ រហូតទាល់តែអ្នកស្តាប់លឺសំឡេងចម្រៀងបានច្បាស់បំផុតដោយគ្មានសម្លេងរំខាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖