Original Title: A Machine Learning Approach for Improving the Accuracy of Gridded Precipitation With Uncertainty Quantification
Source: doi.org/10.1002/joc.70161
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្ររៀនម៉ាស៊ីនសម្រាប់ការកែលម្អភាពត្រឹមត្រូវនៃទឹកភ្លៀងតាមក្រឡាជាមួយនឹងការកំណត់បរិមាណនៃភាពមិនច្បាស់លាស់

ចំណងជើងដើម៖ A Machine Learning Approach for Improving the Accuracy of Gridded Precipitation With Uncertainty Quantification

អ្នកនិពន្ធ៖ Vinh Ngoc Tran (University of Michigan), Manh-Hung Le (NASA Goddard Space Flight Center), Tam V. Nguyen (Helmholtz Centre for Environmental Research—UFZ)

ឆ្នាំបោះពុម្ព៖ 2025 (International Journal of Climatology)

វិស័យសិក្សា៖ Climatology and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំណើននៃសំណុំទិន្នន័យទឹកភ្លៀងតាមក្រឡា (Gridded precipitation datasets) ដែលផលិតឡើងតាមវិធីសាស្រ្តផ្សេងៗគ្នា បង្កឱ្យមានការភាន់ច្រឡំដល់អ្នកប្រើប្រាស់ដោយសារតែភាពមិនស៊ីគ្នានៃតម្លៃ និងកង្វះយន្តការក្នុងការកំណត់បរិមាណនៃភាពមិនច្បាស់លាស់ (Uncertainty) នៃទិន្នន័យទាំងនោះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររៀនម៉ាស៊ីន (Machine Learning) ថ្មីមួយ ដែលច្របាច់បញ្ចូលទិន្នន័យពីផ្កាយរណប និងទិន្នន័យពីស្ថានីយវាស់វែង ដើម្បីបង្កើតទិន្នន័យទឹកភ្លៀងដែលមានគុណភាពបង្ហាញខ្ពស់។

ការប្រើប្រាស់ក្បួន eXtreme Gradient Boosting (XGB) ជាមួយនឹង Quantile Regression ដើម្បីបង្កើតការប៉ាន់ប្រមាណតាមបែបដេអទែមិនីស (Deterministic estimates) និងចន្លោះនៃភាពមិនច្បាស់លាស់។
ការច្របាច់បញ្ចូលទិន្នន័យទឹកភ្លៀងពីផ្កាយរណប (IMERG និង MERRA2) ជាមួយនឹងទិន្នន័យពីស្ថានីយវាស់ទឹកភ្លៀង (Rain gauges) និងព័ត៌មានភូមិសាស្ត្រ (Topographic info)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សំណុំទិន្នន័យថ្មីឈ្មោះ VNpu (Vietnam Precipitation with Uncertainty) មានភាពត្រឹមត្រូវខ្ពស់ជាងផលិតផលទិន្នន័យទោល និងល្អជាងវិធីសាស្ត្រអន្តរបសាយស្តង់ដារ (Benchmark interpolation methods) ដូចជា Kriging និង IDW ជាពិសេសសម្រាប់ព្រឹត្តិការណ៍ភ្លៀងធ្លាក់ខ្លាំង។
VNpu ផ្តល់នូវការប៉ាន់ប្រមាណកម្រិតនៃភាពមិនច្បាស់លាស់តាមលំហ និងពេលវេលា ដោយបង្ហាញថាតំបន់ដែលមានស្ថានីយវាស់វែងតិច មានកម្រិតភាពមិនច្បាស់លាស់ខ្ពស់ជាង។
ការវិភាគទៅលើគំរូរៀនម៉ាស៊ីនបង្ហាញថា ការប្រើប្រាស់ធាតុចូលជាច្រើន (ដូចជា IMERG, MERRA2 និងទិន្នន័យភូមិសាស្ត្រ) មានលក្ខណៈបំពេញឱ្យគ្នាទៅវិញទៅមក ដែលជួយបង្កើនគុណភាពទិន្នន័យសម្រាប់តំបន់ខ្វះខាតទិន្នន័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
VNpu (Proposed Method - XGB with Quantile Regression) វិធីសាស្ត្រស្នើឡើងដោយប្រើ XGB និង Quantile Regression ដើម្បីបញ្ចូលទិន្នន័យ	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចផ្តល់នូវចន្លោះនៃភាពមិនច្បាស់លាស់ (Uncertainty intervals) ដែលជួយឱ្យដឹងពីកម្រិតជឿជាក់នៃទិន្នន័យ។	ទាមទារសមត្ថភាពគណនារបស់កុំព្យូទ័រខ្ពស់ និងត្រូវការទិន្នន័យបណ្តុះបណ្តាល (Training data) ច្រើន។	មានប្រសិទ្ធភាពជាងគេក្នុងការចាប់យកព្រឹត្តិការណ៍ភ្លៀងធ្លាក់ខ្លាំង និងផ្តល់តម្លៃកំហុស (RMSE) ទាបបំផុត។
IMERG & MERRA2 (Satellite & Reanalysis Products) ផលិតផលទិន្នន័យទឹកភ្លៀងពីផ្កាយរណប និងការវិភាគឡើងវិញ	មានទិន្នន័យគ្របដណ្តប់ពេញលេញលើផ្ទៃប្រទេស និងមានភាពជាប់លាប់តាមពេលវេលា។	មានភាពលំអៀង (Bias) ខ្ពស់នៅតំបន់ភ្នំ និងមិនអាចផ្តល់ព័ត៌មានអំពីកម្រិតភាពមិនច្បាស់លាស់។	IMERG មានភាពត្រឹមត្រូវជាង MERRA2 ប៉ុន្តែនៅតែមានកម្រិតទាបជាង VNpu ដែលបានកែតម្រូវ។
Ordinary Kriging (OK) & IDW វិធីសាស្ត្រអន្តរបសាយតាមលំហបែបប្រពៃណី (Interpolation)	ងាយស្រួលអនុវត្ត និងមិនត្រូវការទិន្នន័យបន្ថែមពីផ្កាយរណប។	ផ្តល់លទ្ធផលមិនល្អនៅតំបន់ដែលមានស្ថានីយវាស់វែងតិច (Data-scarce regions) និងមានកម្រិតភាពមិនច្បាស់លាស់ធំ។	មានប្រសិទ្ធភាពទាបជាងវិធីសាស្ត្ររៀនម៉ាស៊ីនយ៉ាងខ្លាំង ជាពិសេសនៅតំបន់ដាច់ស្រយាល។
VnGP (Vietnam Gridded Precipitation) ផលិតផលទិន្នន័យទឹកភ្លៀងដែលមានស្រាប់ (ប្រើវិធីសាស្ត្រ Spheremap)	ត្រូវបានបង្កើតឡើងដោយផ្អែកលើទិន្នន័យស្ថានីយក្នុងស្រុកជាច្រើន។	មានទំនោរវាយតម្លៃខ្ពស់ពេក (Overestimate) ចំពោះបរិមាណទឹកភ្លៀងក្នុងព្រឹត្តិការណ៍ធ្ងន់ធ្ងរ។	VNpu ផ្តល់លទ្ធផលត្រឹមត្រូវជាង VnGP នៅពេលផ្ទៀងផ្ទាត់ជាមួយស្ថានីយឯករាជ្យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ និងជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ ប៉ុន្តែមិនត្រូវការឧបករណ៍វាស់វែងថ្លៃៗបន្ថែមទេ។

Software (កម្មវិធី): ត្រូវការភាសា Python (ជាមួយនឹងបណ្ណាល័យដូចជា XGBoost, Pandas, Scikit-learn) និងកម្មវិធី GIS សម្រាប់ដំណើរការទិន្នន័យផែនទី។
Hardware (ផ្នែករឹង): កុំព្យូទ័រដែលមានល្បឿនលឿន (Multi-core CPU ឬ GPU) ដើម្បីបណ្តុះបណ្តាលគំរូលើទិន្នន័យរយៈពេល ១០ ឆ្នាំ។
Data (ទិន្នន័យ): ទិន្នន័យទឹកភ្លៀងពីស្ថានីយ (Rain gauge records), ទិន្នន័យផ្កាយរណប (GPM IMERG, MERRA2), និងទិន្នន័យ DEM (SRTM)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យនៅប្រទេសវៀតណាម (២០០១-២០១០) ដែលមានលក្ខណៈអាកាសធាតុ (មូសុង) និងភូមិសាស្ត្រស្រដៀងនឹងកម្ពុជាខ្លាំង ធ្វើឱ្យលទ្ធផលនេះមានតម្លៃខ្ពស់សម្រាប់តំបន់យើង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដោយសារយើងមានបញ្ហាស្រដៀងគ្នានៃការខ្វះខាតស្ថានីយវាស់ទឹកភ្លៀងនៅតំបន់ដាច់ស្រយាល។

ការព្យាករណ៍ទឹកជំនន់នៅអាងទន្លេមេគង្គ: ការមានទិន្នន័យទឹកភ្លៀងត្រឹមត្រូវ និងដឹងពីកម្រិតភាពមិនច្បាស់លាស់ ជួយដល់ការព្យាករណ៍ទឹកជំនន់ក្នុងបឹងទន្លេសាប និងតំបន់ទំនាបកណ្តាល។
វិស័យកសិកម្ម (ខេត្តបាត់ដំបង និងព្រៃវែង): កសិករអាចទទួលបានទិន្នន័យទឹកភ្លៀងដែលមានគុណភាពខ្ពស់សម្រាប់រៀបចំផែនការដាំដុះ ជំនួសឱ្យការប្រើទិន្នន័យពីស្ថានីយដែលនៅឆ្ងាយ។
ការសិក្សាធនធានទឹក (Water Resource Study): អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យកម្ពុជាអាចប្រើវិធីនេះដើម្បីបង្កើត 'Dataset' ជាតិ ដោយច្របាច់បញ្ចូលទិន្នន័យពីផ្កាយរណប និងទិន្នន័យស្ថានីយរបស់ MOWRAM។

ការប្រើប្រាស់វិធីសាស្ត្រនេះអាចជួយកម្ពុជាបង្កើតផែនទីទឹកភ្លៀងជាតិដែលមានគុណភាពខ្ពស់ និងចំណាយតិចជាងការដំឡើងស្ថានីយថ្មីៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. ការប្រមូលទិន្នន័យ (Data Acquisition): ស្នើសុំទិន្នន័យទឹកភ្លៀងប្រវត្តិសាស្ត្រពីក្រសួងធនធានទឹក (MOWRAM) និងទាញយកទិន្នន័យផ្កាយរណប (IMERG, MERRA2) ពីគេហទំព័រ NASA Earth Data ។
២. ការរៀបចំទិន្នន័យ (Preprocessing): ប្រើប្រាស់ Python (Pandas/Geopandas) ដើម្បីតម្រឹមទិន្នន័យទាំងអស់ឱ្យចូលក្នុងក្រឡា (Grid) ទំហំ ០.១° x ០.១° ដូចគ្នា និងសម្អាតទិន្នន័យមិនប្រក្រតី។
៣. ការកសាងគំរូ (Model Building): សរសេរកូដបង្កើតគំរូ XGBoost ដោយប្រើ Quantile Loss Function ដើម្បីអាចព្យាករណ៍ទាំងបរិមាណទឹកភ្លៀង និងកម្រិតភាពមិនច្បាស់លាស់ (Uncertainty)។
៤. ការវាយតម្លៃប្រសិទ្ធភាព (Validation): ប្រើប្រាស់បច្ចេកទេស Cross-validation ដើម្បីផ្ទៀងផ្ទាត់លទ្ធផលជាមួយទិន្នន័យស្ថានីយជាក់ស្តែង ដោយប្រើរង្វាស់ KGE និង RMSE ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Gridded Precipitation	ជាទិន្នន័យទឹកភ្លៀងដែលមិនមែនវាស់តែនៅមួយចំណុច (ដូចស្ថានីយវាស់ទឹកភ្លៀង) ប៉ុន្តែត្រូវបានគណនាជាផ្ទៃក្រឡាតូចៗ (Grids) គ្របដណ្តប់លើផែនទីទាំងមូល ដើម្បីឱ្យដឹងពីបរិមាណទឹកភ្លៀងនៅគ្រប់ទីកន្លែង រាប់ទាំងកន្លែងដែលគ្មានស្ថានីយវាស់វែង។	ដូចជាការបែងចែកផ្ទៃដីជាក្បឿងការ៉ូ ហើយកំណត់បរិមាណទឹកភ្លៀងសម្រាប់ក្បឿងនីមួយៗ ទោះបីជាគ្មានឧបករណ៍វាស់នៅទីនោះក៏ដោយ។
Uncertainty Quantification	គឺជាដំណើរការនៃការគណនា និងបង្ហាញអំពីកម្រិតនៃភាពមិនច្បាស់លាស់នៅក្នុងលទ្ធផលព្យាករណ៍។ ជំនួសឱ្យការផ្តល់តែលេខមួយ (ឧ. ១០មម) វាផ្តល់ជាចន្លោះ (ឧ. ៨មម ទៅ ១២មម) ដើម្បីប្រាប់ថាតើការព្យាករណ៍នោះអាចជឿជាក់បានកម្រិតណា។	ដូចជាការទាយចំនួនគ្រាប់ស្ករក្នុងកែវ ដោយនិយាយថា "មានចន្លោះពី ៤០ ទៅ ៦០ គ្រាប់" ជំនួសឱ្យការនិយាយថា "មាន ៥០ គ្រាប់គត់" ដើម្បីកាត់បន្ថយហានិភ័យនៃការទាយខុស។
Quantile Regression	ជាបច្ចេកទេសស្ថិតិដែលប្រើសម្រាប់ព្យាករណ៍មិនមែនត្រឹមតែតម្លៃមធ្យមនោះទេ ប៉ុន្តែអាចព្យាករណ៍តម្លៃនៅកម្រិតផ្សេងៗគ្នា (Percentiles) នៃទិន្នន័យ។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីកំណត់ព្រំដែនខាងលើ និងខាងក្រោមនៃភាពមិនច្បាស់លាស់។	ដូចជាការចង់ដឹងពីកម្ពស់សិស្សក្នុងថ្នាក់ ដោយមិនសួររកមធ្យមភាគ ប៉ុន្តែសួរថា "តើសិស្សដែលទាបបំផុត និងខ្ពស់បំផុតមានកម្ពស់ប៉ុន្មាន?" ដើម្បីដឹងពីគម្លាត។
eXtreme Gradient Boosting (XGB)	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើតគំរូព្យាករណ៍ជាច្រើនបន្តបន្ទាប់គ្នា ដោយគំរូថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសរបស់គំរូមុនៗ ដើម្បីទទួលបានលទ្ធផលដែលមានភាពត្រឹមត្រូវខ្ពស់បំផុត។	ប្រៀបដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដោយសិស្សម្នាក់ៗចូលមកជួយកែចំណុចខុសរបស់សិស្សមុន ដើម្បីឱ្យចម្លើយចុងក្រោយត្រឹមត្រូវបំផុត។
Reanalysis Data	ជាសំណុំទិន្នន័យដែលបង្កើតឡើងដោយការច្របាច់បញ្ចូលគ្នារវាងទិន្នន័យវាស់វែងជាក់ស្តែងពីអតីតកាល និងគំរូកុំព្យូទ័រទំនើប ដើម្បីបំពេញចន្លោះខ្វះខាត និងបង្កើតជាប្រវត្តិអាកាសធាតុដ៏ពេញលេញមួយ។	ដូចជាការសរសេរប្រវត្តិសាស្ត្រឡើងវិញ ដោយប្រើទាំងកំណត់ហេតុចាស់ៗ និងចំណេះដឹងថ្មីៗ ដើម្បីបំពេញរឿងរ៉ាវដែលបាត់បង់ឱ្យបានពេញលេញ។
SHapley Additive exPlanations (SHAP)	ជាវិធីសាស្ត្រសម្រាប់បកស្រាយលទ្ធផលរបស់ AI ដោយវាប្រាប់យើងថា តើកត្តាធាតុចូលនីមួយៗ (ដូចជា ទីតាំង ឬទិន្នន័យផ្កាយរណប) បានចូលរួមចំណែកប៉ុន្មានភាគរយក្នុងការធ្វើឱ្យម៉ាស៊ីនសម្រេចចិត្តចេញលទ្ធផលបែបនេះ។	ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករបាល់ទាត់ម្នាក់ៗ ដោយផ្អែកលើថាអ្នកណាជាអ្នកស៊ុតបញ្ចូលទី និងអ្នកណាជាអ្នកបញ្ជូនបាល់ឱ្យ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖