Original Title: Benchmarking Machine Learning for Satellite Precipitation Downscaling: Insights into Superiority, Advantages, and Transferability
Source: doi.org/10.3390/rs15102640
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាស់វែងប្រៀបធៀបការរៀនរបស់ម៉ាស៊ីនសម្រាប់ការកាត់បន្ថយមាត្រដ្ឋានទឹកភ្លៀងពីផ្កាយរណប៖ ការយល់ដឹងអំពីឧត្តមភាព គុណសម្បត្តិ និងលទ្ធភាពផ្ទេរ

ចំណងជើងដើម៖ Benchmarking Machine Learning for Satellite Precipitation Downscaling: Insights into Superiority, Advantages, and Transferability

អ្នកនិពន្ធ៖ ZHU, Honglin (Hong Kong Baptist University), Prof. GAO Meng (Supervisor)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Remote Sensing and Hydrology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទិន្នន័យទឹកភ្លៀងពីផ្កាយរណបមានកម្រិតភាពច្បាស់ទាប (Coarse Resolution) ដែលធ្វើឱ្យពិបាកក្នុងការប្រើប្រាស់សម្រាប់ការសិក្សាកម្រិតតំបន់ និងការគ្រប់គ្រងគ្រោះមហន្តរាយ ជាពិសេសនៅតំបន់ដែលខ្វះខាតស្ថានីយវាស់វែង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការវាស់វែងប្រៀបធៀបប្រសិទ្ធភាពនៃក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ចំនួនបួន និងស្នើឡើងនូវក្របខ័ណ្ឌថ្មីសម្រាប់ការកាត់បន្ថយមាត្រដ្ឋាន និងការផ្ទេរចំណេះដឹងទៅកាន់តំបន់ខ្វះទិន្នន័យ។

ក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning Algorithms: XGBoost, RF, SVR, SRF)
ទិន្នន័យទឹកភ្លៀងពីផ្កាយរណប PERSIANN-CDR និងទិន្នន័យពីស្ថានីយវាស់វែង (Remote Sensing Data & Gauge Observations)
ការវិភាគភាពខុសគ្នាតាមភូមិសាស្ត្រ (Geographical Difference Analysis - GDA) សម្រាប់ការកែតម្រូវ
បច្ចេកទេសរៀនបន្ត (Transfer Learning) ដោយប្រើបណ្តាញសរសៃប្រសាទ CNN

លទ្ធផលសំខាន់ៗ (The Verdict)៖

XGBoost បានបង្ហាញលទ្ធផលល្អបំផុតក្នុងការកាត់បន្ថយមាត្រដ្ឋានទឹកភ្លៀង ដោយមានប្រសិទ្ធភាពខ្ពស់ជាង SVR, RF និង SRF ក្នុងការចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរដ៏ស្មុគស្មាញ។
វិធីសាស្ត្រ XGBoost_DC ដែលត្រូវបានអភិវឌ្ឍឡើង អាចបង្កើតទិន្នន័យទឹកភ្លៀងដែលមានគុណភាពបង្ហាញខ្ពស់ និងចាប់យកបម្រែបម្រួលក្នុងលំហ (Spatial Variability) បានយ៉ាងល្អ ជាពិសេសក្នុងអំឡុងពេលមានព្យុះទីហ្វុង។
ការប្រើប្រាស់បច្ចេកទេស Transfer Learning បានធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃការប៉ាន់ប្រមាណទឹកភ្លៀងនៅក្នុងតំបន់ដែលខ្វះខាតទិន្នន័យ ដោយម៉ូដែលដែលបានផ្ទេរចំណេះដឹងមានប្រសិទ្ធភាពជាងម៉ូដែលដែលបណ្តុះបណ្តាលដោយទិន្នន័យក្នុងស្រុកតែមួយមុខ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
XGBoost (eXtreme Gradient Boosting) ការជំរុញជម្រាលខ្លាំង (XGBoost)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ និងគ្រប់គ្រងទិន្នន័យដែលមានភាពស្មុគស្មាញបានល្អជាងម៉ូដែលផ្សេងទៀត។	ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) យ៉ាងប្រុងប្រយ័ត្នដើម្បីទទួលបានលទ្ធផលល្អបំផុត។	ទទួលបានពិន្ទុប្រសិទ្ធភាព KGE ខ្ពស់បំផុត (ចន្លោះពី ០.៤៦ ដល់ ០.៧៩) ក្នុងការពិសោធន៍កាត់បន្ថយមាត្រដ្ឋាន។
SRF (Spatial Random Forest) ព្រៃចៃដន្យតាមលំហ (Spatial Random Forest)	រួមបញ្ចូលព័ត៌មានលំហ (Spatial autocorrelation) ទៅក្នុងម៉ូដែល ដែលជួយកាត់បន្ថយការពឹងផ្អែកលើការសន្មតនៃឯករាជ្យភាពទិន្នន័យ។	នៅតែមានកម្រិតទាបជាង XGBoost បន្តិចក្នុងការចាប់យកភាពខុសគ្នានៃទឹកភ្លៀងក្នុងតំបន់ជាក់លាក់។	មានប្រសិទ្ធភាពល្អជាងវិធីសាស្ត្របុរាណ ប៉ុន្តែនៅតែទាបជាង XGBoost បន្តិចបន្តួច។
Spline Interpolation ការប៉ាន់ស្មាន Spline (វិធីសាស្ត្របុរាណ)	ងាយស្រួលអនុវត្ត និងមិនទាមទារធនធានកុំព្យូទ័រខ្ពស់។	បង្កើតលទ្ធផលដែលមានភាពរលូនពេក (Too smooth) និងបរាជ័យក្នុងការចាប់យកកម្រិតទឹកភ្លៀងខ្ពស់បំផុត (Extreme events)។	មានកម្រិតភាពត្រឹមត្រូវទាបបំផុតបើធៀបនឹងវិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីន (Machine Learning)។
Transfer Learning (CNN-based Fine-tuning) ការរៀនបន្តដោយប្រើបណ្តាញសរសៃប្រសាទ (CNN)	មានប្រសិទ្ធភាពខ្ពស់សម្រាប់តំបន់ដែលខ្វះខាតទិន្នន័យ (Data-scarce areas) ដោយប្រើប្រាស់ចំណេះដឹងពីតំបន់ដែលមានទិន្នន័យសម្បូរបែប។	ទាមទារចំណេះដឹងខ្ពស់ក្នុងការរចនាម៉ូដែល Deep Learning និងធនធានកុំព្យូទ័រ។	ម៉ូដែលដែលបានផ្ទេរចំណេះដឹង (Fine-tuned models) ផ្តល់លទ្ធផលល្អជាងការបណ្តុះបណ្តាលដោយទិន្នន័យក្នុងស្រុកតែមួយមុខ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រកម្រិតមធ្យមទៅខ្ពស់ និងជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យដើម្បីអនុវត្តក្បួនដោះស្រាយ។

Software: កម្មវិធី R (កញ្ចប់ xgboost, randomForest, spatialRF) ឬ Python សម្រាប់ការបង្កើតម៉ូដែល។
Dataset: ទិន្នន័យទឹកភ្លៀងផ្កាយរណប (PERSIANN-CDR), ទិន្នន័យវាស់វែងផ្ទាល់ (Rain gauges), និងទិន្នន័យបរិស្ថាន (DEM, NDVI, LST)។
Hardware: កុំព្យូទ័រដែលមាន CPU ខ្លាំងសម្រាប់ការបណ្តុះបណ្តាល XGBoost និង GPU សម្រាប់ការបណ្តុះបណ្តាល CNN (Transfer Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងខេត្តក្វាងទុង និងអាងទន្លេយ៉ង់សេ ប្រទេសចិន ដែលមានលក្ខណៈអាកាសធាតុ (Monsoon) និងភូមិសាស្ត្រស្រដៀងនឹងកម្ពុជា។ ទោះបីជាយ៉ាងណាក៏ដោយ ការប្រើប្រាស់បណ្តាញស្ថានីយវាស់វែងទឹកភ្លៀងដែលមានដង់ស៊ីតេខ្ពស់នៅក្នុងការសិក្សានេះ អាចជាចំណុចខុសគ្នាពីស្ថានភាពនៅកម្ពុជាដែលមានស្ថានីយតិចតួច។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលបានរកឃើញនៅក្នុងការស្រាវជ្រាវនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ជាពិសេសក្នុងការគ្រប់គ្រងធនធានទឹក និងព្យាករណ៍គ្រោះមហន្តរាយ។

ក្រសួងធនធានទឹក និងឧតុនិយម (MOWRAM): អាចប្រើប្រាស់វិធីសាស្ត្រ XGBoost និង Transfer Learning ដើម្បីបង្កើតផែនទីទឹកភ្លៀងដែលមានកម្រិតភាពច្បាស់ខ្ពស់នៅតំបន់ដាច់ស្រយាលដែលគ្មានស្ថានីយវាស់។
គណៈកម្មការទន្លេមេគង្គ (MRC): អាចអនុវត្តវិធីសាស្ត្រកាត់បន្ថយមាត្រដ្ឋាន (Downscaling) ដើម្បីតាមដានលំហូរទឹក និងព្យាករណ៍ទឹកជំនន់នៅក្នុងអាងទន្លេមេគង្គ។
វិស័យកសិកម្ម (ខេត្តបាត់ដំបង និងព្រៃវែង): ការទទួលបានទិន្នន័យទឹកភ្លៀងច្បាស់លាស់ជួយដល់ការគ្រប់គ្រងប្រព័ន្ធធារាសាស្ត្រ និងការដាំដុះស្រូវ។

ការអនុវត្តបច្ចេកទេស Transfer Learning គឺជាដំណោះស្រាយដ៏មានសក្តានុពលបំផុតសម្រាប់កម្ពុជា ដើម្បីជម្នះបញ្ហាខ្វះខាតទិន្នន័យពីស្ថានីយវាស់វែងផ្ទាល់ដី។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ និងការប្រមូលទិន្នន័យ: និស្សិតត្រូវសិក្សាពីរបៀបប្រើប្រាស់ភាសា R ឬ Python និងប្រមូលទិន្នន័យ PERSIANN-CDR ព្រមទាំងទិន្នន័យបរិស្ថាន (NDVI, DEM) សម្រាប់តំបន់សិក្សានៅកម្ពុជា។
ការអនុវត្តម៉ូដែល XGBoost: សាកល្បងបង្កើតម៉ូដែល Downscaling ដោយប្រើ XGBoost ដើម្បីភ្ជាប់ទំនាក់ទំនងរវាងទិន្នន័យផ្កាយរណប និងទិន្នន័យពីស្ថានីយដែលមានស្រាប់។
ការអនុវត្តបច្ចេកទេស Transfer Learning: ប្រើប្រាស់ម៉ូដែលដែលបានបណ្តុះបណ្តាលរួច (Pre-trained model) ពីតំបន់ដែលមានទិន្នន័យច្រើន (ដូចជាប្រទេសវៀតណាម ឬថៃ) ហើយធ្វើការ Fine-tuning សម្រាប់តំបន់នៅកម្ពុជា។
ការកែតម្រូវ និងការផ្ទៀងផ្ទាត់ (Calibration & Validation): ប្រើប្រាស់វិធីសាស្ត្រ GDA ដើម្បីកែតម្រូវលទ្ធផល និងធ្វើការផ្ទៀងផ្ទាត់ជាមួយទិន្នន័យជាក់ស្តែង ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Spatial Downscaling	ជាដំណើរការបច្ចេកទេសក្នុងការបំប្លែងទិន្នន័យដែលមានកម្រិតភាពច្បាស់ទាប (ដូចជាទិន្នន័យពីផ្កាយរណបដែលគ្របដណ្តប់ផ្ទៃដីធំៗ ១០០ គីឡូម៉ែត្រការ៉េ) ឱ្យទៅជាទិន្នន័យដែលមានកម្រិតភាពច្បាស់ខ្ពស់ (១ គីឡូម៉ែត្រការ៉េ) ដោយប្រើប្រាស់ទំនាក់ទំនងជាមួយកត្តាបរិស្ថានដូចជា កម្ពស់ដី និងរុក្ខជាតិ។	ដូចជាការយក្សរូបថតដែលស្រពិចស្រពិល (Blurry) មកកែឱ្យច្បាស់ (Sharp) ដើម្បីមើលឃើញព័ត៌មានលម្អិតដូចជា ដើមឈើ ឬផ្ទះជាដើម។
eXtreme Gradient Boosting (XGBoost)	ជាក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដ៏មានឥទ្ធិពលដែលបង្កើតគំរូព្យាករណ៍ជាច្រើនបន្តបន្ទាប់គ្នា ដោយគំរូថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលគំរូមុនបានបង្កើត ដើម្បីទទួលបានលទ្ធផលចុងក្រោយដែលត្រឹមត្រូវបំផុត។	ដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដោយសិស្សទីពីរជួយកែកំហុសសិស្សទីមួយ ហើយសិស្សទីបីកែកំហុសសិស្សទីពីរ បន្តរហូតដល់បានចម្លើយត្រឹមត្រូវបំផុត។
Transfer Learning	ជាបច្ចេកទេសក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រ ដែលអនុញ្ញាតឱ្យយកចំណេះដឹង ឬគំរូដែលកុំព្យូទ័របានរៀនពីតំបន់ដែលមានទិន្នន័យច្រើន (Source Domain) ទៅអនុវត្តលើតំបន់ថ្មីដែលខ្វះខាតទិន្នន័យ (Target Domain) ដោយមិនចាំបាច់បណ្តុះបណ្តាលពីចំណុចចាប់ផ្តើម។	ដូចជាអ្នកចេះជិះកង់រួចហើយ អាចរៀនជិះម៉ូតូបានលឿនជាងអ្នកមិនចេះសោះ ព្រោះពួកគេមានបំណិនតុល្យភាពស្រាប់ពីការជិះកង់។
Fine-tuning	ជាដំណាក់កាលមួយនៃ Transfer Learning ដែលអ្នកស្រាវជ្រាវធ្វើការកែតម្រូវប៉ារ៉ាម៉ែត្រមួយចំនួនតូចនៃគំរូដែលមានស្រាប់ ដើម្បីឱ្យវាដំណើរការល្អ និងស៊ីគ្នាជាមួយទិន្នន័យថ្មីនៅក្នុងតំបន់សិក្សាជាក់លាក់។	ដូចជាការរឹតខ្សែហ្គីតាដែលបានរឹតរួច ឱ្យត្រូវនឹងសំឡេងនៃបទចម្រៀងជាក់លាក់ណាមួយបន្ថែមទៀត។
Geographical Difference Analysis (GDA)	ជាវិធីសាស្ត្រកែតម្រូវទិន្នន័យដោយគណនាភាពខុសគ្នារវាងទិន្នន័យផ្កាយរណប និងទិន្នន័យវាស់វែងជាក់ស្តែងនៅស្ថានីយ រួចយកតម្លៃភាពខុសគ្នានោះទៅបូក ឬដកបន្ថែមលើផ្ទៃដីទាំងមូល ដើម្បីកាត់បន្ថយលំអៀង។	ដូចជាការដឹងថានាឡិការបស់អ្នកដើរយឺត ៥ នាទី ដូច្នេះរាល់ពេលមើលម៉ោង អ្នកត្រូវបូកបន្ថែម ៥ នាទីជានិច្ច ដើម្បីឱ្យត្រូវនឹងម៉ោងពិត។
Spatial Autocorrelation	ជាគោលគំនិតស្ថិតិដែលបញ្ជាក់ថា ទីតាំងដែលនៅជិតគ្នាទំនងជាមានលក្ខណៈ និងតម្លៃ (ដូចជាបរិមាណទឹកភ្លៀង) ស្រដៀងគ្នាខ្លាំងជាងទីតាំងដែលនៅឆ្ងាយពីគ្នា ដែលត្រូវបានប្រើដើម្បីកែលម្អការព្យាករណ៍នៅក្នុងម៉ូដែល SRF។	ដូចជាតម្លៃដីធ្លីដែរ ដីដែលនៅជាប់របងគ្នាជាធម្មតាមានតម្លៃប្រហាក់ប្រហែលគ្នាជាងដីដែលនៅឆ្ងាយពីគ្នា។
Convolutional Neural Network (CNN)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានជំនាញពិសេសក្នុងការវិភាគទិន្នន័យជារូបភាព ឬជាក្រឡា (Grid data) ដោយវាអាចចាប់យកលំនាំនៃទឹកភ្លៀងក្នុងលំហបានយ៉ាងល្អ។	ដូចជាភ្នែក និងខួរក្បាលរបស់មនុស្សដែលមើលរូបភាពមួយ ហើយអាចសម្គាល់ថាផ្នែកណាជាពពក និងផ្នែកណាជាភ្លៀង ដោយផ្អែកលើរូបរាង និងពណ៌។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖