បញ្ហា (The Problem)៖ កំណើននៃសំណុំទិន្នន័យទឹកភ្លៀងតាមក្រឡា (Gridded precipitation datasets) ដែលផលិតឡើងតាមវិធីសាស្រ្តផ្សេងៗគ្នា បង្កឱ្យមានការភាន់ច្រឡំដល់អ្នកប្រើប្រាស់ដោយសារតែភាពមិនស៊ីគ្នានៃតម្លៃ និងកង្វះយន្តការក្នុងការកំណត់បរិមាណនៃភាពមិនច្បាស់លាស់ (Uncertainty) នៃទិន្នន័យទាំងនោះ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររៀនម៉ាស៊ីន (Machine Learning) ថ្មីមួយ ដែលច្របាច់បញ្ចូលទិន្នន័យពីផ្កាយរណប និងទិន្នន័យពីស្ថានីយវាស់វែង ដើម្បីបង្កើតទិន្នន័យទឹកភ្លៀងដែលមានគុណភាពបង្ហាញខ្ពស់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| VNpu (Proposed Method - XGB with Quantile Regression) វិធីសាស្ត្រស្នើឡើងដោយប្រើ XGB និង Quantile Regression ដើម្បីបញ្ចូលទិន្នន័យ |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចផ្តល់នូវចន្លោះនៃភាពមិនច្បាស់លាស់ (Uncertainty intervals) ដែលជួយឱ្យដឹងពីកម្រិតជឿជាក់នៃទិន្នន័យ។ | ទាមទារសមត្ថភាពគណនារបស់កុំព្យូទ័រខ្ពស់ និងត្រូវការទិន្នន័យបណ្តុះបណ្តាល (Training data) ច្រើន។ | មានប្រសិទ្ធភាពជាងគេក្នុងការចាប់យកព្រឹត្តិការណ៍ភ្លៀងធ្លាក់ខ្លាំង និងផ្តល់តម្លៃកំហុស (RMSE) ទាបបំផុត។ |
| IMERG & MERRA2 (Satellite & Reanalysis Products) ផលិតផលទិន្នន័យទឹកភ្លៀងពីផ្កាយរណប និងការវិភាគឡើងវិញ |
មានទិន្នន័យគ្របដណ្តប់ពេញលេញលើផ្ទៃប្រទេស និងមានភាពជាប់លាប់តាមពេលវេលា។ | មានភាពលំអៀង (Bias) ខ្ពស់នៅតំបន់ភ្នំ និងមិនអាចផ្តល់ព័ត៌មានអំពីកម្រិតភាពមិនច្បាស់លាស់។ | IMERG មានភាពត្រឹមត្រូវជាង MERRA2 ប៉ុន្តែនៅតែមានកម្រិតទាបជាង VNpu ដែលបានកែតម្រូវ។ |
| Ordinary Kriging (OK) & IDW វិធីសាស្ត្រអន្តរបសាយតាមលំហបែបប្រពៃណី (Interpolation) |
ងាយស្រួលអនុវត្ត និងមិនត្រូវការទិន្នន័យបន្ថែមពីផ្កាយរណប។ | ផ្តល់លទ្ធផលមិនល្អនៅតំបន់ដែលមានស្ថានីយវាស់វែងតិច (Data-scarce regions) និងមានកម្រិតភាពមិនច្បាស់លាស់ធំ។ | មានប្រសិទ្ធភាពទាបជាងវិធីសាស្ត្ររៀនម៉ាស៊ីនយ៉ាងខ្លាំង ជាពិសេសនៅតំបន់ដាច់ស្រយាល។ |
| VnGP (Vietnam Gridded Precipitation) ផលិតផលទិន្នន័យទឹកភ្លៀងដែលមានស្រាប់ (ប្រើវិធីសាស្ត្រ Spheremap) |
ត្រូវបានបង្កើតឡើងដោយផ្អែកលើទិន្នន័យស្ថានីយក្នុងស្រុកជាច្រើន។ | មានទំនោរវាយតម្លៃខ្ពស់ពេក (Overestimate) ចំពោះបរិមាណទឹកភ្លៀងក្នុងព្រឹត្តិការណ៍ធ្ងន់ធ្ងរ។ | VNpu ផ្តល់លទ្ធផលត្រឹមត្រូវជាង VnGP នៅពេលផ្ទៀងផ្ទាត់ជាមួយស្ថានីយឯករាជ្យ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ និងជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ ប៉ុន្តែមិនត្រូវការឧបករណ៍វាស់វែងថ្លៃៗបន្ថែមទេ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យនៅប្រទេសវៀតណាម (២០០១-២០១០) ដែលមានលក្ខណៈអាកាសធាតុ (មូសុង) និងភូមិសាស្ត្រស្រដៀងនឹងកម្ពុជាខ្លាំង ធ្វើឱ្យលទ្ធផលនេះមានតម្លៃខ្ពស់សម្រាប់តំបន់យើង។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដោយសារយើងមានបញ្ហាស្រដៀងគ្នានៃការខ្វះខាតស្ថានីយវាស់ទឹកភ្លៀងនៅតំបន់ដាច់ស្រយាល។
ការប្រើប្រាស់វិធីសាស្ត្រនេះអាចជួយកម្ពុជាបង្កើតផែនទីទឹកភ្លៀងជាតិដែលមានគុណភាពខ្ពស់ និងចំណាយតិចជាងការដំឡើងស្ថានីយថ្មីៗ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Gridded Precipitation | ជាទិន្នន័យទឹកភ្លៀងដែលមិនមែនវាស់តែនៅមួយចំណុច (ដូចស្ថានីយវាស់ទឹកភ្លៀង) ប៉ុន្តែត្រូវបានគណនាជាផ្ទៃក្រឡាតូចៗ (Grids) គ្របដណ្តប់លើផែនទីទាំងមូល ដើម្បីឱ្យដឹងពីបរិមាណទឹកភ្លៀងនៅគ្រប់ទីកន្លែង រាប់ទាំងកន្លែងដែលគ្មានស្ថានីយវាស់វែង។ | ដូចជាការបែងចែកផ្ទៃដីជាក្បឿងការ៉ូ ហើយកំណត់បរិមាណទឹកភ្លៀងសម្រាប់ក្បឿងនីមួយៗ ទោះបីជាគ្មានឧបករណ៍វាស់នៅទីនោះក៏ដោយ។ |
| Uncertainty Quantification | គឺជាដំណើរការនៃការគណនា និងបង្ហាញអំពីកម្រិតនៃភាពមិនច្បាស់លាស់នៅក្នុងលទ្ធផលព្យាករណ៍។ ជំនួសឱ្យការផ្តល់តែលេខមួយ (ឧ. ១០មម) វាផ្តល់ជាចន្លោះ (ឧ. ៨មម ទៅ ១២មម) ដើម្បីប្រាប់ថាតើការព្យាករណ៍នោះអាចជឿជាក់បានកម្រិតណា។ | ដូចជាការទាយចំនួនគ្រាប់ស្ករក្នុងកែវ ដោយនិយាយថា "មានចន្លោះពី ៤០ ទៅ ៦០ គ្រាប់" ជំនួសឱ្យការនិយាយថា "មាន ៥០ គ្រាប់គត់" ដើម្បីកាត់បន្ថយហានិភ័យនៃការទាយខុស។ |
| Quantile Regression | ជាបច្ចេកទេសស្ថិតិដែលប្រើសម្រាប់ព្យាករណ៍មិនមែនត្រឹមតែតម្លៃមធ្យមនោះទេ ប៉ុន្តែអាចព្យាករណ៍តម្លៃនៅកម្រិតផ្សេងៗគ្នា (Percentiles) នៃទិន្នន័យ។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីកំណត់ព្រំដែនខាងលើ និងខាងក្រោមនៃភាពមិនច្បាស់លាស់។ | ដូចជាការចង់ដឹងពីកម្ពស់សិស្សក្នុងថ្នាក់ ដោយមិនសួររកមធ្យមភាគ ប៉ុន្តែសួរថា "តើសិស្សដែលទាបបំផុត និងខ្ពស់បំផុតមានកម្ពស់ប៉ុន្មាន?" ដើម្បីដឹងពីគម្លាត។ |
| eXtreme Gradient Boosting (XGB) | ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើតគំរូព្យាករណ៍ជាច្រើនបន្តបន្ទាប់គ្នា ដោយគំរូថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសរបស់គំរូមុនៗ ដើម្បីទទួលបានលទ្ធផលដែលមានភាពត្រឹមត្រូវខ្ពស់បំផុត។ | ប្រៀបដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដោយសិស្សម្នាក់ៗចូលមកជួយកែចំណុចខុសរបស់សិស្សមុន ដើម្បីឱ្យចម្លើយចុងក្រោយត្រឹមត្រូវបំផុត។ |
| Reanalysis Data | ជាសំណុំទិន្នន័យដែលបង្កើតឡើងដោយការច្របាច់បញ្ចូលគ្នារវាងទិន្នន័យវាស់វែងជាក់ស្តែងពីអតីតកាល និងគំរូកុំព្យូទ័រទំនើប ដើម្បីបំពេញចន្លោះខ្វះខាត និងបង្កើតជាប្រវត្តិអាកាសធាតុដ៏ពេញលេញមួយ។ | ដូចជាការសរសេរប្រវត្តិសាស្ត្រឡើងវិញ ដោយប្រើទាំងកំណត់ហេតុចាស់ៗ និងចំណេះដឹងថ្មីៗ ដើម្បីបំពេញរឿងរ៉ាវដែលបាត់បង់ឱ្យបានពេញលេញ។ |
| SHapley Additive exPlanations (SHAP) | ជាវិធីសាស្ត្រសម្រាប់បកស្រាយលទ្ធផលរបស់ AI ដោយវាប្រាប់យើងថា តើកត្តាធាតុចូលនីមួយៗ (ដូចជា ទីតាំង ឬទិន្នន័យផ្កាយរណប) បានចូលរួមចំណែកប៉ុន្មានភាគរយក្នុងការធ្វើឱ្យម៉ាស៊ីនសម្រេចចិត្តចេញលទ្ធផលបែបនេះ។ | ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករបាល់ទាត់ម្នាក់ៗ ដោយផ្អែកលើថាអ្នកណាជាអ្នកស៊ុតបញ្ចូលទី និងអ្នកណាជាអ្នកបញ្ជូនបាល់ឱ្យ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖