បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាការកើនឡើងនៃហានិភ័យគ្រោះមហន្តរាយធម្មជាតិ ដូចជាទឹកជំនន់តំបន់ឆ្នេរ និងការបាក់ដី នៅក្នុងប្រទេសកូរ៉េខាងត្បូងដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ ព្រមទាំងវាយតម្លៃពីប្រសិទ្ធភាពនៃយុទ្ធសាស្ត្របន្សាំដើម្បីកាត់បន្ថយហានិភ័យទាំងនេះ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រផ្អែកលើទិន្នន័យ (Data-driven approach) ដោយអនុវត្តក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ជាច្រើន ដើម្បីព្យាករណ៍ពីហានិភ័យនាពេលអនាគត ក្រោមសេណារីយ៉ូនៃការបំភាយឧស្ម័នកាបូន (RCP) និងគំរូអាកាសធាតុក្នុងតំបន់ (RCMs)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| k-Nearest Neighbor (kNN) ក្បួនដោះស្រាយអ្នកជិតខាងជិតបំផុត (kNN) |
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយភាពលម្អៀង (Bias) សម្រាប់ទិន្នន័យទីតាំងប្រវត្តិទឹកជំនន់។ | ទាមទារការកែសម្រួលតម្លៃ k ឲ្យបានត្រឹមត្រូវ និងប្រើប្រាស់ថាមពលកុំព្យូទ័រច្រើននៅពេលទិន្នន័យមានទំហំធំ។ | ម៉ូដែលល្អបំផុតសម្រាប់ការទស្សន៍ទាយទឹកជំនន់តំបន់ឆ្នេរ ជាមួយនឹងពិន្ទុភាពត្រឹមត្រូវ (AUC score) ០.៩៤៦។ |
| Random Forest (RF) ក្បួនដោះស្រាយព្រៃចៃដន្យ (Random Forest) |
មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយទំនាក់ទំនងទិន្នន័យស្មុគស្មាញ មានស្ថេរភាពខ្ពស់ និងកាត់បន្ថយបំរែបំរួលលទ្ធផល (Variance) បានយ៉ាងល្អ។ | ដំណើរការម៉ូដែលប្រៀបដូចជាប្រអប់ខ្មៅ (Black box) ដែលពិបាកបកស្រាយពីដំណើរការខាងក្នុង និងទាមទារការកំណត់ជម្រៅដើមឈើ (Tree depth) ឲ្យបានត្រឹមត្រូវ។ | ម៉ូដែលល្អបំផុតសម្រាប់ការទស្សន៍ទាយការបាក់ដី (AUC: ០.៩៣២) និងការវាយតម្លៃយុទ្ធសាស្ត្របន្សាំ (AUC: ០.៩៧៦)។ |
| Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) |
មានភាពបត់បែនខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលគ្មានស្លាក (Unlabeled datasets) ដោយប្រើប្រាស់មុខងារ RBF Kernel ។ | ងាយរងឥទ្ធិពលពីការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) និងមានដំណើរការយឺតជាង kNN បន្តិចនៅក្នុងការសិក្សានេះ។ | ទទួលបានលទ្ធផលល្អមធ្យម ទាំងលើទឹកជំនន់តំបន់ឆ្នេរ (AUC: ០.៩៤០) និងការបាក់ដី (AUC: ០.៨៦៦)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យកម្រិតខ្ពស់ ដោយសារការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រលម្អិត និងការព្យាករណ៍អាកាសធាតុស្មុគស្មាញ។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅប្រទេសកូរ៉េខាងត្បូង ដោយប្រើប្រាស់ទិន្នន័យលម្អិតកម្រិតខ្ពស់ (High-resolution data) និងហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងជឿនលឿន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យប្រវត្តិគ្រោះមហន្តរាយដែលមានភាពសុក្រឹត និងទិន្នន័យសណ្ឋានដីលម្អិត អាចជាឧបសគ្គចម្បងក្នុងការទទួលបានលទ្ធផលការព្យាករណ៍ដែលមានភាពជាក់លាក់ដូចគ្នានេះ។
ទោះបីជាមានបញ្ហាប្រឈមខាងផ្នែកទិន្នន័យក៏ដោយ វិធីសាស្ត្រ និងក្របខណ្ឌនៃការសិក្សានេះពិតជាមានអត្ថប្រយោជន៍ និងអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ប្រទេសកម្ពុជាបាន។
ជារួម ការបញ្ជ្រាបបច្ចេកវិទ្យាម៉ាស៊ីនរៀន (Machine Learning) ទៅក្នុងការវិភាគគ្រោះមហន្តរាយ នឹងជួយឲ្យកម្ពុជាផ្លាស់ប្តូរពីការឆ្លើយតបក្រោយពេលមានគ្រោះថ្នាក់ ទៅជាការត្រៀមលក្ខណៈជាមុនប្រកបដោយប្រសិទ្ធភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Representative Concentration Pathway (RCP) | ជាសេណារីយ៉ូដែលព្យាករណ៍ពីកម្រិតនៃការបញ្ចេញឧស្ម័នផ្ទះកញ្ចក់នាពេលអនាគតដោយផ្អែកលើសកម្មភាពមនុស្ស។ ឧទាហរណ៍ RCP 8.5 គឺជាសេណារីយ៉ូអាក្រក់បំផុត (Worst-case scenario) ដែលការបញ្ចេញឧស្ម័ននៅតែកើនឡើងដោយគ្មានការទប់ស្កាត់។ | ដូចជាការទាយទុកថាតើអាកាសធាតុនឹងក្តៅកម្រិតណា ប្រសិនបើយើងនៅតែបន្តដុតសំរាមដោយមិនព្រមឈប់។ |
| Regional Climate Models (RCMs) | ជាម៉ូដែលអាកាសធាតុខ្នាតតូចដែលយកទិន្នន័យពីម៉ូដែលអាកាសធាតុពិភពលោក (GCMs) មកបំបែកឱ្យលម្អិត និងជាក់លាក់សម្រាប់តំបន់ណាមួយ ដើម្បីទស្សន៍ទាយពីទឹកភ្លៀង ឬកម្ពស់ទឹកសមុទ្របានកាន់តែច្បាស់លាស់។ | ដូចជាការប្រើប្រាស់កែវពង្រីក (Magnifying glass) មើលលើផែនទីពិភពលោក ដើម្បីផ្តោតមើលការព្យាករណ៍អាកាសធាតុឱ្យបានច្បាស់សម្រាប់តែប្រទេសរបស់យើង។ |
| Random Forest (RF) | ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនដើម ហើយយកលទ្ធផលដែលដើមឈើភាគច្រើនយល់ស្របគ្នាមកធ្វើជាការសម្រេចចិត្ត ឬការព្យាករណ៍ចុងក្រោយ។ | ដូចជាការសួរយោបល់ពីមនុស្ស ១០០ នាក់អំពីបញ្ហាមួយ ហើយយកចម្លើយណាដែលមានអ្នកគាំទ្រច្រើនជាងគេបំផុតជាការសម្រេចចិត្ត។ |
| k-Nearest Neighbor (kNN) | ជាក្បួនដោះស្រាយដែលទស្សន៍ទាយឬចាត់ថ្នាក់ចំណុចទិន្នន័យថ្មីមួយ ដោយពឹងផ្អែកទៅលើលក្ខណៈនៃចំណុចទិន្នន័យចាស់ៗដែលនៅក្បែរវាបំផុត (ចំនួន k) នៅក្នុងប្រព័ន្ធទិន្នន័យ។ | ដូចជាសុភាសិត "សេពគប់ពាល គឺពាល" មានន័យថាយើងអាចទាយដឹងពីចរិតមនុស្សម្នាក់ ដោយសង្កេតមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គេ។ |
| Receiver Operating Characteristic (ROC) | ជាខ្សែកោងក្រាហ្វិកប្រើសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវរបស់ម៉ូដែល Machine Learning ដោយប្រៀបធៀបរវាងអត្រានៃការទាយត្រូវពិតប្រាកដ (True Positive) និងអត្រានៃការទាយខុស (False Positive)។ កាលណាផ្ទៃក្រោមខ្សែធ្នូ (AUC) កៀកនឹង 1 ម៉ូដែលកាន់តែមានភាពសុក្រឹត។ | ដូចជារបាយការណ៍ពិន្ទុប្រឡងរបស់សិស្សម្នាក់ បើបានពិន្ទុកាន់តែជិត ១០០ គឺបញ្ជាក់ថាសិស្សនោះឆ្លើយសំណួរត្រូវច្រើនជាងខុស។ |
| Under-sampling | ជាបច្ចេកទេសក្នុងវិទ្យាសាស្ត្រទិន្នន័យសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា ដោយកាត់បន្ថយចំនួនទិន្នន័យនៃក្រុមដែលមានទំហំធំ ឱ្យមកស្មើនឹងក្រុមដែលមានទិន្នន័យតិច ដើម្បីកុំឱ្យម៉ូដែលព្យាករណ៍មានភាពលម្អៀង។ | ដូចជាការរៀបចំក្រុមបាល់ទាត់ពីរដែលមានសមាជិកមិនស្មើគ្នា ដោយយើងត្រូវដកកីឡាករពីក្រុមធំចេញខ្លះ ដើម្បីឱ្យការប្រកួតមានភាពស្មើគ្នា។ |
| Nature-based Solutions (NBS) | ជាយុទ្ធសាស្ត្រក្នុងការដោះស្រាយបញ្ហាបរិស្ថានដោយពឹងផ្អែកលើប្រព័ន្ធអេកូឡូស៊ីធម្មជាតិ ដូចជាការបង្កើតលំហបៃតង ឧទ្យាន ឬការដាំព្រៃកោងកាង ដើម្បីស្រូបយកទឹកភ្លៀង និងទប់ស្កាត់ទឹកជំនន់ ជាជាងការសាងសង់ហេដ្ឋារចនាសម្ព័ន្ធពណ៌ប្រផេះ (ជញ្ជាំងបេតុង ឬទំនប់)។ | ដូចជាការប្រើប្រាស់អេប៉ុង (ធម្មជាតិ) ដើម្បីជូតស្រូបយកទឹកដែលកំពុងកំពប់ ជាជាងការយកបន្ទះក្តារមកាំងទប់ទឹកមិនឱ្យហូរ។ |
| Multi-collinearity | ជាបាតុភូតក្នុងគំរូស្ថិតិដែលអថេរឯករាជ្យ (កត្តាជះឥទ្ធិពល) ពីរ ឬច្រើន មានទំនាក់ទំនងគ្នាយ៉ាងជិតស្និទ្ធ ឬត្រួតស៊ីគ្នា ដែលធ្វើឱ្យម៉ូដែលពិបាកកំណត់ថាអថេរមួយណាជាអ្នកជះឥទ្ធិពលពិតប្រាកដ។ វាត្រូវបានវាស់ស្ទង់ដោយតម្លៃ VIF (Variance Inflation Factor)។ | ដូចជាមានមនុស្សពីរនាក់ច្រៀងបទតែមួយដំណាលគ្នា ដែលធ្វើឱ្យយើងពិបាកស្តាប់ដឹងថាតើសំឡេងមួយណាជាអ្នកច្រៀងបានពិរោះជាង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖