Original Title: Assessment of disaster risks induced by climate change, using machine learning techniques
Source: doi.org/10.1088/1748-9326/aba5b3
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃហានិភ័យគ្រោះមហន្តរាយដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ ដោយប្រើប្រាស់បច្ចេកទេសម៉ាស៊ីនរៀន (Machine Learning)

ចំណងជើងដើម៖ Assessment of disaster risks induced by climate change, using machine learning techniques

អ្នកនិពន្ធ៖ Sang Jin Park (Seoul National University)

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Environmental Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាការកើនឡើងនៃហានិភ័យគ្រោះមហន្តរាយធម្មជាតិ ដូចជាទឹកជំនន់តំបន់ឆ្នេរ និងការបាក់ដី នៅក្នុងប្រទេសកូរ៉េខាងត្បូងដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ ព្រមទាំងវាយតម្លៃពីប្រសិទ្ធភាពនៃយុទ្ធសាស្ត្របន្សាំដើម្បីកាត់បន្ថយហានិភ័យទាំងនេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រផ្អែកលើទិន្នន័យ (Data-driven approach) ដោយអនុវត្តក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ជាច្រើន ដើម្បីព្យាករណ៍ពីហានិភ័យនាពេលអនាគត ក្រោមសេណារីយ៉ូនៃការបំភាយឧស្ម័នកាបូន (RCP) និងគំរូអាកាសធាតុក្នុងតំបន់ (RCMs)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
k-Nearest Neighbor (kNN)
ក្បួនដោះស្រាយអ្នកជិតខាងជិតបំផុត (kNN)
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយភាពលម្អៀង (Bias) សម្រាប់ទិន្នន័យទីតាំងប្រវត្តិទឹកជំនន់។ ទាមទារការកែសម្រួលតម្លៃ k ឲ្យបានត្រឹមត្រូវ និងប្រើប្រាស់ថាមពលកុំព្យូទ័រច្រើននៅពេលទិន្នន័យមានទំហំធំ។ ម៉ូដែលល្អបំផុតសម្រាប់ការទស្សន៍ទាយទឹកជំនន់តំបន់ឆ្នេរ ជាមួយនឹងពិន្ទុភាពត្រឹមត្រូវ (AUC score) ០.៩៤៦។
Random Forest (RF)
ក្បួនដោះស្រាយព្រៃចៃដន្យ (Random Forest)
មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយទំនាក់ទំនងទិន្នន័យស្មុគស្មាញ មានស្ថេរភាពខ្ពស់ និងកាត់បន្ថយបំរែបំរួលលទ្ធផល (Variance) បានយ៉ាងល្អ។ ដំណើរការម៉ូដែលប្រៀបដូចជាប្រអប់ខ្មៅ (Black box) ដែលពិបាកបកស្រាយពីដំណើរការខាងក្នុង និងទាមទារការកំណត់ជម្រៅដើមឈើ (Tree depth) ឲ្យបានត្រឹមត្រូវ។ ម៉ូដែលល្អបំផុតសម្រាប់ការទស្សន៍ទាយការបាក់ដី (AUC: ០.៩៣២) និងការវាយតម្លៃយុទ្ធសាស្ត្របន្សាំ (AUC: ០.៩៧៦)។
Support Vector Machine (SVM)
ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)
មានភាពបត់បែនខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលគ្មានស្លាក (Unlabeled datasets) ដោយប្រើប្រាស់មុខងារ RBF Kernel ។ ងាយរងឥទ្ធិពលពីការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) និងមានដំណើរការយឺតជាង kNN បន្តិចនៅក្នុងការសិក្សានេះ។ ទទួលបានលទ្ធផលល្អមធ្យម ទាំងលើទឹកជំនន់តំបន់ឆ្នេរ (AUC: ០.៩៤០) និងការបាក់ដី (AUC: ០.៨៦៦)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យកម្រិតខ្ពស់ ដោយសារការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រលម្អិត និងការព្យាករណ៍អាកាសធាតុស្មុគស្មាញ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅប្រទេសកូរ៉េខាងត្បូង ដោយប្រើប្រាស់ទិន្នន័យលម្អិតកម្រិតខ្ពស់ (High-resolution data) និងហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងជឿនលឿន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យប្រវត្តិគ្រោះមហន្តរាយដែលមានភាពសុក្រឹត និងទិន្នន័យសណ្ឋានដីលម្អិត អាចជាឧបសគ្គចម្បងក្នុងការទទួលបានលទ្ធផលការព្យាករណ៍ដែលមានភាពជាក់លាក់ដូចគ្នានេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមខាងផ្នែកទិន្នន័យក៏ដោយ វិធីសាស្ត្រ និងក្របខណ្ឌនៃការសិក្សានេះពិតជាមានអត្ថប្រយោជន៍ និងអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ប្រទេសកម្ពុជាបាន។

ជារួម ការបញ្ជ្រាបបច្ចេកវិទ្យាម៉ាស៊ីនរៀន (Machine Learning) ទៅក្នុងការវិភាគគ្រោះមហន្តរាយ នឹងជួយឲ្យកម្ពុជាផ្លាស់ប្តូរពីការឆ្លើយតបក្រោយពេលមានគ្រោះថ្នាក់ ទៅជាការត្រៀមលក្ខណៈជាមុនប្រកបដោយប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូល និងរៀបចំទិន្នន័យ (Data Collection & Preprocessing): និស្សិតត្រូវស្វែងរកទិន្នន័យសណ្ឋានដី (DEM) ពីប្រភពបើកទូលាយដូចជា USGS Earth Explorer ទិន្នន័យអាកាសធាតុពី MOWRAMCHIRPS រួចប្រើប្រាស់កម្មវិធី QGIS ដើម្បីកំណត់ប្រព័ន្ធកូអរដោនេ និងទំហំក្រឡាចត្រង្គ (Grid size) ឲ្យត្រូវគ្នា។
  2. ការស្វែងយល់ពីក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Learn ML Algorithms): ចាប់ផ្តើមអនុវត្តការសរសេរកូដជាភាសា Python ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn ដើម្បីសាកល្បងដំណើរការម៉ូដែល kNN និង Random Forest លើសំណុំទិន្នន័យតូចៗ (Sample data) ជាមុន។
  3. ការដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា (Handle Imbalanced Data): ដោយសារកំណត់ត្រាគ្រោះមហន្តរាយមានចំនួនតិចជាងទីតាំងដែលមិនមានគ្រោះថ្នាក់ និស្សិតត្រូវប្រើប្រាស់បច្ចេកទេស Under-samplingSMOTE នៅក្នុង Python ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកការទាយថា 'មិនមានគ្រោះថ្នាក់' ជានិច្ចនោះទេ។
  4. ការបញ្ចូនសេណារីយ៉ូអនាគត (Integrate Future Scenarios): បញ្ចូលទិន្នន័យព្យាករណ៍អាកាសធាតុ (ឧទាហរណ៍ RCP 4.5RCP 8.5) ទៅក្នុងម៉ូដែលដែលបានបង្វឹក (Trained model) ដើម្បីគណនាប្រូបាប៊ីលីតេនៃហានិភ័យសម្រាប់ឆ្នាំគោលដៅ ដូចជាឆ្នាំ ២០៣០ ឬ ២០៥០។
  5. ការគូសផែនទី និងធ្វើសេចក្តីរាយការណ៍ (Risk Mapping & Visualization): នាំចេញលទ្ធផលប្រូបាប៊ីលីតេពី Python ទៅកាន់កម្មវិធី QGISArcGIS ដើម្បីគូសជាផែនទីពណ៌ (Heatmap) បង្ហាញពីតំបន់ហានិភ័យ និងស្នើជាដំណោះស្រាយផ្អែកលើធម្មជាតិសម្រាប់តំបន់ទាំងនោះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Representative Concentration Pathway (RCP) ជាសេណារីយ៉ូដែលព្យាករណ៍ពីកម្រិតនៃការបញ្ចេញឧស្ម័នផ្ទះកញ្ចក់នាពេលអនាគតដោយផ្អែកលើសកម្មភាពមនុស្ស។ ឧទាហរណ៍ RCP 8.5 គឺជាសេណារីយ៉ូអាក្រក់បំផុត (Worst-case scenario) ដែលការបញ្ចេញឧស្ម័ននៅតែកើនឡើងដោយគ្មានការទប់ស្កាត់។ ដូចជាការទាយទុកថាតើអាកាសធាតុនឹងក្តៅកម្រិតណា ប្រសិនបើយើងនៅតែបន្តដុតសំរាមដោយមិនព្រមឈប់។
Regional Climate Models (RCMs) ជាម៉ូដែលអាកាសធាតុខ្នាតតូចដែលយកទិន្នន័យពីម៉ូដែលអាកាសធាតុពិភពលោក (GCMs) មកបំបែកឱ្យលម្អិត និងជាក់លាក់សម្រាប់តំបន់ណាមួយ ដើម្បីទស្សន៍ទាយពីទឹកភ្លៀង ឬកម្ពស់ទឹកសមុទ្របានកាន់តែច្បាស់លាស់។ ដូចជាការប្រើប្រាស់កែវពង្រីក (Magnifying glass) មើលលើផែនទីពិភពលោក ដើម្បីផ្តោតមើលការព្យាករណ៍អាកាសធាតុឱ្យបានច្បាស់សម្រាប់តែប្រទេសរបស់យើង។
Random Forest (RF) ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនដើម ហើយយកលទ្ធផលដែលដើមឈើភាគច្រើនយល់ស្របគ្នាមកធ្វើជាការសម្រេចចិត្ត ឬការព្យាករណ៍ចុងក្រោយ។ ដូចជាការសួរយោបល់ពីមនុស្ស ១០០ នាក់អំពីបញ្ហាមួយ ហើយយកចម្លើយណាដែលមានអ្នកគាំទ្រច្រើនជាងគេបំផុតជាការសម្រេចចិត្ត។
k-Nearest Neighbor (kNN) ជាក្បួនដោះស្រាយដែលទស្សន៍ទាយឬចាត់ថ្នាក់ចំណុចទិន្នន័យថ្មីមួយ ដោយពឹងផ្អែកទៅលើលក្ខណៈនៃចំណុចទិន្នន័យចាស់ៗដែលនៅក្បែរវាបំផុត (ចំនួន k) នៅក្នុងប្រព័ន្ធទិន្នន័យ។ ដូចជាសុភាសិត "សេពគប់ពាល គឺពាល" មានន័យថាយើងអាចទាយដឹងពីចរិតមនុស្សម្នាក់ ដោយសង្កេតមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គេ។
Receiver Operating Characteristic (ROC) ជាខ្សែកោងក្រាហ្វិកប្រើសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវរបស់ម៉ូដែល Machine Learning ដោយប្រៀបធៀបរវាងអត្រានៃការទាយត្រូវពិតប្រាកដ (True Positive) និងអត្រានៃការទាយខុស (False Positive)។ កាលណាផ្ទៃក្រោមខ្សែធ្នូ (AUC) កៀកនឹង 1 ម៉ូដែលកាន់តែមានភាពសុក្រឹត។ ដូចជារបាយការណ៍ពិន្ទុប្រឡងរបស់សិស្សម្នាក់ បើបានពិន្ទុកាន់តែជិត ១០០ គឺបញ្ជាក់ថាសិស្សនោះឆ្លើយសំណួរត្រូវច្រើនជាងខុស។
Under-sampling ជាបច្ចេកទេសក្នុងវិទ្យាសាស្ត្រទិន្នន័យសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា ដោយកាត់បន្ថយចំនួនទិន្នន័យនៃក្រុមដែលមានទំហំធំ ឱ្យមកស្មើនឹងក្រុមដែលមានទិន្នន័យតិច ដើម្បីកុំឱ្យម៉ូដែលព្យាករណ៍មានភាពលម្អៀង។ ដូចជាការរៀបចំក្រុមបាល់ទាត់ពីរដែលមានសមាជិកមិនស្មើគ្នា ដោយយើងត្រូវដកកីឡាករពីក្រុមធំចេញខ្លះ ដើម្បីឱ្យការប្រកួតមានភាពស្មើគ្នា។
Nature-based Solutions (NBS) ជាយុទ្ធសាស្ត្រក្នុងការដោះស្រាយបញ្ហាបរិស្ថានដោយពឹងផ្អែកលើប្រព័ន្ធអេកូឡូស៊ីធម្មជាតិ ដូចជាការបង្កើតលំហបៃតង ឧទ្យាន ឬការដាំព្រៃកោងកាង ដើម្បីស្រូបយកទឹកភ្លៀង និងទប់ស្កាត់ទឹកជំនន់ ជាជាងការសាងសង់ហេដ្ឋារចនាសម្ព័ន្ធពណ៌ប្រផេះ (ជញ្ជាំងបេតុង ឬទំនប់)។ ដូចជាការប្រើប្រាស់អេប៉ុង (ធម្មជាតិ) ដើម្បីជូតស្រូបយកទឹកដែលកំពុងកំពប់ ជាជាងការយកបន្ទះក្តារមកាំងទប់ទឹកមិនឱ្យហូរ។
Multi-collinearity ជាបាតុភូតក្នុងគំរូស្ថិតិដែលអថេរឯករាជ្យ (កត្តាជះឥទ្ធិពល) ពីរ ឬច្រើន មានទំនាក់ទំនងគ្នាយ៉ាងជិតស្និទ្ធ ឬត្រួតស៊ីគ្នា ដែលធ្វើឱ្យម៉ូដែលពិបាកកំណត់ថាអថេរមួយណាជាអ្នកជះឥទ្ធិពលពិតប្រាកដ។ វាត្រូវបានវាស់ស្ទង់ដោយតម្លៃ VIF (Variance Inflation Factor)។ ដូចជាមានមនុស្សពីរនាក់ច្រៀងបទតែមួយដំណាលគ្នា ដែលធ្វើឱ្យយើងពិបាកស្តាប់ដឹងថាតើសំឡេងមួយណាជាអ្នកច្រៀងបានពិរោះជាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖