Original Title: Assessment of disaster risks induced by climate change, using machine learning techniques
Source: doi.org/10.1088/1748-9326/aba5b3
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃហានិភ័យគ្រោះមហន្តរាយដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ ដោយប្រើប្រាស់បច្ចេកទេសម៉ាស៊ីនរៀន (Machine Learning)

ចំណងជើងដើម៖ Assessment of disaster risks induced by climate change, using machine learning techniques

អ្នកនិពន្ធ៖ Sang Jin Park (Seoul National University)

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Environmental Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាការកើនឡើងនៃហានិភ័យគ្រោះមហន្តរាយធម្មជាតិ ដូចជាទឹកជំនន់តំបន់ឆ្នេរ និងការបាក់ដី នៅក្នុងប្រទេសកូរ៉េខាងត្បូងដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ ព្រមទាំងវាយតម្លៃពីប្រសិទ្ធភាពនៃយុទ្ធសាស្ត្របន្សាំដើម្បីកាត់បន្ថយហានិភ័យទាំងនេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រផ្អែកលើទិន្នន័យ (Data-driven approach) ដោយអនុវត្តក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ជាច្រើន ដើម្បីព្យាករណ៍ពីហានិភ័យនាពេលអនាគត ក្រោមសេណារីយ៉ូនៃការបំភាយឧស្ម័នកាបូន (RCP) និងគំរូអាកាសធាតុក្នុងតំបន់ (RCMs)។

ការទស្សន៍ទាយហានិភ័យទឹកជំនន់តំបន់ឆ្នេរ (Coastal Flooding Risk Prediction) ដោយប្រើប្រាស់ក្បួនដោះស្រាយ k-Nearest Neighbor (kNN), Random Forest (RF) និង Support Vector Machine (SVM)
ការវាយតម្លៃភាពងាយរងគ្រោះពីការបាក់ដី (Landslide Susceptibility Assessment) ដោយវិភាគលើកត្តាភូមិសាស្ត្រ និងទិន្នន័យទឹកភ្លៀងអតិបរមា
ការវាយតម្លៃយុទ្ធសាស្ត្របន្សាំ (Adaptation Strategies Evaluation) ដោយប្រៀបធៀបប្រសិទ្ធភាពនៃហេដ្ឋារចនាសម្ព័ន្ធពណ៌បៃតង (Nature-based solutions) និងហេដ្ឋារចនាសម្ព័ន្ធពណ៌ប្រផេះ (Seawalls)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល kNN ផ្តល់លទ្ធផលល្អបំផុតសម្រាប់ការវិភាគហានិភ័យទឹកជំនន់តំបន់ឆ្នេរដោយមានភាពត្រឹមត្រូវ (Accuracy score) 0.946 ខណៈដែល Random Forest (RF) មានប្រសិទ្ធភាពខ្ពស់បំផុតសម្រាប់ការវាយតម្លៃការបាក់ដីជាមួយពិន្ទុ AUC 0.932។
បរិមាណទឹកភ្លៀងអតិបរមាប្រចាំថ្ងៃ គឺជាកត្តាជះឥទ្ធិពលខ្លាំងជាងគេបំផុត (កម្រិតឥទ្ធិពល 0.45 សម្រាប់ម៉ូដែលបាក់ដី) ទៅលើហានិភ័យគ្រោះមហន្តរាយទាំងពីរប្រភេទនេះ។
សម្រាប់ការទប់ទល់ហានិភ័យនៅឆ្នាំ 2050 ការប្រើប្រាស់ដំណោះស្រាយផ្អែកលើធម្មជាតិ ពោលគឺលំហបៃតង (Green space) បង្ហាញពីប្រសិទ្ធភាពកាត់បន្ថយហានិភ័យទឹកជំនន់តំបន់ឆ្នេរបានល្អជាងការសាងសង់ទំនប់ការពាររលក (Seawalls)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
k-Nearest Neighbor (kNN) ក្បួនដោះស្រាយអ្នកជិតខាងជិតបំផុត (kNN)	ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយភាពលម្អៀង (Bias) សម្រាប់ទិន្នន័យទីតាំងប្រវត្តិទឹកជំនន់។	ទាមទារការកែសម្រួលតម្លៃ k ឲ្យបានត្រឹមត្រូវ និងប្រើប្រាស់ថាមពលកុំព្យូទ័រច្រើននៅពេលទិន្នន័យមានទំហំធំ។	ម៉ូដែលល្អបំផុតសម្រាប់ការទស្សន៍ទាយទឹកជំនន់តំបន់ឆ្នេរ ជាមួយនឹងពិន្ទុភាពត្រឹមត្រូវ (AUC score) ០.៩៤៦។
Random Forest (RF) ក្បួនដោះស្រាយព្រៃចៃដន្យ (Random Forest)	មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយទំនាក់ទំនងទិន្នន័យស្មុគស្មាញ មានស្ថេរភាពខ្ពស់ និងកាត់បន្ថយបំរែបំរួលលទ្ធផល (Variance) បានយ៉ាងល្អ។	ដំណើរការម៉ូដែលប្រៀបដូចជាប្រអប់ខ្មៅ (Black box) ដែលពិបាកបកស្រាយពីដំណើរការខាងក្នុង និងទាមទារការកំណត់ជម្រៅដើមឈើ (Tree depth) ឲ្យបានត្រឹមត្រូវ។	ម៉ូដែលល្អបំផុតសម្រាប់ការទស្សន៍ទាយការបាក់ដី (AUC: ០.៩៣២) និងការវាយតម្លៃយុទ្ធសាស្ត្របន្សាំ (AUC: ០.៩៧៦)។
Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)	មានភាពបត់បែនខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលគ្មានស្លាក (Unlabeled datasets) ដោយប្រើប្រាស់មុខងារ RBF Kernel ។	ងាយរងឥទ្ធិពលពីការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) និងមានដំណើរការយឺតជាង kNN បន្តិចនៅក្នុងការសិក្សានេះ។	ទទួលបានលទ្ធផលល្អមធ្យម ទាំងលើទឹកជំនន់តំបន់ឆ្នេរ (AUC: ០.៩៤០) និងការបាក់ដី (AUC: ០.៨៦៦)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យកម្រិតខ្ពស់ ដោយសារការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រលម្អិត និងការព្យាករណ៍អាកាសធាតុស្មុគស្មាញ។

Dataset: ត្រូវការទិន្នន័យភូមិសាស្ត្រលម្អិត (DEM គុណភាពខ្ពស់) កំណត់ត្រាទឹកជំនន់ និងបាក់ដីចាស់ៗ និងការព្យាករណ៍អាកាសធាតុ (RCMs និង RCP Scenarios)។
Software: ត្រូវការកម្មវិធីប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) សម្រាប់ការរៀបចំទិន្នន័យលំហ និងភាសាកម្មវិធី (Python/R) សម្រាប់ដំណើរការម៉ូដែល Machine Learning។
Hardware: ត្រូវការកុំព្យូទ័រមានកម្លាំងប្រតិបត្តិការខ្ពស់ (CPU/GPU ខ្លាំង) ដើម្បីដំណើរការម៉ូដែលរាប់ម៉ឺនដង (Iterations) ក្នុងគោលបំណងកាត់បន្ថយភាពមិនច្បាស់លាស់។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Science) ការសរសេរកូដម៉ាស៊ីនរៀន និងការវិភាគទិន្នន័យលំហ (Spatial Analysis)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅប្រទេសកូរ៉េខាងត្បូង ដោយប្រើប្រាស់ទិន្នន័យលម្អិតកម្រិតខ្ពស់ (High-resolution data) និងហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងជឿនលឿន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យប្រវត្តិគ្រោះមហន្តរាយដែលមានភាពសុក្រឹត និងទិន្នន័យសណ្ឋានដីលម្អិត អាចជាឧបសគ្គចម្បងក្នុងការទទួលបានលទ្ធផលការព្យាករណ៍ដែលមានភាពជាក់លាក់ដូចគ្នានេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមខាងផ្នែកទិន្នន័យក៏ដោយ វិធីសាស្ត្រ និងក្របខណ្ឌនៃការសិក្សានេះពិតជាមានអត្ថប្រយោជន៍ និងអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ប្រទេសកម្ពុជាបាន។

តំបន់ឆ្នេរសមុទ្រកម្ពុជា (កែប កំពត ព្រះសីហនុ និងកោះកុង): អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីវាយតម្លៃហានិភ័យទឹកជំនន់តំបន់ឆ្នេរដែលបណ្តាលមកពីការកើនឡើងកម្ពស់ទឹកសមុទ្រ និងវាយតម្លៃជម្រើសរវាងការរក្សាទុកព្រៃកោងកាង (Nature-based solutions) ធៀបនឹងការសាងសង់ទំនប់ថ្ម។
តំបន់ភ្នំ និងខ្ពង់រាប (ឧទាហរណ៍៖ ជួរភ្នំក្រវាញ រតនគិរី មណ្ឌលគិរី): អាចអនុវត្តក្បួនដោះស្រាយ Random Forest ដើម្បីកំណត់តំបន់ងាយរងគ្រោះពីការបាក់ដីនៅរដូវវស្សា ជាពិសេសតំបន់ដែលមានការកាប់បំផ្លាញព្រៃឈើ ឬការសាងសង់ផ្លូវថ្មីៗ។
ការរៀបចំផែនការអភិវឌ្ឍន៍ទីក្រុង (Urban Planning): ស្ថាប័នរដ្ឋាភិបាល (ដូចជាក្រសួងរៀបចំដែនដី) អាចប្រើប្រាស់លទ្ធផលនៃការទស្សន៍ទាយ ដើម្បីចៀសវាងការអនុញ្ញាតឲ្យមានគម្រោងសាងសង់ធំៗនៅក្នុងតំបន់ដែលមានហានិភ័យខ្ពស់នាពេលអនាគត។

ជារួម ការបញ្ជ្រាបបច្ចេកវិទ្យាម៉ាស៊ីនរៀន (Machine Learning) ទៅក្នុងការវិភាគគ្រោះមហន្តរាយ នឹងជួយឲ្យកម្ពុជាផ្លាស់ប្តូរពីការឆ្លើយតបក្រោយពេលមានគ្រោះថ្នាក់ ទៅជាការត្រៀមលក្ខណៈជាមុនប្រកបដោយប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងរៀបចំទិន្នន័យ (Data Collection & Preprocessing): និស្សិតត្រូវស្វែងរកទិន្នន័យសណ្ឋានដី (DEM) ពីប្រភពបើកទូលាយដូចជា USGS Earth Explorer ទិន្នន័យអាកាសធាតុពី MOWRAM ឬ CHIRPS រួចប្រើប្រាស់កម្មវិធី QGIS ដើម្បីកំណត់ប្រព័ន្ធកូអរដោនេ និងទំហំក្រឡាចត្រង្គ (Grid size) ឲ្យត្រូវគ្នា។
ការស្វែងយល់ពីក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Learn ML Algorithms): ចាប់ផ្តើមអនុវត្តការសរសេរកូដជាភាសា Python ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn ដើម្បីសាកល្បងដំណើរការម៉ូដែល kNN និង Random Forest លើសំណុំទិន្នន័យតូចៗ (Sample data) ជាមុន។
ការដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា (Handle Imbalanced Data): ដោយសារកំណត់ត្រាគ្រោះមហន្តរាយមានចំនួនតិចជាងទីតាំងដែលមិនមានគ្រោះថ្នាក់ និស្សិតត្រូវប្រើប្រាស់បច្ចេកទេស Under-sampling ឬ SMOTE នៅក្នុង Python ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកការទាយថា 'មិនមានគ្រោះថ្នាក់' ជានិច្ចនោះទេ។
ការបញ្ចូនសេណារីយ៉ូអនាគត (Integrate Future Scenarios): បញ្ចូលទិន្នន័យព្យាករណ៍អាកាសធាតុ (ឧទាហរណ៍ RCP 4.5 ឬ RCP 8.5) ទៅក្នុងម៉ូដែលដែលបានបង្វឹក (Trained model) ដើម្បីគណនាប្រូបាប៊ីលីតេនៃហានិភ័យសម្រាប់ឆ្នាំគោលដៅ ដូចជាឆ្នាំ ២០៣០ ឬ ២០៥០។
ការគូសផែនទី និងធ្វើសេចក្តីរាយការណ៍ (Risk Mapping & Visualization): នាំចេញលទ្ធផលប្រូបាប៊ីលីតេពី Python ទៅកាន់កម្មវិធី QGIS ឬ ArcGIS ដើម្បីគូសជាផែនទីពណ៌ (Heatmap) បង្ហាញពីតំបន់ហានិភ័យ និងស្នើជាដំណោះស្រាយផ្អែកលើធម្មជាតិសម្រាប់តំបន់ទាំងនោះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Representative Concentration Pathway (RCP)	ជាសេណារីយ៉ូដែលព្យាករណ៍ពីកម្រិតនៃការបញ្ចេញឧស្ម័នផ្ទះកញ្ចក់នាពេលអនាគតដោយផ្អែកលើសកម្មភាពមនុស្ស។ ឧទាហរណ៍ RCP 8.5 គឺជាសេណារីយ៉ូអាក្រក់បំផុត (Worst-case scenario) ដែលការបញ្ចេញឧស្ម័ននៅតែកើនឡើងដោយគ្មានការទប់ស្កាត់។	ដូចជាការទាយទុកថាតើអាកាសធាតុនឹងក្តៅកម្រិតណា ប្រសិនបើយើងនៅតែបន្តដុតសំរាមដោយមិនព្រមឈប់។
Regional Climate Models (RCMs)	ជាម៉ូដែលអាកាសធាតុខ្នាតតូចដែលយកទិន្នន័យពីម៉ូដែលអាកាសធាតុពិភពលោក (GCMs) មកបំបែកឱ្យលម្អិត និងជាក់លាក់សម្រាប់តំបន់ណាមួយ ដើម្បីទស្សន៍ទាយពីទឹកភ្លៀង ឬកម្ពស់ទឹកសមុទ្របានកាន់តែច្បាស់លាស់។	ដូចជាការប្រើប្រាស់កែវពង្រីក (Magnifying glass) មើលលើផែនទីពិភពលោក ដើម្បីផ្តោតមើលការព្យាករណ៍អាកាសធាតុឱ្យបានច្បាស់សម្រាប់តែប្រទេសរបស់យើង។
Random Forest (RF)	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនដើម ហើយយកលទ្ធផលដែលដើមឈើភាគច្រើនយល់ស្របគ្នាមកធ្វើជាការសម្រេចចិត្ត ឬការព្យាករណ៍ចុងក្រោយ។	ដូចជាការសួរយោបល់ពីមនុស្ស ១០០ នាក់អំពីបញ្ហាមួយ ហើយយកចម្លើយណាដែលមានអ្នកគាំទ្រច្រើនជាងគេបំផុតជាការសម្រេចចិត្ត។
k-Nearest Neighbor (kNN)	ជាក្បួនដោះស្រាយដែលទស្សន៍ទាយឬចាត់ថ្នាក់ចំណុចទិន្នន័យថ្មីមួយ ដោយពឹងផ្អែកទៅលើលក្ខណៈនៃចំណុចទិន្នន័យចាស់ៗដែលនៅក្បែរវាបំផុត (ចំនួន k) នៅក្នុងប្រព័ន្ធទិន្នន័យ។	ដូចជាសុភាសិត "សេពគប់ពាល គឺពាល" មានន័យថាយើងអាចទាយដឹងពីចរិតមនុស្សម្នាក់ ដោយសង្កេតមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គេ។
Receiver Operating Characteristic (ROC)	ជាខ្សែកោងក្រាហ្វិកប្រើសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវរបស់ម៉ូដែល Machine Learning ដោយប្រៀបធៀបរវាងអត្រានៃការទាយត្រូវពិតប្រាកដ (True Positive) និងអត្រានៃការទាយខុស (False Positive)។ កាលណាផ្ទៃក្រោមខ្សែធ្នូ (AUC) កៀកនឹង 1 ម៉ូដែលកាន់តែមានភាពសុក្រឹត។	ដូចជារបាយការណ៍ពិន្ទុប្រឡងរបស់សិស្សម្នាក់ បើបានពិន្ទុកាន់តែជិត ១០០ គឺបញ្ជាក់ថាសិស្សនោះឆ្លើយសំណួរត្រូវច្រើនជាងខុស។
Under-sampling	ជាបច្ចេកទេសក្នុងវិទ្យាសាស្ត្រទិន្នន័យសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា ដោយកាត់បន្ថយចំនួនទិន្នន័យនៃក្រុមដែលមានទំហំធំ ឱ្យមកស្មើនឹងក្រុមដែលមានទិន្នន័យតិច ដើម្បីកុំឱ្យម៉ូដែលព្យាករណ៍មានភាពលម្អៀង។	ដូចជាការរៀបចំក្រុមបាល់ទាត់ពីរដែលមានសមាជិកមិនស្មើគ្នា ដោយយើងត្រូវដកកីឡាករពីក្រុមធំចេញខ្លះ ដើម្បីឱ្យការប្រកួតមានភាពស្មើគ្នា។
Nature-based Solutions (NBS)	ជាយុទ្ធសាស្ត្រក្នុងការដោះស្រាយបញ្ហាបរិស្ថានដោយពឹងផ្អែកលើប្រព័ន្ធអេកូឡូស៊ីធម្មជាតិ ដូចជាការបង្កើតលំហបៃតង ឧទ្យាន ឬការដាំព្រៃកោងកាង ដើម្បីស្រូបយកទឹកភ្លៀង និងទប់ស្កាត់ទឹកជំនន់ ជាជាងការសាងសង់ហេដ្ឋារចនាសម្ព័ន្ធពណ៌ប្រផេះ (ជញ្ជាំងបេតុង ឬទំនប់)។	ដូចជាការប្រើប្រាស់អេប៉ុង (ធម្មជាតិ) ដើម្បីជូតស្រូបយកទឹកដែលកំពុងកំពប់ ជាជាងការយកបន្ទះក្តារមកាំងទប់ទឹកមិនឱ្យហូរ។
Multi-collinearity	ជាបាតុភូតក្នុងគំរូស្ថិតិដែលអថេរឯករាជ្យ (កត្តាជះឥទ្ធិពល) ពីរ ឬច្រើន មានទំនាក់ទំនងគ្នាយ៉ាងជិតស្និទ្ធ ឬត្រួតស៊ីគ្នា ដែលធ្វើឱ្យម៉ូដែលពិបាកកំណត់ថាអថេរមួយណាជាអ្នកជះឥទ្ធិពលពិតប្រាកដ។ វាត្រូវបានវាស់ស្ទង់ដោយតម្លៃ VIF (Variance Inflation Factor)។	ដូចជាមានមនុស្សពីរនាក់ច្រៀងបទតែមួយដំណាលគ្នា ដែលធ្វើឱ្យយើងពិបាកស្តាប់ដឹងថាតើសំឡេងមួយណាជាអ្នកច្រៀងបានពិរោះជាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖