Original Title: Landslide Susceptibility Mapping Under Climate Change Scenarios Using XGBoost Algorithm
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដីក្រោមសេណារីយ៉ូនៃការប្រែប្រួលអាកាសធាតុដោយប្រើប្រាស់ក្បួនដោះស្រាយ XGBoost

ចំណងជើងដើម៖ Landslide Susceptibility Mapping Under Climate Change Scenarios Using XGBoost Algorithm

អ្នកនិពន្ធ៖ Arhat Ratna Kansakar (Tribhuvan University, Nepal), Bhim Kumar Dahal (Tribhuvan University, Nepal)

ឆ្នាំបោះពុម្ព៖ 2024 (Proceedings of 15th IOE Graduate Conference)

វិស័យសិក្សា៖ Geoscience and Environmental Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រទេសនេប៉ាល់ងាយរងគ្រោះខ្លាំងដោយសារការបាក់ដីដែលបង្កឡើងដោយភ្លៀងមូសុង ហើយការប្រែប្រួលអាកាសធាតុត្រូវបានព្យាករណ៍ថានឹងធ្វើឱ្យមានភ្លៀងធ្លាក់ខ្លាំងកាន់តែធ្ងន់ធ្ងរ។ ឯកសារនេះផ្ដោតទៅលើការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដីនាពេលអនាគត ក្រោមសេណារីយ៉ូនៃការប្រែប្រួលអាកាសធាតុផ្សេងៗគ្នា ដើម្បីជួយដល់ការត្រៀមរៀបចំទប់ទល់នឹងគ្រោះមហន្តរាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្បួនដោះស្រាយយន្តការសិក្សា (Machine Learning) ប្រភេទ XGBoost រួមជាមួយនឹងកត្តាបង្កការបាក់ដីចំនួន ១២ និងម៉ូដែលអាកាសធាតុ CMIP6 ដើម្បីបង្កើតផែនទីភាពងាយរងគ្រោះនៅស្រុក Lamjung។

ការប្រមូលទិន្នន័យកត្តាបង្កការបាក់ដី (Landslide-triggering factors data collection)
ការកសាងគំរូដោយប្រើក្បួនដោះស្រាយ (Model building using XGBoost algorithm)
ការព្យាករណ៍ទឹកភ្លៀងនាពេលអនាគតជាមួយម៉ូដែល (Future precipitation projection with CMIP6 models)
ការវាយតម្លៃសមត្ថភាពគំរូដោយប្រើរង្វាស់រង្វាល់ (Model performance evaluation using metrics like AUC, Precision, and Recall)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ XGBoost មានដំណើរការយ៉ាងល្អប្រសើរ ដោយមានភាពត្រឹមត្រូវ (Accuracy) ៩៣.៨% និងតម្លៃ AUC ៩៨.១% សម្រាប់ការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដី។
ភាពងាយរងគ្រោះដោយការបាក់ដីនាពេលអនាគតត្រូវបានព្យាករណ៍ថានឹងកើនឡើងនៅក្នុងកម្រិតខ្ពស់ និងខ្ពស់បំផុត ក្រោមសេណារីយ៉ូអាកាសធាតុ SSP245 និង SSP585 បើប្រៀបធៀបទៅនឹងរយៈពេលមូលដ្ឋាន (១៩៩៥-២០២០)។
ប្រហែល ២៨.៩៤% (៥៦០.១៣ គីឡូម៉ែត្រ) នៃបណ្តាញផ្លូវនៅក្នុងតំបន់សិក្សា ត្រូវបានរកឃើញថាស្ថិតនៅក្នុងតំបន់ងាយរងគ្រោះដោយការបាក់ដីកម្រិតខ្ពស់ និងខ្ពស់បំផុត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
XGBoost (Extreme Gradient Boosting) ក្បួនដោះស្រាយយន្តការសិក្សាប្រភេទដើមឈើ (Tree-based Ensemble Machine Learning)	មានសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយការរៀនទន្ទេញ (Overfitting) និងផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់ការទស្សន៍ទាយគ្រោះធម្មជាតិ។	ទាមទារទិន្នន័យច្រើននិងមានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ជាងម៉ូដែលធម្មតា។	សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៣.៨% និងផ្ទៃក្រោមខ្សែកោង (AUC) រហូតដល់ ៩៨.១% សម្រាប់ការគូសផែនទី។
Traditional ML Models (LR, SVM, RF) ម៉ូដែលយន្តការសិក្សាបែបប្រពៃណី (ដូចជា Logistic Regression, Support Vector Machine និង Random Forest ដែលបានលើកឡើងក្នុងការសិក្សាប្រៀបធៀប)	ងាយស្រួលក្នុងការស្វែងយល់ ការអនុវត្ត និងមិនសូវត្រូវការកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំងក្នុងការដំណើរការ។	មានដំណើរការនិងប្រសិទ្ធភាពទាបជាងបន្តិចក្នុងការចាប់យកទំនាក់ទំនងស្មុគស្មាញនៃកត្តាបង្កការបាក់ដី បើធៀបនឹង XGBoost។	ត្រូវបានបង្ហាញតាមរយៈឯកសារយោងថា មានសមត្ថភាពទាបជាងក្នុងការទស្សន៍ទាយបើប្រៀបធៀបជាមួយវិធីសាស្ត្រ XGBoost។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីទំហំកម្លាំងម៉ាស៊ីនជាក់លាក់ទេ ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រនេះទាមទារនូវកម្មវិធីជំនាញ និងទិន្នន័យភូមិសាស្ត្ររួមបញ្ចូលគ្នាដ៏ច្រើន។

Software: ត្រូវការកម្មវិធី ArcGIS/QGIS សម្រាប់វិភាគទិន្នន័យភូមិសាស្ត្រ, R Studio សម្រាប់កែតម្រូវទិន្នន័យអាកាសធាតុ និង Python សម្រាប់ដំណើរការម៉ូដែល XGBoost។
Dataset: ទាមទារទិន្នន័យអាកាសធាតុ CMIP6, រូបភាព Google Earth, ទិន្នន័យនីវ៉ូដី (DEM), និងទិន្នន័យប្រើប្រាស់ដីធ្លី។
Hardware: ត្រូវការកុំព្យូទ័រដែលមានកម្លាំង CPU ខ្ពស់ និង RAM ធំល្មមសម្រាប់ដំណើរការទិន្នន័យ Spatial ធំៗ និងការបង្វឹកម៉ូដែល Machine Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ជួរភ្នំហិម៉ាល័យនៃស្រុក Lamjung ប្រទេសនេប៉ាល់ ដែលជាតំបន់មានរចនាសម្ព័ន្ធភូមិសាស្ត្រផុយស្រួយ និងទទួលរងភ្លៀងមូសុងយ៉ាងខ្លាំងក្លា។ ទោះបីជាប្រទេសកម្ពុជាមិនមានភូមិសាស្ត្រភ្នំខ្ពស់ដូចនេប៉ាល់ក៏ដោយ ប៉ុន្តែទិន្នន័យនៃឥទ្ធិពលទឹកភ្លៀងមូសុងទៅលើជម្រាលដី គឺមានលក្ខណៈប្រហាក់ប្រហែលគ្នានិងមានសារៈសំខាន់ខ្លាំងសម្រាប់តំបន់ខ្ពង់រាបនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការរួមបញ្ចូលម៉ូដែលអាកាសធាតុជាមួយ Machine Learning នេះ មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីពង្រឹងការគ្រប់គ្រងហានិភ័យគ្រោះមហន្តរាយ។

ការវាយតម្លៃហានិភ័យហេដ្ឋារចនាសម្ព័ន្ធផ្លូវថ្នល់ (ក្រសួងសាធារណការ និងដឹកជញ្ជូន): អាចប្រើដើម្បីវាយតម្លៃ និងរៀបចំវិធានការការពារការបាក់ដីតាមបណ្តោយផ្លូវជាតិសំខាន់ៗនៅតំបន់ភ្នំ ដូចជាផ្លូវជាតិលេខ៤ (តំបន់ពេជ្រនិល) ឬបណ្តាញផ្លូវនៅខេត្តមណ្ឌលគិរី និងរតនគិរី។
ការគ្រប់គ្រងគ្រោះមហន្តរាយ (គណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ - NCDM): អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីបង្កើតផែនទីប្រកាសអាសន្ន និងផែនការជម្លៀសប្រជាជនជាមុន សម្រាប់ខេត្តដែលងាយរងគ្រោះដោយការបាក់ដីនៅរដូវវស្សា ដូចជាខេត្តកោះកុង ពោធិ៍សាត់ និងកំពត។
ការបន្សាំទៅនឹងការប្រែប្រួលអាកាសធាតុ (ក្រសួងបរិស្ថាន): អាចប្រើដើម្បីព្យាករណ៍ពីការកើនឡើងនៃតំបន់ហានិភ័យនៅក្រោមសេណារីយ៉ូអាកាសធាតុនាពេលអនាគត ដើម្បីរៀបចំគោលនយោបាយប្រើប្រាស់ដីធ្លីឱ្យបានត្រឹមត្រូវ។

សរុបមក ការអនុវត្តវិធីសាស្ត្រនេះនឹងផ្តល់នូវមូលដ្ឋានទិន្នន័យរឹងមាំមួយ ជួយដល់អ្នកធ្វើការសម្រេចចិត្តក្នុងការកាត់បន្ថយហានិភ័យនិងការពារអាយុជីវិតប្រជាជននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងរៀបចំទិន្នន័យមូលដ្ឋាន: ប្រើប្រាស់កម្មវិធី Google Earth ដើម្បីកំណត់ទីតាំងដែលធ្លាប់បាក់ដីកន្លងមក និងប្រមូលទិន្នន័យភូមិសាស្ត្រ (ដូចជាកម្រិតជម្រាលពី DEM) មកបញ្ចូលក្នុង ArcGIS រួចទាញយកជាឯកសារ Excel សម្រាប់វិភាគ។
ការព្យាករណ៍អាកាសធាតុ និងការកែតម្រូវទិន្នន័យ (Bias Correction): ទាញយកទិន្នន័យអាកាសធាតុ CMIP6 (សេណារីយ៉ូ SSPs) រួចប្រើប្រាស់កម្មវិធី R Studio ជាមួយនឹងវិធីសាស្ត្រ Robust Empirical Quantiles ដើម្បីធ្វើការកែតម្រូវទិន្នន័យ (Bias-correction) ឱ្យត្រូវនឹងទិន្នន័យទឹកភ្លៀងជាក់ស្តែងប្រចាំតំបន់។
ការបង្វឹកម៉ូដែល Machine Learning: ប្រើប្រាស់ភាសា Python ជាពិសេសបណ្ណាល័យ scikit-learn និង xgboost ដើម្បីបង្វឹកម៉ូដែល ដោយបែងចែកទិន្នន័យជា Training (៧០%) និង Testing (៣០%) ព្រមទាំងវាស់ស្ទង់លទ្ធផលតាមរយៈ AUC និង Accuracy។
ការគូសផែនទីហានិភ័យ និងការវាយតម្លៃផលប៉ះពាល់: នាំយកលទ្ធផលដែលម៉ូដែលបានទស្សន៍ទាយទៅក្នុងកម្មវិធី ArcGIS ឬ QGIS ដើម្បីបង្កើតផែនទីហានិភ័យ (Susceptibility Map) ហើយធ្វើការត្រួតស៊ីគ្នា (Spatial Overlay Analysis) ជាមួយផែនទីបណ្តាញផ្លូវ ដើម្បីស្វែងរកតំបន់ដែលងាយរងគ្រោះបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
XGBoost	ក្បួនដោះស្រាយយន្តការសិក្សា (Machine Learning) ប្រភេទដើមឈើសម្រេចចិត្ត (Decision Trees) ដែលធ្វើការផ្គុំគ្នានិងរៀនពីកំហុសរបស់ម៉ូដែលមុនៗ ដើម្បីទស្សន៍ទាយលទ្ធផលបានកាន់តែច្បាស់លាស់ និងកាត់បន្ថយបញ្ហា Overfitting។	ដូចជាក្រុមសិស្សពិភាក្សាគ្នាធ្វើលំហាត់ ដោយសិស្សម្នាក់ៗជួយកែតម្រូវកំហុសរបស់សិស្សមុនៗ រហូតទទួលបានចម្លើយត្រឹមត្រូវបំផុត។
Landslide Susceptibility Mapping (LSM)	ដំណើរការនៃការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រ អាកាសធាតុ និងប្រវត្តិបាក់ដី ដើម្បីគណនា និងបង្កើតជាផែនទីបង្ហាញពីកម្រិតហានិភ័យ ឬតំបន់ដែលងាយនឹងរងគ្រោះដោយការបាក់ដីនៅពេលអនាគត។	ដូចជាការគូសផែនទីបង្ហាញតំបន់ដែលឧស្សាហ៍មានគ្រោះថ្នាក់ចរាចរណ៍ ដើម្បីឲ្យអ្នកដំណើរប្រុងប្រយ័ត្នពេលឆ្លងកាត់ទីនោះ។
CMIP6	គម្រោងសហការអន្តរជាតិដែលប្រមូលផ្តុំម៉ូដែលអាកាសធាតុពីជុំវិញពិភពលោក ដើម្បីព្យាករណ៍ពីការប្រែប្រួលអាកាសធាតុ ដូចជាសីតុណ្ហភាព និងបរិមាណទឹកភ្លៀងនៅទសវត្សរ៍ក្រោយៗ។	ដូចជាការប្រមូលផ្តុំគ្រូទាយអាកាសធាតុពូកែៗមកពីជុំវិញពិភពលោក ដើម្បីទស្សន៍ទាយរួមគ្នាថាតើឆ្នាំក្រោយៗនឹងមានភ្លៀងធ្លាក់កម្រិតណា។
Shared Socio-economic Pathways (SSPs)	សេណារីយ៉ូ ឬផ្លូវជ្រើសរើសនៃការអភិវឌ្ឍសេដ្ឋកិច្ចនិងសង្គមនាពេលអនាគត ដែលត្រូវបានប្រើដើម្បីប៉ាន់ស្មានពីបរិមាណនៃការបញ្ចេញឧស្ម័នផ្ទះកញ្ចក់ និងផលប៉ះពាល់នៃការប្រែប្រួលអាកាសធាតុ (ឧទាហរណ៍ SSP245 គឺការបញ្ចេញឧស្ម័នកម្រិតមធ្យម និង SSP585 គឺកម្រិតខ្ពស់បំផុត)។	ដូចជាការបង្កើតជម្រើសសាច់រឿងអនាគតពីរ៖ មួយគឺមនុស្សខំដាំដើមឈើនិងការពារបរិស្ថាន ហើយមួយទៀតគឺមនុស្សបន្តកាប់បំផ្លាញនិងបង្កើតការបំពុលយ៉ាងខ្លាំង។
Area under the Curve (AUC)	រង្វាស់រង្វាល់មួយនៅក្នុងស្ថិតិដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning ថាតើវាអាចបែងចែកបានត្រឹមត្រូវកម្រិតណារវាងតំបន់ដែលមាន និងគ្មានការបាក់ដី។	ដូចជាពិន្ទុប្រឡងសញ្ញាបត្ររបស់សិស្សម្នាក់អញ្ចឹង បើបានពិន្ទុ ៩៨/១០០ មានន័យថាសិស្សនោះពិតជាមានសមត្ថភាពខ្ពស់ក្នុងការឆ្លើយសំណួរបានត្រឹមត្រូវ។
Digital Elevation Model (DEM)	ទិន្នន័យរូបភាពជាទម្រង់ឌីជីថលដែលតំណាងឱ្យកម្ពស់និងទម្រង់នៃផ្ទៃដី ដោយមិនរាប់បញ្ចូលដើមឈើ ឬអគារឡើយ ដែលគេប្រើវាដើម្បីគណនាកម្រិតជម្រាល និងមុខទឹកហូរ។	ដូចជាការយកក្រណាត់ទៅគ្របលើគំនូរខ្សាច់ ដើម្បីមើលឲ្យច្បាស់ពីទម្រង់ភ្នំ ជ្រលង និងទីទួល ដោយមិនខ្វល់ពីរបស់រាយប៉ាយនៅលើនោះ។
Bias Correction	ដំណើរការគណនាកែតម្រូវទិន្នន័យព្យាករណ៍អាកាសធាតុខ្នាតធំ (GCM) ឱ្យស្របទៅនឹងទិន្នន័យជាក់ស្តែងក្នុងតំបន់តូចមួយ ដើម្បីកាត់បន្ថយភាពល្អៀង ឬកំហុសឆ្គងមុននឹងយកទៅប្រើប្រាស់ក្នុងម៉ូដែល។	ដូចជាការសារ៉េនាឡិកាដៃរបស់អ្នកដែលដើរលឿនជាងម៉ោងធម្មតា ៥នាទី ឱ្យត្រូវជាមួយនឹងម៉ោងស្តង់ដារនៅលើទូរស័ព្ទដៃវិញ។
Spatial overlay analysis	បច្ចេកទេសក្នុងប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) ដែលយកស្រទាប់ផែនទីច្រើន (ដូចជាផែនទីហានិភ័យបាក់ដី និងផែនទីផ្លូវថ្នល់) មកត្រួតស៊ីគ្នា ដើម្បីរកមើលទំនាក់ទំនង ឬតំបន់ដែលរងផលប៉ះពាល់។	ដូចជាការយកផ្ទាំងកញ្ចក់ថ្លាដែលគូសគំនូសផ្សេងៗគ្នា (មួយគូសតំបន់គ្រោះថ្នាក់ មួយគូសផ្លូវ) មកដាក់ត្រួតលើគ្នា ដើម្បីមើលថាផ្លូវណាខ្លះឆ្លងកាត់តំបន់គ្រោះថ្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖