Original Title: Landslide Susceptibility Mapping Under Climate Change Scenarios Using XGBoost Algorithm
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដីក្រោមសេណារីយ៉ូនៃការប្រែប្រួលអាកាសធាតុដោយប្រើប្រាស់ក្បួនដោះស្រាយ XGBoost

ចំណងជើងដើម៖ Landslide Susceptibility Mapping Under Climate Change Scenarios Using XGBoost Algorithm

អ្នកនិពន្ធ៖ Arhat Ratna Kansakar (Tribhuvan University, Nepal), Bhim Kumar Dahal (Tribhuvan University, Nepal)

ឆ្នាំបោះពុម្ព៖ 2024 (Proceedings of 15th IOE Graduate Conference)

វិស័យសិក្សា៖ Geoscience and Environmental Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រទេសនេប៉ាល់ងាយរងគ្រោះខ្លាំងដោយសារការបាក់ដីដែលបង្កឡើងដោយភ្លៀងមូសុង ហើយការប្រែប្រួលអាកាសធាតុត្រូវបានព្យាករណ៍ថានឹងធ្វើឱ្យមានភ្លៀងធ្លាក់ខ្លាំងកាន់តែធ្ងន់ធ្ងរ។ ឯកសារនេះផ្ដោតទៅលើការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដីនាពេលអនាគត ក្រោមសេណារីយ៉ូនៃការប្រែប្រួលអាកាសធាតុផ្សេងៗគ្នា ដើម្បីជួយដល់ការត្រៀមរៀបចំទប់ទល់នឹងគ្រោះមហន្តរាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្បួនដោះស្រាយយន្តការសិក្សា (Machine Learning) ប្រភេទ XGBoost រួមជាមួយនឹងកត្តាបង្កការបាក់ដីចំនួន ១២ និងម៉ូដែលអាកាសធាតុ CMIP6 ដើម្បីបង្កើតផែនទីភាពងាយរងគ្រោះនៅស្រុក Lamjung។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
XGBoost (Extreme Gradient Boosting)
ក្បួនដោះស្រាយយន្តការសិក្សាប្រភេទដើមឈើ (Tree-based Ensemble Machine Learning)
មានសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយការរៀនទន្ទេញ (Overfitting) និងផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់ការទស្សន៍ទាយគ្រោះធម្មជាតិ។ ទាមទារទិន្នន័យច្រើននិងមានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ជាងម៉ូដែលធម្មតា។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៣.៨% និងផ្ទៃក្រោមខ្សែកោង (AUC) រហូតដល់ ៩៨.១% សម្រាប់ការគូសផែនទី។
Traditional ML Models (LR, SVM, RF)
ម៉ូដែលយន្តការសិក្សាបែបប្រពៃណី (ដូចជា Logistic Regression, Support Vector Machine និង Random Forest ដែលបានលើកឡើងក្នុងការសិក្សាប្រៀបធៀប)
ងាយស្រួលក្នុងការស្វែងយល់ ការអនុវត្ត និងមិនសូវត្រូវការកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំងក្នុងការដំណើរការ។ មានដំណើរការនិងប្រសិទ្ធភាពទាបជាងបន្តិចក្នុងការចាប់យកទំនាក់ទំនងស្មុគស្មាញនៃកត្តាបង្កការបាក់ដី បើធៀបនឹង XGBoost។ ត្រូវបានបង្ហាញតាមរយៈឯកសារយោងថា មានសមត្ថភាពទាបជាងក្នុងការទស្សន៍ទាយបើប្រៀបធៀបជាមួយវិធីសាស្ត្រ XGBoost។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីទំហំកម្លាំងម៉ាស៊ីនជាក់លាក់ទេ ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រនេះទាមទារនូវកម្មវិធីជំនាញ និងទិន្នន័យភូមិសាស្ត្ររួមបញ្ចូលគ្នាដ៏ច្រើន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ជួរភ្នំហិម៉ាល័យនៃស្រុក Lamjung ប្រទេសនេប៉ាល់ ដែលជាតំបន់មានរចនាសម្ព័ន្ធភូមិសាស្ត្រផុយស្រួយ និងទទួលរងភ្លៀងមូសុងយ៉ាងខ្លាំងក្លា។ ទោះបីជាប្រទេសកម្ពុជាមិនមានភូមិសាស្ត្រភ្នំខ្ពស់ដូចនេប៉ាល់ក៏ដោយ ប៉ុន្តែទិន្នន័យនៃឥទ្ធិពលទឹកភ្លៀងមូសុងទៅលើជម្រាលដី គឺមានលក្ខណៈប្រហាក់ប្រហែលគ្នានិងមានសារៈសំខាន់ខ្លាំងសម្រាប់តំបន់ខ្ពង់រាបនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការរួមបញ្ចូលម៉ូដែលអាកាសធាតុជាមួយ Machine Learning នេះ មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីពង្រឹងការគ្រប់គ្រងហានិភ័យគ្រោះមហន្តរាយ។

សរុបមក ការអនុវត្តវិធីសាស្ត្រនេះនឹងផ្តល់នូវមូលដ្ឋានទិន្នន័យរឹងមាំមួយ ជួយដល់អ្នកធ្វើការសម្រេចចិត្តក្នុងការកាត់បន្ថយហានិភ័យនិងការពារអាយុជីវិតប្រជាជននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូល និងរៀបចំទិន្នន័យមូលដ្ឋាន: ប្រើប្រាស់កម្មវិធី Google Earth ដើម្បីកំណត់ទីតាំងដែលធ្លាប់បាក់ដីកន្លងមក និងប្រមូលទិន្នន័យភូមិសាស្ត្រ (ដូចជាកម្រិតជម្រាលពី DEM) មកបញ្ចូលក្នុង ArcGIS រួចទាញយកជាឯកសារ Excel សម្រាប់វិភាគ។
  2. ការព្យាករណ៍អាកាសធាតុ និងការកែតម្រូវទិន្នន័យ (Bias Correction): ទាញយកទិន្នន័យអាកាសធាតុ CMIP6 (សេណារីយ៉ូ SSPs) រួចប្រើប្រាស់កម្មវិធី R Studio ជាមួយនឹងវិធីសាស្ត្រ Robust Empirical Quantiles ដើម្បីធ្វើការកែតម្រូវទិន្នន័យ (Bias-correction) ឱ្យត្រូវនឹងទិន្នន័យទឹកភ្លៀងជាក់ស្តែងប្រចាំតំបន់។
  3. ការបង្វឹកម៉ូដែល Machine Learning: ប្រើប្រាស់ភាសា Python ជាពិសេសបណ្ណាល័យ scikit-learn និង xgboost ដើម្បីបង្វឹកម៉ូដែល ដោយបែងចែកទិន្នន័យជា Training (៧០%) និង Testing (៣០%) ព្រមទាំងវាស់ស្ទង់លទ្ធផលតាមរយៈ AUC និង Accuracy។
  4. ការគូសផែនទីហានិភ័យ និងការវាយតម្លៃផលប៉ះពាល់: នាំយកលទ្ធផលដែលម៉ូដែលបានទស្សន៍ទាយទៅក្នុងកម្មវិធី ArcGISQGIS ដើម្បីបង្កើតផែនទីហានិភ័យ (Susceptibility Map) ហើយធ្វើការត្រួតស៊ីគ្នា (Spatial Overlay Analysis) ជាមួយផែនទីបណ្តាញផ្លូវ ដើម្បីស្វែងរកតំបន់ដែលងាយរងគ្រោះបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
XGBoost ក្បួនដោះស្រាយយន្តការសិក្សា (Machine Learning) ប្រភេទដើមឈើសម្រេចចិត្ត (Decision Trees) ដែលធ្វើការផ្គុំគ្នានិងរៀនពីកំហុសរបស់ម៉ូដែលមុនៗ ដើម្បីទស្សន៍ទាយលទ្ធផលបានកាន់តែច្បាស់លាស់ និងកាត់បន្ថយបញ្ហា Overfitting។ ដូចជាក្រុមសិស្សពិភាក្សាគ្នាធ្វើលំហាត់ ដោយសិស្សម្នាក់ៗជួយកែតម្រូវកំហុសរបស់សិស្សមុនៗ រហូតទទួលបានចម្លើយត្រឹមត្រូវបំផុត។
Landslide Susceptibility Mapping (LSM) ដំណើរការនៃការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រ អាកាសធាតុ និងប្រវត្តិបាក់ដី ដើម្បីគណនា និងបង្កើតជាផែនទីបង្ហាញពីកម្រិតហានិភ័យ ឬតំបន់ដែលងាយនឹងរងគ្រោះដោយការបាក់ដីនៅពេលអនាគត។ ដូចជាការគូសផែនទីបង្ហាញតំបន់ដែលឧស្សាហ៍មានគ្រោះថ្នាក់ចរាចរណ៍ ដើម្បីឲ្យអ្នកដំណើរប្រុងប្រយ័ត្នពេលឆ្លងកាត់ទីនោះ។
CMIP6 គម្រោងសហការអន្តរជាតិដែលប្រមូលផ្តុំម៉ូដែលអាកាសធាតុពីជុំវិញពិភពលោក ដើម្បីព្យាករណ៍ពីការប្រែប្រួលអាកាសធាតុ ដូចជាសីតុណ្ហភាព និងបរិមាណទឹកភ្លៀងនៅទសវត្សរ៍ក្រោយៗ។ ដូចជាការប្រមូលផ្តុំគ្រូទាយអាកាសធាតុពូកែៗមកពីជុំវិញពិភពលោក ដើម្បីទស្សន៍ទាយរួមគ្នាថាតើឆ្នាំក្រោយៗនឹងមានភ្លៀងធ្លាក់កម្រិតណា។
Shared Socio-economic Pathways (SSPs) សេណារីយ៉ូ ឬផ្លូវជ្រើសរើសនៃការអភិវឌ្ឍសេដ្ឋកិច្ចនិងសង្គមនាពេលអនាគត ដែលត្រូវបានប្រើដើម្បីប៉ាន់ស្មានពីបរិមាណនៃការបញ្ចេញឧស្ម័នផ្ទះកញ្ចក់ និងផលប៉ះពាល់នៃការប្រែប្រួលអាកាសធាតុ (ឧទាហរណ៍ SSP245 គឺការបញ្ចេញឧស្ម័នកម្រិតមធ្យម និង SSP585 គឺកម្រិតខ្ពស់បំផុត)។ ដូចជាការបង្កើតជម្រើសសាច់រឿងអនាគតពីរ៖ មួយគឺមនុស្សខំដាំដើមឈើនិងការពារបរិស្ថាន ហើយមួយទៀតគឺមនុស្សបន្តកាប់បំផ្លាញនិងបង្កើតការបំពុលយ៉ាងខ្លាំង។
Area under the Curve (AUC) រង្វាស់រង្វាល់មួយនៅក្នុងស្ថិតិដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning ថាតើវាអាចបែងចែកបានត្រឹមត្រូវកម្រិតណារវាងតំបន់ដែលមាន និងគ្មានការបាក់ដី។ ដូចជាពិន្ទុប្រឡងសញ្ញាបត្ររបស់សិស្សម្នាក់អញ្ចឹង បើបានពិន្ទុ ៩៨/១០០ មានន័យថាសិស្សនោះពិតជាមានសមត្ថភាពខ្ពស់ក្នុងការឆ្លើយសំណួរបានត្រឹមត្រូវ។
Digital Elevation Model (DEM) ទិន្នន័យរូបភាពជាទម្រង់ឌីជីថលដែលតំណាងឱ្យកម្ពស់និងទម្រង់នៃផ្ទៃដី ដោយមិនរាប់បញ្ចូលដើមឈើ ឬអគារឡើយ ដែលគេប្រើវាដើម្បីគណនាកម្រិតជម្រាល និងមុខទឹកហូរ។ ដូចជាការយកក្រណាត់ទៅគ្របលើគំនូរខ្សាច់ ដើម្បីមើលឲ្យច្បាស់ពីទម្រង់ភ្នំ ជ្រលង និងទីទួល ដោយមិនខ្វល់ពីរបស់រាយប៉ាយនៅលើនោះ។
Bias Correction ដំណើរការគណនាកែតម្រូវទិន្នន័យព្យាករណ៍អាកាសធាតុខ្នាតធំ (GCM) ឱ្យស្របទៅនឹងទិន្នន័យជាក់ស្តែងក្នុងតំបន់តូចមួយ ដើម្បីកាត់បន្ថយភាពល្អៀង ឬកំហុសឆ្គងមុននឹងយកទៅប្រើប្រាស់ក្នុងម៉ូដែល។ ដូចជាការសារ៉េនាឡិកាដៃរបស់អ្នកដែលដើរលឿនជាងម៉ោងធម្មតា ៥នាទី ឱ្យត្រូវជាមួយនឹងម៉ោងស្តង់ដារនៅលើទូរស័ព្ទដៃវិញ។
Spatial overlay analysis បច្ចេកទេសក្នុងប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) ដែលយកស្រទាប់ផែនទីច្រើន (ដូចជាផែនទីហានិភ័យបាក់ដី និងផែនទីផ្លូវថ្នល់) មកត្រួតស៊ីគ្នា ដើម្បីរកមើលទំនាក់ទំនង ឬតំបន់ដែលរងផលប៉ះពាល់។ ដូចជាការយកផ្ទាំងកញ្ចក់ថ្លាដែលគូសគំនូសផ្សេងៗគ្នា (មួយគូសតំបន់គ្រោះថ្នាក់ មួយគូសផ្លូវ) មកដាក់ត្រួតលើគ្នា ដើម្បីមើលថាផ្លូវណាខ្លះឆ្លងកាត់តំបន់គ្រោះថ្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖