Original Title: A Comparative Assessment of Machine Learning Models for Landslide Susceptibility Mapping in the Rugged Terrain of Northern Pakistan
Source: doi.org/10.3390/app12052280
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃប្រៀបធៀបនៃម៉ូដែលរៀនដោយម៉ាស៊ីនសម្រាប់ការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដីនៅក្នុងតំបន់ភ្នំនៃភាគខាងជើងប្រទេសប៉ាគីស្ថាន

ចំណងជើងដើម៖ A Comparative Assessment of Machine Learning Models for Landslide Susceptibility Mapping in the Rugged Terrain of Northern Pakistan

អ្នកនិពន្ធ៖ Naeem Shahzad (The Hong Kong Polytechnic University), Xiaoli Ding (The Hong Kong Polytechnic University), Sawaid Abbas (University of the Punjab)

ឆ្នាំបោះពុម្ព៖ 2022, Applied Sciences

វិស័យសិក្សា៖ Geosciences and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាគ្រោះថ្នាក់នៃការបាក់ដីនៅក្នុងតំបន់ភ្នំដែលមានសណ្ឋានដីស្មុគស្មាញនៃភាគខាងជើងប្រទេសប៉ាគីស្ថាន ដោយផ្តោតលើការស្វែងរកវិធីសាស្ត្រព្យាករណ៍ និងកំណត់តំបន់ហានិភ័យឱ្យបានសុក្រឹត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអនុវត្ត និងវាយតម្លៃប្រៀបធៀបម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ចំនួន ៥ ផ្សេងគ្នា ដើម្បីបង្កើតផែនទីភាពងាយរងគ្រោះដោយការបាក់ដី ដោយផ្អែកលើទិន្នន័យពីអតីតកាល និងកត្តាជម្រុញផ្សេងៗ។

ការប្រមូលទិន្នន័យទីតាំង (Landslide Inventory): ការប្រមូលទិន្នន័យទីតាំងបាក់ដីចំនួន ២០០ កន្លែង និងទីតាំងមិនមានការបាក់ដីចំនួន ២០០ កន្លែងសម្រាប់ការហ្វឹកហាត់ (Training 70%) និងការផ្ទៀងផ្ទាត់ (Validation 30%)។
កត្តាជម្រុញការបាក់ដី (Landslide Influencing Factors - LIFs): ការវិភាគលើកត្តាចំនួន ១២ ដូចជា កម្ពស់ ជម្រាល គម្របដី (LCLU) បរិមាណទឹកភ្លៀង និងចម្ងាយពីផ្លូវទឹកជាដើម។
ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Models): ការប្រើប្រាស់ម៉ូដែល Random Forest (RF), Support Vector Machine (SVM), Maximum Entropy (maxENT), Gradient-Boosting Machine (GBM), និង Logistic Regression (LR)។
ការវាយតម្លៃម៉ូដែល (Model Evaluation): ការប្រើប្រាស់ខ្សែកោងវិភាគ (AUC) ភាពសុក្រឹត (Accuracy) F1-Score និងសន្ទស្សន៍ការអនុវត្តរួម (POA) ដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Support Vector Machine (SVM) ទទួលបានលទ្ធផលល្អជាងគេបំផុត ជាមួយនឹងតម្លៃ AUC = 0.969 និងពិន្ទុអនុវត្តរួម POA = 2669។
ម៉ូដែល Random Forest (RF) និង Gradient Boosting Machine (GBM) ក៏បង្ហាញលទ្ធផលល្អប្រសើរខ្លាំងប្រហាក់ប្រហែលនឹង SVM ដែរ ហើយអាចប្រើប្រាស់ប្រកបដោយប្រសិទ្ធភាពខ្ពស់ដូចគ្នាសម្រាប់ការគូសផែនទី។
តាមការវិភាគកត្តាជម្រុញ បានបង្ហាញថា គម្របដី/ការប្រើប្រាស់ដី (LCLU), សន្ទស្សន៍រុក្ខជាតិ (NDVI), កម្ពស់ និងស្ថានភាពជម្រាល គឺជាកត្តាដែលជះឥទ្ធិពលខ្លាំងជាងគេបំផុតទៅលើការបាក់ដីនៅក្នុងតំបន់នោះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machine (SVM) ម៉ូដែល Support Vector Machine	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យដែលមានលក្ខណៈមិនលីនេអ៊ែរ (Non-linear) និងអាចបង្កើតផ្ទៃទស្សន៍ទាយបានយ៉ាងរលូនល្អ។	ទាមទារការសាកល្បងកំណត់ប៉ារ៉ាម៉ែត្រ (Parameter tuning) ច្រើន និងប្រើប្រាស់ពេលវេលាគណនាយូរសម្រាប់ទិន្នន័យធំៗ។	ទទួលបានលទ្ធផលល្អជាងគេបំផុតជាមួយពិន្ទុ AUC = 0.969 និងពិន្ទុអនុវត្តរួម (POA) = 2669។
Random Forest (RF) ម៉ូដែល Random Forest	មិនងាយជួបប្រទះបញ្ហា Overfitting និងមានភាពរឹងមាំក្នុងការកាត់បន្ថយកំហុសដោយស្វ័យប្រវត្តិ ព្រមទាំងងាយស្រួលរៀបចំ។	ទាមទារអង្គចងចាំ (Memory) ខ្ពស់នៅពេលដែលចំនួនដើមឈើ (Trees) និងទិន្នន័យមានទំហំធំ។	ជាប់ចំណាត់ថ្នាក់លេខ២ យ៉ាងប្រកិតជាមួយពិន្ទុ AUC = 0.967 និងពិន្ទុអនុវត្តរួម (POA) = 2656។
Gradient Boosting Machine (GBM) ម៉ូដែល Gradient Boosting Machine	អាចកាត់បន្ថយកំហុសពីជំហានមុនៗបានយ៉ាងល្អតាមរយៈការសិក្សាបន្តបន្ទាប់គ្នា (Iterative approach)។	មានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Sensitive parameterization) ច្រើនជាងម៉ូដែល RF ដែលធ្វើឱ្យពិបាកអនុវត្តលើតំបន់ធំៗ។	ជាប់ចំណាត់ថ្នាក់លេខ៣ ដោយទទួលបានពិន្ទុ AUC = 0.967 និងពិន្ទុអនុវត្តរួម (POA) = 2623។
Logistic Regression (LR) ម៉ូដែល Logistic Regression	ងាយស្រួលក្នុងការប្រើប្រាស់ និងមិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំងក្នុងការគណនា។	មិនមានភាពសុក្រឹតខ្ពស់សម្រាប់បញ្ហាភូមិសាស្ត្រ និងបរិស្ថានដែលមានភាពស្មុគស្មាញ ឬមានទំនាក់ទំនងកត្តាច្រើនចូលគ្នា។	ទទួលបានលទ្ធផលទាបជាងគេបំផុតជាមួយពិន្ទុ AUC = 0.836 និងពិន្ទុអនុវត្តរួម (POA) = 1299។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារការប្រើប្រាស់កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ គួបផ្សំជាមួយនឹងកម្មវិធីប្រភពបើកចំហ (Open-source) និងទិន្នន័យផ្កាយរណបដែលអាចរកបានដោយឥតគិតថ្លៃ។

Software: កម្មវិធីកូដ R v3.6.3 (កញ្ចប់ caret, randomForest, e1071, gbm) និងកម្មវិធីគូសផែនទី ArcMap សម្រាប់រៀបចំទិន្នន័យភូមិសាស្ត្រ។
Hardware: កុំព្យូទ័រដែលមាន CPU និង RAM ទំហំធំសមរម្យ (ឧទាហរណ៍ 16GB ឬខ្ពស់ជាងនេះ) សម្រាប់ដំណើរការទិន្នន័យភូមិសាស្ត្រ (Spatial Data) ដែលមានទំហំធំ។
Dataset: ទិន្នន័យកម្ពស់ SRTM DEM, រូបភាពផ្កាយរណប Landsat-8 OLI, ទិន្នន័យទឹកភ្លៀងពី GPM និងទីតាំងបាក់ដីក្នុងអតីតកាលយ៉ាងហោចណាស់ ៤០០ ចំណុច។
Expertise: ចំណេះដឹងស៊ីជម្រៅផ្នែកប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS), ភូមិវិទ្យា/បរិស្ថាន, និងជំនាញសរសេរកូដសម្រាប់ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ភ្នំដែលមានសណ្ឋានដីចោតខ្លាំង (រហូតដល់ ៨៩ ដឺក្រេ) និងរញ្ជួយដីញឹកញាប់នៅភាគខាងជើងប្រទេសប៉ាគីស្ថាន។ ទោះបីជាប្រទេសកម្ពុជាមិនសូវមានសណ្ឋានដីចោតខ្លាំង ឬប្រឈមនឹងការរញ្ជួយដីក៏ដោយ ក៏វិធីសាស្ត្រនេះមានសារៈសំខាន់សម្រាប់កម្ពុជាក្នុងការវាយតម្លៃតំបន់ភ្នំ ដែលងាយរងគ្រោះដោយសារភ្លៀងធ្លាក់ខ្លាំង និងការកាប់បំផ្លាញព្រៃឈើ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រវាយតម្លៃហានិភ័យតាមរយៈម៉ូដែលរៀនដោយម៉ាស៊ីននេះ គឺពិតជាមានប្រយោជន៍ និងអាចយកមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពនៅក្នុងបរិបទប្រទេសកម្ពុជា។

ជួរភ្នំក្រវាញ និងជួរភ្នំដំរី (Cardamom and Elephant Mountains): អាចប្រើដើម្បីទស្សន៍ទាយ និងគូសផែនទីហានិភ័យនៃការបាក់ដីនៅតំបន់ដែលមានភ្លៀងធ្លាក់ខ្លាំង និងមានជម្រាលភ្នំរអិលក្នុងខេត្តពោធិ៍សាត់ កោះកុង និងកំពត។
ការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធផ្លូវថ្នល់ (Infrastructure Development): អាចអនុវត្តតាមបណ្តោយផ្លូវជាតិសំខាន់ៗ (ឧ. ផ្លូវជាតិលេខ៤ ឬផ្លូវកាត់ភ្នំថ្មីៗ) ដើម្បីការពារ និងរៀបចំវិធានការទប់ស្កាត់ការបាក់ដីបិទផ្លូវនៅរដូវវស្សា។
តំបន់ភូមិភាគឦសាន (Mondulkiri & Ratanakiri): អាចវាយតម្លៃឥទ្ធិពលនៃការផ្លាស់ប្តូរគម្របដី (ដូចជាការកាប់ព្រៃឈើ ឬការធ្វើរ៉ែ) ទៅលើស្ថិរភាពនៃជម្រាលដី ដែលអាចបង្កជាគ្រោះថ្នាក់បាក់ល្បាប់ដី។

ការរួមបញ្ចូលទិន្នន័យផ្កាយរណប និងម៉ូដែល ML នេះ នឹងជួយស្ថាប័នពាក់ព័ន្ធរបស់កម្ពុជា (ដូចជាគណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ - NCDM) ក្នុងការរៀបចំផែនការទប់ស្កាត់បានទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ GIS និងប្រមូលទិន្នន័យ: សិស្សគួរសិក្សាពីការប្រើប្រាស់កម្មវិធី QGIS ឬ ArcGIS និងអនុវត្តទាញយកទិន្នន័យឥតគិតថ្លៃដូចជា SRTM DEM និងផ្កាយរណប Landsat-8 ពីគេហទំព័ររបស់ USGS Earth Explorer។
រៀបចំកត្តាជម្រុញ (Data Preprocessing): ប្រើប្រាស់កម្មវិធី GIS ដើម្បីបង្កើតទិន្នន័យកត្តាជម្រុញ (Influencing Factors) ដូចជា កម្ពស់ ជម្រាល សន្ទស្សន៍សំណើម (TWI) គម្របដី (LCLU) និងសន្ទស្សន៍រុក្ខជាតិ (NDVI) អោយមានស្តង់ដាររួមមួយ។
អនុវត្តការសរសេរកូដម៉ូដែល Machine Learning: សិក្សា និងអនុវត្តការសរសេរកូដដោយប្រើប្រាស់ភាសា R (តាមរយៈកញ្ចប់ caret) ឬ Python (តាមរយៈកញ្ចប់ scikit-learn) ដើម្បីបង្ហាត់ម៉ូដែលដូចជា Random Forest ឬ SVM ដោយប្រើប្រាស់ទិន្នន័យទីតាំងដែលបានប្រមូល។
វាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាពម៉ូដែល: ធ្វើការវាយតម្លៃសមត្ថភាពម៉ូដែលដោយប្រើប្រាស់ខ្សែកោង ROC/AUC រួមជាមួយនឹងរង្វាស់ Accuracy និង F1-Score ដើម្បីជ្រើសរើសយកម៉ូដែលណាដែលផ្តល់លទ្ធផលល្អបំផុត។
បង្កើតផែនទីហានិភ័យ និងចែករំលែកលទ្ធផល: បំប្លែងលទ្ធផលទស្សន៍ទាយ (Predictions) ទៅជាផែនទីភូមិសាស្ត្រ (Susceptibility Maps) ដោយបែងចែកជាកម្រិតហានិភ័យពណ៌ផ្សេងៗគ្នា រួចសរសេររបាយការណ៍សង្ខេបសម្រាប់អាជ្ញាធរមូលដ្ឋាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Landslide Susceptibility Mapping (LSM)	គឺជាដំណើរការនៃការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រ និងកត្តាជំរុញផ្សេងៗ (ដូចជា ជម្រាលភ្នំ ប្រភេទដី ទឹកភ្លៀង) ដើម្បីគូសជាផែនទីបង្ហាញពីកម្រិតហានិភ័យនៃទីតាំងនីមួយៗដែលអាចនឹងមានការបាក់ដីនាពេលអនាគត។	ដូចជាការមើលផែនទីព្យាករណ៍អាកាសធាតុដែលប្រាប់យើងថាខេត្តណាខ្លះងាយនឹងមានភ្លៀងធ្លាក់ខ្លាំង តែទីនេះគឺវាប្រាប់ពីកន្លែងដែលងាយនឹងបាក់ដី។
Support Vector Machine (SVM)	គឺជាក្បួនដោះស្រាយនៃម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលដំណើរការដោយការព្យាយាមគូសបន្ទាត់ ឬបង្កើតប្លង់ព្រំដែន (Hyperplane) ដ៏ល្អបំផុតមួយ ដើម្បីបំបែកទិន្នន័យជាក្រុមៗ (ឧទាហរណ៍៖ តំបន់បាក់ដី និងតំបន់មិនបាក់ដី) ឱ្យដាច់ពីគ្នាច្បាស់លាស់។	ដូចជាការយកបន្ទាត់កាត់កណ្តាលរវាងក្រុមគ្រាប់ឃ្លីពណ៌ក្រហម និងពណ៌ខៀវ ដើម្បីបែងចែកពួកវាឱ្យនៅម្ខាងម្នាក់ដោយមិនឱ្យលាយឡំគ្នា។
Random Forest (RF)	គឺជាម៉ូដែលរៀនដោយម៉ាស៊ីនដែលដំណើរការដោយការបង្កើតជា "ដើមឈើសម្រេចចិត្ត" (Decision Trees) រាប់រយដើម ហើយយកចម្លើយទស្សន៍ទាយពីដើមឈើទាំងអស់នោះមកបោះឆ្នោតរួមគ្នា ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយមួយដែលសុក្រឹតបំផុត និងមិនងាយមានកំហុស។	ដូចជាការសួរមតិពីក្រុមអ្នកជំនាញ១០០នាក់អំពីបញ្ហាមួយ រួចយកចម្លើយណាដែលភាគច្រើនឯកភាពគ្នាបំផុតធ្វើជាការសម្រេចចិត្តចុងក្រោយ។
Area Under the Curve (AUC)	ជារង្វាស់ស្ថិតិដ៏សំខាន់សម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning។ តម្លៃ AUC កាន់តែខិតជិតលេខ ១ មានន័យថាម៉ូដែលនោះកាន់តែពូកែ និងមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការបែងចែករវាងតំបន់ដែលមានបាក់ដី និងគ្មានការបាក់ដី។	ដូចជាពិន្ទុប្រឡងប្រចាំខែរបស់សិស្សដែរ បើសិស្សប្រឡងបានពិន្ទុជិត ១០០ (ឬ លេខ ១ ក្នុងន័យនេះ) មានន័យថាសិស្សនោះរៀនពូកែ និងឆ្លើយបានត្រឹមត្រូវច្រើន។
Multicollinearity Test	គឺជាការធ្វើតេស្តស្ថិតិដើម្បីត្រួតពិនិត្យ និងស្វែងរកមើលថា តើមានកត្តាជំរុញ (Variables) ណាខ្លះដែលមានទំនាក់ទំនងគ្នា ឬជាន់គ្នាខ្លាំងពេក ដែលអាចធ្វើឱ្យម៉ូដែលមានភាពច្របូកច្របល់ និងទាញយកលទ្ធផលខុសប្រក្រតី។	ដូចជាការចាត់តាំងមនុស្សពីរនាក់ឱ្យធ្វើការងារតែមួយដូចគ្នាបេះបិទ ដែលធ្វើឱ្យខាតធនធាន និងអាចមានជម្លោះ ដូច្នេះយើងត្រូវដកម្នាក់ចេញ។
Normalized Difference Vegetation Index (NDVI)	គឺជាសន្ទស្សន៍ដែលប្រើប្រាស់កម្រិតចំណាំងផ្លាតនៃពន្លឺពីទិន្នន័យរូបភាពផ្កាយរណប ដើម្បីវាស់ស្ទង់កម្រិតភាពខៀវស្រងាត់ និងដង់ស៊ីតេរុក្ខជាតិនៅលើផ្ទៃដី។ វាជួយបញ្ជាក់ថាតំបន់នោះមានព្រៃឈើក្រាស់ការពារការបាក់ដី ឬជាដីទទេដែលងាយនឹងបាក់។	ដូចជាការប្រើប្រាស់កែវយឹតវេទមន្តដែលអាចឆ្លុះមើលពីលើមេឃឃើញថា កន្លែងណាមានដើមឈើដុះច្រើនជាងគេ និងកន្លែងណាជាដីរលីង។
Topographic Wetness Index (TWI)	ជារង្វាស់ដែលគណនាអំពីសក្ដានុពលនៃការប្រមូលផ្តុំ និងការហូរនៃទឹកនៅទីតាំងណាមួយ ដោយផ្អែកលើទម្រង់នៃជម្រាលភ្នំ។ វាជួយប្រាប់យើងថាដីនៅទីតាំងនោះងាយនឹងដក់ ឬជោកជាំទឹក ដែលជាហេតុធ្វើឱ្យដីទន់ និងងាយបាក់ឬអត់។	ដូចជាការសង្កេតមើលរាងរបស់ទីវាលដែលទំនាប និងទីទួល គឺកន្លែងទំនាបច្បាស់ជាងាយនឹងដក់ទឹកជោកជាំជាងនៅពេលមានភ្លៀងធ្លាក់។
Information Gain Ratio (IGR)	ជារូបមន្តគណនាដែលជួយវាយតម្លៃ ជ្រើសរើស និងថ្លឹងថ្លែងថា តើកត្តាណាខ្លះ (ឧទាហរណ៍៖ កម្ពស់ដី ឬទឹកភ្លៀង) ដែលមានឥទ្ធិពល និងផ្តល់ព័ត៌មានមានប្រយោជន៍ជាងគេបំផុតសម្រាប់ការបង្រៀនម៉ូដែលឱ្យចេះទស្សន៍ទាយការបាក់ដី។	ដូចជាអ្នកស៊ើបអង្កេតកំពុងថ្លឹងថ្លែងមើលថា សាក្សីមួយណាដែលផ្តល់តម្រុយសំខាន់ និងច្បាស់លាស់បំផុតក្នុងការបំបែកសំណុំរឿងក្តី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖