Original Title: An Ensemble Approach of Feature Selection and Machine Learning Models for Regional Landslide Susceptibility Mapping in the Arid Mountainous Terrain of Southern Peru
Source: doi.org/10.3390/rs15051376
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រចម្រុះនៃការជ្រើសរើសលក្ខណៈពិសេស និងម៉ូដែលបញ្ញាសិប្បនិម្មិតសម្រាប់ការគូសផែនទីភាពងាយរងគ្រោះដោយការបាក់ដីក្នុងតំបន់ភ្នំស្ងួតនៃភាគខាងត្បូងប្រទេសប៉េរូ

ចំណងជើងដើម៖ An Ensemble Approach of Feature Selection and Machine Learning Models for Regional Landslide Susceptibility Mapping in the Arid Mountainous Terrain of Southern Peru

អ្នកនិពន្ធ៖ Chandan Kumar (Colorado School of Mines), Gabriel Walton (Colorado School of Mines), Paul Santi (Colorado School of Mines), Carlos Luza (Universidad Nacional de San Agustín)

ឆ្នាំបោះពុម្ព៖ 2023 Remote Sensing (MDPI)

វិស័យសិក្សា៖ Remote Sensing and Geohazards

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវាយតម្លៃ និងការគូសផែនទីហានិភ័យនៃការបាក់ដីនៅក្នុងតំបន់ភ្នំដែលមានអាកាសធាតុស្ងួតនៃភាគខាងត្បូងប្រទេសប៉េរូ ដោយសារភាពស្មុគស្មាញក្នុងការព្យាករណ៍ពីគ្រោះមហន្តរាយនេះនៅកម្រិតតំបន់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះដោយរួមបញ្ចូលទិន្នន័យពីផ្កាយរណប និងការវាស់ស្ទង់ផ្ទាល់ ដើម្បីបង្កើតនិងវាយតម្លៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (Machine Learning) សម្រាប់ស្វែងរកតំបន់ងាយរងគ្រោះ។

ការប្រមូលទិន្នន័យពីផ្កាយរណប (Remote Sensing Data) ដូចជា ASTER DEM និង Landsat 8 ដើម្បីទាញយកកត្តាជះឥទ្ធិពលដល់ការបាក់ដីចំនួន ២៤ (Landslide Influencing Factors - LIFs)។
ការប្រើប្រាស់វិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសចម្រុះ (Ensemble Feature Selection - EFS) រួមមានវិធីសាស្ត្រ Chi-square, Gain Ratio, និង Relief-F ដើម្បីចម្រាញ់យកកត្តាដែលសំខាន់បំផុត។
ការវាយតម្លៃនិងប្រៀបធៀបម៉ូដែលបញ្ញាសិប្បនិម្មិត (Machine Learning Models) ចំនួន ១០ ប្រភេទ ព្រមទាំងការបង្កើតម៉ូដែលចម្រុះ (Ensemble Models) ដូចជា KNN + RTF និិង KNN + ANN ជាដើម។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

តាមរយៈវិធីសាស្ត្រជ្រើសរើស EFS កត្តាសំខាន់បំផុតចំនួន ៥ សម្រាប់ការបាក់ដីត្រូវបានកំណត់ រួមមាន៖ ភាពចំណោត (Slope) ការសាយភាយវិទ្យុសកម្មផ្ទាល់ (Direct Radiation) សន្ទស្សន៍ភាពសើមនៃសណ្ឋានដី (TWI) កោងនៃទម្រង់ (Profile Curvature) និងរយៈពេលនៃវិទ្យុសកម្មផ្ទាល់។
ក្នុងចំណោមម៉ូដែលទោល ម៉ូដែល K-nearest neighbors (KNN) និង Artificial Neural Network (ANN) ផ្តល់លទ្ធផលល្អបំផុតដោយប្រើត្រឹមកត្តាសំខាន់ទាំង ៥ ដោយទទួលបានសន្ទស្សន៍ AUC រហូតដល់ ០.៨៦-០.៨៧ និងភាពត្រឹមត្រូវរួម (Overall Accuracy) ៧៨%-៧៩%។
លទ្ធផលពីម៉ូដែលចម្រុះ (Ensemble ML Models) បានបង្ហាញថាប្រមាណ ២-៣% នៃផ្ទៃដីសិក្សាសរុបស្ថិតក្នុងកម្រិតងាយរងគ្រោះ 'ខ្ពស់ខ្លាំង' និង ១០-១២% ស្ថិតក្នុងកម្រិត 'ខ្ពស់' ដែលទិន្នន័យនេះមានសារៈសំខាន់សម្រាប់ការរៀបចំយុទ្ធសាស្ត្រកាត់បន្ថយហានិភ័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Individual Models (KNN & ANN) ម៉ូដែលទោល K-Nearest Neighbors (KNN) និង Artificial Neural Network (ANN)	មានសមត្ថភាពខ្ពស់បំផុតក្នុងការទស្សន៍ទាយ ដោយប្រើប្រាស់កត្តាជះឥទ្ធិពលត្រឹមតែ ៥ ប៉ុណ្ណោះ ដែលជួយកាត់បន្ថយភាពស្មុគស្មាញនៃម៉ូដែល។	មិនបង្ហាញពីការកើនឡើងសមត្ថភាពទស្សន៍ទាយនោះទេ នៅពេលបន្ថែមចំនួនកត្តាជះឥទ្ធិពលច្រើនជាងនេះ។	ទទួលបានរង្វាស់ AUC ប្រមាណ ០.៨៦ ទៅ ០.៨៧ និងភាពត្រឹមត្រូវរួម (Overall Accuracy) ៧៨% ទៅ ៧៩%។
Individual Models (RF, RTF, & C5.0) ម៉ូដែលទោល Random Forest (RF), Rotation Forest (RTF) និង C5.0	មានភាពសុក្រឹតខ្ពស់បំផុត និងបង្ហាញពីការកើនឡើងសមត្ថភាពនៅពេលដំណើរការជាមួយសំណុំទិន្នន័យអថេរច្រើន (២៤ កត្តា)។	ទាមទារទិន្នន័យច្រើន រយៈពេលគណនាយូរ និងបង្កហានិភ័យ Overfitting ដោយសារភាពស្មុគស្មាញនៃម៉ូដែល។	ទទួលបានរង្វាស់ AUC រហូតដល់ ០.៩០ ទៅ ០.៩៣ និងភាពត្រឹមត្រូវរួម (Overall Accuracy) ៨២% ទៅ ៨៤%។
Ensemble ML Models (KNN+RTF, KNN+ANN, ANN+RTF) ការផ្គុំបញ្ចូលម៉ូដែលចម្រុះ (KNN+RTF, KNN+ANN, ANN+RTF)	ផ្តល់ស្ថិរភាព និងរក្សាលំនឹងសមត្ថភាពទស្សន៍ទាយខ្ពស់ ទោះបីប្រើត្រឹម ៥ កត្តាជះឥទ្ធិពល កាត់បន្ថយភាពលម្អៀងរវាងម៉ូដែលទោល។	ត្រូវការពេលវេលា និងធនធានគណនាច្រើនជាងម៉ូដែលទោល ដោយសារត្រូវដំណើរការម៉ូដែលជាច្រើនបញ្ចូលគ្នាក្នុងពេលតែមួយ។	ទទួលបានរង្វាស់ឱកាសកំណត់ការបាក់ដីត្រឹមត្រូវ (Sensitivity) ០.៧២ ទៅ ០.៧៣ និង AUC ០.៨៦ ដែលល្អប្រសើរបំផុតសម្រាប់ការអនុវត្តជាក់ស្តែង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើទិន្នន័យផ្កាយរណបឥតគិតថ្លៃ និងការចុះវាស់ស្ទង់ទីតាំងផ្ទាល់ ដែលទាមទារឲ្យមានកុំព្យូទ័រមានសមត្ថភាពមធ្យមទៅខ្ពស់ដើម្បីរៀបចំនិងដំណើរការម៉ូដែលបញ្ញាសិប្បនិម្មិត។

Dataset: ទិន្នន័យផ្កាយរណបឥតគិតថ្លៃ រួមមាន ASTER DEM និង Landsat 8 ទិន្នន័យរលកអាកាសធាតុ (GPM data) និងទីតាំងបាក់ដីក្នុងប្រវត្តិសាស្ត្រ។
Software: កម្មវិធីវាយតម្លៃទិន្នន័យភូមិសាស្ត្រ GIS (ដូចជា ArcMap) និងកម្មវិធីសរសេរកូដស្ថិតិដូចជា R (រួមមានកញ្ចប់ 'Caret' និង 'CaretEnsemble')។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានប្រព័ន្ធដំណើរការ CPU ខ្លាំង និងអង្គចងចាំធំ (RAM) ដើម្បីទាញយកទិន្នន័យផ្កាយរណប បង្វឹកម៉ូដែល និងរត់ទិន្នន័យចម្រុះដែលមានចំនួនរាប់លានភីកសែល។
Expertise: អ្នកជំនាញពហុជំនាញ ដែលមានការយល់ដឹងលើប្រព័ន្ធ GIS កត្តាភូមិសាស្ត្រ-រូបវិទ្យា និងការសរសេរកូដ Machine Learning ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ភ្នំដែលមានអាកាសធាតុស្ងួត (Arid mountainous terrain) នៃភាគខាងត្បូងប្រទេសប៉េរូ។ លក្ខខណ្ឌភូមិសាស្ត្រនេះខុសប្លែកពីប្រទេសកម្ពុជាដែលជាតំបន់ត្រូពិចមានសីតុណ្ហភាពក្តៅសើម និងមានភ្លៀងធ្លាក់ខ្លាំង។ គម្លាតនៃទិន្នន័យនេះមានសារៈសំខាន់ ពីព្រោះកត្តាជះឥទ្ធិពលមួយចំនួន (ដូចជាវិទ្យុសកម្មព្រះអាទិត្យ) អាចនឹងមិនសូវសំខាន់សម្រាប់កម្ពុជា ខណៈដែលរបាយទឹកភ្លៀង និងសំណើមដី អាចមានឥទ្ធិពលលើសលប់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាលក្ខខណ្ឌអាកាសធាតុមានភាពខុសគ្នាក៏ដោយ ក្របខណ្ឌនៃវិធីសាស្ត្រប្រើប្រាស់ Ensemble Machine Learning និងរូបភាពផ្កាយរណបនេះ គឺមានសារៈប្រយោជន៍ខ្លាំងណាស់សម្រាប់ការអនុវត្តនៅកម្ពុជា។

តំបន់ភ្នំក្រវាញ និងខ្ពង់រាបភាគឦសាន (Cardamom Mountains & Northeastern Plateau): អាចប្រើវិធីសាស្ត្រនេះដើម្បីគូសផែនទីហានិភ័យបាក់ដីនៅតំបន់ជម្រាលភ្នំ ពិសេសរដូវវស្សាដែលតែងមានករណីបាក់ដីនៅតាមបណ្តោយផ្លូវជាតិ ក្នុងខេត្តពោធិ៍សាត់ កោះកុង ព្រះសីហនុ និងមណ្ឌលគិរី។
គណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ (NCDM): អាចរួមបញ្ចូលវិធីសាស្ត្រនេះក្នុងការវិភាគទិន្នន័យផ្កាយរណប ដើម្បីកំណត់តំបន់ងាយរងគ្រោះធ្ងន់ធ្ងរ និងបង្កើតប្រព័ន្ធប្រកាសអាសន្នជាមុន (Early Warning System) មុនពេលមានភ្លៀងធ្លាក់ជាបន្តបន្ទាប់។
គម្រោងអភិវឌ្ឍន៍ហេដ្ឋារចនាសម្ព័ន្ធ (Infrastructure Planning): ក្រសួងសាធារណការ និងដឹកជញ្ជូន អាចប្រើប្រាស់គំរូវាយតម្លៃហានិភ័យនេះនៅពេលរៀបចំផែនការសាងសង់ផ្លូវជាតិ ផ្លូវល្បឿនលឿន ឬទំនប់វារីអគ្គិសនីកាត់តាមតំបន់ភ្នំ។

ជារួម ការរៀបចំប្រព័ន្ធម៉ូដែលឆ្លាតវៃ (Ensemble Models) សម្រាប់ផែនទីបាក់ដីនេះ នឹងផ្តល់លទ្ធភាពឲ្យរដ្ឋាភិបាលកម្ពុជាកាត់បន្ថយគ្រោះថ្នាក់ និងរៀបចំយុទ្ធសាស្ត្រកាត់បន្ថយហានិភ័យបានកាន់តែប្រសើរ ដោយប្រើប្រាស់ធនធានតិចលើការវាស់ស្ទង់ផ្ទាល់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ GIS និង Remote Sensing: ចាប់ផ្តើមរៀនប្រើប្រាស់កម្មវិធីឥតគិតថ្លៃដូចជា QGIS ឬ ArcMap ដើម្បីទាញយក និងកែច្នៃទិន្នន័យផ្កាយរណប (ASTER DEM សម្រាប់ទាញកម្ពស់ដី និង Landsat 8 សម្រាប់សន្ទស្សន៍រុក្ខជាតិ)។
ប្រមូលនិងរៀបចំទិន្នន័យកត្តាជះឥទ្ធិពល (LIFs Preparation): ប្រមូលទីតាំងប្រវត្តិបាក់ដីនៅកម្ពុជា រួមជាមួយនឹងអថេរ (Variables) សំខាន់ៗ ដូចជា ភាពចំណោត (Slope) ប្រភេទដី ការប្រើប្រាស់ដី និងទិន្នន័យទឹកភ្លៀង (GPM Data) រួចដាក់បញ្ចូលទៅក្នុងប្រព័ន្ធកូអរដោនេតែមួយ។
អនុវត្តការសរសេរកូដ Machine Learning ជាមូលដ្ឋាន: សិក្សាពីការសរសេរកូដដោយប្រើភាសា Python ជាពិសេសបណ្ណាល័យ Scikit-Learn ឬភាសា R (កញ្ចប់ Caret) ដើម្បីរៀបចំសំណុំទិន្នន័យ (Training & Testing) និងបង្វឹកម៉ូដែលកម្រិតមូលដ្ឋានដូចជា KNN និង ANN។
ចម្រាញ់យកលក្ខណៈពិសេស (Feature Selection): អនុវត្តក្បួនដោះស្រាយការជ្រើសរើសចម្រុះ (Ensemble Feature Selection) ដោយប្រើវិធីសាស្ត្រ Chi-square ឬ Relief-F ដើម្បីកាត់ចោលកត្តាដែលមិនសូវជះឥទ្ធិពល (ឧទាហរណ៍ កត្តារញ្ជួយដីនៅកម្ពុជា) ដើម្បីកាត់បន្ថយបញ្ហា Overfitting ។
បង្កើតម៉ូដែលចម្រុះ និងផលិតផែនទីហានិភ័យ (Ensemble Modeling): រួមបញ្ចូលម៉ូដែលនីមួយៗដែលទទួលបានលទ្ធផលល្អបំផុតចំនួន ២ ឬ ៣ បញ្ចូលគ្នា (ឧ. KNN + RF) ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ រួចគូសផែនទីចំណាត់ថ្នាក់ហានិភ័យ (Susceptibility Map) សម្រាប់តំបន់សិក្សារបស់អ្នក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Ensemble Machine Learning	ជាវិធីសាស្ត្ររួមបញ្ចូលម៉ូដែលបញ្ញាសិប្បនិម្មិត (Machine Learning Models) ចាប់ពីពីរឬច្រើនចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយរួមគ្នា ដែលជួយកាត់បន្ថយកំហុសឆ្គង និងបង្កើនភាពត្រឹមត្រូវជាងការប្រើម៉ូដែលតែមួយឯកឯង។	ដូចជាការសួរមតិពីក្រុមគ្រូពេទ្យជំនាញជាច្រើននាក់ ដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺមួយឲ្យបានច្បាស់លាស់ ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។
Ensemble Feature Selection (EFS)	ជាបច្ចេកទេសប្រើប្រាស់រូបមន្តស្ថិតិចម្រុះដើម្បីចម្រាញ់ និងជ្រើសរើសយកតែកត្តាជះឥទ្ធិពលណាដែលសំខាន់បំផុត (ឧទាហរណ៍៖ កម្រិតចំណោតភ្នំ) និងកាត់ចោលទិន្នន័យដែលមិនចាំបាច់ ដើម្បីឲ្យម៉ូដែលកុំព្យូទ័រដំណើរការលឿននិងមិនស្មុគស្មាញ។	ដូចជាការរែងយកតែគ្រាប់អង្ករល្អបំផុត និងបោះចោលអង្កាម ឬកម្ទេចកំទី មុននឹងយកទៅដាំបាយដើម្បីទទួលបានបាយឆ្ងាញ់។
Landslide Influencing Factors (LIFs)	ជាបណ្តុំនៃអថេរ ឬកត្តាធម្មជាតិផ្សេងៗ (ដូចជា ភាពចំណោតនៃដី សំណើម កម្ពស់ របាយទឹកភ្លៀង និងប្រភេទថ្ម) ដែលត្រូវបានប្រើជាទិន្នន័យបញ្ចូល (Input) សម្រាប់ឲ្យកុំព្យូទ័រវិភាគរកកន្លែងដែលអាចនឹងមានហានិភ័យបាក់ដី។	ដូចជាគ្រឿងផ្សំ (អំបិល ស្ករ ប៊ីចេង) ដែលយើងត្រូវដឹងអត្រាសមាមាត្រដើម្បីទស្សន៍ទាយថាសម្លមួយមុខនឹងមានរសជាតិយ៉ាងណា។
Multicollinearity	ជាបាតុភូតស្ថិតិដែលកើតឡើងនៅពេលអថេរឯករាជ្យពីរ ឬច្រើនមានទំនាក់ទំនងគ្នាខ្លាំងពេក (ផ្តល់ព័ត៌មានជាន់គ្នា) ដែលធ្វើឲ្យម៉ូដែលកុំព្យូទ័រមានការភាន់ច្រឡំក្នុងការវាយតម្លៃឥទ្ធិពលពិតប្រាកដរបស់អថេរនីមួយៗក្នុងការវិភាគហានិភ័យ។	ដូចជាការពាក់នាឡិកាដៃពីរដែលមានម៉ោងដូចគ្នាបេះបិទ ដែលវាមិនបានផ្តល់ព័ត៌មានអ្វីថ្មីបន្ថែម ក្រៅពីធ្វើឲ្យធ្ងន់ដៃនោះទេ។
Area Under Curve (AUC)	ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល ដោយវាស់ស្ទង់ថាវាកំពុងបែងចែកដាច់ស្រឡះរវាង "តំបន់មានបាក់ដី" និង "តំបន់មិនបាក់ដី" បានល្អកម្រិតណា ដោយពិន្ទុកាន់តែជិតលេខ ១ គឺកាន់តែល្អ និងលេខ ០.៥ គឺស្មើនឹងការទាយស្មានសំណាង។	ដូចជាពិន្ទុប្រឡងបញ្ចប់ឆមាសរបស់សិស្ស ដែលពិន្ទុកាន់តែខ្ពស់ បញ្ជាក់ថាសិស្សនោះមានសមត្ថភាពសរសេរចម្លើយបានត្រឹមត្រូវកាន់តែច្រើន។
Topographical Wetness Index (TWI)	ជាសន្ទស្សន៍វាស់ស្ទង់សក្តានុពលនៃការដក់ទឹក ឬភាពសើមនៃដីនៅក្នុងតំបន់ណាមួយ ដោយគណនាផ្អែកលើទម្រង់រាងនៃសណ្ឋានដី និងភាពចំណោត ដែលវាជាកត្តាសំខាន់បំផុតមួយធ្វើឲ្យដីចុះខ្សោយ និងរអិលបាក់ស្រុត។	ដូចជាការពិនិត្យមើលរាងផតនៃបាតខ្ទះ ដើម្បីដឹងថាពេលចាក់ប្រេងចូល ប្រេងនឹងហូរទៅដក់ប្រមូលផ្តុំនៅត្រង់ចំណុចណាខ្លាំងជាងគេ។
K-Nearest Neighbors (KNN)	ជាក្បួនដោះស្រាយ (Algorithm) ដែលទស្សន៍ទាយលក្ខណៈរបស់ទីតាំងថ្មីមួយ (ថាតើវានឹងបាក់ដីឬអត់) ដោយពឹងផ្អែកលើការប្រៀបធៀបភាពស្រដៀងគ្នាទៅនឹងលក្ខណៈនៃទីតាំងចាស់ៗដែលនៅក្បែរវាបំផុត។	ដូចជាការទស្សន៍ទាយអត្តចរិត និងចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ ដោយសង្កេតមើលទៅលើអត្តចរិតរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់។
Overfitting	ជាបញ្ហាដែលកើតឡើងនៅពេលម៉ូដែលបញ្ញាសិប្បនិម្មិតទន្ទេញចាំទិន្នន័យសម្រាប់ហ្វឹកហាត់ (Training Data) ខ្លាំងពេក រហូតដល់បាត់បង់ភាពបត់បែន និងមិនអាចទស្សន៍ទាយទិន្នន័យថ្មីៗក្នុងស្ថានភាពជាក់ស្តែងបានត្រឹមត្រូវ។	ដូចជាសិស្សដែលទន្ទេញចាំវិញ្ញាសាចាស់ៗឡើងស្ទាត់មាត់ ប៉ុន្តែប្រឡងធ្លាក់នៅពេលគ្រូចេញលំហាត់ថ្មីដែលមានទម្រង់ខុសពីមុនបន្តិច។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖