Original Title: Shallow Landslide Susceptibility Modeling Using the Data Mining Models Artificial Neural Network and Boosted Tree
Source: doi.org/10.3390/app7101000
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើម៉ូដែលភាពងាយរងគ្រោះដោយការរអិលបាក់ដីរាក់ ដោយប្រើប្រាស់ម៉ូដែលរុករកទិន្នន័យ បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត និងមែកធាងជំរុញ (Boosted Tree)

ចំណងជើងដើម៖ Shallow Landslide Susceptibility Modeling Using the Data Mining Models Artificial Neural Network and Boosted Tree

អ្នកនិពន្ធ៖ Hyun-Joo Oh (Korea Institute of Geoscience and Mineral Resources), Saro Lee (Korea Institute of Geoscience and Mineral Resources; Korea University of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2017 Applied Sciences

វិស័យសិក្សា៖ Geoinformatics / Natural Hazards

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាការវាយតម្លៃ និងទស្សន៍ទាយភាពងាយរងគ្រោះនៃការរអិលបាក់ដីរាក់ (Shallow Landslide Susceptibility) នៅក្នុងតំបន់ Yongin ប្រទេសកូរ៉េ ដោយសារកំណើនហានិភ័យនៃភ្លៀងធ្លាក់ខ្លាំងដែលបណ្តាលមកពីបម្រែបម្រួលអាកាសធាតុ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រមូលទិន្នន័យទីតាំងរអិលបាក់ដីពីមុន ហើយប្រើប្រាស់បច្ចេកទេសរុករកទិន្នន័យ (Data Mining) ពីរប្រភេទ រួមជាមួយកត្តាបរិស្ថានផ្សេងៗដើម្បីបង្កើតម៉ូដែលវាយតម្លៃហានិភ័យ។

ការប្រមូលទិន្នន័យទីតាំងរអិលបាក់ដី (Landslide Inventory) ចំនួន ៨២កន្លែង តាមរយៈការបកស្រាយរូបថតពីលើអាកាសកម្រិតច្បាស់ខ្ពស់ (Aerial Photographs)
ការរៀបចំទិន្នន័យកត្តាបរិស្ថានចំនួន ១៨ (Environmental Factors) រួមមានកត្តាភូមិសាស្ត្រ ជលសាស្ត្រ ដី និងព្រៃឈើ
ការអនុវត្តម៉ូដែលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network - ANN) សម្រាប់ការវិភាគភាពងាយរងគ្រោះ
ការអនុវត្តម៉ូដែលមែកធាងជំរុញ (Boosted Tree - BT) សម្រាប់ការវិភាគភាពងាយរងគ្រោះធៀបនឹងម៉ូដែល ANN

លទ្ធផលសំខាន់ៗ (The Verdict)៖

កត្តាសំខាន់ៗបំផុតដែលជះឥទ្ធិពលដល់ការរអិលបាក់ដី រួមមាន កម្រិតជម្រាល (Slope gradient) សន្ទស្សន៍សំណើមសណ្ឋានដី (Topographic wetness index) និងអាយុកាលឈើ (Timber age)។
ការផ្ទៀងផ្ទាត់ម៉ូដែលបង្ហាញថា Boosted Tree (BT) ផ្តល់ភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩០.៧៩% បើប្រៀបធៀបនឹងម៉ូដែល ANN ដែលទទួលបានត្រឹមតែ ៨២.២៥% ប៉ុណ្ណោះ។
វិធីសាស្ត្រនេះអាចប្រើប្រាស់ជាគោលការណ៍ណែនាំដ៏ល្អសម្រាប់ការជ្រើសរើសទីតាំងត្រួតពិនិត្យការរអិលបាក់ដី និងជួយដល់ការរៀបចំផែនការប្រើប្រាស់ដីធ្លីនៅក្នុងតំបន់ទីក្រុងឲ្យមានសុវត្ថិភាពខ្ពស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត	មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយដំណើរការស្មុគស្មាញ និងទិន្នន័យមិនលីនេអ៊ែរដោយមិនចាំបាច់មានការសន្មត់ជាមុនអំពីទំនាក់ទំនងរវាងអថេរ។	ដំណើរការនិងភាពត្រឹមត្រូវមានកម្រិតទាបជាង បើប្រៀបធៀបទៅនឹងម៉ូដែលមែកធាងជំរុញ ហើយទាមទារពេលវេលាយូរក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters)។	ទទួលបានភាពត្រឹមត្រូវ ៨២.២៥% ផ្អែកលើការវិភាគខ្សែក្រាហ្វិក ROC (AUC)។
Boosted Tree (BT) ម៉ូដែលមែកធាងជំរុញ	មានភាពត្រឹមត្រូវខ្ពស់ និងមានអត្ថប្រយោជន៍អាចចាត់ចែងទាំងអថេរជាប់ (Continuous) និងអថេរចាត់ថ្នាក់ (Categorical) បានយ៉ាងល្អក្នុងការស្វែងរកទំនាក់ទំនងនៃទិន្នន័យ។	ម៉ូដែលនេះអាចងាយនឹងរៀនចងចាំជ្រុល (Overfitting) ប្រសិនបើមិនមានការកំណត់ដើមឈើ និងអត្រារៀន (Learning rate) ឲ្យបានត្រឹមត្រូវនោះទេ។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩០.៧៩% ផ្អែកលើការវិភាគខ្សែក្រាហ្វិក ROC (AUC) ដែលមានប្រសិទ្ធភាពជាង ANN ប្រមាណ ៨%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារឱ្យមានការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រផ្នែកប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) កម្មវិធីវិភាគទិន្នន័យកម្រិតខ្ពស់ និងរូបថតពីលើអាកាសដែលមានកម្រិតច្បាស់ខ្ពស់ ដើម្បីស្រង់យកកត្តាបរិស្ថានបានច្បាស់លាស់។

Software: ទាមទារកម្មវិធី GIS (ដូចជា ArcGIS 10.2 និង SAGA GIS) សម្រាប់ការវិភាគទិន្នន័យលំហ និងកម្មវិធីស្ថិតិ (ដូចជា MATLAB សម្រាប់ ANN និង STATISTICA 10.0 សម្រាប់ BT)។
Dataset: ត្រូវការរូបថតពីលើអាកាសកម្រិតច្បាស់ខ្ពស់ (៥០សង់ទីម៉ែត្រ) ទិន្នន័យកម្ពស់ដី (DEM) កម្រិត ៥x៥ម៉ែត្រ ព្រមទាំងផែនទីប្រភេទដី និងព្រៃឈើខ្នាត ១:៥០០០។
Hardware: ទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពសមរម្យទៅខ្ពស់ (CPU/RAM ល្អ) សម្រាប់ការគណនា និងការបង្ហាត់ម៉ូដែល Machine Learning លើសំណុំទិន្នន័យរាប់លានសែល។
Expertise: ទាមទារអ្នកជំនាញផ្នែកព័ត៌មានវិទ្យាភូមិសាស្ត្រ (Geoinformatics) ការរុករកទិន្នន័យ (Data Mining) និងអ្នកឯកទេសខាងការបកស្រាយទិន្នន័យរូបថតពីលើអាកាស។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីតំបន់ភ្នំ Yongin ប្រទេសកូរ៉េ ដែលផ្តោតលើការរអិលបាក់ដីប្រភេទរាក់ដោយសារភ្លៀងធ្លាក់ខ្លាំង លើប្រភេទដី និងព្រៃឈើជាក់លាក់ (ឧទាហរណ៍៖ biotite gneiss)។ សម្រាប់ប្រទេសកម្ពុជា ប្រភេទដី គម្របព្រៃឈើ និងលំនាំនៃអាកាសធាតុមានលក្ខណៈខុសប្លែកពីកូរ៉េ ដូច្នេះការចម្លងម៉ូដែលនេះដោយមិនមានការបង្ហាត់សារជាថ្មីជាមួយទិន្នន័យក្នុងស្រុក អាចនឹងផ្តល់លទ្ធផលមិនត្រឹមត្រូវល្អនោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលរុករកទិន្នន័យនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ជាពិសេសដើម្បីវាយតម្លៃហានិភ័យមុនពេលមានគ្រោះមហន្តរាយនៅតាមតំបន់ភ្នំជម្រាលខ្ពស់។

ខេត្តព្រះសីហនុ និងខេត្តកោះកុង (Preah Sihanouk & Koh Kong): តំបន់ភ្នំ និងផ្លូវតាមមាត់សមុទ្រ (ឧទាហរណ៍៖ ផ្លូវជាតិលេខ៤) តែងតែទទួលរងការរអិលបាក់ដីនៅរដូវវស្សាពេលមានភ្លៀងធ្លាក់ខ្លាំង ការអនុវត្តម៉ូដែលនេះអាចជួយកំណត់តំបន់ហានិភ័យបានទាន់ពេលវេលា។
ខេត្តមណ្ឌលគិរី និងរតនគិរី (Mondulkiri & Ratanakiri): តំបន់ខ្ពង់រាបទាំងនេះកំពុងមានការផ្លាស់ប្តូរការប្រើប្រាស់ដីធ្លី និងគម្របព្រៃឈើ ដែលធ្វើឲ្យជម្រាលភ្នំងាយរងគ្រោះនឹងការបាក់ស្រុត ដូច្នេះប្រព័ន្ធនេះអាចជួយដល់ការរៀបចំផែនការអភិវឌ្ឍន៍ទីក្រុងឆ្លាតវៃ។
ក្រសួងសាធារណការ និងដឹកជញ្ជូន (MPWT): អាចប្រើប្រាស់ផែនទីហានិភ័យបាក់ដី (Susceptibility maps) ដែលទទួលបានពីម៉ូដែលនេះ សម្រាប់ការសិក្សាបុរេលទ្ធភាពមុននឹងស្ថាបនាផ្លូវកាត់ភ្នំ ដើម្បីកាត់បន្ថយការខូចខាតហេដ្ឋារចនាសម្ព័ន្ធ។

ការកសាងប្រព័ន្ធទិន្នន័យ និងវាយតម្លៃហានិភ័យបាក់ដី ដោយប្រើប្រាស់ Machine Learning នឹងជួយពង្រឹងភាពធន់នៃការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធ និងសង្គ្រោះអាយុជីវិតប្រជាពលរដ្ឋនៅកម្ពុជាពីឥទ្ធិពលនៃការប្រែប្រួលអាកាសធាតុបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ការប្រមូលទិន្នន័យ និងរៀបចំឃ្លាំងទិន្នន័យលំហ (Spatial Database): ប្រមូលរូបថតពីលើអាកាស ទិន្នន័យកម្ពស់ដីកម្រិតច្បាស់ (DEM) និងផែនទីប្រើប្រាស់ដីក្នុងតំបន់គោលដៅនៅកម្ពុជា ដោយប្រើប្រាស់កម្មវិធី ArcGIS ឬ QGIS ដើម្បីរៀបចំស្រទាប់ទិន្នន័យជាប្រព័ន្ធតែមួយ។
ជំហានទី២៖ ការគណនាកត្តាបរិស្ថាន (Environmental Factors): ប្រើប្រាស់កម្មវិធី SAGA GIS ដើម្បីទាញយកកត្តាសំខាន់ៗពី DEM ដូចជា កម្រិតជម្រាល (Slope) ទិសដៅជម្រាល (Aspect) និងសន្ទស្សន៍សំណើមសណ្ឋានដី (TWI) ដែលមានឥទ្ធិពលខ្លាំងលើការបាក់ដី។
ជំហានទី៣៖ ការរៀបចំ និងបង្ហាត់ម៉ូដែល Machine Learning: បែងចែកទិន្នន័យទីតាំងដែលធ្លាប់បាក់ដីជាពីរចំណែក (៥០% សម្រាប់បង្ហាត់ និង ៥០% សម្រាប់ផ្ទៀងផ្ទាត់) រួចប្រើប្រាស់ Python (Scikit-Learn) ឬ R ដើម្បីបង្ហាត់ម៉ូដែល Boosted Tree និងកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានល្អិតល្អន់។
ជំហានទី៤៖ ការបង្កើតផែនទីហានិភ័យ និងផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ (Validation): គណនាសន្ទស្សន៍ភាពងាយរងគ្រោះនៅលើគ្រប់ផ្ទៃដីទាំងអស់ រួចបង្កើតជាផែនទីបែងចែកកម្រិតហានិភ័យ និងប្រើប្រាស់ខ្សែក្រាហ្វិក ROC (AUC) ដើម្បីវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែលធៀបនឹងទិន្នន័យជាក់ស្តែង។
ជំហានទី៥៖ ការធ្វើសមាហរណកម្មទៅក្នុងគោលនយោបាយ: ផ្តល់ផែនទីហានិភ័យចុងក្រោយទៅកាន់គណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ ដើម្បីបញ្ចូលទៅក្នុងប្រព័ន្ធតាមដាន និងព្រមានមុនពេលមានភ្លៀងធ្លាក់ខ្លាំង ព្រមទាំងផ្តល់អនុសាសន៍សម្រាប់ការប្រើប្រាស់ដីធ្លី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Artificial Neural Network (ANN)	វាជាម៉ូដែលគណិតវិទ្យាដែលត្រាប់តាមដំណើរការនៃខួរក្បាលមនុស្ស ដោយប្រើបណ្តាញថ្នាំង (Nodes) ជាច្រើនស្រទាប់ ដើម្បីរៀននិងទាញយកទំនាក់ទំនងស្មុគស្មាញ (មិនលីនេអ៊ែរ) រវាងកត្តាបរិស្ថានផ្សេងៗ និងហានិភ័យនៃការបាក់ដី។	ដូចជាកុមារដែលរៀនចំណាំមុខមនុស្ស ដោយមើលរូបថតច្រើនដង រហូតដល់ខួរក្បាលអាចចាប់ចំណុចសម្គាល់បានដោយខ្លួនឯង ទោះជួបមនុស្សនោះពាក់មួក ឬវ៉ែនតាក៏ដោយ។
Boosted Tree (BT)	វាក្បួនដោះស្រាយប្រភេទ Machine Learning ដែលបង្កើតមែកធាងសម្រេចចិត្ត (Decision Trees) តូចៗជាច្រើនបន្តបន្ទាប់គ្នា ដោយមែកធាងក្រោយៗត្រូវបានបង្កើតឡើងដើម្បីកែតម្រូវចំណុចខុសឆ្គងរបស់មែកធាងមុនៗ ជួយឱ្យការទស្សន៍ទាយកាន់តែមានភាពសុក្រឹតខ្ពស់។	ដូចជាក្រុមសិស្សដែលរួមគ្នាធ្វើលំហាត់ ដោយសិស្សទី២ជួយកែចំណុចខុសរបស់សិស្សទី១ ហើយសិស្សទី៣ជួយកែចំណុចខុសរបស់សិស្សទី២ រហូតទទួលបានចម្លើយដែលត្រឹមត្រូវបំផុត។
Topographic wetness index (TWI)	វាជាសន្ទស្សន៍ជលសាស្ត្រគណនាពីសណ្ឋានដី ដើម្បីកំណត់តំបន់ដែលអាចប្រមូលផ្តុំសំណើម ឬទឹកហូរ ដែលជួយចង្អុលបង្ហាញថាតំបន់ណាងាយនឹងឆ្អែតទឹកខ្លាំង និងងាយរងការបាក់ស្រុតពេលមានភ្លៀងធ្លាក់ខ្លាំង។	ដូចជាការសង្កេតមើលស្នាមផ្នត់ និងជ្រលងតូចៗនៅលើស្លឹកឈើ ដែលអាចប្រាប់យើងដឹងមុនថាតំណក់ទឹកនឹងហូរទៅប្រមូលផ្តុំគ្នានៅត្រង់ចំណុចណាខ្លះ។
Stream power index (SPI)	វាជារង្វាស់ដែលតំណាងឱ្យកម្លាំងថាមពលនៃការហូរច្រោះរបស់ចរន្តទឹកនៅលើផ្ទៃដី ដោយគណនាផ្អែកលើទំហំនៃផ្ទៃរងទឹកភ្លៀងខាងលើ និងកម្រិតភាពចោតនៃជម្រាល។	ដូចជាការបាញ់ទឹកទុយោចុះតាមជម្រាលភ្នំ ទឹកដែលហូរលើទីជម្រាលខ្លាំង ហើយមានបរិមាណច្រើន នឹងមានកម្លាំងបុកឆ្កៀលយកដីទៅជាមួយខ្លាំងជាងទឹកហូរលើទីរាបស្មើ។
Digital elevation model (DEM)	វាជាការចងក្រងទម្រង់កម្ពស់សណ្ឋានដីជាលក្ខណៈឌីជីថល ដែលត្រូវបានប្រើនៅក្នុងកម្មវិធីកុំព្យូទ័រ (GIS) ដើម្បីទាញយកព័ត៌មានលម្អិតដូចជា កម្រិតជម្រាល ទិសដៅជម្រាល និងបណ្តាញផ្លូវទឹកហូរដោយស្វ័យប្រវត្តិ។	ដូចជាការយកភួយមកគ្របពីលើគំនរខ្សាច់ រួចគូរក្រឡាចត្រង្គលើភួយនោះ ដើម្បីងាយស្រួលកត់ត្រាចូលកុំព្យូទ័រថាកន្លែងណាទាប កន្លែងណាខ្ពស់។
Receiver operating characteristics (ROC)	វាជាវិធីសាស្ត្រស្ថិតិសម្រាប់វាស់ស្ទង់ និងប្រៀបធៀបភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយ ដោយបង្ហាញខ្សែក្រាហ្វិកនៃអត្រានៃការទាយត្រូវ (True Positives) ធៀបនឹងអត្រានៃការទាយខុស (False Positives)។	ដូចជាតារាងពិន្ទុដែលបង្ហាញពីសមត្ថភាពរបស់គ្រូពេទ្យក្នុងការធ្វើរោគវិនិច្ឆ័យ ថាតើគាត់ទាយត្រូវប៉ុន្មានដង និងទាយខុស (ប្រាប់ថាមានជំងឺ តែការពិតអត់មាន) ប៉ុន្មានដង។
Backpropagation algorithm	វាជាយន្តការរៀនសូត្រចម្បងរបស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) ដែលបញ្ជូនទិន្នន័យកំហុស (Error) ពីលទ្ធផលចុងក្រោយត្រឡប់ទៅក្រោយវិញ ដើម្បីកែតម្រូវទម្ងន់ (Weights) នៃកត្តានីមួយៗ រហូតដល់ទទួលបានលទ្ធផលដែលខុសតិចបំផុត។	ដូចជាអ្នកបាញ់ធ្នូដែលបាញ់ខុសគោលដៅ រួចគាត់ពិនិត្យមើលថាតើគាត់កាច់ដៃខុសប៉ុន្មានដឺក្រេ ហើយក៏កែតម្រូវដៃបន្តិចសម្រាប់ការបាញ់លើកក្រោយរហូតដល់បាញ់ចំកណ្តាលស៊ីប។
Landslide inventory	វាជាការចងក្រងទិន្នន័យកូអរដោនេ និងការគូសផែនទីទីតាំងដែលធ្លាប់មានការរអិលបាក់ដីពិតប្រាកដកាលពីអតីតកាល ដើម្បីយកមកធ្វើជាទិន្នន័យគោលសម្រាប់បង្រៀនម៉ូដែលកុំព្យូទ័រ។	ដូចជាសៀវភៅកំណត់ហេតុស៊ើបអង្កេតរបស់ប៉ូលីស ដែលកត់ត្រាទីតាំងធ្លាប់មានចោរលួច ដើម្បីយកទៅវិភាគរកទម្លាប់របស់ចោរ សម្រាប់ដាក់ពង្រាយកម្លាំងការពារនៅថ្ងៃមុខ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖