Original Title: Shallow Landslide Susceptibility Modeling Using the Data Mining Models Artificial Neural Network and Boosted Tree
Source: doi.org/10.3390/app7101000
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើម៉ូដែលភាពងាយរងគ្រោះដោយការរអិលបាក់ដីរាក់ ដោយប្រើប្រាស់ម៉ូដែលរុករកទិន្នន័យ បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត និងមែកធាងជំរុញ (Boosted Tree)

ចំណងជើងដើម៖ Shallow Landslide Susceptibility Modeling Using the Data Mining Models Artificial Neural Network and Boosted Tree

អ្នកនិពន្ធ៖ Hyun-Joo Oh (Korea Institute of Geoscience and Mineral Resources), Saro Lee (Korea Institute of Geoscience and Mineral Resources; Korea University of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2017 Applied Sciences

វិស័យសិក្សា៖ Geoinformatics / Natural Hazards

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាការវាយតម្លៃ និងទស្សន៍ទាយភាពងាយរងគ្រោះនៃការរអិលបាក់ដីរាក់ (Shallow Landslide Susceptibility) នៅក្នុងតំបន់ Yongin ប្រទេសកូរ៉េ ដោយសារកំណើនហានិភ័យនៃភ្លៀងធ្លាក់ខ្លាំងដែលបណ្តាលមកពីបម្រែបម្រួលអាកាសធាតុ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រមូលទិន្នន័យទីតាំងរអិលបាក់ដីពីមុន ហើយប្រើប្រាស់បច្ចេកទេសរុករកទិន្នន័យ (Data Mining) ពីរប្រភេទ រួមជាមួយកត្តាបរិស្ថានផ្សេងៗដើម្បីបង្កើតម៉ូដែលវាយតម្លៃហានិភ័យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Artificial Neural Network (ANN)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត
មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយដំណើរការស្មុគស្មាញ និងទិន្នន័យមិនលីនេអ៊ែរដោយមិនចាំបាច់មានការសន្មត់ជាមុនអំពីទំនាក់ទំនងរវាងអថេរ។ ដំណើរការនិងភាពត្រឹមត្រូវមានកម្រិតទាបជាង បើប្រៀបធៀបទៅនឹងម៉ូដែលមែកធាងជំរុញ ហើយទាមទារពេលវេលាយូរក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters)។ ទទួលបានភាពត្រឹមត្រូវ ៨២.២៥% ផ្អែកលើការវិភាគខ្សែក្រាហ្វិក ROC (AUC)។
Boosted Tree (BT)
ម៉ូដែលមែកធាងជំរុញ
មានភាពត្រឹមត្រូវខ្ពស់ និងមានអត្ថប្រយោជន៍អាចចាត់ចែងទាំងអថេរជាប់ (Continuous) និងអថេរចាត់ថ្នាក់ (Categorical) បានយ៉ាងល្អក្នុងការស្វែងរកទំនាក់ទំនងនៃទិន្នន័យ។ ម៉ូដែលនេះអាចងាយនឹងរៀនចងចាំជ្រុល (Overfitting) ប្រសិនបើមិនមានការកំណត់ដើមឈើ និងអត្រារៀន (Learning rate) ឲ្យបានត្រឹមត្រូវនោះទេ។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩០.៧៩% ផ្អែកលើការវិភាគខ្សែក្រាហ្វិក ROC (AUC) ដែលមានប្រសិទ្ធភាពជាង ANN ប្រមាណ ៨%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារឱ្យមានការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រផ្នែកប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) កម្មវិធីវិភាគទិន្នន័យកម្រិតខ្ពស់ និងរូបថតពីលើអាកាសដែលមានកម្រិតច្បាស់ខ្ពស់ ដើម្បីស្រង់យកកត្តាបរិស្ថានបានច្បាស់លាស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីតំបន់ភ្នំ Yongin ប្រទេសកូរ៉េ ដែលផ្តោតលើការរអិលបាក់ដីប្រភេទរាក់ដោយសារភ្លៀងធ្លាក់ខ្លាំង លើប្រភេទដី និងព្រៃឈើជាក់លាក់ (ឧទាហរណ៍៖ biotite gneiss)។ សម្រាប់ប្រទេសកម្ពុជា ប្រភេទដី គម្របព្រៃឈើ និងលំនាំនៃអាកាសធាតុមានលក្ខណៈខុសប្លែកពីកូរ៉េ ដូច្នេះការចម្លងម៉ូដែលនេះដោយមិនមានការបង្ហាត់សារជាថ្មីជាមួយទិន្នន័យក្នុងស្រុក អាចនឹងផ្តល់លទ្ធផលមិនត្រឹមត្រូវល្អនោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលរុករកទិន្នន័យនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ជាពិសេសដើម្បីវាយតម្លៃហានិភ័យមុនពេលមានគ្រោះមហន្តរាយនៅតាមតំបន់ភ្នំជម្រាលខ្ពស់។

ការកសាងប្រព័ន្ធទិន្នន័យ និងវាយតម្លៃហានិភ័យបាក់ដី ដោយប្រើប្រាស់ Machine Learning នឹងជួយពង្រឹងភាពធន់នៃការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធ និងសង្គ្រោះអាយុជីវិតប្រជាពលរដ្ឋនៅកម្ពុជាពីឥទ្ធិពលនៃការប្រែប្រួលអាកាសធាតុបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ការប្រមូលទិន្នន័យ និងរៀបចំឃ្លាំងទិន្នន័យលំហ (Spatial Database): ប្រមូលរូបថតពីលើអាកាស ទិន្នន័យកម្ពស់ដីកម្រិតច្បាស់ (DEM) និងផែនទីប្រើប្រាស់ដីក្នុងតំបន់គោលដៅនៅកម្ពុជា ដោយប្រើប្រាស់កម្មវិធី ArcGISQGIS ដើម្បីរៀបចំស្រទាប់ទិន្នន័យជាប្រព័ន្ធតែមួយ។
  2. ជំហានទី២៖ ការគណនាកត្តាបរិស្ថាន (Environmental Factors): ប្រើប្រាស់កម្មវិធី SAGA GIS ដើម្បីទាញយកកត្តាសំខាន់ៗពី DEM ដូចជា កម្រិតជម្រាល (Slope) ទិសដៅជម្រាល (Aspect) និងសន្ទស្សន៍សំណើមសណ្ឋានដី (TWI) ដែលមានឥទ្ធិពលខ្លាំងលើការបាក់ដី។
  3. ជំហានទី៣៖ ការរៀបចំ និងបង្ហាត់ម៉ូដែល Machine Learning: បែងចែកទិន្នន័យទីតាំងដែលធ្លាប់បាក់ដីជាពីរចំណែក (៥០% សម្រាប់បង្ហាត់ និង ៥០% សម្រាប់ផ្ទៀងផ្ទាត់) រួចប្រើប្រាស់ Python (Scikit-Learn)R ដើម្បីបង្ហាត់ម៉ូដែល Boosted Tree និងកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានល្អិតល្អន់។
  4. ជំហានទី៤៖ ការបង្កើតផែនទីហានិភ័យ និងផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ (Validation): គណនាសន្ទស្សន៍ភាពងាយរងគ្រោះនៅលើគ្រប់ផ្ទៃដីទាំងអស់ រួចបង្កើតជាផែនទីបែងចែកកម្រិតហានិភ័យ និងប្រើប្រាស់ខ្សែក្រាហ្វិក ROC (AUC) ដើម្បីវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែលធៀបនឹងទិន្នន័យជាក់ស្តែង។
  5. ជំហានទី៥៖ ការធ្វើសមាហរណកម្មទៅក្នុងគោលនយោបាយ: ផ្តល់ផែនទីហានិភ័យចុងក្រោយទៅកាន់គណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ ដើម្បីបញ្ចូលទៅក្នុងប្រព័ន្ធតាមដាន និងព្រមានមុនពេលមានភ្លៀងធ្លាក់ខ្លាំង ព្រមទាំងផ្តល់អនុសាសន៍សម្រាប់ការប្រើប្រាស់ដីធ្លី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Artificial Neural Network (ANN) វាជាម៉ូដែលគណិតវិទ្យាដែលត្រាប់តាមដំណើរការនៃខួរក្បាលមនុស្ស ដោយប្រើបណ្តាញថ្នាំង (Nodes) ជាច្រើនស្រទាប់ ដើម្បីរៀននិងទាញយកទំនាក់ទំនងស្មុគស្មាញ (មិនលីនេអ៊ែរ) រវាងកត្តាបរិស្ថានផ្សេងៗ និងហានិភ័យនៃការបាក់ដី។ ដូចជាកុមារដែលរៀនចំណាំមុខមនុស្ស ដោយមើលរូបថតច្រើនដង រហូតដល់ខួរក្បាលអាចចាប់ចំណុចសម្គាល់បានដោយខ្លួនឯង ទោះជួបមនុស្សនោះពាក់មួក ឬវ៉ែនតាក៏ដោយ។
Boosted Tree (BT) វាក្បួនដោះស្រាយប្រភេទ Machine Learning ដែលបង្កើតមែកធាងសម្រេចចិត្ត (Decision Trees) តូចៗជាច្រើនបន្តបន្ទាប់គ្នា ដោយមែកធាងក្រោយៗត្រូវបានបង្កើតឡើងដើម្បីកែតម្រូវចំណុចខុសឆ្គងរបស់មែកធាងមុនៗ ជួយឱ្យការទស្សន៍ទាយកាន់តែមានភាពសុក្រឹតខ្ពស់។ ដូចជាក្រុមសិស្សដែលរួមគ្នាធ្វើលំហាត់ ដោយសិស្សទី២ជួយកែចំណុចខុសរបស់សិស្សទី១ ហើយសិស្សទី៣ជួយកែចំណុចខុសរបស់សិស្សទី២ រហូតទទួលបានចម្លើយដែលត្រឹមត្រូវបំផុត។
Topographic wetness index (TWI) វាជាសន្ទស្សន៍ជលសាស្ត្រគណនាពីសណ្ឋានដី ដើម្បីកំណត់តំបន់ដែលអាចប្រមូលផ្តុំសំណើម ឬទឹកហូរ ដែលជួយចង្អុលបង្ហាញថាតំបន់ណាងាយនឹងឆ្អែតទឹកខ្លាំង និងងាយរងការបាក់ស្រុតពេលមានភ្លៀងធ្លាក់ខ្លាំង។ ដូចជាការសង្កេតមើលស្នាមផ្នត់ និងជ្រលងតូចៗនៅលើស្លឹកឈើ ដែលអាចប្រាប់យើងដឹងមុនថាតំណក់ទឹកនឹងហូរទៅប្រមូលផ្តុំគ្នានៅត្រង់ចំណុចណាខ្លះ។
Stream power index (SPI) វាជារង្វាស់ដែលតំណាងឱ្យកម្លាំងថាមពលនៃការហូរច្រោះរបស់ចរន្តទឹកនៅលើផ្ទៃដី ដោយគណនាផ្អែកលើទំហំនៃផ្ទៃរងទឹកភ្លៀងខាងលើ និងកម្រិតភាពចោតនៃជម្រាល។ ដូចជាការបាញ់ទឹកទុយោចុះតាមជម្រាលភ្នំ ទឹកដែលហូរលើទីជម្រាលខ្លាំង ហើយមានបរិមាណច្រើន នឹងមានកម្លាំងបុកឆ្កៀលយកដីទៅជាមួយខ្លាំងជាងទឹកហូរលើទីរាបស្មើ។
Digital elevation model (DEM) វាជាការចងក្រងទម្រង់កម្ពស់សណ្ឋានដីជាលក្ខណៈឌីជីថល ដែលត្រូវបានប្រើនៅក្នុងកម្មវិធីកុំព្យូទ័រ (GIS) ដើម្បីទាញយកព័ត៌មានលម្អិតដូចជា កម្រិតជម្រាល ទិសដៅជម្រាល និងបណ្តាញផ្លូវទឹកហូរដោយស្វ័យប្រវត្តិ។ ដូចជាការយកភួយមកគ្របពីលើគំនរខ្សាច់ រួចគូរក្រឡាចត្រង្គលើភួយនោះ ដើម្បីងាយស្រួលកត់ត្រាចូលកុំព្យូទ័រថាកន្លែងណាទាប កន្លែងណាខ្ពស់។
Receiver operating characteristics (ROC) វាជាវិធីសាស្ត្រស្ថិតិសម្រាប់វាស់ស្ទង់ និងប្រៀបធៀបភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយ ដោយបង្ហាញខ្សែក្រាហ្វិកនៃអត្រានៃការទាយត្រូវ (True Positives) ធៀបនឹងអត្រានៃការទាយខុស (False Positives)។ ដូចជាតារាងពិន្ទុដែលបង្ហាញពីសមត្ថភាពរបស់គ្រូពេទ្យក្នុងការធ្វើរោគវិនិច្ឆ័យ ថាតើគាត់ទាយត្រូវប៉ុន្មានដង និងទាយខុស (ប្រាប់ថាមានជំងឺ តែការពិតអត់មាន) ប៉ុន្មានដង។
Backpropagation algorithm វាជាយន្តការរៀនសូត្រចម្បងរបស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) ដែលបញ្ជូនទិន្នន័យកំហុស (Error) ពីលទ្ធផលចុងក្រោយត្រឡប់ទៅក្រោយវិញ ដើម្បីកែតម្រូវទម្ងន់ (Weights) នៃកត្តានីមួយៗ រហូតដល់ទទួលបានលទ្ធផលដែលខុសតិចបំផុត។ ដូចជាអ្នកបាញ់ធ្នូដែលបាញ់ខុសគោលដៅ រួចគាត់ពិនិត្យមើលថាតើគាត់កាច់ដៃខុសប៉ុន្មានដឺក្រេ ហើយក៏កែតម្រូវដៃបន្តិចសម្រាប់ការបាញ់លើកក្រោយរហូតដល់បាញ់ចំកណ្តាលស៊ីប។
Landslide inventory វាជាការចងក្រងទិន្នន័យកូអរដោនេ និងការគូសផែនទីទីតាំងដែលធ្លាប់មានការរអិលបាក់ដីពិតប្រាកដកាលពីអតីតកាល ដើម្បីយកមកធ្វើជាទិន្នន័យគោលសម្រាប់បង្រៀនម៉ូដែលកុំព្យូទ័រ។ ដូចជាសៀវភៅកំណត់ហេតុស៊ើបអង្កេតរបស់ប៉ូលីស ដែលកត់ត្រាទីតាំងធ្លាប់មានចោរលួច ដើម្បីយកទៅវិភាគរកទម្លាប់របស់ចោរ សម្រាប់ដាក់ពង្រាយកម្លាំងការពារនៅថ្ងៃមុខ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖