បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាគ្រោះថ្នាក់នៃការបាក់ដីនៅក្នុងតំបន់ភ្នំដែលមានសណ្ឋានដីស្មុគស្មាញនៃភាគខាងជើងប្រទេសប៉ាគីស្ថាន ដោយផ្តោតលើការស្វែងរកវិធីសាស្ត្រព្យាករណ៍ និងកំណត់តំបន់ហានិភ័យឱ្យបានសុក្រឹត។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអនុវត្ត និងវាយតម្លៃប្រៀបធៀបម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ចំនួន ៥ ផ្សេងគ្នា ដើម្បីបង្កើតផែនទីភាពងាយរងគ្រោះដោយការបាក់ដី ដោយផ្អែកលើទិន្នន័យពីអតីតកាល និងកត្តាជម្រុញផ្សេងៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machine (SVM) ម៉ូដែល Support Vector Machine |
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យដែលមានលក្ខណៈមិនលីនេអ៊ែរ (Non-linear) និងអាចបង្កើតផ្ទៃទស្សន៍ទាយបានយ៉ាងរលូនល្អ។ | ទាមទារការសាកល្បងកំណត់ប៉ារ៉ាម៉ែត្រ (Parameter tuning) ច្រើន និងប្រើប្រាស់ពេលវេលាគណនាយូរសម្រាប់ទិន្នន័យធំៗ។ | ទទួលបានលទ្ធផលល្អជាងគេបំផុតជាមួយពិន្ទុ AUC = 0.969 និងពិន្ទុអនុវត្តរួម (POA) = 2669។ |
| Random Forest (RF) ម៉ូដែល Random Forest |
មិនងាយជួបប្រទះបញ្ហា Overfitting និងមានភាពរឹងមាំក្នុងការកាត់បន្ថយកំហុសដោយស្វ័យប្រវត្តិ ព្រមទាំងងាយស្រួលរៀបចំ។ | ទាមទារអង្គចងចាំ (Memory) ខ្ពស់នៅពេលដែលចំនួនដើមឈើ (Trees) និងទិន្នន័យមានទំហំធំ។ | ជាប់ចំណាត់ថ្នាក់លេខ២ យ៉ាងប្រកិតជាមួយពិន្ទុ AUC = 0.967 និងពិន្ទុអនុវត្តរួម (POA) = 2656។ |
| Gradient Boosting Machine (GBM) ម៉ូដែល Gradient Boosting Machine |
អាចកាត់បន្ថយកំហុសពីជំហានមុនៗបានយ៉ាងល្អតាមរយៈការសិក្សាបន្តបន្ទាប់គ្នា (Iterative approach)។ | មានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Sensitive parameterization) ច្រើនជាងម៉ូដែល RF ដែលធ្វើឱ្យពិបាកអនុវត្តលើតំបន់ធំៗ។ | ជាប់ចំណាត់ថ្នាក់លេខ៣ ដោយទទួលបានពិន្ទុ AUC = 0.967 និងពិន្ទុអនុវត្តរួម (POA) = 2623។ |
| Logistic Regression (LR) ម៉ូដែល Logistic Regression |
ងាយស្រួលក្នុងការប្រើប្រាស់ និងមិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំងក្នុងការគណនា។ | មិនមានភាពសុក្រឹតខ្ពស់សម្រាប់បញ្ហាភូមិសាស្ត្រ និងបរិស្ថានដែលមានភាពស្មុគស្មាញ ឬមានទំនាក់ទំនងកត្តាច្រើនចូលគ្នា។ | ទទួលបានលទ្ធផលទាបជាងគេបំផុតជាមួយពិន្ទុ AUC = 0.836 និងពិន្ទុអនុវត្តរួម (POA) = 1299។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារការប្រើប្រាស់កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ គួបផ្សំជាមួយនឹងកម្មវិធីប្រភពបើកចំហ (Open-source) និងទិន្នន័យផ្កាយរណបដែលអាចរកបានដោយឥតគិតថ្លៃ។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ភ្នំដែលមានសណ្ឋានដីចោតខ្លាំង (រហូតដល់ ៨៩ ដឺក្រេ) និងរញ្ជួយដីញឹកញាប់នៅភាគខាងជើងប្រទេសប៉ាគីស្ថាន។ ទោះបីជាប្រទេសកម្ពុជាមិនសូវមានសណ្ឋានដីចោតខ្លាំង ឬប្រឈមនឹងការរញ្ជួយដីក៏ដោយ ក៏វិធីសាស្ត្រនេះមានសារៈសំខាន់សម្រាប់កម្ពុជាក្នុងការវាយតម្លៃតំបន់ភ្នំ ដែលងាយរងគ្រោះដោយសារភ្លៀងធ្លាក់ខ្លាំង និងការកាប់បំផ្លាញព្រៃឈើ។
វិធីសាស្ត្រវាយតម្លៃហានិភ័យតាមរយៈម៉ូដែលរៀនដោយម៉ាស៊ីននេះ គឺពិតជាមានប្រយោជន៍ និងអាចយកមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពនៅក្នុងបរិបទប្រទេសកម្ពុជា។
ការរួមបញ្ចូលទិន្នន័យផ្កាយរណប និងម៉ូដែល ML នេះ នឹងជួយស្ថាប័នពាក់ព័ន្ធរបស់កម្ពុជា (ដូចជាគណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ - NCDM) ក្នុងការរៀបចំផែនការទប់ស្កាត់បានទាន់ពេលវេលា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Landslide Susceptibility Mapping (LSM) | គឺជាដំណើរការនៃការប្រើប្រាស់ទិន្នន័យភូមិសាស្ត្រ និងកត្តាជំរុញផ្សេងៗ (ដូចជា ជម្រាលភ្នំ ប្រភេទដី ទឹកភ្លៀង) ដើម្បីគូសជាផែនទីបង្ហាញពីកម្រិតហានិភ័យនៃទីតាំងនីមួយៗដែលអាចនឹងមានការបាក់ដីនាពេលអនាគត។ | ដូចជាការមើលផែនទីព្យាករណ៍អាកាសធាតុដែលប្រាប់យើងថាខេត្តណាខ្លះងាយនឹងមានភ្លៀងធ្លាក់ខ្លាំង តែទីនេះគឺវាប្រាប់ពីកន្លែងដែលងាយនឹងបាក់ដី។ |
| Support Vector Machine (SVM) | គឺជាក្បួនដោះស្រាយនៃម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលដំណើរការដោយការព្យាយាមគូសបន្ទាត់ ឬបង្កើតប្លង់ព្រំដែន (Hyperplane) ដ៏ល្អបំផុតមួយ ដើម្បីបំបែកទិន្នន័យជាក្រុមៗ (ឧទាហរណ៍៖ តំបន់បាក់ដី និងតំបន់មិនបាក់ដី) ឱ្យដាច់ពីគ្នាច្បាស់លាស់។ | ដូចជាការយកបន្ទាត់កាត់កណ្តាលរវាងក្រុមគ្រាប់ឃ្លីពណ៌ក្រហម និងពណ៌ខៀវ ដើម្បីបែងចែកពួកវាឱ្យនៅម្ខាងម្នាក់ដោយមិនឱ្យលាយឡំគ្នា។ |
| Random Forest (RF) | គឺជាម៉ូដែលរៀនដោយម៉ាស៊ីនដែលដំណើរការដោយការបង្កើតជា "ដើមឈើសម្រេចចិត្ត" (Decision Trees) រាប់រយដើម ហើយយកចម្លើយទស្សន៍ទាយពីដើមឈើទាំងអស់នោះមកបោះឆ្នោតរួមគ្នា ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយមួយដែលសុក្រឹតបំផុត និងមិនងាយមានកំហុស។ | ដូចជាការសួរមតិពីក្រុមអ្នកជំនាញ១០០នាក់អំពីបញ្ហាមួយ រួចយកចម្លើយណាដែលភាគច្រើនឯកភាពគ្នាបំផុតធ្វើជាការសម្រេចចិត្តចុងក្រោយ។ |
| Area Under the Curve (AUC) | ជារង្វាស់ស្ថិតិដ៏សំខាន់សម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning។ តម្លៃ AUC កាន់តែខិតជិតលេខ ១ មានន័យថាម៉ូដែលនោះកាន់តែពូកែ និងមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការបែងចែករវាងតំបន់ដែលមានបាក់ដី និងគ្មានការបាក់ដី។ | ដូចជាពិន្ទុប្រឡងប្រចាំខែរបស់សិស្សដែរ បើសិស្សប្រឡងបានពិន្ទុជិត ១០០ (ឬ លេខ ១ ក្នុងន័យនេះ) មានន័យថាសិស្សនោះរៀនពូកែ និងឆ្លើយបានត្រឹមត្រូវច្រើន។ |
| Multicollinearity Test | គឺជាការធ្វើតេស្តស្ថិតិដើម្បីត្រួតពិនិត្យ និងស្វែងរកមើលថា តើមានកត្តាជំរុញ (Variables) ណាខ្លះដែលមានទំនាក់ទំនងគ្នា ឬជាន់គ្នាខ្លាំងពេក ដែលអាចធ្វើឱ្យម៉ូដែលមានភាពច្របូកច្របល់ និងទាញយកលទ្ធផលខុសប្រក្រតី។ | ដូចជាការចាត់តាំងមនុស្សពីរនាក់ឱ្យធ្វើការងារតែមួយដូចគ្នាបេះបិទ ដែលធ្វើឱ្យខាតធនធាន និងអាចមានជម្លោះ ដូច្នេះយើងត្រូវដកម្នាក់ចេញ។ |
| Normalized Difference Vegetation Index (NDVI) | គឺជាសន្ទស្សន៍ដែលប្រើប្រាស់កម្រិតចំណាំងផ្លាតនៃពន្លឺពីទិន្នន័យរូបភាពផ្កាយរណប ដើម្បីវាស់ស្ទង់កម្រិតភាពខៀវស្រងាត់ និងដង់ស៊ីតេរុក្ខជាតិនៅលើផ្ទៃដី។ វាជួយបញ្ជាក់ថាតំបន់នោះមានព្រៃឈើក្រាស់ការពារការបាក់ដី ឬជាដីទទេដែលងាយនឹងបាក់។ | ដូចជាការប្រើប្រាស់កែវយឹតវេទមន្តដែលអាចឆ្លុះមើលពីលើមេឃឃើញថា កន្លែងណាមានដើមឈើដុះច្រើនជាងគេ និងកន្លែងណាជាដីរលីង។ |
| Topographic Wetness Index (TWI) | ជារង្វាស់ដែលគណនាអំពីសក្ដានុពលនៃការប្រមូលផ្តុំ និងការហូរនៃទឹកនៅទីតាំងណាមួយ ដោយផ្អែកលើទម្រង់នៃជម្រាលភ្នំ។ វាជួយប្រាប់យើងថាដីនៅទីតាំងនោះងាយនឹងដក់ ឬជោកជាំទឹក ដែលជាហេតុធ្វើឱ្យដីទន់ និងងាយបាក់ឬអត់។ | ដូចជាការសង្កេតមើលរាងរបស់ទីវាលដែលទំនាប និងទីទួល គឺកន្លែងទំនាបច្បាស់ជាងាយនឹងដក់ទឹកជោកជាំជាងនៅពេលមានភ្លៀងធ្លាក់។ |
| Information Gain Ratio (IGR) | ជារូបមន្តគណនាដែលជួយវាយតម្លៃ ជ្រើសរើស និងថ្លឹងថ្លែងថា តើកត្តាណាខ្លះ (ឧទាហរណ៍៖ កម្ពស់ដី ឬទឹកភ្លៀង) ដែលមានឥទ្ធិពល និងផ្តល់ព័ត៌មានមានប្រយោជន៍ជាងគេបំផុតសម្រាប់ការបង្រៀនម៉ូដែលឱ្យចេះទស្សន៍ទាយការបាក់ដី។ | ដូចជាអ្នកស៊ើបអង្កេតកំពុងថ្លឹងថ្លែងមើលថា សាក្សីមួយណាដែលផ្តល់តម្រុយសំខាន់ និងច្បាស់លាស់បំផុតក្នុងការបំបែកសំណុំរឿងក្តី។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖