បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាការកើនឡើងនៃផលប៉ះពាល់ទឹកជំនន់នៅក្នុងតំបន់ទីជម្រាលទីក្រុង ដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ និងនគរូបនីយកម្ម ដោយផ្តោតលើតំបន់ Briar Creek ទីក្រុង Charlotte រដ្ឋ North Carolina។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine learning algorithms) ចំនួនបី ដើម្បីបង្កើតទម្រង់គូសផែនទីវាយតម្លៃភាពងាយរងគ្រោះដោយទឹកជំនន់ ដោយរួមបញ្ចូលទិន្នន័យភូមិសាស្ត្រ ជលសាស្ត្រ និងឧតុនិយម។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Logistic Regression តំរែតំរង់ឡូជីស្ទីក (Logistic Regression) |
មានភាពងាយស្រួលយល់ និងបកស្រាយបានច្បាស់លាស់ពីឥទ្ធិពលនៃអថេរនីមួយៗ ព្រមទាំងមានស្ថិរភាព និងផ្តល់ភាពជាក់លាក់ខ្ពស់បំផុតដោយកាត់បន្ថយការផ្តល់សញ្ញាព្រមានខុស (False alarms)។ | សន្មតថាសមាមាត្ររវាងអថេរ និងហានិភ័យទឹកជំនន់ជាទម្រង់លីនេអ៊ែរ (Linear) ដែលអាចធ្វើឱ្យវារំលងកម្រិតប្រែប្រួលស្មុគស្មាញ និងងាយរងឥទ្ធិពលពីទិន្នន័យខុសប្រក្រតី (Outliers)។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩៧,៩២% ភាពជាក់លាក់ (Precision) ១០០% និងពិន្ទុ F1-Score ០,៩៧៨៧ ដែលជាលទ្ធផលល្អជាងគេ។ |
| Bagging (Random Forest) វិធីសាស្ត្រ Bagging (រួមបញ្ចូល Random Forest) |
មានសមត្ថភាពចាប់យកទម្រង់ទិន្នន័យស្មុគស្មាញ (Non-linear) និងមានកម្រិត Sensitivity ខ្ពស់ ដែលស័ក្តិសមបំផុតសម្រាប់ការតាមដានរកទីតាំងងាយរងគ្រោះមិនឱ្យរំលង (High Recall)។ | ដោយសារតែមានភាពរហ័សក្នុងការចាប់សញ្ញា វាអាចបង្កើតសញ្ញាព្រមានខុសច្រើនជាងមុន និងពឹងផ្អែកខ្លាំងពេកទៅលើអថេរចម្ងាយពីទន្លេ (DTR)។ | ទទួលបានភាពត្រឹមត្រូវ ៩៣,៧៥% និងមានអត្រា AUC ខ្ពស់រហូតដល់ ០,៩៩៧៤។ |
| XGBoost វិធីសាស្ត្រ XGBoost (Extreme Gradient Boosting) |
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការគណនាទិន្នន័យធំៗ លឿន និងប្រើប្រាស់អថេរច្រើនយ៉ាងទូលំទូលាយដើម្បីទស្សន៍ទាយហានិភ័យ ដោយមិនពឹងផ្អែកតែលើអថេរមួយ។ | ផ្តល់លទ្ធផលកម្រិត AUC ទាបជាងគេក្នុងចំណោមទម្រង់ទាំងបី (០,៩៧១៤) ព្រមទាំងមានលក្ខណៈស្មុគស្មាញដែលពិបាកបកស្រាយ (Black-box model)។ | ទទួលបានភាពត្រឹមត្រូវ ៩៥,៨៣% និងភាពជាក់លាក់ (Precision) ១០០%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រសម្រាប់វិភាគទិន្នន័យភូមិសាស្ត្រ (GIS) ទិន្នន័យពីផ្កាយរណបឬស្ថាប័នរដ្ឋ ទិន្នន័យជលសាស្ត្រ និងសមត្ថភាពកុំព្យូទ័រមធ្យមសម្រាប់ដំណើរការទម្រង់បណ្តុះបណ្តាលម៉ាស៊ីន (Machine Learning)។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ទីជម្រាលទីក្រុង Briar Creek រដ្ឋ North Carolina ដែលមានហេដ្ឋារចនាសម្ព័ន្ធក្រាស់ឃ្មឹក និងផ្អែកលើទិន្នន័យផែនទីពី FEMA។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈភូមិសាស្ត្រ ប្រព័ន្ធរំដោះទឹក និងអាំងតង់ស៊ីតេទឹកភ្លៀងមានភាពខុសគ្នាស្រឡះ ដូច្នេះការប្រើប្រាស់ទម្រង់នេះទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុក (Local data) ដែលច្បាស់លាស់ជាមុនសិន។
វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីននេះមានសក្តានុពលខ្ពស់ដែលអាចយកមកអនុវត្តដើម្បីគូសផែនទីហានិភ័យទឹកជំនន់នៅតាមបណ្តាខេត្ត និងទីក្រុងនានាក្នុងប្រទេសកម្ពុជា។
ការអនុវត្តប្រព័ន្ធនេះនឹងជួយពង្រឹងសមត្ថភាពអាជ្ញាធរពាក់ព័ន្ធក្នុងការគ្រប់គ្រងគ្រោះមហន្តរាយ បង្កើនភាពធន់នៃហេដ្ឋារចនាសម្ព័ន្ធទីក្រុង និងជួយកាត់បន្ថយការខូចខាតទ្រព្យសម្បត្តិសេដ្ឋកិច្ចបានទាន់ពេលវេលា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Logistic Regression | វិធីសាស្ត្រស្ថិតិដែលប្រើដើម្បីទស្សន៍ទាយប្រូបាប៊ីលីតេនៃព្រឹត្តិការណ៍មួយ (ឧទាហរណ៍៖ លិចទឹក ឬមិនលិចទឹក) ដោយផ្អែកលើទម្ងន់នៃអថេរឯករាជ្យដូចជា កម្ពស់ដី និងកម្រិតទឹកភ្លៀង។ នៅក្នុងការសិក្សានេះ វាសន្មតថាមានទំនាក់ទំនងលីនេអ៊ែររវាងអថេរ និងហានិភ័យ ហើយវាមានភាពច្បាស់លាស់ក្នុងការកាត់បន្ថយការព្រមានខុស។ | ដូចជាការដាក់ពិន្ទុវាយតម្លៃសិស្សថាតើនឹងប្រឡងជាប់ឬធ្លាក់ ដោយបូកសរុបពិន្ទុវត្តមាន និងពិន្ទុធ្វើកិច្ចការផ្ទះ។ |
| Bagging | ជាវិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលបង្កើតមែកធាងសម្រេចចិត្ត (Decision Trees) ជាច្រើនដាច់ដោយឡែកពីគ្នាដោយប្រើសំណុំទិន្នន័យផ្សេងៗគ្នា រួចយកលទ្ធផលរបស់វាទាំងអស់មកបោះឆ្នោត ឬបញ្ចូលគ្នាដើម្បីទស្សន៍ទាយលទ្ធផលចុងក្រោយ ដែលជួយកាត់បន្ថយភាពលម្អៀង និងបង្កើនស្ថិរភាព។ | ដូចជាការសួរមតិអ្នកជំនាញ ១០០ នាក់ផ្សេងៗគ្នា រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នាជាការសម្រេចចិត្តចុងក្រោយ ដើម្បីបញ្ចៀសការសម្រេចចិត្តខុសដោយសារបុគ្គលម្នាក់។ |
| XGBoost | ក្បួនដោះស្រាយកម្រិតខ្ពស់ដែលបង្កើតមែកធាងសម្រេចចិត្តបន្តបន្ទាប់គ្នា (Sequential) ដោយមែកធាងនីមួយៗព្យាយាមកែតម្រូវកំហុសរបស់មែកធាងមុន វាមានល្បឿនលឿន និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យធំៗដែលមានលក្ខណៈស្មុគស្មាញ។ | ដូចជាការធ្វើលំហាត់គណិតវិទ្យា ដោយមានគ្រូកែតម្រូវកំហុសរបស់អ្នករាល់ដងដែលអ្នកធ្វើខុសម្តងៗ រហូតទាល់តែអ្នកអាចធ្វើវាបានត្រឹមត្រូវឥតខ្ចោះ។ |
| Digital Elevation Model | ទិន្នន័យតំណាងរចនាសម្ព័ន្ធកម្ពស់នៃផ្ទៃដីជាទម្រង់ឌីជីថល (3D) ដែលផ្តល់ព័ត៌មានលម្អិតអំពីជម្រាលដី ជ្រលងភ្នំ និងរណ្តៅ ដែលត្រូវបានប្រើប្រាស់យ៉ាងសំខាន់នៅក្នុងប្រព័ន្ធ GIS ដើម្បីវិភាគទិសដៅនៃលំហូរទឹក និងកំណត់តំបន់ងាយរងគ្រោះទឹកជំនន់។ | ដូចជាផ្ទាំងផែនទីកាត់ខ្វែងដែលបង្ហាញពីកន្លែងទាបនិងកន្លែងខ្ពស់យ៉ាងច្បាស់លាស់ ជួយឱ្យយើងដឹងថាទឹកនឹងហូរស្រុតទៅប្រមូលផ្តុំនៅកន្លែងណា។ |
| ROC Curve | ខ្សែកោងក្រាហ្វិកដែលតំណាងឱ្យសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែករវាងតំបន់មានហានិភ័យ និងគ្មានហានិភ័យនៅកម្រិតខុសៗគ្នា។ ចំណែកឯ AUC (Area Under the Curve) ជាតួលេខដែលបើវាកាន់តែខិតជិត ១ មានន័យថាម៉ូដែលនោះកាន់តែមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយ។ | ដូចជារង្វាស់កម្រិតភាពច្បាស់នៃវ៉ែនតា អត្រាឱកាសមើលឃើញកាន់តែច្បាស់ (ជិតស្មើ ១០០%) មានន័យថាវ៉ែនតានោះកាន់តែល្អសម្រាប់ភ្នែកអ្នក។ |
| False positives | ករណីដែលម៉ូដែលទស្សន៍ទាយខុសថាមានព្រឹត្តិការណ៍កើតឡើង (ឧទាហរណ៍៖ ទស្សន៍ទាយថានឹងមានទឹកជំនន់ធំនៅតំបន់នោះ) ប៉ុន្តែជាក់ស្តែងការពិតគឺមិនមានព្រឹត្តិការណ៍នោះកើតឡើងទាល់តែសោះ។ | ដូចជាសំឡេងរោទិ៍ប្រកាសអាសន្នអគ្គិភ័យរោទិ៍ឡើងដោយសារតែផ្សែងបារីធម្មតា មិនមែនដោយសារមានភ្លើងឆេះផ្ទះពិតប្រាកដ។ |
| Stratified random sampling | បច្ចេកទេសជ្រើសរើសគំរូទិន្នន័យដោយបែងចែកចំនួនទិន្នន័យជាក្រុមៗតាមសមាមាត្រស្មើគ្នា (ឧទាហរណ៍៖ ចំណុចទីតាំងលិចទឹក និងមិនលិចទឹកមានចំនួន ៣៧៥ ស្មើគ្នា) ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកក្រុមណាមួយក្នុងពេលរៀន (Training)។ | ដូចជាការចាប់ឆ្នោតជ្រើសរើសសិស្សប្រុស ៥ នាក់ និងសិស្សស្រី ៥ នាក់ ពីក្នុងថ្នាក់មួយ ដើម្បីតំណាងឱ្យសាលាដោយមានភាពស្មើគ្នាផ្នែកយេនឌ័រ។ |
| Grid SearchCV | ដំណើរការស្វែងរកដោយស្វ័យប្រវត្តិនូវសំណុំប៉ារ៉ាម៉ែត្រ (Hyperparameters) ដ៏ល្អបំផុតសម្រាប់ម៉ូដែលរៀនរបស់ម៉ាស៊ីន ដោយវាធ្វើការសាកល្បងរាល់បន្សំលទ្ធភាពទាំងអស់ ហើយផ្ទៀងផ្ទាត់យ៉ាងយកចិត្តទុកដាក់ដោយប្រើបច្ចេកទេស Cross-Validation កាត់បន្ថយការទាយស្មានដោយផ្ទាល់ពីមនុស្ស។ | ដូចជាការសាកល្បងបង្វិលលេខកូដសោរគ្រប់ខ្ទង់ទាំងអស់ម្តងមួយៗដោយស្វ័យប្រវត្តិ រហូតដល់រកឃើញលេខកូដត្រឹមត្រូវដែលអាចបើកសោរនោះបាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖