Original Title: Machine Learning-Based Flood Risk Assessment in Urban Watershed: Mapping Flood Susceptibility in Charlotte, North Carolina
Source: doi.org/10.3390/geographies5030043
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃហានិភ័យទឹកជំនន់ដោយផ្អែកលើការរៀនរបស់ម៉ាស៊ីននៅក្នុងតំបន់ទីជម្រាលទីក្រុង៖ ការគូសផែនទីភាពងាយរងគ្រោះដោយទឹកជំនន់នៅ Charlotte រដ្ឋ North Carolina

ចំណងជើងដើម៖ Machine Learning-Based Flood Risk Assessment in Urban Watershed: Mapping Flood Susceptibility in Charlotte, North Carolina

អ្នកនិពន្ធ៖ Sujan Shrestha (Southern Illinois University), Dewasis Dahal (Southern Illinois University), Nishan Bhattarai (Kathmandu University), Sunil Regmi (Kathmandu University), Roshan Sewa (Southern Illinois University), Ajay Kalra (Southern Illinois University)

ឆ្នាំបោះពុម្ព៖ Geographies 2025

វិស័យសិក្សា៖ Hydrology and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាការកើនឡើងនៃផលប៉ះពាល់ទឹកជំនន់នៅក្នុងតំបន់ទីជម្រាលទីក្រុង ដែលបណ្តាលមកពីការប្រែប្រួលអាកាសធាតុ និងនគរូបនីយកម្ម ដោយផ្តោតលើតំបន់ Briar Creek ទីក្រុង Charlotte រដ្ឋ North Carolina។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine learning algorithms) ចំនួនបី ដើម្បីបង្កើតទម្រង់គូសផែនទីវាយតម្លៃភាពងាយរងគ្រោះដោយទឹកជំនន់ ដោយរួមបញ្ចូលទិន្នន័យភូមិសាស្ត្រ ជលសាស្ត្រ និងឧតុនិយម។

ការប្រើប្រាស់ទម្រង់ការរៀនរបស់ម៉ាស៊ីន (Machine Learning Models) ចំនួនបីគឺ៖ Bagging, XGBoost, និង Logistic Regression
ការចងក្រងទិន្នន័យចំណុចទឹកជំនន់ចំនួន ៧៥០ ចំណុច ដោយបែងចែកជា ៧០% សម្រាប់ការបណ្តុះបណ្តាល (Training) និង ៣០% សម្រាប់ការធ្វើតេស្ត (Testing)
ការរួមបញ្ចូលអថេរព្យាករណ៍សំខាន់ៗ ដូចជា កម្ពស់ (Elevation) ចម្ងាយទៅទន្លេ (Distance to river) ល្បឿនលំហូរ (Flow velocity) និងទិន្នន័យទឹកភ្លៀងរយៈពេល ៨ ឆ្នាំ (Rainfall data)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ទម្រង់ Logistic Regression ផ្តល់លទ្ធផលល្អបំផុតជាមួយនឹងភាពត្រឹមត្រូវ (Accuracy) ៩៧,៩២% ខ្ពស់ជាង XGBoost (៩៥,៨៣%) និង Bagging (៩៣,៧៥%)។
យោងតាមទម្រង់ Logistic Regression តំបន់សិក្សាត្រូវបានចាត់ថ្នាក់ជា ៥ កម្រិតហានិភ័យ ដែលក្នុងនោះ ៥,៥៥% ជាតំបន់ហានិភ័យខ្ពស់បំផុត (Very high risk) និង ៨,៦៦% ជាតំបន់ហានិភ័យខ្ពស់។
កម្ពស់ (Elevation) និងចម្ងាយពីទន្លេ (Distance to river) ត្រូវបានរកឃើញថាជាកត្តាកំណត់ដ៏មានឥទ្ធិពលបំផុតក្នុងការវាយតម្លៃហានិភ័យទឹកជំនន់ ដែលការវាយតម្លៃនេះក៏ស្របគ្នាទៅនឹងផែនទីកំណត់តំបន់គ្រោះថ្នាក់ទឹកជំនន់របស់ FEMA ផងដែរ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Logistic Regression តំរែតំរង់ឡូជីស្ទីក (Logistic Regression)	មានភាពងាយស្រួលយល់ និងបកស្រាយបានច្បាស់លាស់ពីឥទ្ធិពលនៃអថេរនីមួយៗ ព្រមទាំងមានស្ថិរភាព និងផ្តល់ភាពជាក់លាក់ខ្ពស់បំផុតដោយកាត់បន្ថយការផ្តល់សញ្ញាព្រមានខុស (False alarms)។	សន្មតថាសមាមាត្ររវាងអថេរ និងហានិភ័យទឹកជំនន់ជាទម្រង់លីនេអ៊ែរ (Linear) ដែលអាចធ្វើឱ្យវារំលងកម្រិតប្រែប្រួលស្មុគស្មាញ និងងាយរងឥទ្ធិពលពីទិន្នន័យខុសប្រក្រតី (Outliers)។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩៧,៩២% ភាពជាក់លាក់ (Precision) ១០០% និងពិន្ទុ F1-Score ០,៩៧៨៧ ដែលជាលទ្ធផលល្អជាងគេ។
Bagging (Random Forest) វិធីសាស្ត្រ Bagging (រួមបញ្ចូល Random Forest)	មានសមត្ថភាពចាប់យកទម្រង់ទិន្នន័យស្មុគស្មាញ (Non-linear) និងមានកម្រិត Sensitivity ខ្ពស់ ដែលស័ក្តិសមបំផុតសម្រាប់ការតាមដានរកទីតាំងងាយរងគ្រោះមិនឱ្យរំលង (High Recall)។	ដោយសារតែមានភាពរហ័សក្នុងការចាប់សញ្ញា វាអាចបង្កើតសញ្ញាព្រមានខុសច្រើនជាងមុន និងពឹងផ្អែកខ្លាំងពេកទៅលើអថេរចម្ងាយពីទន្លេ (DTR)។	ទទួលបានភាពត្រឹមត្រូវ ៩៣,៧៥% និងមានអត្រា AUC ខ្ពស់រហូតដល់ ០,៩៩៧៤។
XGBoost វិធីសាស្ត្រ XGBoost (Extreme Gradient Boosting)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការគណនាទិន្នន័យធំៗ លឿន និងប្រើប្រាស់អថេរច្រើនយ៉ាងទូលំទូលាយដើម្បីទស្សន៍ទាយហានិភ័យ ដោយមិនពឹងផ្អែកតែលើអថេរមួយ។	ផ្តល់លទ្ធផលកម្រិត AUC ទាបជាងគេក្នុងចំណោមទម្រង់ទាំងបី (០,៩៧១៤) ព្រមទាំងមានលក្ខណៈស្មុគស្មាញដែលពិបាកបកស្រាយ (Black-box model)។	ទទួលបានភាពត្រឹមត្រូវ ៩៥,៨៣% និងភាពជាក់លាក់ (Precision) ១០០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រសម្រាប់វិភាគទិន្នន័យភូមិសាស្ត្រ (GIS) ទិន្នន័យពីផ្កាយរណបឬស្ថាប័នរដ្ឋ ទិន្នន័យជលសាស្ត្រ និងសមត្ថភាពកុំព្យូទ័រមធ្យមសម្រាប់ដំណើរការទម្រង់បណ្តុះបណ្តាលម៉ាស៊ីន (Machine Learning)។

Software: កម្មវិធី QGIS (ជំនាន់ ៣.២២.០ សម្រាប់វិភាគផែនទី) និងភាសាកូដ Python សម្រាប់ដំណើរការទម្រង់ Machine Learning និង GridSearchCV។
Dataset: ទិន្នន័យកម្ពស់ដីភាពច្បាស់ខ្ពស់ (DEM 1m) ទិន្នន័យទឹកភ្លៀងរយៈពេល៨ឆ្នាំ ទិន្នន័យលំហូរទឹក (Streamflow) ទិន្នន័យគម្របដី និងទីតាំងប្រវត្តិទឹកជំនន់ចំនួន ៧៥០ ចំណុច។
Hardware: កុំព្យូទ័រដែលមានសមត្ថភាពគណនាមធ្យមទៅខ្ពស់ សម្រាប់ដំណើរការការបណ្តុះបណ្តាលក្បួនដោះស្រាយរួមបញ្ចូលគ្នា (Ensemble algorithms) ដូចជា XGBoost។
Expertise: ទាមទារអ្នកមានជំនាញខាងជលសាស្ត្រ (Hydrology) ការវិភាគប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) និងចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Science)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ទីជម្រាលទីក្រុង Briar Creek រដ្ឋ North Carolina ដែលមានហេដ្ឋារចនាសម្ព័ន្ធក្រាស់ឃ្មឹក និងផ្អែកលើទិន្នន័យផែនទីពី FEMA។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈភូមិសាស្ត្រ ប្រព័ន្ធរំដោះទឹក និងអាំងតង់ស៊ីតេទឹកភ្លៀងមានភាពខុសគ្នាស្រឡះ ដូច្នេះការប្រើប្រាស់ទម្រង់នេះទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុក (Local data) ដែលច្បាស់លាស់ជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីននេះមានសក្តានុពលខ្ពស់ដែលអាចយកមកអនុវត្តដើម្បីគូសផែនទីហានិភ័យទឹកជំនន់នៅតាមបណ្តាខេត្ត និងទីក្រុងនានាក្នុងប្រទេសកម្ពុជា។

រាជធានីភ្នំពេញ (Phnom Penh): អាចប្រើប្រាស់ដើម្បីទស្សន៍ទាយ និងរៀបចំផែនទីតំបន់លិចលង់ ដោយប្រើប្រាស់ទិន្នន័យកម្ពស់ដី ទិន្នន័យប្រព័ន្ធលូ និងកម្រិតទឹកភ្លៀង ដើម្បីដោះស្រាយបញ្ហាជំនន់ទឹកភ្លៀងនៅតំបន់ទីក្រុង។
ខេត្តបាត់ដំបង និងបន្ទាយមានជ័យ (Battambang & Banteay Meanchey): អាចតាមដានហានិភ័យជំនន់ទឹកភ្លៀង និងជំនន់ទន្លេសង្កែ ដោយផ្តោតលើអថេរចម្ងាយពីទន្លេ (Distance to river) និងរបាយទឹកភ្លៀងតាមរដូវកាល។
គណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ (NCDM): អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីបង្កើតប្រព័ន្ធព្រមានជាមុន (Early Warning Systems) គូសផែនទីហានិភ័យកម្រិតខ្ពស់ និងរៀបចំយុទ្ធសាស្ត្រជម្លៀសប្រជាជនប្រកបដោយប្រសិទ្ធភាព។

ការអនុវត្តប្រព័ន្ធនេះនឹងជួយពង្រឹងសមត្ថភាពអាជ្ញាធរពាក់ព័ន្ធក្នុងការគ្រប់គ្រងគ្រោះមហន្តរាយ បង្កើនភាពធន់នៃហេដ្ឋារចនាសម្ព័ន្ធទីក្រុង និងជួយកាត់បន្ថយការខូចខាតទ្រព្យសម្បត្តិសេដ្ឋកិច្ចបានទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងរៀបចំទិន្នន័យភូមិសាស្ត្រមូលដ្ឋាន: ប្រើប្រាស់កម្មវិធី QGIS ដើម្បីទាញយកនិងកែច្នៃទិន្នន័យកម្ពស់ដី (DEM) កម្រិតទឹកភ្លៀង ប្រភេទគម្របដី ល្បឿនលំហូរទឹក និងចម្ងាយពីប្រភពទឹកជុំវិញតំបន់សិក្សា។
សាងសង់បញ្ជីសារពើភណ្ឌទឹកជំនន់ (Flood Inventory): ប្រមូលទិន្នន័យទីតាំងដែលធ្លាប់លិចលង់ និងមិនធ្លាប់លិចលង់នាពេលកន្លងមក បន្ទាប់មកបែងចែកទិន្នន័យទាំងនោះជា ៧០% សម្រាប់បណ្តុះបណ្តាល (Training data) និង ៣០% សម្រាប់ធ្វើតេស្ត (Testing data)។
បណ្តុះបណ្តាលទម្រង់ Machine Learning: ប្រើប្រាស់ភាសាកូដ Python ជាមួយនឹងបណ្ណាល័យ Scikit-Learn និង XGBoost ដើម្បីសាងសង់ទម្រង់ Logistic Regression និងអនុវត្តការកំណត់ប៉ារ៉ាម៉ែត្រ GridSearchCV។
វាយតម្លៃសមត្ថភាពរបស់ទម្រង់ម៉ាស៊ីន: ប្រើប្រាស់រង្វាស់បច្ចេកទេសដូចជា Accuracy, Precision, Recall, F1-Score និង ROC-AUC Curve ដើម្បីធ្វើការប្រៀបធៀប និងជ្រើសរើសទម្រង់ដែលផ្តល់លទ្ធផលល្អមានស្ថិរភាពជាងគេ។
គូសផែនទីចំណាត់ថ្នាក់ហានិភ័យទឹកជំនន់: បញ្ចូលលទ្ធផលភាគរយនៃហានិភ័យត្រលប់ទៅក្នុងប្រព័ន្ធ GIS វិញ ដើម្បីបង្កើតផែនទីហានិភ័យទឹកជំនន់ ដែលបែងចែកជា ៥ កម្រិត (ទាបបំផុត ទៅ ខ្ពស់បំផុត) សម្រាប់ជូនដំណឹងដល់សាធារណជន និងអ្នកធ្វើគោលនយោបាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Logistic Regression	វិធីសាស្ត្រស្ថិតិដែលប្រើដើម្បីទស្សន៍ទាយប្រូបាប៊ីលីតេនៃព្រឹត្តិការណ៍មួយ (ឧទាហរណ៍៖ លិចទឹក ឬមិនលិចទឹក) ដោយផ្អែកលើទម្ងន់នៃអថេរឯករាជ្យដូចជា កម្ពស់ដី និងកម្រិតទឹកភ្លៀង។ នៅក្នុងការសិក្សានេះ វាសន្មតថាមានទំនាក់ទំនងលីនេអ៊ែររវាងអថេរ និងហានិភ័យ ហើយវាមានភាពច្បាស់លាស់ក្នុងការកាត់បន្ថយការព្រមានខុស។	ដូចជាការដាក់ពិន្ទុវាយតម្លៃសិស្សថាតើនឹងប្រឡងជាប់ឬធ្លាក់ ដោយបូកសរុបពិន្ទុវត្តមាន និងពិន្ទុធ្វើកិច្ចការផ្ទះ។
Bagging	ជាវិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលបង្កើតមែកធាងសម្រេចចិត្ត (Decision Trees) ជាច្រើនដាច់ដោយឡែកពីគ្នាដោយប្រើសំណុំទិន្នន័យផ្សេងៗគ្នា រួចយកលទ្ធផលរបស់វាទាំងអស់មកបោះឆ្នោត ឬបញ្ចូលគ្នាដើម្បីទស្សន៍ទាយលទ្ធផលចុងក្រោយ ដែលជួយកាត់បន្ថយភាពលម្អៀង និងបង្កើនស្ថិរភាព។	ដូចជាការសួរមតិអ្នកជំនាញ ១០០ នាក់ផ្សេងៗគ្នា រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នាជាការសម្រេចចិត្តចុងក្រោយ ដើម្បីបញ្ចៀសការសម្រេចចិត្តខុសដោយសារបុគ្គលម្នាក់។
XGBoost	ក្បួនដោះស្រាយកម្រិតខ្ពស់ដែលបង្កើតមែកធាងសម្រេចចិត្តបន្តបន្ទាប់គ្នា (Sequential) ដោយមែកធាងនីមួយៗព្យាយាមកែតម្រូវកំហុសរបស់មែកធាងមុន វាមានល្បឿនលឿន និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យធំៗដែលមានលក្ខណៈស្មុគស្មាញ។	ដូចជាការធ្វើលំហាត់គណិតវិទ្យា ដោយមានគ្រូកែតម្រូវកំហុសរបស់អ្នករាល់ដងដែលអ្នកធ្វើខុសម្តងៗ រហូតទាល់តែអ្នកអាចធ្វើវាបានត្រឹមត្រូវឥតខ្ចោះ។
Digital Elevation Model	ទិន្នន័យតំណាងរចនាសម្ព័ន្ធកម្ពស់នៃផ្ទៃដីជាទម្រង់ឌីជីថល (3D) ដែលផ្តល់ព័ត៌មានលម្អិតអំពីជម្រាលដី ជ្រលងភ្នំ និងរណ្តៅ ដែលត្រូវបានប្រើប្រាស់យ៉ាងសំខាន់នៅក្នុងប្រព័ន្ធ GIS ដើម្បីវិភាគទិសដៅនៃលំហូរទឹក និងកំណត់តំបន់ងាយរងគ្រោះទឹកជំនន់។	ដូចជាផ្ទាំងផែនទីកាត់ខ្វែងដែលបង្ហាញពីកន្លែងទាបនិងកន្លែងខ្ពស់យ៉ាងច្បាស់លាស់ ជួយឱ្យយើងដឹងថាទឹកនឹងហូរស្រុតទៅប្រមូលផ្តុំនៅកន្លែងណា។
ROC Curve	ខ្សែកោងក្រាហ្វិកដែលតំណាងឱ្យសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែករវាងតំបន់មានហានិភ័យ និងគ្មានហានិភ័យនៅកម្រិតខុសៗគ្នា។ ចំណែកឯ AUC (Area Under the Curve) ជាតួលេខដែលបើវាកាន់តែខិតជិត ១ មានន័យថាម៉ូដែលនោះកាន់តែមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយ។	ដូចជារង្វាស់កម្រិតភាពច្បាស់នៃវ៉ែនតា អត្រាឱកាសមើលឃើញកាន់តែច្បាស់ (ជិតស្មើ ១០០%) មានន័យថាវ៉ែនតានោះកាន់តែល្អសម្រាប់ភ្នែកអ្នក។
False positives	ករណីដែលម៉ូដែលទស្សន៍ទាយខុសថាមានព្រឹត្តិការណ៍កើតឡើង (ឧទាហរណ៍៖ ទស្សន៍ទាយថានឹងមានទឹកជំនន់ធំនៅតំបន់នោះ) ប៉ុន្តែជាក់ស្តែងការពិតគឺមិនមានព្រឹត្តិការណ៍នោះកើតឡើងទាល់តែសោះ។	ដូចជាសំឡេងរោទិ៍ប្រកាសអាសន្នអគ្គិភ័យរោទិ៍ឡើងដោយសារតែផ្សែងបារីធម្មតា មិនមែនដោយសារមានភ្លើងឆេះផ្ទះពិតប្រាកដ។
Stratified random sampling	បច្ចេកទេសជ្រើសរើសគំរូទិន្នន័យដោយបែងចែកចំនួនទិន្នន័យជាក្រុមៗតាមសមាមាត្រស្មើគ្នា (ឧទាហរណ៍៖ ចំណុចទីតាំងលិចទឹក និងមិនលិចទឹកមានចំនួន ៣៧៥ ស្មើគ្នា) ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកក្រុមណាមួយក្នុងពេលរៀន (Training)។	ដូចជាការចាប់ឆ្នោតជ្រើសរើសសិស្សប្រុស ៥ នាក់ និងសិស្សស្រី ៥ នាក់ ពីក្នុងថ្នាក់មួយ ដើម្បីតំណាងឱ្យសាលាដោយមានភាពស្មើគ្នាផ្នែកយេនឌ័រ។
Grid SearchCV	ដំណើរការស្វែងរកដោយស្វ័យប្រវត្តិនូវសំណុំប៉ារ៉ាម៉ែត្រ (Hyperparameters) ដ៏ល្អបំផុតសម្រាប់ម៉ូដែលរៀនរបស់ម៉ាស៊ីន ដោយវាធ្វើការសាកល្បងរាល់បន្សំលទ្ធភាពទាំងអស់ ហើយផ្ទៀងផ្ទាត់យ៉ាងយកចិត្តទុកដាក់ដោយប្រើបច្ចេកទេស Cross-Validation កាត់បន្ថយការទាយស្មានដោយផ្ទាល់ពីមនុស្ស។	ដូចជាការសាកល្បងបង្វិលលេខកូដសោរគ្រប់ខ្ទង់ទាំងអស់ម្តងមួយៗដោយស្វ័យប្រវត្តិ រហូតដល់រកឃើញលេខកូដត្រឹមត្រូវដែលអាចបើកសោរនោះបាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖