Original Title: Ứng dụng trí tuệ nhân tạo trong xây dựng bản đồ nguy cơ ngập do nước biển dâng cho thành phố Hồ Chí Minh
Source: doi.org/10.36335/VNJHM.2023(746).96-107
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តបញ្ញាសិប្បនិម្មិតក្នុងការបង្កើតផែនទីហានិភ័យទឹកជំនន់ដោយសារការកើនឡើងកម្ពស់ទឹកសមុទ្រសម្រាប់ទីក្រុងហូជីមិញ

ចំណងជើងដើម៖ Ứng dụng trí tuệ nhân tạo trong xây dựng bản đồ nguy cơ ngập do nước biển dâng cho thành phố Hồ Chí Minh

អ្នកនិពន្ធ៖ Doãn Hà Phong (Viện Khoa học Khí tượng Thủy văn và Biến đổi Khí hậu), Trần Hữu Thế (Tỉnh ủy Phú Yên)

ឆ្នាំបោះពុម្ព៖ 2023, Tạp chí Khí tượng Thủy văn

វិស័យសិក្សា៖ Environmental Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទីក្រុងហូជីមិញប្រឈមនឹងហានិភ័យខ្ពស់នៃការលិចទឹកដោយសារការប្រែប្រួលអាកាសធាតុ និងការកើនឡើងកម្ពស់ទឹកសមុទ្រ ដែលទាមទារឱ្យមានដំណោះស្រាយរហ័សទាន់ពេលវេលាដើម្បីវាយតម្លៃ និងគូសផែនទីហានិភ័យទឹកជំនន់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវក្របខ័ណ្ឌរួមបញ្ចូលគ្នារវាងទិន្នន័យប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) ទិន្នន័យផ្កាយរណប និងបច្ចេកទេសរៀនដោយម៉ាស៊ីនដើម្បីវាយតម្លៃហានិភ័យទឹកជំនន់។

ការប្រមូល និងវិភាគទិន្នន័យផ្កាយរណប (Remote Sensing Data) ពី Sentinel-1 ចន្លោះឆ្នាំ២០១៥-២០២២ ដើម្បីកំណត់តំបន់លិចទឹក និងវាស់ស្ទង់ការស្រុតចុះនៃផ្ទៃដី។
ការប្រើប្រាស់ទិន្នន័យប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) រួមមានម៉ូដែលកម្ពស់ឌីជីថល (DEM) កម្រិតភាពច្បាស់ 2m និងទិន្នន័យនៃការបូមទឹកក្រោមដី។
ការប្រៀបធៀបបច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine Learning) ចំនួន៤ រួមមាន៖ Random Forest (RF), Naive Bayes (NB), Support Vector Machine (SVM) និង Neural Network (NN)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Random Forest ទទួលបានលទ្ធផលត្រឹមត្រូវបំផុត ជាមួយនឹងពិន្ទុ F1 ប្រហែល ០.៩៩ ក្នុងការទស្សន៍ទាយ និងគូសផែនទីហានិភ័យទឹកជំនន់។
ការស្រាវជ្រាវរកឃើញថាអត្រានៃការស្រុតចុះដីខ្ពស់បំផុតនៅតំបន់កណ្តាលទីក្រុងហូជីមិញមានប្រមាណ ១០ សង់ទីម៉ែត្រក្នុងមួយឆ្នាំ។
ខណ្ឌ Binh Tan និងស្រុក Binh Chanh ត្រូវបានវាយតម្លៃថាជាតំបន់ដែលមានហានិភ័យនៃការលិចទឹកខ្ពស់ជាងគេបំផុត ខណៈស្រុក Cu Chi មានហានិភ័យទាបជាងគេ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Forest (RF) ម៉ូដែលរៀនដោយម៉ាស៊ីន Random Forest	ងាយស្រួល លឿន អាចដោះស្រាយទិន្នន័យធំៗបានល្អ និងមានភាពសុក្រឹតខ្ពស់បំផុតក្នុងការទស្សន៍ទាយចំណាត់ថ្នាក់ពហុកម្រិត។	ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រកម្រិតខ្ពស់ (Hyperparameter tuning ដូចជា n_Estimator) ដើម្បីធានាបាននូវដំណើរការល្អបំផុត។	ទទួលបានពិន្ទុ F1 ខ្ពស់បំផុតប្រហែល ០.៩៩ សម្រាប់គ្រប់កម្រិតហានិភ័យទឹកជំនន់។
Neural Network (NN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកទំនាក់ទំនងស្មុគស្មាញ និងពហុកម្រិតរវាងអថេរនៃទិន្នន័យ។	ត្រូវការធនធានកុំព្យូទ័រខ្ពស់ និងពេលវេលាយូរក្នុងការបង្ហាត់ម៉ូដែល (Training time) បើធៀបនឹងម៉ូដែលសាមញ្ញដទៃទៀត។	ទទួលបានពិន្ទុ F1 ល្អឥតខ្ចោះប្រហែល ០.៩៩ សម្រាប់រាល់កម្រិតហានិភ័យ (ខ្ពស់ មធ្យម និងទាប)។
Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ	មានប្រសិទ្ធភាពក្នុងការបែងចែកទិន្នន័យដោយប្រើបន្ទាត់ព្រំដែន (Hyperplane) ក្នុងលំហទិន្នន័យពហុវិមាត្រ។	ប្រសិទ្ធភាពអាចធ្លាក់ចុះនៅពេលប្រើជាមួយសំណុំទិន្នន័យធំខ្លាំង និងត្រូវការជ្រើសរើសមុខងារ Kernel ឱ្យបានត្រឹមត្រូវ។	ទទួលបានពិន្ទុ F1 ចន្លោះពី ០.៩៧ ដល់ ០.៩៨ ។
Naive Bayes (NB) ទ្រឹស្តីប្រូបាប៊ីលីតេ Naive Bayes	ជាក្បួនដោះស្រាយសាមញ្ញ លឿន និងងាយស្រួលប្រើប្រាស់ជាមួយនឹងសំណុំទិន្នន័យធំៗ។	ដំណើរការមិនល្អលើទិន្នន័យស្មុគស្មាញ ដោយសារការសន្មត់ថាអថេរទាំងអស់មិនមានទំនាក់ទំនងនឹងគ្នា ដែលនាំឱ្យបរាជ័យក្នុងការទាយកម្រិតហានិភ័យមធ្យម។	ទទួលបានពិន្ទុ F1 ០.៩២ សម្រាប់ហានិភ័យខ្ពស់ ប៉ុន្តែបរាជ័យក្នុងការទស្សន៍ទាយហានិភ័យមធ្យម (F1 = ០.០០)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកខ្លាំងលើការប្រើប្រាស់ប្រព័ន្ធពពក (Cloud Computing) និងទិន្នន័យផ្កាយរណបប្រភពបើកចំហ ប៉ុន្តែទាមទារទិន្នន័យវាស់ស្ទង់ផ្ទាល់ដី និងកម្មវិធីជំនាញពិសេស។

Software: ចាំបាច់ត្រូវមានវេទិកា Google Earth Engine (GEE) សម្រាប់ការវិភាគទិន្នន័យធំ, កម្មវិធី SNAP (Sentinel Application Platform) សម្រាប់កែច្នៃរូបភាព Radar, និង Python (Scikit-Learn) សម្រាប់ម៉ូដែល AI។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រធម្មតាអាចប្រើប្រាស់ GEE បាន ប៉ុន្តែអាចត្រូវការ GPU សម្រាប់ការបង្ហាត់ម៉ូដែល Neural Network ប្រសិនបើពង្រីកទំហំស្រាវជ្រាវធំជាងនេះ។
Dataset: ត្រូវការទិន្នន័យផ្កាយរណប Sentinel-1 SAR (២០១៥-២០២២), ម៉ូដែលកម្ពស់ឌីជីថល (DEM គុណភាព 2m), និងទិន្នន័យវាស់ស្ទង់ការស្រុតដីពីប្រភពជាក់ស្តែង។
Expertise: ទាមទារអ្នកជំនាញផ្នែកប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS), អ្នកឯកទេសទិន្នន័យផ្កាយរណប (Remote Sensing ជាពិសេស InSAR), និងវិស្វកររៀនដោយម៉ាស៊ីន (Machine Learning Engineer)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើទិន្នន័យដែលប្រមូលបាននៅក្នុងតំបន់ទីក្រុងហូជីមិញ ដែលជាទីក្រុងមានការអភិវឌ្ឍន៍ខ្ពស់ ការស្រុតដីដោយសារបូមទឹកក្រោមដី និងលក្ខណៈភូមិសាស្ត្រជាប់សមុទ្រ។ ការយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់នៅកម្ពុជាដោយមិនបានបង្ហាត់សារជាថ្មី (Retraining) ជាមួយទិន្នន័យក្នុងស្រុក នឹងធ្វើឱ្យលទ្ធផលមិនសុក្រឹត ព្រោះមូលហេតុនៃការលិចទឹកនៅកម្ពុជាអាចខុសគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររួមបញ្ចូលបច្ចេកវិទ្យាអវកាស និងបញ្ញាសិប្បនិម្មិតនេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់កម្ពុជាក្នុងការរៀបចំយុទ្ធសាស្ត្រឆ្លើយតបនឹងគ្រោះមហន្តរាយ។

រាជធានីភ្នំពេញ: អាចប្រើដើម្បីគូសផែនទីតំបន់ងាយរងគ្រោះដោយសារការលិចទឹកភ្លៀង និងការអភិវឌ្ឍន៍លុបបឹង ដែលមានលក្ខណៈស្រដៀងនឹងបញ្ហានៅទីក្រុងហូជីមិញ។
តំបន់ឆ្នេរសមុទ្រ (ខេត្តព្រះសីហនុ កោះកុង កំពត កែប): អាចតាមដាន និងវាយតម្លៃហានិភ័យទឹកជំនន់ដោយសារការកើនឡើងនៃកម្ពស់ទឹកសមុទ្រ រួមផ្សំជាមួយភ្លៀងធ្លាក់ខ្លាំង ដើម្បីរៀបចំផែនការអភិវឌ្ឍន៍ទីក្រុងឆ្លាតវៃ។
តំបន់បឹងទន្លេសាប និងកសិកម្ម: អាចប្រើដើម្បីតាមដានរបបទឹកជំនន់តាមរដូវកាល ដើម្បីព្រមានកសិករ និងកាត់បន្ថយការខូចខាតដំណាំស្រូវនៅតាមបណ្តាខេត្តជុំវិញបឹង។

ការប្រើប្រាស់ទិន្នន័យ Sentinel-1 រួមជាមួយ Machine Learning នឹងផ្តល់នូវប្រព័ន្ធប្រកាសអាសន្នទឹកជំនន់មុនពេលកំណត់ដ៏មានប្រសិទ្ធភាព និងចំណាយតិចសម្រាប់រដ្ឋាភិបាលកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំមជ្ឈដ្ឋានទិន្នន័យ និងឧបករណ៍: ត្រូវចុះឈ្មោះ និងសិក្សាពីការប្រើប្រាស់ Google Earth Engine (GEE) ដើម្បីទាញយកទិន្នន័យ Sentinel-1 SAR កម្រិតខ្ពស់ដោយមិនគិតថ្លៃ។
ការកែច្នៃទិន្នន័យរូបភាពរ៉ាដា (SAR Processing): ប្រើប្រាស់កម្មវិធី SNAP ដើម្បីអនុវត្តបច្ចេកទេស InSAR និង SBAS សំដៅតាមដានការស្រុតចុះនៃផ្ទៃដី និងកាត់បន្ថយសំឡេងរំខាន (Speckle filtering) ពីរូបភាពផ្កាយរណប។
ប្រមូលទិន្នន័យភូមិសាស្ត្រក្នុងស្រុកកម្ពុជា: ស្វែងរកទិន្នន័យ DEM កម្រិតច្បាស់ (High-resolution Digital Elevation Model) ពីស្ថាប័នរដ្ឋាភិបាល ដូចជាក្រសួងធនធានទឹក ដើម្បីធ្វើឱ្យការគណនាកម្ពស់ដីមានភាពសុក្រឹត។
សាងសង់ និងបង្ហាត់ម៉ូដែលរៀនដោយម៉ាស៊ីន: សរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Scikit-Learn ឬ TensorFlow ដើម្បីសាកល្បងម៉ូដែល Random Forest និង Neural Network លើសំណុំទិន្នន័យដែលបានរៀបចំរួច។
បង្កើតប្រព័ន្ធផែនទីវិប (Web GIS): រួមបញ្ចូលលទ្ធផលដែលទទួលបានពីម៉ូដែល AI ទៅក្នុងប្រព័ន្ធ Web GIS ដើម្បីបង្ហាញផែនទីហានិភ័យទឹកជំនន់បែបអន្តរកម្ម ដែលអ្នករៀបចំគោលនយោបាយអាចចូលមើល និងប្រើប្រាស់បាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Sentinel-1	ជាប្រភេទផ្កាយរណបរ៉ាដា (SAR) ដែលអាចថតរូបភាពផ្ទៃដីបានទាំងយប់ទាំងថ្ងៃ និងអាចទម្លុះពពក ដោយបញ្ជូនរលកសញ្ញាវិទ្យុទៅប៉ះដីរួចត្រលប់មកវិញ ដើម្បីវាស់ស្ទង់តំបន់លិចទឹក ឬការស្រុតដី។	ដូចជាសត្វប្រចៀវបញ្ចេញសំឡេងខ្ទាតប៉ះជញ្ជាំងដើម្បីដឹងទីតាំងវត្ថុ ទោះបីជាមើលមិនឃើញក៏ដោយ។
Random Forest	ជាបច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" ច្រើនរួមបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយចំណាត់ថ្នាក់ទិន្នន័យបានយ៉ាងសុក្រឹត (ឧ. ញែកតំបន់ហានិភ័យខ្ពស់ មធ្យម និងទាប)។	ដូចជាការសួរសំណួរទៅកាន់មនុស្សមួយក្រុមធំ ហើយយកចម្លើយភាគច្រើនដើម្បីសម្រេចចិត្តចុងក្រោយ ជាជាងការជឿលើមនុស្សតែម្នាក់។
Digital Elevation Model (DEM)	ជាគំរូទិន្នន័យកុំព្យូទ័រ 3D ដែលតំណាងឱ្យកម្ពស់នៃផ្ទៃដីធៀបនឹងនីវ៉ូទឹកសមុទ្រ (មិនរាប់បញ្ចូលអាគារ ឬដើមឈើ) ដែលគេប្រើដើម្បីវិភាគថាតើតំបន់ណាទាប និងងាយរងគ្រោះដោយទឹកជំនន់។	ដូចជាការយកដីឥដ្ឋមកសូនជារូបរាងភ្នំ និងជ្រលង ដើម្បីមើលថាតើទឹកនឹងហូរទៅដក់នៅកន្លែងណាខ្លះ។
InSAR (Interferometric Synthetic Aperture Radar)	ជាបច្ចេកទេសប្រៀបធៀបរូបភាពផ្កាយរណបរ៉ាដាពីពេលវេលាពីរខុសគ្នា ដើម្បីវាស់ស្ទង់បម្រែបម្រួលកម្ពស់ផ្ទៃដីក្នុងកម្រិតមិល្លីម៉ែត្រ ដូចជាការវាស់ស្ទង់អត្រាស្រុតចុះនៃដីទីក្រុងដោយសារការបូមទឹកក្រោមដី។	ដូចជាការថតរូបទីតាំងតែមួយពីរបីដង ហើយយកមកដាក់ត្រួតស៊ីគ្នាដើម្បីពិនិត្យមើលថាតើមានផ្ទៃដីណាបានរំកិលចុះក្រោមឬទេ។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយផ្នែក Machine Learning ដែលស្វែងរកគូសបន្ទាត់ព្រំដែនដ៏ល្អបំផុត (Hyperplane) នៅក្នុងលំហទិន្នន័យពហុវិមាត្រ ដើម្បីបែងចែកប្រភេទចំណាត់ថ្នាក់ទិន្នន័យឱ្យដាច់ពីគ្នា។	ដូចជាការគូសខ្សែបន្ទាត់មួយយ៉ាងប្រុងប្រយ័ត្ននៅលើទីលាន ដើម្បីបែងចែកក្រុមសិស្សពាក់អាវក្រហម និងអាវខៀវឱ្យនៅដាច់ពីគ្នាបានច្បាស់បំផុត។
F1 Score	ជារង្វាស់នៃភាពសុក្រឹតរបស់ម៉ូដែល Machine Learning ដែលគណនារួមបញ្ចូលគ្នារវាង Precision (ភាពច្បាស់លាស់) និង Recall (សមត្ថភាពក្នុងការរកឃើញ) ដើម្បីវាយតម្លៃថាតើម៉ូដែលនោះទាយត្រូវកម្រិតណា។	ដូចជាពិន្ទុវាយតម្លៃរួម ដែលមិនត្រឹមតែមើលលើចម្លើយត្រឹមត្រូវប៉ុណ្ណោះទេ តែថែមទាំងមើលថាតើសិស្សបានឆ្លើយគ្រប់សំណួរដែរឬទេ។
Speckle noise removal	ដំណើរការផ្នែកទន់ (Software Process) ក្នុងការកាត់បន្ថយគ្រាប់អុចៗ ឬសំឡេងរំខាននៅក្នុងរូបភាពផ្កាយរណបរ៉ាដា ដើម្បីធ្វើឱ្យរូបភាពកាន់តែរលោង និងងាយស្រួលក្នុងការកំណត់ព្រំដែនផ្ទៃទឹក។	ដូចជាការជូតកញ្ចក់វ៉ែនតាដែលប្រឡាក់ដោយគ្រាប់ធូលី ដើម្បីឱ្យយើងអាចមើលឃើញទិដ្ឋភាពខាងក្រៅបានច្បាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖