Original Title: Imputing Missing Data in Hydrology using Machine Learning Models
Source: www.ijert.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំពេញទិន្នន័យដែលបាត់បង់ក្នុងវិស័យជលសាស្ត្រ ដោយប្រើប្រាស់គំរូនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning Models)

ចំណងជើងដើម៖ Imputing Missing Data in Hydrology using Machine Learning Models

អ្នកនិពន្ធ៖ Vasker Sharma (Jigme Namgyel Engineering College, Royal University of Bhutan), Kezang Yuden (Jigme Namgyel Engineering College, Royal University of Bhutan)

ឆ្នាំបោះពុម្ព៖ 2021, International Journal of Engineering Research & Technology (IJERT)

វិស័យសិក្សា៖ Hydrology / Civil Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់ (Missing Data) នៅក្នុងកំណត់ត្រាទឹកភ្លៀង និងសីតុណ្ហភាព ដែលប៉ះពាល់យ៉ាងខ្លាំងដល់ការធ្វើគំរូជលសាស្ត្រ និងការគ្រប់គ្រងធនធានទឹក។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបវិធីសាស្ត្របំពេញទិន្នន័យផ្សេងៗគ្នា រួមទាំងវិធីសាស្ត្រស្ថិតិ និងម៉ាស៊ីនរៀន ដើម្បីស្វែងរកវិធីដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់យកទៅប្រើប្រាស់ក្នុងការទស្សន៍ទាយលំហូរទឹក។

ការបំពេញទិន្នន័យដោយប្រើគំរូ k-Nearest Neighbours (kNN) និងគំរូផ្អែកលើដើមឈើសម្រេចចិត្ត (Tree-based models/Random Forest)។
ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) ដើម្បីទស្សន៍ទាយលំហូរទឹក ដោយផ្អែកលើទិន្នន័យដែលបានបំពេញរួច។
ការវាយតម្លៃភាពមិនប្រាកដប្រជាដោយប្រើបច្ចេកទេស Bootstrapping និងការវាស់វែងកំហុសដោយ RMSE និង MAE ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ kNN ផ្តល់លទ្ធផលល្អប្រសើរជាងគំរូ Tree-based បន្តិចក្នុងការបំពេញទិន្នន័យដែលបាត់បង់។
ការប្រើប្រាស់ទិន្នន័យដែលបានបំពេញដោយ kNN ជាមួយគំរូ ANN ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៤.៥៣% និង ៩១.១១% សម្រាប់ស្ថានីយ៍វាស់វែងទាំងពីរ។
លទ្ធផលបង្ហាញថា ការប្រើប្រាស់ម៉ាស៊ីនរៀន (Machine Learning) គឺជាជម្រើសដ៏ល្អមួយសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញនៅក្នុងការសិក្សាវិទ្យាសាស្ត្របរិស្ថាន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Multiple Linear Regression (MLRM) គំរូតម្រែតម្រង់លីនេអ៊ែរពហុគុណ	ជាវិធីសាស្ត្រស្ថិតិមូលដ្ឋានដែលងាយស្រួលអនុវត្ត និងយល់។	ទាមទារឱ្យមានទំនាក់ទំនងលីនេអ៊ែររវាងអថេរ និងតែងតែបោះចោលទិន្នន័យដែលមានតម្លៃបាត់បង់ (Missing values) ដែលធ្វើឱ្យបាត់បង់ទំហំសំណាក។	ត្រូវបានប្រើប្រាស់ជាមូលដ្ឋានប្រៀបធៀប ប៉ុន្តែមិនមានប្រសិទ្ធភាពដូចវិធីសាស្ត្រ Machine Learning ក្នុងការដោះស្រាយទិន្នន័យស្មុគស្មាញ។
k-Nearest Neighbours (kNN) Imputation ការបំពេញទិន្នន័យដោយប្រើគំរូជិតខាងដែលនៅជិតបំផុត	ប្រើប្រាស់ការគណនាចម្ងាយដើម្បីរកតម្លៃដែលសមស្របពីទិន្នន័យជិតខាង និងផ្តល់ភាពលំអៀង (Bias) ទាប។	អាចចំណាយពេលយូរក្នុងការគណនាប្រសិនបើទិន្នន័យមានទំហំធំខ្លាំង។	មានប្រសិទ្ធភាពល្អបំផុតក្នុងការបំពេញទិន្នន័យ ដោយមានកំហុសស្តង់ដារ (Standard Error) ទាប និងលំអៀងតិចតួចបំផុត។
Decision Tree-based / Random Forest ការបំពេញទិន្នន័យផ្អែកលើដើមឈើសម្រេចចិត្ត	មិនទាមទារឱ្យមានការសន្មតលើទំនាក់ទំនងរវាងអថេរ និងអាចចាប់យកលំនាំមិនលីនេអ៊ែរបានល្អ។	ត្រូវការពេលវេលាគណនាយូរជាង និងមានកំហុស RMSE ខ្ពស់ជាង kNN បន្តិចនៅក្នុងការសិក្សានេះ។	មានកំហុស RMSE ខ្ពស់ជាង kNN បន្តិច ប៉ុន្តែនៅតែអាចទទួលយកបានសម្រាប់ការប្រើប្រាស់។
Artificial Neural Network (ANN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (សម្រាប់ទស្សន៍ទាយលំហូរ)	មានសមត្ថភាពខ្ពស់ក្នុងការរៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងទឹកភ្លៀង សីតុណ្ហភាព និងលំហូរទឹក។	ដំណើរការដូចប្រអប់ខ្មៅ (Black box) ដែលពិបាកពន្យល់ពីដំណើរការខាងក្នុង និងទាមទារទិន្នន័យច្រើនដើម្បីបង្រៀន (Train)។	សម្រេចបាននូវភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយ (៩១-៩៤%) នៅពេលប្រើប្រាស់ទិន្នន័យដែលបំពេញដោយ kNN ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រទូទៅ ប៉ុន្តែទាមទារចំណេះដឹងផ្នែកសរសេរកូដស្ថិតិ។

Software: ប្រើប្រាស់ភាសា R និងកញ្ចប់ (Packages) ដូចជា VIM, missForest, និង neuralnet។
Dataset: ទិន្នន័យពីស្ថានីយ៍ឧតុនិយមចំនួន ៦ និងស្ថានីយ៍វាស់កម្ពស់ទឹកចំនួន ២ (ទាមទារទិន្នន័យរយៈពេលវែង)។
Expertise: ចំណេះដឹងផ្នែក Hydrological Modelling និងមូលដ្ឋានគ្រឹះនៃ Machine Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងនៅតំបន់ភ្នំនៃប្រទេសប៊ូតាន (Bhutan) ដែលមានលក្ខណៈភូមិសាស្ត្រ និងអាកាសធាតុស្រដៀងនឹងតំបន់ខ្ពង់រាប ឬតំបន់ជួរភ្នំក្រវាញក្នុងប្រទេសកម្ពុជា។ ទិន្នន័យដែលបាត់បង់ជាបញ្ហាសកល ប៉ុន្តែលក្ខណៈនៃភ្លៀងមូសុងអាចមានភាពខុសគ្នាខ្លះពីកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាទិន្នន័យមិនពេញលេញនៅតាមស្ថានីយ៍វាស់វែងនានា។

ក្រសួងធនធានទឹក និងឧតុនិយម (MOWRAM): អាចប្រើប្រាស់វិធីសាស្ត្រ kNN ដើម្បីបំពេញចន្លោះទិន្នន័យទឹកភ្លៀងដែលបាត់បង់ក្នុងអំឡុងពេលសង្គ្រាម ឬការខូចខាតឧបករណ៍។
ការព្យាករណ៍ទឹកជំនន់ (Flood Forecasting): ការប្រើប្រាស់ ANN អាចជួយបង្កើនភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយកម្ពស់ទឹកនៅបឹងទន្លេសាប ឬទន្លេមេគង្គ ដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់។
ការគ្រប់គ្រងទំនប់វារីអគ្គិសនី: ទំនប់ដូចជា កំចាយ ឬ តាតៃ ត្រូវការទិន្នន័យលំហូរទឹកដែលត្រឹមត្រូវសម្រាប់ការផលិតថាមពល និងសុវត្ថិភាពទំនប់។

ការយកគំរូ Machine Learning មកប្រើប្រាស់ នឹងជួយអ្នកស្រាវជ្រាវកម្ពុជាកាត់បន្ថយភាពមិនប្រាកដប្រជា និងធ្វើឱ្យការគ្រប់គ្រងធនធានទឹកមានប្រសិទ្ធភាពជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១: ការរៀបចំឧបករណ៍: ដំឡើងកម្មវិធី R និង RStudio ព្រមទាំងរៀនប្រើប្រាស់កញ្ចប់ចាំបាច់ដូចជា 'VIM' សម្រាប់ការបំពេញទិន្នន័យ និង 'neuralnet' សម្រាប់បង្កើតគំរូ។
ជំហានទី ២: ការប្រមូល និងសម្អាតទិន្នន័យ: ស្នើសុំទិន្នន័យទឹកភ្លៀង និងកម្ពស់ទឹកពី MOWRAM ឬប្រើប្រាស់ទិន្នន័យបើកចំហរ (Open Data) រួចបង្កើតជា Missing Values សិប្បនិម្មិត (MCAR) ដើម្បីសាកល្បង។
ជំហានទី ៣: ការអនុវត្តការបំពេញទិន្នន័យ (Imputation): ប្រើប្រាស់កូដដើម្បីដំណើរការ kNN Imputation (k=5) លើទិន្នន័យដែលបាត់បង់ រួចប្រៀបធៀបលទ្ធផលជាមួយទិន្នន័យដើមដើម្បីវាយតម្លៃកំហុស (RMSE)។
ជំហានទី ៤: ការបង្កើតគំរូព្យាករណ៍ (Prediction Model): យកទិន្នន័យដែលបានបំពេញរួច មកបង្រៀន (Train) គំរូ ANN ដោយប្រើបច្ចេកទេស Backpropagation ដើម្បីទស្សន៍ទាយលំហូរទឹក។
ជំហានទី ៥: ការវាយតម្លៃ និងការអនុវត្ត: វាយតម្លៃប្រសិទ្ធភាពគំរូដោយប្រើ MAE និង RMSE។ បើលទ្ធផលល្អ អាចសាកល្បងអនុវត្តលើទិន្នន័យជាក់ស្តែងនៃអាងទន្លេណាមួយក្នុងប្រទេសកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Imputation	ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយតម្លៃដែលត្រូវបានប៉ាន់ប្រមាណតាមរយៈការគណនាស្ថិតិ ឬម៉ាស៊ីនរៀន ដើម្បីឱ្យសំណុំទិន្នន័យមានភាពពេញលេញសម្រាប់ការវិភាគបន្ត។	ដូចជាការបំពេញពាក្យដែលបាត់នៅក្នុងប្រយោគ ដោយមើលទៅលើអត្ថន័យនៃពាក្យដែលនៅជុំវិញវា។
k-Nearest Neighbours (kNN)	ជាក្បួនដោះស្រាយ (Algorithm) ដែលស្វែងរកចំណុចទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាបំផុតចំនួន 'k' (ឧទាហរណ៍ ៥ ចំណុច) ទៅនឹងទិន្នន័យដែលបាត់បង់ រួចយកមធ្យមភាគនៃចំណុចទាំងនោះមកបំពេញកន្លែងដែលបាត់។	ដូចជាការសួរអ្នកជិតខាង ៥ នាក់ថាម៉ោងប៉ុន្មាន ដើម្បីប៉ាន់ស្មានម៉ោងនៅពេលដែលនាឡិការបស់អ្នកខូច។
Artificial Neural Network (ANN)	គំរូកុំព្យូទ័រដែលត្រូវបានរចនាឡើងដោយយកលំនាំតាមដំណើរការនៃខួរក្បាលមនុស្ស (Bimimicry) ដែលមានបណ្ដាញនៃណឺរ៉ូនសិប្បនិម្មិតតភ្ជាប់គ្នា ដើម្បីរៀនពីទំនាក់ទំនងស្មុគស្មាញ និងមិនលីនេអ៊ែរនៅក្នុងទិន្នន័យ។	ជាប្រព័ន្ធកុំព្យូទ័រដែលរៀនតាមរយៈការសាកល្បងនិងកែតម្រូវកំហុស ដូចក្មេងរៀនស្គាល់រូបរាងសត្វ។
Bootstrapping	បច្ចេកទេសស្ថិតិដែលបង្កើតសំណាកទិន្នន័យថ្មីៗជាច្រើនដងដោយការយកចេញពីទិន្នន័យដើម (Resampling with replacement) ដើម្បីវាស់វែងភាពមិនប្រាកដប្រជា (Uncertainty) និងប្រសិទ្ធភាពនៃគំរូ។	ដូចជាការដួសសម្លភ្លក់ច្រើនដងពីកន្លែងផ្សេងៗគ្នាក្នុងឆ្នាំង ដើម្បីដឹងថាតើរសជាតិសម្លទាំងមូលប្រៃឬសាបកម្រិតណា។
Backpropagation	វិធីសាស្ត្រស្នូលក្នុងការបង្រៀន Neural Network ដោយគណនាកំហុសពីលទ្ធផលចុងក្រោយ (Output) ហើយបញ្ជូនកំហុសនោះត្រឡប់ក្រោយវិញដើម្បីកែតម្រូវទម្ងន់ (Weights) នៃការតភ្ជាប់ ដើម្បីកាត់បន្ថយកំហុសនៅពេលក្រោយ។	ដូចជាគ្រូកែវិញ្ញាសាហើយប្រាប់សិស្សថាខុសត្រង់ណា ដើម្បីឱ្យសិស្សកែតម្រូវវិធីគិតរបស់ពួកគេនៅពេលប្រឡងលើកក្រោយ។
Root Mean Square Error (RMSE)	រង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃគំរូ។ វាគណនាគម្លាតរវាងតម្លៃដែលម៉ាស៊ីនទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ RMSE កាន់តែតូច បង្ហាញថាគំរូកាន់តែមានភាពត្រឹមត្រូវ។	ជាពិន្ទុដែលប្រាប់ថា តើការទស្សន៍ទាយរបស់យើងខុសពីការពិតខ្លាំងប៉ុណ្ណា (លេខកាន់តែតូច កាន់តែល្អ)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖