Original Title: Parametric uncertainty estimation of a hydrological model using piece-wise linear regression surrogates
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប៉ាន់ប្រមាណភាពមិនប្រាកដប្រជានៃប៉ារ៉ាម៉ែត្រសម្រាប់ម៉ូដែលជលសាស្ត្រ ដោយប្រើប្រាស់តំណាងតំរែតំរង់លីនេអ៊ែរជាផ្នែក

ចំណងជើងដើម៖ Parametric uncertainty estimation of a hydrological model using piece-wise linear regression surrogates

អ្នកនិពន្ធ៖ DURGA LAL SHRESTHA (UNESCO-IHE Institute for Water Education), NAGENDRA KAYASTHA (Multi Disciplinary Consultants (P) Ltd., Nepal), DIMITRI SOLOMATINE (UNESCO-IHE Institute for Water Education / Delft University of Technology)

ឆ្នាំបោះពុម្ព៖ 2009 (33rd IAHR congress 2009)

វិស័យសិក្សា៖ Hydrology / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការប្រើប្រាស់វិធីសាស្ត្រ Monte Carlo (MC) សម្រាប់ប៉ាន់ប្រមាណភាពមិនប្រាកដប្រជានៃប៉ារ៉ាម៉ែត្រក្នុងម៉ូដែលជលសាស្ត្រ ចំណាយពេលវេលា និងធនធានកុំព្យូទ័រច្រើន ដែលធ្វើឱ្យវាមិនអាចអនុវត្តបានសម្រាប់ការទស្សន៍ទាយតាមពេលវេលាជាក់ស្តែង (real-time forecasting)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឱ្យបង្កើតម៉ូដែលតំណាង (Surrogate model) ដោយប្រើប្រាស់បច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine learning) គឺ M5 model tree ដើម្បីចម្លងតាម និងជំនួសការក្លែងធ្វើ MC សម្រាប់អនុវត្តជាក់ស្តែងលើម៉ូដែលជលសាស្ត្រ។

ការក្លែងធ្វើ និងការវិភាគភាពមិនប្រាកដប្រជា (Monte Carlo Simulation)
ការអនុវត្តម៉ូដែលជលសាស្ត្រកម្រិតគំនិត (HBV-96 Conceptual Hydrological Model)
បច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine Learning - M5 Model Tree)
ការប៉ាន់ប្រមាណចន្លោះបរិមាណព្យាករណ៍ (90% Prediction Intervals)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល M5 model tree អាចចម្លងតាមការក្លែងធ្វើ MC បានយ៉ាងល្អសម្រាប់ការទស្សន៍ទាយតាមពេលវេលាជាក់ស្តែង ដោយមិនចាំបាច់ដំណើរការម៉ូដែល MC ដែលស៊ីពេលយូរនោះឡើងវិញឡើយ។
លទ្ធផលបង្ហាញថា 68.72% នៃទិន្នន័យលំហូរទឹកដែលបានអង្កេតជាក់ស្តែងនៅក្នុងតំបន់ Brue Catchment គឺស្ថិតនៅក្នុងចន្លោះនៃការប៉ាន់ស្មាន 90% (90% prediction intervals)។
មធ្យមភាគនៃទំហំភាពមិនប្រាកដប្រជាដែលបានប៉ាន់ប្រមាណដោយម៉ូដែលគឺត្រឹមតែ 1.95 m³/s ដែលបង្ហាញថាវាជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពសម្រាប់ការគ្រប់គ្រងធនធានទឹក។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Monte Carlo (MC) Simulation ការក្លែងធ្វើម៉ុងតេការឡូ (Monte Carlo Simulation)	អាចអនុវត្តបានទូលំទូលាយ មានភាពបត់បែនខ្ពស់ និងអាចវាស់ស្ទង់ភាពមិនប្រាកដប្រជានៃប៉ារ៉ាម៉ែត្រក្នុងម៉ូដែលបានយ៉ាងច្បាស់លាស់។	ត្រូវការដំណើរការម៉ូដែលរាប់ពាន់ដង ដែលស៊ីពេលនិងធនធានកុំព្យូទ័រខ្លាំង ធ្វើឱ្យវាមិនស័ក្តិសមសម្រាប់ការទស្សន៍ទាយតាមពេលវេលាជាក់ស្តែង (Real-time forecasting)។	ទាមទារការក្លែងធ្វើរហូតដល់ ១០,០០០ ដង ដើម្បីទទួលបានស្ថិរភាពនៃលទ្ធផល និងការវាយតម្លៃភាពមិនប្រាកដប្រជាដែលអាចទុកចិត្តបាន។
M5 Model Tree Surrogate ម៉ូដែលតំណាង M5 Model Tree	មានល្បឿនលឿនក្នុងការរៀន ផ្តល់លទ្ធផលងាយស្រួលយល់ (Interpretable) និងអាចប៉ាន់ស្មានភាពមិនប្រាកដប្រជាតាមពេលវេលាជាក់ស្តែងដោយមិនបាច់ដំណើរការ MC ឡើងវិញ។	ទាមទារទិន្នន័យដែលបង្កើតដោយ MC ជាមុនសិនដើម្បីបង្ហាត់ម៉ូដែល ហើយប្រសិទ្ធភាពក្នុងការទស្សន៍ទាយតម្លៃ Quantile កម្រិតខ្ពស់ (95%) មានភាពលំបាកនិងមិនសូវសុក្រឹតជាងកម្រិតទាប (5%)។	អាចគ្របដណ្តប់ ៦៨.៧២% នៃទិន្នន័យលំហូរទឹកសង្កេតជាក់ស្តែងក្នុងចន្លោះ ៩០% នៃការព្យាករណ៍ ដោយមានទំហំមធ្យមនៃភាពមិនប្រាកដប្រជាត្រឹមតែ ១.៩៥ m³/s។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារនូវទិន្នន័យវារីអាកាសធាតុប្រចាំម៉ោងដែលមានភាពជាក់លាក់ និងថាមពលកុំព្យូទ័រខ្ពស់សម្រាប់តែដំណាក់កាលបង្ហាត់ម៉ូដែលជាមុនប៉ុណ្ណោះ។

Software: ម៉ូដែលជលសាស្ត្រ (ឧទាហរណ៍ HBV-96) កូដសម្រាប់ដំណើរការ Monte Carlo (GLUE method) និងកម្មវិធី Machine Learning ដែលមានក្បួនដោះស្រាយ M5 Model Tree។
Hardware: កុំព្យូទ័រដែលមានសមត្ថភាពដំណើរការខ្ពស់ (CPU/RAM ល្អ) សម្រាប់ដំណើរការការក្លែងធ្វើ Monte Carlo រាប់ម៉ឺនដងក្នុងដំណាក់កាល Offline ។ សម្រាប់ប្រតិបត្តិការជាក់ស្តែង (Online) គឺមិនត្រូវការ Hardware ខ្ពស់ឡើយ។
Dataset: ទិន្នន័យទឹកភ្លៀង លំហូរទឹកទន្លេ និងរំហួត (Evapotranspiration) កម្រិតម៉ោង ដែលមានគុណភាពខ្ពស់ សម្រាប់រយៈកាលយ៉ាងតិច ១ ទៅ ២ ឆ្នាំ សម្រាប់ការតម្រូវ (Calibration) និងផ្ទៀងផ្ទាត់ (Validation)។
Expertise: អ្នកជំនាញផ្នែកជលសាស្ត្រសម្រាប់ការរៀបចំម៉ូដែលទឹក និងវិស្វករទិន្នន័យសម្រាប់រៀបចំអថេរ (Feature Engineering) និងបង្ហាត់ម៉ូដែល Machine Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ផ្ទៃរងទឹកភ្លៀង Brue ក្នុងចក្រភពអង់គ្លេស ដែលមានទំហំតូច (135 km2) និងមានបណ្តាញស្ថានីយវាស់ទឹកភ្លៀងក្រាស់ឃ្មឹក។ នេះអាចជាបញ្ហាប្រឈមធំសម្រាប់ប្រទេសកម្ពុជា ដោយសារបណ្តាញស្ថានីយជលសាស្ត្រនិងឧតុនិយមនៅតាមតំបន់អាងទន្លេមេគង្គ ឬតំបន់ដាច់ស្រយាលនៅមានកម្រិត និងរបាយទិន្នន័យមិនសូវមានភាពជាប់លាប់ល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យ ក៏វិធីសាស្ត្រកាត់បន្ថយពេលវេលាគណនានេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រព័ន្ធជលសាស្ត្រនៅកម្ពុជា។

ប្រព័ន្ធប្រកាសអាសន្នទឹកជំនន់នៅតាមដងទន្លេមេគង្គ និងទន្លេសាប: ម៉ូដែលតំណាង M5 អាចទស្សន៍ទាយកម្រិតភាពមិនប្រាកដប្រជានៃទឹកជំនន់តាមពេលវេលាជាក់ស្តែង (Real-time) ដែលជួយឲ្យគណៈកម្មាធិការជាតិគ្រប់គ្រងគ្រោះមហន្តរាយ (NCDM) អាចចេញសេចក្តីព្រមានបានរហ័ស។
ការគ្រប់គ្រងប្រតិបត្តិការទំនប់វារីអគ្គិសនី (ឧ. នៅខេត្តស្ទឹងត្រែង និងកោះកុង): វិធីសាស្ត្រនេះអាចជួយអ្នកគ្រប់គ្រងទំនប់ទឹកធ្វើការប៉ាន់ស្មានលំហូរទឹកចូលអាងស្តុកទឹកប្រកបដោយសុវត្ថិភាព តាមរយៈការដឹងពីចន្លោះទំនុកចិត្ត (Prediction intervals) នៃលំហូរទឹក។
ការបែងចែកធនធានទឹកក្នុងវិស័យកសិកម្មនៅរដូវប្រាំង: អាចប្រើដើម្បីគណនាភាពមិនប្រាកដប្រជានៃបរិមាណទឹកដែលអាចប្រើប្រាស់បាន ជួយឲ្យក្រសួងធនធានទឹក និងឧតុនិយម រៀបចំផែនការស្រោចស្រពបានកាន់តែមានប្រសិទ្ធភាព។

សរុបមក ការប្រើប្រាស់ម៉ូដែល Machine Learning ជាតំណាងឱ្យម៉ូដែលគណនាដ៏ស្មុគស្មាញ គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃដែលឆ្លើយតបទៅនឹងតម្រូវការទស្សន៍ទាយរហ័សក្នុងបរិបទគ្រប់គ្រងគ្រោះមហន្តរាយនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំ និងតម្រូវម៉ូដែលជលសាស្ត្រជាមូលដ្ឋាន: ស្វែងយល់និងប្រើប្រាស់ម៉ូដែលជលសាស្ត្រដូចជា HBV, SWAT ឬ HEC-HMS ដោយបញ្ចូលទិន្នន័យទឹកភ្លៀង លំហូរ និងរំហួតប្រចាំតំបន់ (ឧទាហរណ៍ ទិន្នន័យពីគណៈកម្មការទន្លេមេគង្គ MRC) ដើម្បីធ្វើ Calibration និង Validation។
ដំណើរការវិភាគ Monte Carlo ដើម្បីបង្កើតទិន្នន័យ: សរសេរកូដដោយប្រើប្រាស់ Python ឬ MATLAB ដើម្បីដំណើរការម៉ូដែលជលសាស្ត្រនោះច្រើនពាន់ដង (MC Simulations) ដោយផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រនានា រួចទាញយកតម្លៃ Quantile កម្រិត ៥% និង ៩៥%។
ការរៀបចំលក្ខណៈអថេរ (Feature Engineering): បង្កើតអថេរបញ្ចូល (Input variables) ថ្មីៗដោយផ្អែកលើទិន្នន័យប្រវត្តិសាស្ត្រ ដូចជាការគណនាមធ្យមភាគទឹកភ្លៀងរយៈពេលខ្លី (Lagged rainfall) និងអត្រាបម្រែបម្រួលនៃលំហូរទឹក (Derivative of flow) ដើម្បីបង្កើនភាពសុក្រឹតនៃម៉ូដែល។
បង្ហាត់ម៉ូដែល M5 Model Tree: ប្រើប្រាស់កញ្ចប់កម្មវិធី Machine Learning ដូចជា Weka (ជំនាញខាង M5P algorithm) ឬសរសេរកូដក្នុង scikit-learn របស់ Python ដើម្បីបង្ហាត់ម៉ូដែលពីអថេរខាងលើ ទៅរកតម្លៃ Quantile ដែលបានពីជំហានទី២។
ដាក់ពង្រាយប្រព័ន្ធព្យាករណ៍តាមពេលវេលាជាក់ស្តែង: ធ្វើសមាហរណកម្មម៉ូដែល M5 ដែលបានបង្ហាត់រួច ទៅក្នុងប្រព័ន្ធតាមដានអាកាសធាតុ ដើម្បីទទួលបានការវាយតម្លៃភាពមិនប្រាកដប្រជា (Uncertainty bounds) ភ្លាមៗនៅពេលមានទិន្នន័យទឹកភ្លៀងថ្មីចូល ដោយមិនបាច់រង់ចាំការគណនា MC ម្តងទៀត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Monte Carlo (MC) simulation	គឺជាដំណើរការគណនាដែលប្រើប្រាស់ការសាកល្បងដោយចៃដន្យរាប់ពាន់ ឬរាប់ម៉ឺនដង ដើម្បីប៉ាន់ស្មានលទ្ធផលផ្សេងៗដែលអាចកើតមានឡើង និងវាយតម្លៃពីភាពមិនប្រាកដប្រជានៃប្រព័ន្ធអ្វីមួយ។	ដូចជាការបោះកាក់១ម៉ឺនដង ដើម្បីរកភាគរយនៃឱកាសដែលកាក់នឹងចេញខាងមេ ឬខាងកន្ទុយឱ្យបានច្បាស់លាស់។
surrogate model	គឺជាម៉ូដែលជំនួសដែលត្រូវបានបង្កើតឡើងដើម្បីធ្វើត្រាប់តាមម៉ូដែលដើមដែលមានភាពស្មុគស្មាញនិងស៊ីពេលយូរ ដោយវាអាចផ្តល់លទ្ធផលប្រហាក់ប្រហែលគ្នាក្នុងរយៈពេលដ៏ខ្លី។	ដូចជាការប្រើរូបថតរបស់នរណាម្នាក់ដើម្បីចំណាំមុខគេ ជំនួសឱ្យការត្រូវធ្វើដំណើរផ្លូវឆ្ងាយដើម្បីទៅមើលមុខមនុស្សនោះផ្ទាល់។
M5 model tree	គឺជាក្បួនដោះស្រាយនៃបញ្ញាសិប្បនិម្មិត (Machine Learning) ដែលបំបែកទិន្នន័យជាក្រុមតូចៗ (មែកធាង) ហើយក្នុងក្រុមនីមួយៗវាបង្កើតសមីការបន្ទាត់ត្រង់មួយដើម្បីទស្សន៍ទាយលទ្ធផល។	ដូចជាវេជ្ជបណ្ឌិតដែលបែងចែកអ្នកជំងឺតាមក្រុមអាយុ រួចទើបចេញវេជ្ជបញ្ជាព្យាបាលជាក់លាក់មួយសម្រាប់ក្រុមនីមួយៗ។
Parametric uncertainty	គឺជាភាពមិនច្បាស់លាស់នៃលទ្ធផលទស្សន៍ទាយរបស់ម៉ូដែល ដែលបណ្តាលមកពីការមិនដឹងតម្លៃពិតប្រាកដ ឬភាពត្រឹមត្រូវនៃកត្តា (ប៉ារ៉ាម៉ែត្រ) នានាដែលបានបញ្ចូលទៅក្នុងម៉ូដែលនោះ។	ដូចជាការស្មានរសជាតិសម្លដែលយើងមិនដឹងច្បាស់ថា ចុងភៅបានដាក់អំបិលឬស្ករក្នុងបរិមាណប៉ុន្មាន។
piece-wise linear regression	គឺជាវិធីសាស្ត្រស្ថិតិដែលបែងចែកទិន្នន័យជាផ្នែកៗ ហើយប្រើប្រាស់បន្ទាត់ត្រង់ផ្សេងៗគ្នាសំរាប់ផ្នែកនីមួយៗ ដើម្បីតំណាងឲ្យទំនាក់ទំនងរវាងអថេរ ជំនួសឲ្យការប្រើបន្ទាត់កោងតែមួយទាំងមូល។	ដូចជាការតភ្ជាប់បន្ទាត់ត្រង់ខ្លីៗជាច្រើនចូលគ្នា ដើម្បីគូរជារូបរាងផ្លូវកោងមួយនៅលើក្រដាស។
prediction quantile	គឺជាតម្លៃគោលដៅមួយដែលបង្ហាញថា តើមានភាគរយប៉ុន្មាននៃលទ្ធផលទស្សន៍ទាយទាំងអស់ ដែលមានតម្លៃទាបជាង ឬស្មើនឹងតម្លៃគោលដៅនោះ (ឧទាហរណ៍ 95% quantile) ដែលគេប្រើដើម្បីកំណត់ទំហំនៃភាពមិនប្រាកដប្រជា។	ដូចជាការនិយាយថា ៩៥% នៃសិស្សក្នុងថ្នាក់មានពិន្ទុទាបជាង ៩០ ដូច្នេះ "៩០" គឺជាតម្លៃ prediction quantile ទី៩៥។
generalized likelihood uncertainty estimation (GLUE)	គឺជាវិធីសាស្ត្រដែលផ្តល់ទម្ងន់ (Weight) ទៅលើលទ្ធផលនៃការក្លែងធ្វើផ្សេងៗគ្នា ដោយផ្អែកលើថាតើលទ្ធផលទាំងនោះស៊ីសង្វាក់គ្នាជាមួយទិន្នន័យសង្កេតជាក់ស្តែងកម្រិតណា ដើម្បីវាស់ស្ទង់ភាពមិនប្រាកដប្រជា។	ដូចជាការជឿទុកចិត្តលើសាក្សីណាមួយច្រើនជាងគេ ប្រសិនបើសម្តីរបស់សាក្សីនោះស៊ីសង្វាក់គ្នាជាមួយនឹងភស្តុតាងដែលប៉ូលីសបានរកឃើញជាក់ស្តែង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖