Original Title: Parametric uncertainty estimation of a hydrological model using piece-wise linear regression surrogates
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប៉ាន់ប្រមាណភាពមិនប្រាកដប្រជានៃប៉ារ៉ាម៉ែត្រសម្រាប់ម៉ូដែលជលសាស្ត្រ ដោយប្រើប្រាស់តំណាងតំរែតំរង់លីនេអ៊ែរជាផ្នែក

ចំណងជើងដើម៖ Parametric uncertainty estimation of a hydrological model using piece-wise linear regression surrogates

អ្នកនិពន្ធ៖ DURGA LAL SHRESTHA (UNESCO-IHE Institute for Water Education), NAGENDRA KAYASTHA (Multi Disciplinary Consultants (P) Ltd., Nepal), DIMITRI SOLOMATINE (UNESCO-IHE Institute for Water Education / Delft University of Technology)

ឆ្នាំបោះពុម្ព៖ 2009 (33rd IAHR congress 2009)

វិស័យសិក្សា៖ Hydrology / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការប្រើប្រាស់វិធីសាស្ត្រ Monte Carlo (MC) សម្រាប់ប៉ាន់ប្រមាណភាពមិនប្រាកដប្រជានៃប៉ារ៉ាម៉ែត្រក្នុងម៉ូដែលជលសាស្ត្រ ចំណាយពេលវេលា និងធនធានកុំព្យូទ័រច្រើន ដែលធ្វើឱ្យវាមិនអាចអនុវត្តបានសម្រាប់ការទស្សន៍ទាយតាមពេលវេលាជាក់ស្តែង (real-time forecasting)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឱ្យបង្កើតម៉ូដែលតំណាង (Surrogate model) ដោយប្រើប្រាស់បច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine learning) គឺ M5 model tree ដើម្បីចម្លងតាម និងជំនួសការក្លែងធ្វើ MC សម្រាប់អនុវត្តជាក់ស្តែងលើម៉ូដែលជលសាស្ត្រ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Monte Carlo (MC) Simulation
ការក្លែងធ្វើម៉ុងតេការឡូ (Monte Carlo Simulation)
អាចអនុវត្តបានទូលំទូលាយ មានភាពបត់បែនខ្ពស់ និងអាចវាស់ស្ទង់ភាពមិនប្រាកដប្រជានៃប៉ារ៉ាម៉ែត្រក្នុងម៉ូដែលបានយ៉ាងច្បាស់លាស់។ ត្រូវការដំណើរការម៉ូដែលរាប់ពាន់ដង ដែលស៊ីពេលនិងធនធានកុំព្យូទ័រខ្លាំង ធ្វើឱ្យវាមិនស័ក្តិសមសម្រាប់ការទស្សន៍ទាយតាមពេលវេលាជាក់ស្តែង (Real-time forecasting)។ ទាមទារការក្លែងធ្វើរហូតដល់ ១០,០០០ ដង ដើម្បីទទួលបានស្ថិរភាពនៃលទ្ធផល និងការវាយតម្លៃភាពមិនប្រាកដប្រជាដែលអាចទុកចិត្តបាន។
M5 Model Tree Surrogate
ម៉ូដែលតំណាង M5 Model Tree
មានល្បឿនលឿនក្នុងការរៀន ផ្តល់លទ្ធផលងាយស្រួលយល់ (Interpretable) និងអាចប៉ាន់ស្មានភាពមិនប្រាកដប្រជាតាមពេលវេលាជាក់ស្តែងដោយមិនបាច់ដំណើរការ MC ឡើងវិញ។ ទាមទារទិន្នន័យដែលបង្កើតដោយ MC ជាមុនសិនដើម្បីបង្ហាត់ម៉ូដែល ហើយប្រសិទ្ធភាពក្នុងការទស្សន៍ទាយតម្លៃ Quantile កម្រិតខ្ពស់ (95%) មានភាពលំបាកនិងមិនសូវសុក្រឹតជាងកម្រិតទាប (5%)។ អាចគ្របដណ្តប់ ៦៨.៧២% នៃទិន្នន័យលំហូរទឹកសង្កេតជាក់ស្តែងក្នុងចន្លោះ ៩០% នៃការព្យាករណ៍ ដោយមានទំហំមធ្យមនៃភាពមិនប្រាកដប្រជាត្រឹមតែ ១.៩៥ m³/s។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារនូវទិន្នន័យវារីអាកាសធាតុប្រចាំម៉ោងដែលមានភាពជាក់លាក់ និងថាមពលកុំព្យូទ័រខ្ពស់សម្រាប់តែដំណាក់កាលបង្ហាត់ម៉ូដែលជាមុនប៉ុណ្ណោះ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ផ្ទៃរងទឹកភ្លៀង Brue ក្នុងចក្រភពអង់គ្លេស ដែលមានទំហំតូច (135 km2) និងមានបណ្តាញស្ថានីយវាស់ទឹកភ្លៀងក្រាស់ឃ្មឹក។ នេះអាចជាបញ្ហាប្រឈមធំសម្រាប់ប្រទេសកម្ពុជា ដោយសារបណ្តាញស្ថានីយជលសាស្ត្រនិងឧតុនិយមនៅតាមតំបន់អាងទន្លេមេគង្គ ឬតំបន់ដាច់ស្រយាលនៅមានកម្រិត និងរបាយទិន្នន័យមិនសូវមានភាពជាប់លាប់ល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យ ក៏វិធីសាស្ត្រកាត់បន្ថយពេលវេលាគណនានេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រព័ន្ធជលសាស្ត្រនៅកម្ពុជា។

សរុបមក ការប្រើប្រាស់ម៉ូដែល Machine Learning ជាតំណាងឱ្យម៉ូដែលគណនាដ៏ស្មុគស្មាញ គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃដែលឆ្លើយតបទៅនឹងតម្រូវការទស្សន៍ទាយរហ័សក្នុងបរិបទគ្រប់គ្រងគ្រោះមហន្តរាយនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. រៀបចំ និងតម្រូវម៉ូដែលជលសាស្ត្រជាមូលដ្ឋាន: ស្វែងយល់និងប្រើប្រាស់ម៉ូដែលជលសាស្ត្រដូចជា HBV, SWATHEC-HMS ដោយបញ្ចូលទិន្នន័យទឹកភ្លៀង លំហូរ និងរំហួតប្រចាំតំបន់ (ឧទាហរណ៍ ទិន្នន័យពីគណៈកម្មការទន្លេមេគង្គ MRC) ដើម្បីធ្វើ Calibration និង Validation។
  2. ដំណើរការវិភាគ Monte Carlo ដើម្បីបង្កើតទិន្នន័យ: សរសេរកូដដោយប្រើប្រាស់ PythonMATLAB ដើម្បីដំណើរការម៉ូដែលជលសាស្ត្រនោះច្រើនពាន់ដង (MC Simulations) ដោយផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រនានា រួចទាញយកតម្លៃ Quantile កម្រិត ៥% និង ៩៥%។
  3. ការរៀបចំលក្ខណៈអថេរ (Feature Engineering): បង្កើតអថេរបញ្ចូល (Input variables) ថ្មីៗដោយផ្អែកលើទិន្នន័យប្រវត្តិសាស្ត្រ ដូចជាការគណនាមធ្យមភាគទឹកភ្លៀងរយៈពេលខ្លី (Lagged rainfall) និងអត្រាបម្រែបម្រួលនៃលំហូរទឹក (Derivative of flow) ដើម្បីបង្កើនភាពសុក្រឹតនៃម៉ូដែល។
  4. បង្ហាត់ម៉ូដែល M5 Model Tree: ប្រើប្រាស់កញ្ចប់កម្មវិធី Machine Learning ដូចជា Weka (ជំនាញខាង M5P algorithm) ឬសរសេរកូដក្នុង scikit-learn របស់ Python ដើម្បីបង្ហាត់ម៉ូដែលពីអថេរខាងលើ ទៅរកតម្លៃ Quantile ដែលបានពីជំហានទី២។
  5. ដាក់ពង្រាយប្រព័ន្ធព្យាករណ៍តាមពេលវេលាជាក់ស្តែង: ធ្វើសមាហរណកម្មម៉ូដែល M5 ដែលបានបង្ហាត់រួច ទៅក្នុងប្រព័ន្ធតាមដានអាកាសធាតុ ដើម្បីទទួលបានការវាយតម្លៃភាពមិនប្រាកដប្រជា (Uncertainty bounds) ភ្លាមៗនៅពេលមានទិន្នន័យទឹកភ្លៀងថ្មីចូល ដោយមិនបាច់រង់ចាំការគណនា MC ម្តងទៀត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Monte Carlo (MC) simulation គឺជាដំណើរការគណនាដែលប្រើប្រាស់ការសាកល្បងដោយចៃដន្យរាប់ពាន់ ឬរាប់ម៉ឺនដង ដើម្បីប៉ាន់ស្មានលទ្ធផលផ្សេងៗដែលអាចកើតមានឡើង និងវាយតម្លៃពីភាពមិនប្រាកដប្រជានៃប្រព័ន្ធអ្វីមួយ។ ដូចជាការបោះកាក់១ម៉ឺនដង ដើម្បីរកភាគរយនៃឱកាសដែលកាក់នឹងចេញខាងមេ ឬខាងកន្ទុយឱ្យបានច្បាស់លាស់។
surrogate model គឺជាម៉ូដែលជំនួសដែលត្រូវបានបង្កើតឡើងដើម្បីធ្វើត្រាប់តាមម៉ូដែលដើមដែលមានភាពស្មុគស្មាញនិងស៊ីពេលយូរ ដោយវាអាចផ្តល់លទ្ធផលប្រហាក់ប្រហែលគ្នាក្នុងរយៈពេលដ៏ខ្លី។ ដូចជាការប្រើរូបថតរបស់នរណាម្នាក់ដើម្បីចំណាំមុខគេ ជំនួសឱ្យការត្រូវធ្វើដំណើរផ្លូវឆ្ងាយដើម្បីទៅមើលមុខមនុស្សនោះផ្ទាល់។
M5 model tree គឺជាក្បួនដោះស្រាយនៃបញ្ញាសិប្បនិម្មិត (Machine Learning) ដែលបំបែកទិន្នន័យជាក្រុមតូចៗ (មែកធាង) ហើយក្នុងក្រុមនីមួយៗវាបង្កើតសមីការបន្ទាត់ត្រង់មួយដើម្បីទស្សន៍ទាយលទ្ធផល។ ដូចជាវេជ្ជបណ្ឌិតដែលបែងចែកអ្នកជំងឺតាមក្រុមអាយុ រួចទើបចេញវេជ្ជបញ្ជាព្យាបាលជាក់លាក់មួយសម្រាប់ក្រុមនីមួយៗ។
Parametric uncertainty គឺជាភាពមិនច្បាស់លាស់នៃលទ្ធផលទស្សន៍ទាយរបស់ម៉ូដែល ដែលបណ្តាលមកពីការមិនដឹងតម្លៃពិតប្រាកដ ឬភាពត្រឹមត្រូវនៃកត្តា (ប៉ារ៉ាម៉ែត្រ) នានាដែលបានបញ្ចូលទៅក្នុងម៉ូដែលនោះ។ ដូចជាការស្មានរសជាតិសម្លដែលយើងមិនដឹងច្បាស់ថា ចុងភៅបានដាក់អំបិលឬស្ករក្នុងបរិមាណប៉ុន្មាន។
piece-wise linear regression គឺជាវិធីសាស្ត្រស្ថិតិដែលបែងចែកទិន្នន័យជាផ្នែកៗ ហើយប្រើប្រាស់បន្ទាត់ត្រង់ផ្សេងៗគ្នាសំរាប់ផ្នែកនីមួយៗ ដើម្បីតំណាងឲ្យទំនាក់ទំនងរវាងអថេរ ជំនួសឲ្យការប្រើបន្ទាត់កោងតែមួយទាំងមូល។ ដូចជាការតភ្ជាប់បន្ទាត់ត្រង់ខ្លីៗជាច្រើនចូលគ្នា ដើម្បីគូរជារូបរាងផ្លូវកោងមួយនៅលើក្រដាស។
prediction quantile គឺជាតម្លៃគោលដៅមួយដែលបង្ហាញថា តើមានភាគរយប៉ុន្មាននៃលទ្ធផលទស្សន៍ទាយទាំងអស់ ដែលមានតម្លៃទាបជាង ឬស្មើនឹងតម្លៃគោលដៅនោះ (ឧទាហរណ៍ 95% quantile) ដែលគេប្រើដើម្បីកំណត់ទំហំនៃភាពមិនប្រាកដប្រជា។ ដូចជាការនិយាយថា ៩៥% នៃសិស្សក្នុងថ្នាក់មានពិន្ទុទាបជាង ៩០ ដូច្នេះ "៩០" គឺជាតម្លៃ prediction quantile ទី៩៥។
generalized likelihood uncertainty estimation (GLUE) គឺជាវិធីសាស្ត្រដែលផ្តល់ទម្ងន់ (Weight) ទៅលើលទ្ធផលនៃការក្លែងធ្វើផ្សេងៗគ្នា ដោយផ្អែកលើថាតើលទ្ធផលទាំងនោះស៊ីសង្វាក់គ្នាជាមួយទិន្នន័យសង្កេតជាក់ស្តែងកម្រិតណា ដើម្បីវាស់ស្ទង់ភាពមិនប្រាកដប្រជា។ ដូចជាការជឿទុកចិត្តលើសាក្សីណាមួយច្រើនជាងគេ ប្រសិនបើសម្តីរបស់សាក្សីនោះស៊ីសង្វាក់គ្នាជាមួយនឹងភស្តុតាងដែលប៉ូលីសបានរកឃើញជាក់ស្តែង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖