Original Title: Addressing practical challenges of stochastic process control for leakage detection in water distribution networks: a comparative analysis
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការដោះស្រាយបញ្ហាប្រឈមជាក់ស្តែងនៃការគ្រប់គ្រងដំណើរការស្តូកាស្ទិច (Stochastic Process Control) សម្រាប់ការរកឃើញការលេចធ្លាយក្នុងបណ្តាញចែកចាយទឹក៖ ការវិភាគប្រៀបធៀប

ចំណងជើងដើម៖ Addressing practical challenges of stochastic process control for leakage detection in water distribution networks: a comparative analysis

អ្នកនិពន្ធ៖ Ella Steins, Technische Universität Berlin, Andrea Cominola, Technische Universität Berlin

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Water Resources Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមជាក់ស្តែងនៃការប្រើប្រាស់វិធីសាស្ត្រគ្រប់គ្រងដំណើរការស្តូកាស្ទិច (SPC) ដើម្បីរកឃើញការលេចធ្លាយទឹកទាន់ពេលវេលានៅក្នុងបណ្តាញចែកចាយទឹក ដែលជារឿយៗរងផលប៉ះពាល់ដោយតម្លៃមិនប្រក្រតី ការប្រែប្រួលដោយចៃដន្យ និងទិន្នន័យដែលមានទំនាក់ទំនងគ្នា (autocorrelated data)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការប្រៀបធៀបវិធីសាស្ត្រ Cumulative Sum (CUSUM) កម្រិតខ្ពស់ចំនួន ៧ ដោយរួមបញ្ចូលពួកវាទៅក្នុងក្បួនដោះស្រាយ LILA និងធ្វើតេស្តការរកឃើញនៅលើទិន្នន័យបណ្តាញ L-Town benchmark។

ការធ្វើតេស្តវិធីសាស្ត្រផ្អែកលើ CUSUM ចំនួន ៧ ប្រភេទ (7 CUSUM-based SPC methods)
ការប្រើប្រាស់ក្បួនដោះស្រាយ LILA លើទិន្នន័យបណ្តាញ L-Town (L-Town benchmark network)
ការអនុវត្តស្ថិតិរឹងមាំ និងការបំប្លែងទិន្នន័យ (Robust statistics and data transformation)
ការកាត់បន្ថយទំនាក់ទំនងនៃទិន្នន័យដោយប្រើ Cholesky decomposition (Data decorrelation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រមិនប្រើប៉ារ៉ាម៉ែត្រនិងអាចសម្របខ្លួនបាន (Nonparametric and adaptive methods) គឺស័ក្តិសមបំផុតសម្រាប់ការបង្កើតការជូនដំណឹងដែលអាចទុកចិត្តបានក្រោមលក្ខខណ្ឌទិន្នន័យមិនស្មើគ្នា ដោយទទួលបានពិន្ទុ F1-score ១.០ ។
ការរួមបញ្ចូលជំហានកាត់បន្ថយទំនាក់ទំនង (Decorrelation step) ជួយកែលម្អប្រសិទ្ធភាពនៃការរកឃើញ ប្រសិនបើមានលំនាំតម្រូវការទឹកមិនទៀងទាត់កើតឡើងនៅក្នុងបណ្តាញចែកចាយ។
ការបំប្លែងទិន្នន័យ (Data transformations) ទទួលបានលទ្ធផលល្អបំផុតនៅពេលដែលត្រូវបានរួមបញ្ចូលជាមួយស្ថិតិរឹងមាំ (Robust statistics) ដើម្បីដោះស្រាយជាមួយតម្លៃខុសប្រក្រតីនៅក្នុងទិន្នន័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard CUSUM វិធីសាស្ត្រ CUSUM ស្តង់ដារ (Standard CUSUM)	មានភាពសាមញ្ញ ដំណើរការលឿន និងងាយស្រួលក្នុងការគណនា។	ទាមទារទិន្នន័យដែលមានរបាយធម្មតា (Normally distributed) ងាយរងឥទ្ធិពលពីតម្លៃខុសប្រក្រតី (Outliers) និងមានអត្រាផ្តល់សញ្ញាព្រមានខុស (False Positive) ខ្ពស់។	ប្រើពេលរកឃើញមធ្យម (aTTD) ៩.១ ថ្ងៃ ប៉ុន្តែមានកម្រិតភាពត្រឹមត្រូវ (Precision) ត្រឹមតែ ០.៨៩ និងពិន្ទុ F1 ០.៩៤។
Transformed & robust CUSUM (tr) វិធីសាស្ត្រ CUSUM បំប្លែងទិន្នន័យ និងរឹងមាំ (tr)	អាចដោះស្រាយជាមួយទិន្នន័យមិនប្រក្រតី និងតម្លៃខុសប្រក្រតីបានល្អប្រសើរ ដោយប្រើការបំប្លែង Box-Cox និងស្ថិតិ Trimean។	ត្រូវការសំណុំទិន្នន័យគ្រប់គ្រង (In-control set) ធំដើម្បីកំណត់ប៉ារ៉ាម៉ែត្រ និងអាចរកឃើញតែទំហំនៃការប្រែប្រួលដែលបានកំណត់ទុកជាមុនប៉ុណ្ណោះ។	ប្រើពេលរកឃើញមធ្យម (aTTD) ១១.៦ ថ្ងៃ និងទទួលបានពិន្ទុ F1 ០.៩៧ ដែលមានភាពប្រសើរជាង CUSUM ស្តង់ដារ។
GWMA-CUSUM (gw) វិធីសាស្ត្រ GWMA-CUSUM ផ្តល់ទម្ងន់ទិន្នន័យ (gw)	មានភាពរសើបខ្ពស់ក្នុងការរកឃើញការលេចធ្លាយតូចៗ (Incipient leaks) តាមរយៈការផ្តល់ទម្ងន់ដែលអាចបត់បែនបាន។	ទាមទារការកំណត់ Hyperparameters យ៉ាងស្មុគស្មាញសម្រាប់ស៊េរីទិន្នន័យនីមួយៗ ដែលពិបាកក្នុងការអនុវត្តជាក់ស្តែង។	ទទួលបានពិន្ទុ F1 ១.០ និងប្រើពេលរកឃើញមធ្យម ១២.៨ ថ្ងៃ (លុះត្រាតែមានការកែតម្រូវ Hyperparameter ដោយផ្ទាល់)។
Nonparametric & adaptive CUSUM (adn) វិធីសាស្ត្រ CUSUM មិនប្រើប៉ារ៉ាម៉ែត្រ និងអាចសម្របខ្លួនបាន (adn)	មិនត្រូវការការសន្មត់លើទម្រង់របាយទិន្នន័យ និងអាចចាប់ផ្តើមដំណើរការដោយមិនត្រូវការទិន្នន័យប្រវត្តិ (Self-starting)។	មិនសូវមានភាពរឹងមាំចំពោះទិន្នន័យដែលមានទំនាក់ទំនងគ្នា (Autocorrelated data) និងងាយផ្តល់សញ្ញាខុសបើមានការប្រែប្រួលដោយចៃដន្យច្រើន។	ទទួលបានពិន្ទុ F1 ១.០ សមត្ថភាពរកឃើញល្អឥតខ្ចោះ ជាមួយពេលរកឃើញមធ្យម (aTTD) ១៤.៦ ថ្ងៃ។
Nonparametric & adaptive CUSUM for autocorrelated data (corr) វិធីសាស្ត្រ CUSUM សម្រាប់ទិន្នន័យមានទំនាក់ទំនងគ្នា (corr)	ដោះស្រាយបញ្ហាទិន្នន័យមានទំនាក់ទំនងគ្នា (Autocorrelation) បានយ៉ាងល្អ ដោយប្រើការកាត់បន្ថយទំនាក់ទំនង Cholesky (Decorrelation) កាត់បន្ថយការរំខានដោយចៃដន្យ។	ការបន្ថយទំនាក់ទំនងអាចធ្វើឱ្យការពន្យារពេលក្នុងការរកឃើញការលេចធ្លាយកើនឡើងបន្តិច។	ទទួលបានពិន្ទុ F1 ១.០ និងប្រើពេលរកឃើញមធ្យម (aTTD) ១៤.៤ ថ្ងៃ ដែលជម្រើសដ៏រឹងមាំបំផុតសម្រាប់ការអនុវត្តជាក់ស្តែង។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រទាំងនេះផ្អែកលើការវិភាគទិន្នន័យជាចម្បង (Data-driven) ដូច្នេះវាមិនទាមទារម៉ូដែលធារាសាស្ត្រ (Hydraulic models) ដែលមានតម្លៃថ្លៃនោះទេ ប៉ុន្តែវាទាមទារទិន្នន័យសេនស័រច្បាស់លាស់ និងសមត្ថភាពគណនាផ្នែកស្ថិតិ។

Hardware: កុំព្យូទ័រម៉ាស៊ីនមេ (Server) ឬ Cloud Computing ដែលមានសមត្ថភាពមធ្យម សម្រាប់ដំណើរការទិន្នន័យស៊េរីពេលវេលា (Time-series data) ក្នុងពេលជាក់ស្តែង (Real-time)។
Software: កម្មវិធី ឬភាសា Programming សម្រាប់វិភាគទិន្នន័យដូចជា Python (ប្រើបណ្ណាល័យ Scipy, Statsmodels, Pandas) ឬ R ព្រមទាំងប្រព័ន្ធក្បួនដោះស្រាយកូដកំហុស LILA ពីប្រភពបើកចំហ (Open-source)។
Dataset: ទិន្នន័យសេនស័រសម្ពាធ និងលំហូរទឹកដែលមានកម្រិតញឹកញាប់ខ្ពស់ (ឧ. រៀងរាល់ ៥ នាទីម្តង) ពីប្រព័ន្ធ SCADA ឬ AMR នៅក្នុងបណ្តាញចែកចាយទឹក។
Expertise: អ្នកជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Science) និងស្ថិតិ (Statistical Process Control) ដើម្បីកំណត់ Hyperparameters ព្រមទាំងវិស្វករធនធានទឹកដើម្បីបកស្រាយលទ្ធផល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារ L-Town ផ្អែកលើបណ្តាញចែកចាយទឹកជាក់ស្តែងនៅប្រទេស Cyprus ដែលមានអាកាសធាតុមេឌីទែរ៉ាណេ និងលំនាំប្រើប្រាស់ទឹកខុសពីប្រទេសកម្ពុជា។ សម្រាប់កម្ពុជា ដែលមានរដូវប្រាំង និងរដូវវស្សាច្បាស់លាស់ ព្រមទាំងកំណើននគរូបនីយកម្មលឿន របបលំហូរទឹក និងសម្ពាធទឹកអាចមានការប្រែប្រួលខុសប្រក្រតី (Outliers) ធំជាង និងស្មុគស្មាញជាង ដែលទាមទារការសាកល្បងម៉ូដែលនេះឡើងវិញជាមួយនឹងទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រផ្អែកលើទិន្នន័យ (Data-driven SPC) នេះមានសក្តានុពលខ្ពស់ណាស់សម្រាប់ប្រទេសកម្ពុជា ដោយសារវាមិនតម្រូវឱ្យមានការបង្កើតម៉ូដែលធារាសាស្ត្រស្មុគស្មាញ និងចំណាយខ្ពស់។

រដ្ឋាករទឹកស្វយ័តក្រុងភ្នំពេញ (PPWSA): PPWSA មានប្រព័ន្ធ SCADA និងបណ្តាញចែកចាយទឹកទំនើបស្រាប់ ការដាក់បញ្ចូលវិធីសាស្ត្រ Nonparametric CUSUM (adn/corr) ទៅក្នុងប្រព័ន្ធតាមដាន អាចជួយកាត់បន្ថយទឹកអត់ចំណូល (Non-Revenue Water) កាន់តែមានប្រសិទ្ធភាព។
រដ្ឋាករទឹកតាមបណ្តាខេត្ត (ឧ. សៀមរាប, បាត់ដំបង): សម្រាប់បណ្តាញទឹកខេត្ត ដែលមិនទាន់មានម៉ូដែលធារាសាស្ត្រឌីជីថល (Digital Twin) ពេញលេញ វិធីសាស្ត្រ Self-starting CUSUM អាចចាប់ផ្តើមស្វែងរកការលេចធ្លាយបានភ្លាមៗ ដោយគ្រាន់តែប្រើទិន្នន័យសម្ពាធទឹកមូលដ្ឋានដែលមានស្រាប់។
គម្រោងទីក្រុងឆ្លាតវៃ (Smart City Initiatives): អាចប្រើជាក្បួនដោះស្រាយស្នូលសម្រាប់ផ្ទាំងគ្រប់គ្រង (Dashboard) តាមដានហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងឆ្លាតវៃ ដើម្បីរាយការណ៍ពីភាពមិនប្រក្រតីដោយស្វ័យប្រវត្តិ និងទាន់ពេលវេលា។

ការអនុម័តវិធីសាស្ត្រគ្រប់គ្រងដំណើរការស្តូកាស្ទិច (SPC) ដែលអាចសម្របខ្លួនបាន គឺជាជម្រើសដ៏ឆ្លាតវៃ និងសន្សំសំចៃក្នុងការធ្វើឱ្យប្រសើរឡើងនូវការគ្រប់គ្រងធនធានទឹក និងការកាត់បន្ថយការបាត់បង់ទឹកនៅក្នុងទីក្រុងនានានៃប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ SPC និង CUSUM: ស្វែងយល់អំពីទ្រឹស្តីស្ថិតិ Statistical Process Control (SPC) និងវិធីសាស្ត្រ Standard CUSUM រួមទាំងវិធីសាស្ត្រ EWMA ដើម្បីយល់ពីរបៀបដែលពួកវាចាប់យកការផ្លាស់ប្តូរនៅក្នុងទិន្នន័យស៊េរីពេលវេលា។
វិភាគលើក្បួនដោះស្រាយ LILA និងទិន្នន័យ L-Town: ចូលទៅកាន់ឃ្លាំងកូដ GitHub (SWN-group-at-TU-Berlin/LILA) ដើម្បីទាញយកទិន្នន័យ L-Town Benchmark និងរៀនពីរបៀបដែលកូដបង្កើតការទស្សន៍ទាយសំណល់ (Model Reconstruction Error)។
អនុវត្តការរៀបចំទិន្នន័យ និងវិធីសាស្ត្រជឿនលឿន: ប្រើប្រាស់ភាសា Python ជាពិសេសបណ្ណាល័យ SciPy និង Statsmodels ដើម្បីសរសេរកូដសម្រាប់វិធីសាស្ត្រ Box-Cox Transformation និង Cholesky Decorrelation សម្រាប់ដោះស្រាយទិន្នន័យមិនប្រក្រតី។
សាកល្បងជាមួយសំណុំទិន្នន័យក្នុងស្រុក: សហការជាមួយ PPWSA ឬរដ្ឋាករទឹកក្នុងស្រុក ដើម្បីទទួលបានទិន្នន័យ SCADA គំរូ ហើយដំណើរការក្បួនដោះស្រាយ Nonparametric CUSUM (adn/corr) ដើម្បីវាយតម្លៃប្រសិទ្ធភាពជាក់ស្តែង។
អភិវឌ្ឍផ្ទាំងគ្រប់គ្រង (Dashboard) តាមដានជាក់ស្តែង: ប្រើប្រាស់ឧបករណ៍ដូចជា Streamlit ឬ Grafana ដើម្បីបង្កើតប្រព័ន្ធតាមដានផ្ទាល់ (Real-time monitoring system) ដែលបង្ហាញសញ្ញា CUSUM Statistics និងផ្តល់ការជូនដំណឹង (Alerts) ពេលមានការលេចធ្លាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Stochastic Process Control	ជាការប្រើប្រាស់ក្បួនស្ថិតិដើម្បីតាមដានដំណើរការប្រែប្រួលដែលកើតឡើងដោយចៃដន្យ (stochastic) នៅក្នុងទិន្នន័យតាមពេលវេលា (ដូចជាសម្ពាធទឹក) ដើម្បីស្វែងរកភាពមិនប្រក្រតីណាមួយដែលខុសពីលំនាំដើម (ឧទាហរណ៍ ការលេចធ្លាយ)។	ដូចជាគ្រូពេទ្យតាមដានក្រាហ្វិចចង្វាក់បេះដូងអ្នកជំងឺជាប្រចាំម៉ោង ដើម្បីចាប់មើលថាពេលណាវាលោតខុសចង្វាក់ធម្មតា។
Cumulative Sum (CUSUM)	ជាវិធីសាស្ត្រស្ថិតិដែលបូកបញ្ចូលតម្លៃលម្អៀងតូចៗជាបន្តបន្ទាប់គ្នាពីចំណុចគោល ដើម្បីឱ្យវាឆាប់កើនឡើងច្បាស់រហូតដល់កម្រិតមួយដែលអាចបញ្ជាក់ថាមានការប្រែប្រួលពិតប្រាកដ។ វាងាយស្រួលចាប់បានការប្រែប្រួលតូចៗដែលកើតឡើងយូរ។	ដូចជាការសន្សំលុយរាយកាក់រាល់ថ្ងៃ ដំបូងមើលមិនសូវឃើញច្រើនទេ តែយូរៗទៅវាក្លាយជាលុយដុំធំដែលអាចកត់សម្គាល់បានយ៉ាងងាយ។
Model Reconstruction Error	ជាទំហំនៃភាពខុសគ្នា (error) រវាងតម្លៃដែលបានព្យាករណ៍ដោយម៉ូដែលកុំព្យូទ័រ និងតម្លៃជាក់ស្តែងដែលវាស់បានពីសេនស័រ។ បើកំហុសនេះកើនឡើងខុសប្រក្រតី មានន័យថាប្រព័ន្ធអាចមានបញ្ហាដូចជាលេចធ្លាយនៅក្នុងបណ្តាញ។	ដូចជាការប្រៀបធៀបរូបថតចាស់របស់អ្នក និងមុខរបស់អ្នកផ្ទាល់ក្នុងកញ្ចក់បច្ចុប្បន្ន បើមានភាពខុសគ្នាខ្លាំង មានន័យថាមានអ្វីមួយប្រែប្រួលហើយ។
Autocorrelation	គឺជាទំនាក់ទំនងរវាងទិន្នន័យក្នុងពេលបច្ចុប្បន្នជាមួយនឹងទិន្នន័យរបស់វាក្នុងអតីតកាល។ ក្នុងបណ្តាញទឹក សម្ពាធទឹកម៉ោង ៨ ព្រឹក អាចមានទំនាក់ទំនងនឹងសម្ពាធទឹកម៉ោង ៧:៥៥ ព្រឹក ដែលធ្វើឱ្យក្បួនស្ថិតិមួយចំនួនទាយខុសបើមិនបានកាត់បន្ថយទំនាក់ទំនងនេះ។	ដូចជាអាកាសធាតុថ្ងៃនេះជះឥទ្ធិពលដល់អាកាសធាតុថ្ងៃស្អែក គឺវាមិនមែនកើតឡើងដោយចៃដន្យដាច់ដោយឡែកពីគ្នានោះទេ។
Nonparametric methods	ជាវិធីសាស្ត្រស្ថិតិដែលមិនទាមទារការសន្មត់ទុកជាមុនអំពីទម្រង់នៃរបាយទិន្នន័យ (ឧទាហរណ៍ មិនចាំបាច់ជា Normal Distribution) ដែលធ្វើឱ្យវាមានភាពបត់បែនខ្ពស់សម្រាប់ទិន្នន័យជាក់ស្តែងដែលរាយប៉ាយគ្មានសណ្តាប់ធ្នាប់។	ដូចជាការវាស់អាវកាត់តាមរាងជាក់ស្តែងរបស់មនុស្សម្នាក់ៗ ជាជាងការទិញអាវមានទំហំស្រាប់ (S, M, L) ដែលគេសន្មត់ថាសមនឹងមនុស្សគ្រប់គ្នា។
Decorrelation	ជាដំណើរការបំប្លែងទិន្នន័យតាមបែបគណិតវិទ្យា (ដូចជាការប្រើ Cholesky decomposition) ដើម្បីដកចេញនូវទំនាក់ទំនងរវាងទិន្នន័យមុននិងក្រោយ (Autocorrelation) ធ្វើឱ្យទិន្នន័យនីមួយៗមានភាពឯករាជ្យពីគ្នា ដែលជួយកាត់បន្ថយការផ្តល់សញ្ញាព្រមានខុស (False alarms)។	ដូចជាការបំបែកមនុស្សដែលចូលចិត្តនិយាយតាមគ្នាឱ្យនៅដាច់ពីគ្នា ដើម្បីឱ្យអ្នកអាចលឺគំនិតឯករាជ្យរបស់ម្នាក់ៗយ៉ាងពិតប្រាកដ។
False Positive	ករណីដែលប្រព័ន្ធផ្តល់សញ្ញាព្រមានថាមានការលេចធ្លាយទឹកកើតឡើង ប៉ុន្តែតាមការពិតជាក់ស្តែងគឺមិនមានការលេចធ្លាយអ្វីនោះទេ។ នេះជារឿយៗបណ្តាលមកពីទិន្នន័យរំខាន (noise) ឬការប្រែប្រួលនៃការប្រើប្រាស់ទឹកខុសពីទម្លាប់ដើម។	ដូចជាសំឡេងរោទ៍សុវត្ថិភាពលោតប្រាប់ថាមានចោរចូលផ្ទះ តែតាមពិតគ្រាន់តែឆ្មាលោតកាត់សេនស័រប៉ុណ្ណោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖