Original Title: A COMPARISON OF VARIOUS RESIDUAL-BASED CONTROL CHARTS FOR DETECTING AND MONITORING ABNORMAL RIVER WATER LEVELS
Source: doi.org/10.17576/jqma.2101.2025.16
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រៀបធៀបតារាងត្រួតពិនិត្យផ្អែកលើសំណល់ផ្សេងៗសម្រាប់ការរកឃើញ និងតាមដានកម្រិតទឹកទន្លេដែលមិនប្រក្រតី

ចំណងជើងដើម៖ A COMPARISON OF VARIOUS RESIDUAL-BASED CONTROL CHARTS FOR DETECTING AND MONITORING ABNORMAL RIVER WATER LEVELS

អ្នកនិពន្ធ៖ Siti Nur Atiqah Mohd Shafie, Norshahida Shaadan (Universiti Teknologi MARA), Firdaus Mohamad Hamzah (Universiti Pertahanan Nasional Malaysia), Mahayaudin M. Mansor (Universiti Teknologi MARA)

ឆ្នាំបោះពុម្ព៖ 2025 Journal of Quality Measurement and Analysis

វិស័យសិក្សា៖ Environmental Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រទេសម៉ាឡេស៊ីជួបប្រទះបញ្ហាទឹកជំនន់ជារៀងរាល់ឆ្នាំ ដែលទាមទារឱ្យមានការតាមដានកម្រិតទឹកទន្លេមិនប្រក្រតីឱ្យបានច្បាស់លាស់ ខណៈដែលបញ្ហាស្វ័យសហសម្ព័ន្ធ (Autocorrelation) នៃទិន្នន័យតែងតែបង្កឱ្យមានការព្រមានខុសចំពោះប្រព័ន្ធត្រួតពិនិត្យធម្មតា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រៀបធៀបតារាងត្រួតពិនិត្យផ្អែកលើសំណល់ចំនួន៣ប្រភេទ ដោយប្រើប្រាស់គំរូស៊េរីពេលវេលាសម្រាប់ទិន្នន័យកម្រិតទឹកទន្លេនៅស្ថានីយ Taman Sri Muda ចន្លោះឆ្នាំ២០១៧-២០១៩ ដើម្បីលុបបំបាត់ឥទ្ធិពលស្វ័យសហសម្ព័ន្ធមុននឹងធ្វើការវិភាគរកភាពមិនប្រក្រតី។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Individual Mean Shewhart (I-Shewhart) Residual Control Chart
តារាងត្រួតពិនិត្យសំណល់ I-Shewhart
ងាយស្រួលក្នុងការយល់និងគណនា។ ល្អសម្រាប់ការរកមើលការប្រែប្រួលខ្លាំង ឬរំកិលធំៗនៅក្នុងដំណើរការទិន្នន័យ (Large shifts)។ មិនសូវមានភាពរសើប (Sensitive) ក្នុងការចាប់យកការប្រែប្រួលតូចតាច ឬការកើនឡើងកម្រិតទឹកបន្តិចម្តងៗនោះទេ។ អត្រារកឃើញសញ្ញាភាពមិនប្រក្រតី (Detection score) ត្រឹមតែ ៣,៥៦% ប៉ុណ្ណោះ។
Moving Average (MA) Residual Control Chart
តារាងត្រួតពិនិត្យសំណល់ MA
អាចធ្វើឱ្យទិន្នន័យមានភាពរលោង (Smooth) ដើម្បីកាត់បន្ថយភាពរំខាន (Noise) នៅក្នុងទិន្នន័យដែលមានការប្រែប្រួលលឿន។ ផ្តល់ទម្ងន់ស្មើគ្នាទៅលើទិន្នន័យចាស់ និងថ្មី ដែលធ្វើឱ្យការឆ្លើយតបទៅនឹងការប្រែប្រួលកម្រិតទឹកមានភាពយឺតយ៉ាវ។ មានអត្រារកឃើញសញ្ញាភាពមិនប្រក្រតីទាបបំផុត គឺ ៣,០១%។
Exponentially Weighted Moving Average (EWMA) Residual Control Chart (λ=0.05)
តារាងត្រួតពិនិត្យសំណល់ EWMA (λ=0.05)
មានភាពរសើបខ្ពស់បំផុតក្នុងការចាប់យកការប្រែប្រួលតូចតាចដោយផ្តល់ទម្ងន់ទៅលើទិន្នន័យមុនៗ (Older data) បានល្អ។ កាត់បន្ថយការព្រមានខុស (False alarms) បានយ៉ាងមានប្រសិទ្ធភាព។ ការកំណត់ប៉ារ៉ាម៉ែត្រ λ ត្រូវការការធ្វើតេស្តសាកល្បង ដើម្បីស្វែងរកតម្លៃដែលស័ក្តិសមបំផុតសម្រាប់ស្ថានភាពភូមិសាស្ត្រនីមួយៗ។ មានអត្រារកឃើញសញ្ញាភាពមិនប្រក្រតីខ្ពស់បំផុតដល់ទៅ ៧,១២% និងអាចចាប់សញ្ញាព្រមានទឹកជំនន់បានមុន ៣ សប្តាហ៍ ធៀបនឹងកម្រិតស្តង់ដារ។
Department of Irrigation and Drainage (DID) Thresholds
កម្រិតព្រមានស្តង់ដារបស់នាយកដ្ឋានធារាសាស្ត្រ (Baseline)
ងាយស្រួលអនុវត្តជាទូទៅ និងត្រូវបានប្រើប្រាស់ជាផ្លូវការដោយស្ថាប័នរដ្ឋាភិបាលសម្រាប់ការប្រកាសអាសន្ន។ មានភាពយឺតយ៉ាវខ្លាំងក្នុងការចាប់សញ្ញាគ្រោះថ្នាក់ (យឺតជាងតារាង EWMA រហូតដល់ ៣ សប្តាហ៍) ដោយសារកម្រិតព្រមានមានទំហំធំទូលាយពេក។ មិនអាចផ្តល់សញ្ញាព្រមានទឹកជំនន់បានទាន់ពេលវេលា និងរំលងភាពមិនប្រក្រតីដំបូងៗនៃកម្រិតទឹក។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះមិនតម្រូវឱ្យមានផ្នែករឹង (Hardware) ថ្លៃៗនោះទេ ប៉ុន្តែទាមទារទិន្នន័យដែលមានគុណភាព និងចំណេះដឹងផ្នែកស្ថិតិ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅទន្លេ Klang ក្នុងតំបន់ Taman Sri Muda ប្រទេសម៉ាឡេស៊ី ដែលជាទន្លេក្នុងតំបន់ទីក្រុង និងមានរបបទឹកភ្លៀងខុសពីតំបន់ផ្សេង។ លក្ខណៈសណ្ឋានដី ហេដ្ឋារចនាសម្ព័ន្ធបង្ហូរទឹក និងទំហំទន្លេពិតជាជះឥទ្ធិពលដល់លទ្ធផលនៃគំរូ។ នេះមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះទន្លេធំៗដូចជាទន្លេសាប និងទន្លេមេគង្គមានលក្ខណៈជលសាស្ត្រខុសប្លែកពីទន្លេតូចៗក្នុងទីក្រុង ដែលទាមទារឱ្យមានការកែតម្រូវប៉ារ៉ាម៉ែត្រឡើងវិញមុនពេលអនុវត្ត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នានៃភូមិសាស្ត្រក៏ដោយ វិធីសាស្ត្រនៃការប្រើប្រាស់តារាងត្រួតពិនិត្យផ្អែកលើសំណល់ (Residual-based control chart) នេះមានសក្តានុពលខ្ពស់សម្រាប់ការព្រមានពីគ្រោះទឹកជំនន់ជាមុននៅកម្ពុជា។

ការរួមបញ្ចូលតារាងត្រួតពិនិត្យ EWMA ទៅក្នុងប្រព័ន្ធតាមដានរបស់ក្រសួងធនធានទឹក និងឧតុនិយម អាចជួយបង្កើនប្រសិទ្ធភាពក្នុងការចេញសេចក្តីព្រមានបានលឿន (រហូតដល់ប៉ុន្មានសប្តាហ៍មុន) និងកាត់បន្ថយការផ្អើលឆោឡោខុស (False alarms) បានយ៉ាងប្រសើរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងសម្អាតទិន្នន័យកម្រិតទឹក (Data Collection and Preprocessing): ប្រមូលទិន្នន័យកម្រិតទឹកប្រចាំម៉ោង ឬប្រចាំថ្ងៃពីក្រសួងធនធានទឹក (MOWRAM) ឬគណៈកម្មការទន្លេមេគង្គ (MRC)។ ធ្វើការសម្អាតទិន្នន័យដោយដកចេញនូវតម្លៃខុសប្រក្រតីខ្លាំង (Outliers) ដោយប្រើប្រាស់វិធីសាស្ត្រ Boxplot និងពិនិត្យមើលរបាយទិន្នន័យ (Normality) តាមរយៈ Q-Q Plot នៅក្នុង RPython
  2. កសាងគំរូស៊េរីពេលវេលា (Time Series Modeling): ប្រើប្រាស់កញ្ចប់ auto.arima នៅក្នុង Rpmdarima នៅក្នុង Python ដើម្បីស្វែងរកគំរូ ARIMA (p,d,q) ដែលស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យកម្រិតទឹក។ បន្ទាប់មក ទាញយកទិន្នន័យសំណល់ (Residuals) ពីគំរូនេះ ដើម្បីលុបបំបាត់បញ្ហាស្វ័យសហសម្ព័ន្ធ (Autocorrelation) ដែលអាចធ្វើឱ្យមានការព្រមានខុស។
  3. អភិវឌ្ឍតារាងត្រួតពិនិត្យ EWMA (Control Chart Development): សរសេរកូដដើម្បីគណនាបន្ទាត់កំណត់កណ្តាល (CL) និងព្រំដែនត្រួតពិនិត្យ (UCL និង LCL) ដោយប្រើប្រាស់រូបមន្ត EWMA Residual។ គួរកំណត់យកតម្លៃ smoothing parameter (λ) ស្មើនឹង 0.05 ដូចដែលបានណែនាំនៅក្នុងឯកសារ ដើម្បីទទួលបានភាពរសើបខ្ពស់បំផុតក្នុងការចាប់យកសញ្ញាទឹកជំនន់។
  4. ផ្ទៀងផ្ទាត់ជាមួយព្រឹត្តិការណ៍ពិត (Testing and Validation): យកព្រំដែនត្រួតពិនិត្យដែលបានបង្កើត (Control Limits) ទៅធ្វើតេស្តជាមួយទិន្នន័យទឹកថ្មីៗ (Testing Dataset ឧ. ឆ្នាំ ២០២២-២០២៣)។ ប្រៀបធៀបពេលវេលាដែលក្រាហ្វលោតហួសបន្ទាត់ UCL ជាមួយនឹងកំណត់ត្រាទឹកជំនន់ពិតប្រាកដក្នុងប្រទេសកម្ពុជា ដើម្បីវាយតម្លៃថាវាអាចព្រមានមុនបានប៉ុន្មានថ្ងៃ។
  5. បង្កើតប្រព័ន្ធផ្តល់សញ្ញាព្រមានដោយស្វ័យប្រវត្តិ (Automated Dashboard): រួមបញ្ចូលក្បួនដោះស្រាយនេះទៅក្នុងផ្ទាំងគ្រប់គ្រង (Dashboard) តាមរយៈ Streamlit ក្នុង PythonPowerBI។ រៀបចំប្រព័ន្ធភ្ជាប់ជាមួយទិន្នន័យ Telemetry ផ្ទាល់ (Live data) ដើម្បីឱ្យមន្ត្រីពាក់ព័ន្ធទទួលបានការជូនដំណឹង (Alert) ភ្លាមៗនៅពេលកម្រិតសំណល់ទិន្នន័យឆ្លងកាត់ព្រំដែន UCL។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Residual-based control chart ជាតារាងតាមដានតាមបែបស្ថិតិ ដែលមិនត្រួតពិនិត្យលើទិន្នន័យដើមផ្ទាល់នោះទេ ប៉ុន្តែវាត្រួតពិនិត្យទៅលើទិន្នន័យសំណល់ (ភាពខុសគ្នារវាងទិន្នន័យជាក់ស្តែង និងទិន្នន័យដែលបានព្យាករណ៍ដោយគំរូ) ដើម្បីលុបបំបាត់ការរំខានផ្សេងៗ។ ដូចជាការតាមដានតែ "កំហុសនៃការទាយ" ដើម្បីដឹងថាមានអ្វីខុសប្រក្រតីធ្ងន់ធ្ងរឬអត់ ជាជាងមើលលើទិន្នន័យធម្មតាទូទៅ។
Autocorrelation ជាបាតុភូតដែលទិន្នន័យនៅពេលវេលាមួយ មានទំនាក់ទំនង ឬជះឥទ្ធិពលយ៉ាងខ្លាំងទៅលើទិន្នន័យនៅពេលវេលាបន្ទាប់ ដែលធ្វើឱ្យប្រព័ន្ធពិបាកបែងចែករវាងបម្រែបម្រួលធម្មតា និងភាពមិនប្រក្រតី។ ដូចជាកម្តៅថ្ងៃនេះមានឥទ្ធិពលដល់កម្តៅថ្ងៃស្អែក ធ្វើឱ្យយើងពិបាកដឹងថាកម្តៅថ្ងៃស្អែកឡើងខ្លាំងដោយសាររលកកម្តៅថ្មី ឬដោយសារសល់ឥទ្ធិពលពីថ្ងៃនេះ។
ARIMA (1,1,1) model ជាគំរូគណិតវិទ្យាវិភាគស៊េរីពេលវេលា (Time Series) ដែលប្រើទិន្នន័យកាលពីអតីតកាល ដើម្បីទស្សន៍ទាយនិន្នាការនាពេលអនាគត ដោយគិតបញ្ចូលទាំងបម្រែបម្រួល និងឥទ្ធិពលនៃកំហុសពីមុន។ ដូចជាអ្នកទាយអនាគតដែលពឹងផ្អែកលើប្រវត្តិសកម្មភាពរបស់អ្នកកាលពីម្សិលមិញ ដើម្បីទាយពីអ្វីដែលអ្នកនឹងធ្វើនៅថ្ងៃស្អែក។
EWMA (Exponentially Weighted Moving Average) ជាវិធីសាស្ត្រគណនាមធ្យមភាគ ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការរកមើលការប្រែប្រួលតូចតាចដែលកើតឡើងបន្តិចម្តងៗ ដោយវាបូកបញ្ចូលព័ត៌មានពីអតីតកាលទាំងអស់រួមជាមួយទិន្នន័យថ្មី។ ដូចជាការវាយតម្លៃសិស្ស ដោយយកចិត្តទុកដាក់ខ្លាំងលើពិន្ទុខែចុងក្រោយ ប៉ុន្តែក៏មិនបោះបង់ចោលពិន្ទុប្រវត្តិសិក្សាខែមុនៗរបស់គេដែរ។
False alarms ជាការផ្តល់សញ្ញាព្រមានខុស ឬលោតសញ្ញាអាសន្ននៅពេលដែលគ្មានគ្រោះថ្នាក់ពិតប្រាកដកើតឡើង ដែលបណ្តាលមកពីប្រព័ន្ធចាប់យកបម្រែបម្រួលធម្មតាច្រឡំថាជាភាពមិនប្រក្រតី។ ដូចជាឆ្កែព្រុសខ្លាំងៗពេលឃើញស្លឹកឈើជ្រុះ ដោយស្មានថាជាចោរចូលផ្ទះ។
i.i.d (independent and identically distributed) ជាលក្ខខណ្ឌនៅក្នុងស្ថិតិដែលទាមទារឱ្យទិន្នន័យនីមួយៗមិនមានទំនាក់ទំនងនឹងគ្នា (ឯករាជ្យ) និងមានទម្រង់ចែកចាយដូចៗគ្នា ដែលជាលក្ខខណ្ឌចម្បងក្នុងការប្រើប្រាស់តារាងត្រួតពិនិត្យបានត្រឹមត្រូវ។ ដូចជាការបោះកាក់ច្រើនដង លទ្ធផលនៃការបោះលើកទីពីរមិនពឹងផ្អែកលើលើកទីមួយទេ ហើយកាក់នៅតែមានមុខពីរដដែលមិនប្រែប្រួល។
Smoothing parameter (λ) ជាតម្លៃមេគុណទម្ងន់ (ចន្លោះពី ០ ដល់ ១) ដែលប្រើក្នុងតារាង EWMA ដើម្បីកំណត់ថាតើគួរផ្តល់ទម្ងន់ប៉ុន្មានទៅលើទិន្នន័យថ្មីៗ។ តម្លៃកាន់តែតូច ក្រាហ្វកាន់តែរលោង និងប្រមូលព័ត៌មានពីអតីតកាលបានកាន់តែច្រើន។ ដូចជាកម្រិតនៃការចងចាំ—បើកំណត់កម្រិតទាប មានន័យថាយើងនៅផ្តល់តម្លៃលើរឿងចាស់ៗច្រើនជាងការចាប់អារម្មណ៍តែលើរឿងថ្មីៗរំពេច។
I-Shewhart control chart ជាតារាងត្រួតពិនិត្យគុណភាពបែបប្រពៃណីដែលមិនពឹងផ្អែកលើអតីតកាល (memory-less) ដោយវាប្រើប្រាស់តែទិន្នន័យបច្ចុប្បន្នមួយមុខគត់ ដើម្បីរកមើលបម្រែបម្រួលធំៗភ្លាមៗ។ ដូចជាសន្តិសុខដែលមើលតែសកម្មភាពរបស់អ្នកនៅវិនាទីនេះផ្ទាល់ ដោយមិនខ្វល់ពីសកម្មភាពគួរឱ្យសង្ស័យដែលអ្នកបានធ្វើកាលពីប៉ុន្មាននាទីមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖