Original Title: Modeling and Optimization of Wastewater Treatment Plants with Deep Learning and Reinforcement Learning
Source: doi.org/10.54337/aau784100707
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើគំរូ និងការធ្វើឱ្យប្រសើរឡើងនូវរោងចក្រប្រព្រឹត្តកម្មទឹកកខ្វក់ដោយប្រើប្រាស់ Deep Learning និង Reinforcement Learning

ចំណងជើងដើម៖ Modeling and Optimization of Wastewater Treatment Plants with Deep Learning and Reinforcement Learning

អ្នកនិពន្ធ៖ Esmaeel Mohammadi (Aalborg University)

ឆ្នាំបោះពុម្ព៖ 2025 Aalborg University Open Publishing

វិស័យសិក្សា៖ Environmental Engineering and Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការធ្វើឱ្យប្រសើរឡើងនូវការកម្ចាត់ជាតិផូស្វ័រនៅក្នុងរោងចក្រប្រព្រឹត្តកម្មទឹកកខ្វក់ (WWTPs) ដើម្បីគោរពតាមបទប្បញ្ញត្តិបរិស្ថានដ៏តឹងរ៉ឹង ទន្ទឹមនឹងការកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការ និងការគ្រប់គ្រងភាពយឺតយ៉ាវនៃប្រព័ន្ធ (Time Delays)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតបរិស្ថានក្លែងធ្វើដោយផ្អែកលើទិន្នន័យ (Data-driven Simulation) និងបានបង្ហាត់ភ្នាក់ងារ Deep Reinforcement Learning (DRL) ដើម្បីបង្កើនប្រសិទ្ធភាពដំណើរការនេះ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional PID Controller
ឧបករណ៍បញ្ជា PID ប្រពៃណី
ងាយស្រួលអនុវត្ត និងប្រើប្រាស់ទូទៅក្នុងឧស្សាហកម្ម។ មានប្រសិទ្ធភាពក្នុងការកែតម្រូវគម្លាតកំហាប់ផូស្វ័រភ្លាមៗ។ ខ្វះសមត្ថភាពទស្សន៍ទាយទុកជាមុន និងពិបាកគ្រប់គ្រងភាពយឺតយ៉ាវ (Time Delays) ព្រមទាំងបម្រែបម្រួលថាមវន្តនៃប្រព័ន្ធស្មុគស្មាញ។ ចំណាយប្រតិបត្តិការសរុបមានកម្រិតខ្ពស់ (២៩២៤.៦៩ DKK) និងមានអត្រាគម្លាតពីគោលដៅដែលបានកំណត់រហូតដល់ ២៤.១៧%។
Soft Actor-Critic with Random Delay (SAC-RD)
អភិក្រម Soft Actor-Critic ដែលគិតគូរពីការពន្យារពេលចៃដន្យ
មានភាពបត់បែនខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងការពន្យារពេលមិនទៀងទាត់ (Random Delays)។ អាចរក្សាលំនឹងកំហាប់ផូស្វ័របានល្អ និងសន្សំសំចៃសារធាតុគីមី។ ទាមទារថាមពលកុំព្យូទ័រ និងទិន្នន័យច្រើនសម្រាប់ការបង្ហាត់ (Training) ហើយត្រូវពឹងផ្អែកលើការបង្កើតបរិស្ថានក្លែងធ្វើ (Simulator) ដែលមានភាពសុក្រឹតខ្ពស់កម្រិតយន្តការស្មុគស្មាញ។ កាត់បន្ថយអត្រាគម្លាតគោលដៅបាន ៧៧% កាត់បន្ថយការបំភាយជាតិផូស្វ័រ ៥៥% និងសន្សំសំចៃចំណាយប្រតិបត្តិការសរុបបាន ៩.៣% ធៀបនឹង PID។
LSTM-based Simulator with Iterative Correction
ម៉ូដែលក្លែងធ្វើ LSTM ជាមួយការកែតម្រូវចម្លើយតបជាលំដាប់
ពូកែក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យប្រែប្រួលតាមពេលវេលា (Long-term dependencies) និងអាចកែតម្រូវកំហុសប្រមូលផ្តុំបានល្អ។ ទាមទារការរៀបចំមុខងារទម្រង់ច្បាប់ (Loss Function) ស្មុគស្មាញ (ឧ. DILATE) ដើម្បីចៀសវាងការធ្លាក់ចុះគុណភាពនៅពេលទស្សន៍ទាយរយៈពេលយូរ។ បន្ទាប់ពីកែលម្អ វាបានកាត់បន្ថយកំហុសទស្សន៍ទាយពហុជំហាន (Multi-step simulation errors) រហូតដល់ ៩៨% ផ្នែកលើពិន្ទុ DTW។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងកម្រិតបច្ចេកទេសខ្ពស់ សម្រាប់ការប្រមូលទិន្នន័យធំៗ និងបង្ហាត់ម៉ូដែល Deep Learning/Reinforcement Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីរោងចក្រប្រព្រឹត្តកម្មទឹកកខ្វក់ Agtrup នៅក្នុងប្រទេសដាណឺម៉ាក ដែលប្រតិបត្តិការក្នុងបរិយាកាសអាកាសធាតុត្រជាក់ និងលក្ខណៈទឹកកខ្វក់តាមស្តង់ដារអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់អាចជួបបញ្ហាប្រឈមដោយសារកម្ពុជាមានអាកាសធាតុក្តៅសើម របបទឹកភ្លៀងខុសគ្នាខ្លាំងរវាងរដូវប្រាំងនិងវស្សា ដែលធ្វើឱ្យសីតុណ្ហភាព និងសមាសធាតុទឹកខុសគ្នា។ ហេតុនេះ ទាមទារឱ្យមានការប្រមូលទិន្នន័យ និងបង្ហាត់ម៉ូដែលសាជាថ្មី។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រប្រើប្រាស់ AI សម្រាប់កែលម្អការគ្រប់គ្រងរោងចក្រទឹកកខ្វក់នេះ មានសក្តានុពលដ៏ធំធេងសម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងបរិបទដែលទីក្រុងកំពុងពង្រីកខ្លួនយ៉ាងរហ័ស។

ការបំពាក់បច្ចេកវិទ្យា Reinforcement Learning ជាមួយប្រព័ន្ធ IoT ក្នុងវិស័យគ្រប់គ្រងទឹកកខ្វក់ នឹងជួយកម្ពុជាឆ្ពោះទៅរកទីក្រុងឆ្លាតវៃ (Smart City) និងអភិវឌ្ឍន៍ហេដ្ឋារចនាសម្ព័ន្ធបៃតងប្រកបដោយចីរភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះ Machine Learning និង Time-Series: ចាប់ផ្តើមរៀនសរសេរកូដ Python និងការប្រើប្រាស់បណ្ណាល័យ PyTorch ដើម្បីសង់ម៉ូដែល LSTM សម្រាប់រៀនទស្សន៍ទាយទិន្នន័យដែលមានទម្រង់ជាស៊េរីពេលវេលា។
  2. ស្វែងយល់ពីក្បួន Reinforcement Learning: ធ្វើការសិក្សាស៊ីជម្រៅលើទ្រឹស្តី Markov Decision Processes (MDPs) និងក្បួន Soft Actor-Critic (SAC) ដោយសាកល្បងប្រើប្រាស់ Stable Baselines3 នៅក្នុងបរិស្ថាន Gymnasium
  3. អនុវត្តការរៀបចំទិន្នន័យ (Data Engineering): អនុវត្តការសំអាតទិន្នន័យពិត (Data imputation, Outlier removal) តាមរយៈការប្រមូលទិន្នន័យតូចៗពីសេនស័រទឹក ឬអាកាសធាតុ ដោយប្រើប្រាស់ Pandas និង Scikit-learn
  4. បង្កើតប្រព័ន្ធក្លែងធ្វើ (Simulator Development): សាកល្បងបង្កើតបរិស្ថានក្លែងធ្វើដោយប្រើកូដ (Custom Gym Environment) ដើម្បីតំណាងឱ្យប្រព័ន្ធរូបវន្តណាមួយ (ឧ. ប្រព័ន្ធគ្រប់គ្រងសីតុណ្ហភាព) ហើយបង្វឹកភ្នាក់ងារ RL Agent ឱ្យរៀនគ្រប់គ្រងប្រព័ន្ធនោះ។
  5. សហការសិក្សាស្រាវជ្រាវ (Field Application): ទាក់ទងមន្ទីរពិសោធន៍ ឬស្ថានីយ៍ប្រព្រឹត្តកម្មទឹកក្នុងស្រុកដើម្បីស្នើសុំសំណុំទិន្នន័យមួយផ្នែកយកមកសាកល្បងកែច្នៃ បង្កើតជាគម្រោងបញ្ចប់ឆ្នាំដែលភ្ជាប់ជាមួយបញ្ហាជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Deep Reinforcement Learning (DRL) ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារ (Agent) រៀនធ្វើសេចក្តីសម្រេចចិត្តដោយស្វ័យប្រវត្តិ តាមរយៈការសាកល្បងខុសនិងត្រូវ នៅក្នុងបរិស្ថានក្លែងធ្វើ ហើយទទួលបានរង្វាន់ពេលធ្វើត្រូវ ឬពិន័យពេលធ្វើខុស ដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទ (Neural Networks) ដ៏ស្មុគស្មាញដើម្បីបង្កើនប្រសិទ្ធភាពជម្រើស។ ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះរើសបាល់ ដោយឱ្យនំចំណីពេលវាធ្វើបានល្អ និងស្តីបន្ទោសពេលវាធ្វើខុស រហូតដល់វាចេះគិតថាត្រូវធ្វើបែបណាទើបបាននំច្រើនបំផុត។
Long Short-Term Memory (LSTM) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពពិសេសក្នុងការចងចាំព័ត៌មានពីអតីតកាលក្នុងរយៈពេលយូរ ហើយយកវាទស្សន៍ទាយនិន្នាការទៅអនាគត។ វាកាត់ចោលព័ត៌មានមិនចាំបាច់ និងរក្សាទុកតែទិន្នន័យសំខាន់ៗដែលមានប្រយោជន៍សម្រាប់ប្រព័ន្ធ។ ដូចជាមនុស្សម្នាក់អានសៀវភៅរឿងវែងមួយ ដែលគាត់អាចចងចាំតួអង្គសំខាន់ៗពីដើមរឿងមកភ្ជាប់នឹងសាច់រឿងបច្ចុប្បន្ន ខណៈពេលបំភ្លេចចោលនូវឈុតឆាកតូចតាចដែលមិនសំខាន់។
Soft Actor-Critic (SAC) ជាក្បួនអាល់កូរីតទឹមនៃ Reinforcement Learning មួយប្រភេទដែលប្រើបណ្តាញពីរគឺ៖ Actor (អ្នកធ្វើសកម្មភាព) និង Critic (អ្នកវាយតម្លៃ)។ វាមានលក្ខណៈពិសេសក្នុងការលើកទឹកចិត្តឱ្យភ្នាក់ងារស្វែងរកយុទ្ធសាស្ត្រថ្មីៗ (Exploration) ជាជាងការធ្វើតែរឿងដដែលៗដែលធ្លាប់ទទួលបានពិន្ទុខ្ពស់។ ដូចជាសិស្សម្នាក់ (Actor) កំពុងរៀនគូរគំនូរដោយមានគ្រូ (Critic) ចាំផ្តល់មតិកែលម្អ ខណៈដែលគ្រូតែងលើកទឹកចិត្តឱ្យសិស្សសាកល្បងលាយពណ៌ថ្មីៗប្លែកៗជាជាងគូរតែរូបដដែលៗ។
Exogenous Variables ជាអញ្ញាត ឬកត្តាខាងក្រៅដែលអាចជះឥទ្ធិពលដល់លទ្ធផលនៃប្រព័ន្ធមួយ ប៉ុន្តែប្រព័ន្ធនោះមិនអាចបញ្ជា ឬគ្រប់គ្រងកត្តាទាំងនោះបានឡើយ ឧទាហរណ៍ដូចជាសីតុណ្ហភាពអាកាសធាតុ លំហូរទឹក ឬកម្រិតទឹកភ្លៀងនៅក្នុងរោងចក្រចម្រោះទឹក។ ដូចជាការបើកបរកង់បីលក់កាហ្វេ ដែលអ្នកអាចគ្រប់គ្រងរសជាតិកាហ្វេបាន (កត្តាខាងក្នុង) ប៉ុន្តែអ្នកមិនអាចបញ្ជាកុំឱ្យមានភ្លៀងធ្លាក់ (កត្តាខាងក្រៅ) ដែលធ្វើឱ្យប៉ះពាល់ដល់ការលក់របស់អ្នកបានទេ។
Dynamic Time Warping (DTW) ជាវិធីសាស្ត្រគណិតវិទ្យាសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងស៊េរីទិន្នន័យពីរ ដែលមានល្បឿន ឬចង្វាក់ពេលវេលាខុសគ្នា។ វាជួយយឺតតម្រូវ ឬបង្រួមទិន្នន័យដែលដើរលឿន ឬយឺតជាងគ្នាឱ្យស៊ីចង្វាក់គ្នាវិញ ដើម្បីយកមកប្រៀបធៀបភាពត្រឹមត្រូវ។ ដូចជាមនុស្សពីរនាក់ច្រៀងបទចម្រៀងតែមួយ ប៉ុន្តែម្នាក់ច្រៀងរាងញាប់ ម្នាក់ទៀតច្រៀងរាងយឺត តែឧបករណ៍នេះនៅតែអាចស្តាប់ដឹងនិងវាស់ស្ទង់ថាពួកគេកំពុងច្រៀងបទតែមួយបានយ៉ាងត្រឹមត្រូវ។
Compounding Errors ជាបញ្ហានៃការកើនឡើងកំហុសតូចៗជាបន្តបន្ទាប់នៅក្នុងការទស្សន៍ទាយពហុជំហាន (Multi-step predictions)។ នៅពេលដែលទិន្នន័យទស្សន៍ទាយខុសបន្តិចនៅជំហានទី១ ត្រូវបានយកទៅប្រើជាមូលដ្ឋានសម្រាប់ជំហានទី២ វាធ្វើឱ្យកំហុសកាន់តែរីកធំឡើងៗរហូតដល់លទ្ធផលចុងក្រោយខុសស្រឡះពីការពិត។ ដូចជាការថតចម្លងឯកសារ (Copy) ពីសន្លឹកដែលបាន Copy រួចម្តងហើយម្តងទៀត ដែលធ្វើឱ្យសន្លឹកទី១០០ ក្លាយជាព្រិលមើលលែងយល់ ខុសឆ្ងាយពីសន្លឹកដើមដំបូង។
Proportional-Integral-Derivative (PID) Control ជាប្រព័ន្ធគ្រប់គ្រងបែបរូបវន្តប្រពៃណីដែលប្រើប្រាស់ការគណនាគម្លាតរវាងស្ថានភាពបច្ចុប្បន្ននិងគោលដៅ (Error) រួចធ្វើការកែតម្រូវម៉ាស៊ីនភ្លាមៗ។ វាមានចំណុចខ្សោយត្រង់ថាវាមិនអាចទស្សន៍ទាយអនាគត និងពិបាកគ្រប់គ្រងប្រព័ន្ធដែលមានការឆ្លើយតបយឺតយ៉ាវ (Time delays)។ ដូចជាអ្នកបើកបរឡានម្នាក់ដែលរង់ចាំទាល់តែឡានរេខុសគន្លងផ្លូវទើបប្រញាប់កាច់ចង្កូតត្រឡប់មកវិញ ដោយមិនបានមើលផ្លូវកោងនៅខាងមុខដើម្បីត្រៀមបត់ជាមុន។
Markov Decision Processes (MDPs) ជាក្របខណ្ឌគណិតវិទ្យាដែលពិពណ៌នាពីដំណើរការនៃការធ្វើសេចក្តីសម្រេចចិត្តក្នុងស្ថានភាពដែលលទ្ធផលពាក់កណ្តាលកើតឡើងដោយចៃដន្យ និងពាក់កណ្តាលទៀតកើតចេញពីសកម្មភាពរបស់អ្នកសម្រេចចិត្ត។ នេះជាមូលដ្ឋានគ្រឹះសម្រាប់ការបង្វឹក AI កំណត់ស្ថានភាព សកម្មភាព និងរង្វាន់។ ដូចជាការលេងល្បែងអុក ដែលទោះបីជាអ្នកមានយុទ្ធសាស្ត្រដើរត្រឹមត្រូវក៏ដោយ ស្ថានភាពក្តារអុកបន្ទាប់នៅតែអាស្រ័យលើការដើរតបតដោយនឹកស្មានមិនដល់ពីដៃគូប្រកួតរបស់អ្នកដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖