Original Title: Deep Reinforcement Learning for Adaptive Energy Management in Smart Grids
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងស៊ីជម្រៅសម្រាប់ការគ្រប់គ្រងថាមពលបែបសម្របខ្លួននៅក្នុងបណ្តាញអគ្គិសនីឆ្លាតវៃ

ចំណងជើងដើម៖ Deep Reinforcement Learning for Adaptive Energy Management in Smart Grids

អ្នកនិពន្ធ៖ Oluremi David

ឆ្នាំបោះពុម្ព៖ 2025

វិស័យសិក្សា៖ Energy Systems & Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បណ្តាញអគ្គិសនីឆ្លាតវៃទំនើបជួបប្រទះនឹងបញ្ហាប្រឈមក្នុងការគ្រប់គ្រងថាមពល ដោយសារតែភាពមិនច្បាស់លាស់ និងការប្រែប្រួលនៃប្រភពថាមពលកកើតឡើងវិញ។ វិធីសាស្ត្រគ្រប់គ្រងបែបប្រពៃណីតែងតែមានការលំបាកក្នុងការសម្របខ្លួនទៅនឹងថាមវន្តនៃប្រព័ន្ធដ៏ស្មុគស្មាញ និងតម្រូវការធ្វើសេចក្តីសម្រេចចិត្តក្នុងពេលវេលាជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខណ្ឌនៃការរៀនពង្រឹងស៊ីជម្រៅ (DRL) ដោយចាត់ទុកការគ្រប់គ្រងថាមពលជាដំណើរការសម្រេចចិត្តម៉ាកូវ (Markov Decision Process) រួចធ្វើការវាយតម្លៃនៅក្នុងមជ្ឈដ្ឋានក្លែងធ្វើដែលមានកម្រិតភាពត្រឹមត្រូវខ្ពស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Rule-Based Control (RBC)
ការគ្រប់គ្រងផ្អែកលើវិធាន
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងមានល្បឿនធ្វើសេចក្តីសម្រេចចិត្តលឿនខ្លាំង (០.០៥ វិនាទី)។ មិនសូវមានភាពបត់បែននៅពេលអាកាសធាតុប្រែប្រួល បណ្តាលឱ្យមានចំណាយខ្ពស់ និងខ្ជះខ្ជាយថាមពលច្រើន។ ចំណាយប្រតិបត្តិការ ១,២០០,០០០ ដុល្លារ និងអតុល្យភាពថាមពល ៤២០ MWh (ទាបជាងគេបំផុតផ្នែកប្រសិទ្ធភាព)។
Model Predictive Control (MPC)
ការគ្រប់គ្រងដោយការព្យាករណ៍ម៉ូដែល
ផ្តល់លទ្ធផលល្អប្រសើរនៅពេលដែលការព្យាករណ៍អាកាសធាតុ និងតម្រូវការមានភាពត្រឹមត្រូវខ្ពស់។ ទាមទារពេលវេលាគណនាយូរ (៥.៨ វិនាទី) ដែលពិបាកក្នុងការឆ្លើយតបភ្លាមៗក្នុងពេលវេលាជាក់ស្តែងសម្រាប់បណ្តាញធំៗ។ ចំណាយប្រតិបត្តិការ ៩៥០,០០០ ដុល្លារ និងអតុល្យភាពថាមពល ២៤០ MWh។
Soft Actor-Critic (SAC)
ក្បួនដោះស្រាយការរៀនពង្រឹង Soft Actor-Critic
ផ្តល់លទ្ធផលល្អបំផុតក្នុងការកាត់បន្ថយថ្លៃដើម និងមានស្ថិរភាពខ្ពស់ក្នុងការឆ្លើយតបទៅនឹងភាពប្រែប្រួលនៃថាមពល។ ទាមទារធនធានកុំព្យូទ័រខ្លាំង និងទិន្នន័យច្រើនសម្រាប់ការហ្វឹកហាត់ម៉ូដែលដំបូង (១,០០០ វគ្គហ្វឹកហាត់)។ ចំណាយប្រតិបត្តិការទាបបំផុតត្រឹម ៩០០,០០០ ដុល្លារ ប្រើប្រាស់ថាមពលកកើតឡើងវិញបាន ៧៤% និងល្បឿនគណនា ០.២៥ វិនាទី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំងសម្រាប់ការហ្វឹកហាត់ម៉ូដែល DRL និងទិន្នន័យពិតៗពីប្រព័ន្ធថាមពល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើក្នុងការសិក្សានេះភាគច្រើនមកពីស្ថាប័ននៅសហរដ្ឋអាមេរិក (EIA, NREL, PJM) ដែលមានលក្ខខណ្ឌអាកាសធាតុ និងហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញអគ្គិសនីខុសពីកម្ពុជា។ សម្រាប់ប្រទេសកម្ពុជា ភាពលម្អៀងនេះជារឿងសំខាន់ ពីព្រោះយើងមានរដូវប្រាំងនិងវស្សាដែលជះឥទ្ធិពលខ្លាំងដល់ការផលិតថាមពលព្រះអាទិត្យ និងវារីអគ្គិសនី ដូច្នេះម៉ូដែលចាំបាច់ត្រូវតែហ្វឹកហាត់ឡើងវិញដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងពីអគ្គិសនីកម្ពុជា (EDC)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ DRL នេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងការធ្វើទំនើបកម្មបណ្តាញអគ្គិសនីជាតិឱ្យមានភាពវៃឆ្លាត និងកាត់បន្ថយថ្លៃដើម។

ការអនុវត្តបច្ចេកវិទ្យា DRL អាចជួយកម្ពុជាកាត់បន្ថយការពឹងផ្អែកលើការនាំចូលអគ្គិសនីពីប្រទេសជិតខាង និងបង្កើនប្រសិទ្ធភាពនៃការប្រើប្រាស់ថាមពលកកើតឡើងវិញក្នុងស្រុកប្រកបដោយចីរភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនពង្រឹង (RL): និស្សិតគួរសិក្សាពីទ្រឹស្តី Markov Decision Process និងការសរសេរកូដដោយប្រើ Python រួមជាមួយនឹងបណ្ណាល័យ Stable-Baselines3 ដែលមានស្រាប់។
  2. ប្រមូល និងសម្អាតទិន្នន័យក្នុងស្រុក: សហការជាមួយស្ថាប័នពាក់ព័ន្ធ ឬប្រើប្រាស់ទិន្នន័យបើកចំហ ដើម្បីប្រមូលទិន្នន័យអាកាសធាតុ និងកម្រិតនៃការប្រើប្រាស់អគ្គិសនីប្រចាំថ្ងៃនៅកម្ពុជា (ឧទាហរណ៍ទិន្នន័យប្រហាក់ប្រហែលពីឧបករណ៍វាស់ស្ទង់នៅសាកលវិទ្យាល័យ)។
  3. បង្កើតមជ្ឈដ្ឋានក្លែងធ្វើ (Simulation Environment): ប្រើប្រាស់ OpenAI Gym ដើម្បីបង្កើតបរិស្ថានក្លែងធ្វើនៃប្រព័ន្ធអគ្គិសនីខ្នាតតូចមួយ (Microgrid) ដោយកំណត់ប៉ារ៉ាម៉ែត្រដូចជា ម៉ាស៊ីនភ្លើង ផ្ទាំងសូឡា និងអាគុយ។
  4. ហ្វឹកហាត់ និងប្រៀបធៀបម៉ូដែល: សាកល្បងហ្វឹកហាត់ក្បួនដោះស្រាយ PPO និង SAC នៅក្នុងមជ្ឈដ្ឋានក្លែងធ្វើដែលបានបង្កើត រួចប្រៀបធៀបលទ្ធផលទៅនឹងវិធីសាស្ត្រធម្មតា (Rule-Based) ថាតើមួយណាចំណាយថវិកាអស់តិចជាង។
  5. សាកល្បងក្នុងគម្រោងខ្នាតតូច (Pilot Project): អនុវត្តម៉ូដែលដែលបានហ្វឹកហាត់រួចទៅក្នុងប្រព័ន្ធអគ្គិសនីរបស់អគារណាមួយក្នុងសាកលវិទ្យាល័យ ដោយភ្ជាប់ជាមួយឧបករណ៍ IoT ដើម្បីគ្រប់គ្រងការប្រើប្រាស់ម៉ាស៊ីនត្រជាក់ និងភ្លើងអំពូលដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Deep Reinforcement Learning (DRL) ជាការរួមបញ្ចូលគ្នារវាងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) និងការរៀនពង្រឹង (Reinforcement Learning) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័ររៀនធ្វើសេចក្តីសម្រេចចិត្តដោយស្វ័យប្រវត្តិ តាមរយៈការសាកល្បងនិងទទួលរង្វាន់ ឬការពិន័យនៅក្នុងបរិស្ថានស្មុគស្មាញ។ ដូចជាការបង្រៀនសត្វកូនឆ្កែឱ្យចេះធ្វើតាមបញ្ជាដោយផ្តល់នំចំណីពេលវាធ្វើត្រូវ និងស្តីបន្ទោសពេលវាធ្វើខុស ប៉ុន្តែនៅទីនេះគឺបង្រៀនកុំព្យូទ័រឱ្យចេះគ្រប់គ្រងចរន្តអគ្គិសនី។
Markov Decision Process (MDP) ជាក្របខណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូនៃដំណើរការសម្រេចចិត្ត ដែលលទ្ធផលនៅជំហានបន្ទាប់គឺពឹងផ្អែកតែលើស្ថានភាពបច្ចុប្បន្ន និងសកម្មភាពដែលបានជ្រើសរើសប៉ុណ្ណោះ មិនពឹងផ្អែកលើប្រវត្តិអតីតកាលនោះទេ។ នៅក្នុងការសិក្សានេះ គេប្រើវាដើម្បីកំណត់ស្ថានភាពបណ្តាញអគ្គិសនី សកម្មភាពចែករំលែកភ្លើង និងរង្វាន់។ ដូចជាការលេងអុក ដែលការដើរកូនអុកបន្ទាប់គឺគិតតែពីទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្ន មិនបាច់ខ្វល់ថាពីមុនដើរម៉េចខ្លះទើបមកដល់ទីនេះទេ។
Soft Actor-Critic (SAC) ជាក្បួនដោះស្រាយ DRL មួយប្រភេទដែលព្យាយាមស្វែងរកតុល្យភាពរវាងការទទួលបានរង្វាន់ខ្ពស់បំផុត និងការធ្វើសកម្មភាពបែបចៃដន្យ (Entropy) ដើម្បីជំរុញឱ្យម៉ូដែលហ៊ានសាកល្បងជម្រើសថ្មីៗ ដែលជួយកុំឱ្យវាជាប់គាំងនៅតែមួយកន្លែង និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការគ្រប់គ្រងភ្លើងដោយរលូន។ ដូចជាសិស្សម្នាក់ដែលខិតខំរៀនដើម្បីបានពិន្ទុល្អផង និងឆ្លៀតពេលសាកល្បងរៀនជំនាញថ្មីៗប្លែកៗផង ដើម្បីកុំឱ្យចេះតែមួយមុខ។
Model Predictive Control (MPC) ជាវិធីសាស្ត្រគ្រប់គ្រងបែបប្រពៃណីដែលប្រើប្រាស់ម៉ូដែលគណិតវិទ្យាដើម្បីទស្សន៍ទាយអនាគតនៃប្រព័ន្ធ រួចធ្វើការគណនាស្វែងរកសកម្មភាពល្អបំផុតសម្រាប់ពេលបច្ចុប្បន្ន។ វាត្រូវការទិន្នន័យព្យាករណ៍ច្បាស់លាស់ និងប្រើពេលគណនាយូរ។ ដូចជាអ្នកបើកបរដែលសម្លឹងមើលផ្លូវខាងមុខឆ្ងាយៗ ហើយគិតទុកមុនថានឹងត្រូវបត់ ឬជាន់ហ្វ្រាំងនៅពេលណា ដើម្បីឱ្យការធ្វើដំណើររលូន។
Demand Response ជាយន្តការនៅក្នុងបណ្តាញអគ្គិសនីឆ្លាតវៃ ដែលលើកទឹកចិត្ត ឬបញ្ជាឱ្យអ្នកប្រើប្រាស់កាត់បន្ថយ ឬផ្លាស់ប្តូរពេលវេលានៃការប្រើប្រាស់អគ្គិសនីរបស់ពួកគេនៅពេលដែលមានតម្រូវការប្រើប្រាស់ខ្ពស់ពេក (ម៉ោងកំពូល) ដើម្បីជួយរក្សាស្ថិរភាពបណ្តាញ និងការពារការដាច់ភ្លើង។ ដូចជាការបញ្ចុះតម្លៃសំបុត្រកុននៅពេលព្រឹក ដើម្បីទាក់ទាញមនុស្សកុំឱ្យសម្រុកទៅមើលតែនៅពេលល្ងាចដែលជាម៉ោងមមាញឹក។
Energy Imbalance ជាស្ថានភាពដែលបរិមាណថាមពលអគ្គិសនីដែលផលិតបាន មិនស្មើគ្នាជាមួយនឹងបរិមាណតម្រូវការប្រើប្រាស់ពិតប្រាកដ (អាចខ្វះ ឬសល់)។ នៅក្នុងប្រព័ន្ធអគ្គិសនី ភាពមិនស្មើគ្នានេះត្រូវតែជៀសវាងព្រោះវាអាចធ្វើឱ្យប្រែប្រួលហ្វ្រេកង់ ដាច់ភ្លើង ឬខូចឧបករណ៍។ ដូចជាការចាក់ទឹកចូលក្នុងកែវ បើចាក់តិចពេកក៏មិនពេញ បើចាក់លឿនពេកក៏កំពប់ គឺត្រូវចាក់ឱ្យល្មមនឹងទំហំកែវ។
State-of-charge (SOC) ជាកម្រិតបរិមាណថាមពលដែលនៅសេសសល់នៅក្នុងប្រព័ន្ធផ្ទុកថាមពល (ដូចជាអាគុយ ឬថ្ម) គិតជាភាគរយធៀបនឹងចំណុះពេញរបស់វា។ ភ្នាក់ងារ DRL ត្រូវតាមដាន SOC ដើម្បីសម្រេចថាគួរបញ្ចូលភ្លើងទុក ឬទាញភ្លើងយកមកប្រើប្រាស់។ ដូចជាសញ្ញាថ្មទូរស័ព្ទដៃនៅលើអេក្រង់ ដែលបង្ហាញថាវាសល់ ៨០% ឬជិតអស់ថ្មដែលត្រូវដោតសាកបញ្ចូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖