Original Title: Day Ahead Electric Load Forecast: A Comprehensive LSTM-EMD Methodology and Several Diverse Case Studies
Source: doi.org/10.3390/forecast5010016
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍បន្ទុកអគ្គិសនីសម្រាប់ថ្ងៃបន្ទាប់៖ វិធីសាស្រ្ត LSTM-EMD ដ៏ទូលំទូលាយ និងការសិក្សាករណីចម្រុះជាច្រើន

ចំណងជើងដើម៖ Day Ahead Electric Load Forecast: A Comprehensive LSTM-EMD Methodology and Several Diverse Case Studies

អ្នកនិពន្ធ៖ Michael Wood (Politecnico di Milano), Emanuele Ogliari (Politecnico di Milano), Alfredo Nespoli (Politecnico di Milano), Travis Simpkins (muGrid Analyics LLC), Sonia Leva (Politecnico di Milano)

ឆ្នាំបោះពុម្ព៖ 2023 (Forecasting)

វិស័យសិក្សា៖ Energy Engineering / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃតម្រូវការការព្យាករណ៍បន្ទុកអគ្គិសនីសម្រាប់ថ្ងៃបន្ទាប់ដែលមានភាពជាក់លាក់ខ្ពស់ ដើម្បីបង្កើនប្រសិទ្ធភាពនៃការគ្រប់គ្រងថាមពលនៅកម្រិតអ្នកប្រើប្រាស់ (Behind-the-Meter) ដោយផ្តោតលើការដោះស្រាយទិន្នន័យដែលមានលក្ខណៈមិនលីនេអ៊ែរ និងទិន្នន័យមិនប្រក្រតី។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានបង្កើតវិធីសាស្រ្តរួមបញ្ចូលគ្នាមួយដោយប្រើប្រាស់បច្ចេកទេសរៀនសូត្រស៊ីជម្រៅ (Deep Learning) និងការរៀបចំទិន្នន័យកម្រិតខ្ពស់ ដើម្បីធ្វើតេស្តលើសំណុំទិន្នន័យចំនួន ៧ ផ្សេងៗគ្នា។

ការប្រើប្រាស់បច្ចេកទេស k-means clustering និង Z-score ដើម្បីរកមើលទិន្នន័យមិនប្រក្រតី (Outlier detection)
ការបំបែកទិន្នន័យដោយប្រើ Empirical Mode Decomposition (EMD) ដើម្បីទាញយកលក្ខណៈពិសេសនៃសញ្ញា
ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទ Long Short-Term Memory (LSTM) សម្រាប់ការធ្វើការព្យាករណ៍
ការប្រៀបធៀបលទ្ធផលជាមួយគំរូស្តង់ដារ SARIMA និង Seasonal Naive Persistence

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្រ្តនេះត្រូវបានសាកល្បងលើករណីសិក្សាចំនួន ៧ រួមមានលំនៅដ្ឋាន សណ្ឋាគារ រោងចក្រ និងស្ថានីយសាករថយន្តអគ្គិសនី ដោយទទួលបានពិន្ទុជំនាញ (Skill Scores) ចន្លោះពី -៦.៣% ទៅ ៧៣%។
ការរួមបញ្ចូលគ្នានៃ LSTM និង EMD បានបង្ហាញប្រសិទ្ធភាពខ្ពស់ជាងគំរូធម្មតា (Benchmarks) ក្នុងករណីភាគច្រើន ជាពិសេសចំពោះទិន្នន័យដែលមានភាពស្មុគស្មាញ។
ទោះជាយ៉ាងណាក៏ដោយ ចំពោះទិន្នន័យដែលមានលំនាំថេរខ្លាំង (Stationary) ដូចជាទិន្នន័យសណ្ឋាគារ គំរូ SARIMA អាចផ្តល់លទ្ធផលល្អប្រហាក់ប្រហែល ឬល្អជាងវិធីសាស្រ្តសរសៃប្រសាទដ៏ស្មុគស្មាញ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LSTM-EMD (Long Short-Term Memory with Empirical Mode Decomposition) គំរូ LSTM រួមបញ្ចូលជាមួយបច្ចេកទេសបំបែកសញ្ញា EMD	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកលំនាំទិន្នន័យដែលមានភាពស្មុគស្មាញ និងមិនលីនេអ៊ែរ (Non-linear)។ ផ្តល់លទ្ធផលល្អបំផុតចំពោះទិន្នន័យដែលមានការប្រែប្រួលខ្លាំង ដូចជារោងចក្រ និងបណ្តាញចែកចាយ។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ក្នុងការបណ្តុះបណ្តាល (Training) និងមានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning)។	ទទួលបានពិន្ទុជំនាញ (Skill Score) រហូតដល់ ៧៣% លើសពីគំរូស្តង់ដារចំពោះទិន្នន័យរោងចក្រឧស្សាហកម្ម។
SARIMA (Seasonal Auto-Regressive Integrated Moving Average) គំរូស្ថិតិសម្រាប់ការវិភាគស계៊េរីពេលវេលាដែលមានរដូវកាល	ងាយស្រួលយល់ មានតម្លាភាព និងចំណាយពេលតិចក្នុងការបណ្តុះបណ្តាល។ មានប្រសិទ្ធភាពល្អចំពោះទិន្នន័យដែលមានលំនាំទៀងទាត់ខ្លាំង។	មិនអាចចាប់យកលំនាំទិន្នន័យដែលមានភាពស្មុគស្មាញ ឬការប្រែប្រួលរហ័សបានល្អដូច Deep Learning ទេ។	ផ្តល់លទ្ធផលល្អប្រសើរជាង ឬប្រហាក់ប្រហែលនឹង LSTM ចំពោះទិន្នន័យសណ្ឋាគារដែលមានលំនាំប្រើប្រាស់ថាមពលទៀងទាត់។
Seasonal Naive Persistence (NP) វិធីសាស្រ្តសាមញ្ញដោយយកទិន្នន័យពីអតីតកាលមកប្រើផ្ទាល់	មិនត្រូវការការបណ្តុះបណ្តាល ងាយស្រួលបំផុត និងប្រើជាបន្ទាត់មូលដ្ឋាន (Baseline) សម្រាប់ប្រៀបធៀប។	មានកម្រិតលំអៀងខ្ពស់ និងមិនអាចព្យាករណ៍ការផ្លាស់ប្តូរដែលមិនធ្លាប់កើតឡើង។	ត្រូវបានប្រើជាមូលដ្ឋានប្រៀបធៀប (Benchmark) ដោយគំរូ LSTM-EMD អាចកាត់បន្ថយកំហុស RMSE បានយ៉ាងច្រើនធៀបនឹងវិធីសាស្រ្តនេះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រកម្រិតមធ្យម ដែលអាចដំណើរការបាននៅលើសេវាកម្មក្លោដ (Cloud) ដោយមិនចាំបាច់មានហេដ្ឋារចនាសម្ព័ន្ធធំដុំ។

Hardware: ប្រើប្រាស់ Google Colaboratory ដែលមាន GPU RAM 2GB និង CPU RAM 16GB។
Software: Python libraries: Tensorflow 2.6.0, Keras, Scikit-learn និង pmdarima។
Dataset: ទិន្នន័យរង្វាស់ថាមពលអគ្គិសនីជាក់ស្តែង (Real power measurements) ក្នុងចន្លោះពេល ១០, ១៥ ឬ ៦០ នាទី សម្រាប់រយៈពេលយ៉ាងតិច ២-៣ ឆ្នាំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីសហរដ្ឋអាមេរិក (USA) និងអ៊ីតាលី (Italy) ដែលមានអាកាសធាតុនិងលំនាំនៃការប្រើប្រាស់ថាមពលខុសពីប្រទេសកម្ពុជា។ ទោះជាយ៉ាងណាក៏ដោយ លក្ខណៈនៃបន្ទុកឧស្សាហកម្ម និងពាណិជ្ជកម្ម (ដូចជាសណ្ឋាគារ) អាចមានលក្ខណៈស្រដៀងគ្នាដែលអាចយកមកអនុវត្តបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តនេះមានសារៈសំខាន់ និងអាចអនុវត្តបានខ្ពស់សម្រាប់វិស័យថាមពលនៅកម្ពុជា ជាពិសេសក្នុងបរិបទនៃការកើនឡើងនៃការប្រើប្រាស់ថាមពលសូឡា។

អគ្គិសនីកម្ពុជា (EDC): អាចប្រើប្រាស់វិធីសាស្រ្តនេះដើម្បីព្យាករណ៍បន្ទុកលើបណ្តាញចែកចាយ និងបណ្តាញបញ្ជូន ដើម្បីគ្រប់គ្រងការផ្គត់ផ្គង់ឱ្យមានស្ថេរភាព។
វិស័យរោងចក្រកាត់ដេរ និងតំបន់សេដ្ឋកិច្ចពិសេស: រោងចក្រដែលមានការប្រើប្រាស់ថាមពលខ្ពស់អាចប្រើប្រាស់គំរូនេះដើម្បីគ្រប់គ្រងការប្រើប្រាស់ថាមពល និងកាត់បន្ថយថ្លៃដើម ជាពិសេសប្រសិនបើមានការប្រើប្រាស់ថាមពលពន្លឺព្រះអាទិត្យ (Rooftop Solar)។
អគារពាណិជ្ជកម្ម និងសណ្ឋាគារធំៗ: ការប្រើប្រាស់គំរូព្យាករណ៍ ដើម្បីគ្រប់គ្រងប្រព័ន្ធត្រជាក់ (HVAC) និងការប្រើប្រាស់ថាមពលឱ្យមានប្រសិទ្ធភាពខ្ពស់។

ការអនុវត្តវិធីសាស្រ្ត LSTM-EMD អាចជួយបង្កើនប្រសិទ្ធភាពនៃការគ្រប់គ្រងថាមពលនៅកម្ពុជា ប៉ុន្តែចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យដែលមានគុណភាពក្នុងស្រុកជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Time Series និង Python: និស្សិតត្រូវចេះប្រើប្រាស់ Python libraries ដូចជា Pandas និង Numpy ដើម្បីរៀបចំទិន្នន័យពេលវេលា (Time Series Data) និងស្វែងយល់ពីលក្ខណៈ Seasonality និង Trend។
ការបង្កើតគំរូព្យាករណ៍កម្រិតដំបូង: ចាប់ផ្តើមអនុវត្តជាមួយគំរូស្ថិតិ SARIMA ដោយប្រើប្រាស់ library pmdarima ដើម្បីយល់ពីការប្រែប្រួលនៃបន្ទុកអគ្គិសនីមុននឹងឈានទៅរក Deep Learning។
ការសិក្សា និងអនុវត្ត Deep Learning: សិក្សាពីរបៀបបង្កើតបណ្តាញសរសៃប្រសាទ LSTM ដោយប្រើប្រាស់ TensorFlow ឬ Keras និងស្វែងយល់ពីរបៀបប្រើប្រាស់ Hyperband សម្រាប់ការកំណត់ប៉ារ៉ាម៉ែត្រ។
ការអនុវត្តគម្រោងជាក់ស្តែង: ប្រមូលទិន្នន័យប្រើប្រាស់អគ្គិសនីពីអគារសាកលវិទ្យាល័យ ឬទិន្នន័យសាធារណៈ ហើយសាកល្បងអនុវត្តវិធីសាស្រ្ត LSTM-EMD ដើម្បីធ្វើការព្យាករណ៍សម្រាប់រយៈពេល ២៤ ម៉ោងបន្ទាប់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Long Short-Term Memory (LSTM)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Recurrent Neural Network) ដែលមានសមត្ថភាពពិសេសក្នុងការចងចាំព័ត៌មានពីអតីតកាលរយៈពេលយូរ ដើម្បីយកមកវិភាគនិងធ្វើការព្យាករណ៍ទិន្នន័យបន្តបន្ទាប់គ្នា (Time Series)។ វាដោះស្រាយបញ្ហាដែលបណ្តាញធម្មតាមិនអាចចងចាំព្រឹត្តិការណ៍ឆ្ងាយៗបាន។	ដូចជាការអានសៀវភៅដែលយើងចងចាំសាច់រឿងតាំងពីជំពូកទី ១ ដើម្បីយល់ពីជំពូកទី ១០ មិនមែនគ្រាន់តែអានប្រយោគចុងក្រោយហើយយល់នោះទេ។
Empirical Mode Decomposition (EMD)	ជាបច្ចេកទេសបំបែកសញ្ញាដ៏ស្មុគស្មាញទៅជាផ្នែកតូចៗដែលហៅថា Intrinsic Mode Functions (IMFs) ដើម្បីងាយស្រួលក្នុងការវិភាគរកមើលលំនាំ ឬនិន្នាការនៅក្នុងទិន្នន័យដែលមានភាពមិនទៀងទាត់។	ប្រៀបដូចជាការបំបែកសំឡេងតន្ត្រីចម្រុះ ទៅជាសំឡេងឧបករណ៍នីមួយៗ (ដូចជា ស្គរ ហ្គីតា និងព្យាណូ) ដាច់ដោយឡែកពីគ្នា ដើម្បីងាយស្រួលស្តាប់។
Behind-the-Meter (BTM)	សំដៅលើប្រព័ន្ធថាមពល (ដូចជាផ្ទាំងសូឡា ឬអាគុយផ្ទុកភ្លើង) ដែលត្រូវបានដំឡើងនៅទីតាំងរបស់អ្នកប្រើប្រាស់ផ្ទាល់ (នៅខាងក្រោយកុងទ័រភ្លើង) ជាជាងនៅខាងក្រុមហ៊ុនផ្គត់ផ្គង់អគ្គិសនី។	ដូចជាការដាំបន្លែហូបខ្លួនឯងនៅក្នុងសួនក្រោយផ្ទះ ជំនួសឱ្យការទៅទិញបន្លែពីផ្សាររាល់ថ្ងៃ។
Concept Drift	ជាបាតុភូតដែលលំនាំស្ថិតិនៃទិន្នន័យគោលដៅមានការផ្លាស់ប្តូរតាមពេលវេលា (ឧទាហរណ៍៖ ឥរិយាបថប្រើប្រាស់ភ្លើងប្រែប្រួលដោយសារបច្ចេកវិទ្យាថ្មី) ធ្វើឱ្យគំរូដែលធ្លាប់បណ្តុះបណ្តាលពីមុន លែងសូវមានប្រសិទ្ធភាព។	ដូចជាការព្យាករណ៍ម៉ូដសម្លៀកបំពាក់បច្ចុប្បន្ន ដោយផ្អែកលើទិន្នន័យពីទសវត្សរ៍ឆ្នាំ ៩០ ដែលច្បាប់នៃការស្លៀកពាក់បានផ្លាស់ប្តូរអស់ទៅហើយ។
Hyperband	ជាក្បួនដោះស្រាយ (Algorithm) សម្រាប់ស្វែងរកការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ដ៏ល្អបំផុតសម្រាប់គំរូកុំព្យូទ័រ ដោយប្រើវិធីសាស្ត្រកាត់ចោលនូវជម្រើសណាដែលមិនល្អបានឆាប់រហ័ស ដើម្បីសន្សំពេល។	ដូចជាការប្រកួតចម្រៀងដែលគណៈកម្មការឱ្យអ្នកច្រៀងមិនល្អឈប់ភ្លាមៗក្នុងរយៈពេល ១០ វិនាទីដំបូង ដើម្បីទុកពេលឱ្យអ្នកពូកែបានបង្ហាញសមត្ថភាព។
Stationarity	ជាលក្ខណៈនៃទិន្នន័យស៊េរីពេលវេលា (Time Series) ដែលមានតម្លៃមធ្យម (Mean) និងបម្រែបម្រួល (Variance) នៅថេរមិនប្រែប្រួលតាមពេលវេលា។ ទិន្នន័យដែលមាន Stationarity ងាយស្រួលធ្វើការព្យាករណ៍ជាង។	ដូចជាផ្ទៃទឹកទន្លេដែលហូរស្មោះត្រង់ក្នុងកម្ពស់ថេរ មិនមែនហូរចុះឡើងវឹកវរដូចទឹកជ្រោះនោះទេ។
Dropout	ជាបច្ចេកទេសមួយក្នុង Deep Learning ដែលបិទដំណើរការផ្នែកខ្លះនៃបណ្តាញសរសៃប្រសាទដោយចៃដន្យអំឡុងពេលបណ្តុះបណ្តាល ដើម្បីបង្ការកុំឱ្យកុំព្យូទ័រទន្ទេញទិន្នន័យ (Overfitting) ជំនួសឱ្យការរៀនលំនាំពិតប្រាកដ។	ដូចជាការរៀនត្រៀមប្រឡងដោយយកដៃបិទចម្លើយខ្លះៗ ដើម្បីបង្ខំឱ្យខួរក្បាលគិតរកហេតុផល មិនមែនគ្រាន់តែទន្ទេញចាំមាត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖