Original Title: NGHIÊN CỨU MÔ HÌNH DỰ BÁO NGẮN HẠN CÔNG SUẤT PHÁT CỦA NHÀ MÁY ĐIỆN MẶT TRỜI SỬ DỤNG MẠNG NƠ-RON HỒI QUY
Source: gust.edu.vn
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្រាវជ្រាវលើគំរូព្យាករណ៍រយៈពេលខ្លីនៃថាមពលអគ្គិសនីរបស់រោងចក្រថាមពលព្រះអាទិត្យ ដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទវិលត្រឡប់

ចំណងជើងដើម៖ NGHIÊN CỨU MÔ HÌNH DỰ BÁO NGẮN HẠN CÔNG SUẤT PHÁT CỦA NHÀ MÁY ĐIỆN MẶT TRỜI SỬ DỤNG MẠNG NƠ-RON HỒI QUY

អ្នកនិពន្ធ៖ Bùi Duy Linh (Học viện Khoa học và Công nghệ, Việt Nam)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Energy Engineering / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការផលិតថាមពលព្រះអាទិត្យមានការប្រែប្រួលខ្ពស់ដោយសារអាកាសធាតុ ដែលធ្វើឱ្យប្រព័ន្ធអគ្គិសនីពិបាកក្នុងការគ្រប់គ្រង។ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការកសាងគំរូព្យាករណ៍ទិន្នផលថាមពលព្រះអាទិត្យរយៈពេលខ្លី (Short-term power forecasting) ប្រកបដោយភាពសុក្រឹតខ្ពស់ សម្រាប់រោងចក្រខ្នាតឧស្សាហកម្មនៅប្រទេសវៀតណាម។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របណ្តាញសរសៃប្រសាទវិលត្រឡប់ ជាពិសេសបណ្តាញសតិរយៈពេលខ្លី-វែង (LSTM) រួមជាមួយនឹងបច្ចេកទេសរៀបចំទិន្នន័យថ្មីៗ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការព្យាករណ៍។

ការប្រមូល និងរៀបចំទិន្នន័យ (Data Pre-processing): កែច្នៃទិន្នន័យដោយប្រើប្រាស់អនុបាត P/GHI រួមជាមួយនឹងការចង្កោមទិន្នន័យកាំរស្មីព្រះអាទិត្យ (GHI clustering)។
ការកសាងគំរូទស្សន៍ទាយ (Model Building): អភិវឌ្ឍគំរូ LSTM ចំនួន 4 ស្រទាប់ (4-layer LSTM) ដែលមាន 100 ណូតនីមួយៗ និងធ្វើការប្រៀបធៀបជាមួយគំរូ ARIMA ព្រមទាំងគំរូ MLP ។
ការប្រើប្រាស់ទិន្នន័យរស្មីមេឃស្រឡះ (Clear-sky Radiation): ជំនួសសន្ទស្សន៍ពេលវេលាធម្មតាជាមួយនឹងទិន្នន័យកាំរស្មីមេឃស្រឡះ ដើម្បីបង្កើនប្រសិទ្ធភាពទិន្នន័យបញ្ចូល (Input data)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ LSTM ផ្តល់លទ្ធផលល្អបំផុត ដោយសម្រេចបានកំហុស MAPE ត្រឹមតែ 2.942% និង nRMSE 4.513% សម្រាប់ការព្យាករណ៍វដ្តបច្ចុប្បន្ន ដែលមានភាពសុក្រឹតជាងគំរូ ARIMA (7.329%) និង MLP (4.346%) ។
ការរៀបចំទិន្នន័យបឋមដោយប្រើបច្ចេកទេស P/GHI រួមជាមួយនឹង GHI clustering បានជួយកាត់បន្ថយកំហុស MAPE ពី 6.413% មកត្រឹម 4.109% (កម្រិតភាពប្រសើរឡើងប្រមាណ 36.2%)។
ការប្រើប្រាស់ទិន្នន័យរស្មីមេឃស្រឡះ (Clear-sky radiation) ជាការជំនួសសញ្ញាសម្គាល់ពេលវេលា បានជួយកាត់បន្ថយកំហុស MAPE បន្ថែមទៀតពី 0.214% ទៅ 2.161% អាស្រ័យលើកម្រិតពេលវេលានៃការព្យាករណ៍។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Persistence Model គំរូវិភាគតាមភាពប្រក្រតី ឬតាមទម្លាប់ (Persistence)	ងាយស្រួលក្នុងការគណនា និងមានការពន្យារពេលតិចតួចបំផុតក្នុងការទស្សន៍ទាយសម្រាប់រយៈពេលខ្លីបំផុត។	មិនមានសមត្ថភាពចាប់យកបម្រែបម្រួលអាកាសធាតុស្មុគស្មាញនោះទេ មានកំហុសខ្ពស់នៅពេលព្យាករណ៍សម្រាប់រយៈពេលវែងជាងមុន។	មានកំហុសខ្ពស់បំផុត ដោយ MAPE ស្មើនឹង 15.418% និង RMSE ស្មើនឹង 11.325 MW។
ARIMA (Autoregressive Integrated Moving Average) គំរូស្ថិតិ ARIMA	ជាវិធីសាស្ត្រស្ថិតិដែលទទួលបានការពេញនិយម និងផ្តល់លទ្ធផលល្អជាងគំរូ Persistence សម្រាប់ទិន្នន័យបែប Time Series លីនេអ៊ែរ។	ពិបាកក្នុងការចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear) នៃកត្តាអាកាសធាតុ និងថាមពលព្រះអាទិត្យដែលប្រែប្រួលខ្លាំង។	កំហុស MAPE ថយចុះមកត្រឹម 7.329% និង RMSE ស្មើនឹង 5.410 MW។
MLP (Multilayer Perceptron) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតច្រើនស្រទាប់ (MLP)	អាចចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែររវាងអថេរបញ្ចូល និងលទ្ធផលបានល្អប្រសើរ។	មិនមានសតិ (Memory) សម្រាប់រក្សាទុកព័ត៌មានលំដាប់ពេលវេលា (Temporal dependencies) ពីមុនមកទេ។	កំហុស MAPE ស្មើនឹង 4.346% និង RMSE ស្មើនឹង 3.470 MW សម្រាប់គំរូ 1L-100N។
LSTM (Long Short-Term Memory) - 4L100N បណ្តាញសតិរយៈពេលខ្លី-វែង (LSTM)	មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីទិន្នន័យប្រភេទលំដាប់ពេលវេលា (Time Series) និងមានភាពសុក្រឹតខ្ពស់បំផុត។	ត្រូវការពេលវេលាយូរក្នុងការទាញយកលទ្ធផល (Huấn luyện/Training) និងទាមទារទិន្នន័យច្រើនព្រមទាំងធនធានកុំព្យូទ័រធំជាងគំរូផ្សេងៗ។	ទទួលបានលទ្ធផលល្អដាច់គេ ជាមួយនឹងកំហុស MAPE ត្រឹមតែ 2.942% និង RMSE 2.166 MW (ក្រោយពេលប្រើ Early Stopping)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់សម្រាប់ការបង្ហាត់គំរូ Deep Learning និងទិន្នន័យប្រវត្តិលម្អិត។

Hardware: កុំព្យូទ័រដែលមានអង្គគណនា CPU Intel Core i7-6700 3.4GHz, RAM 20GB និងប្រព័ន្ធប្រតិបត្តិការ Windows 10 64-bit។
Software: ភាសាអក្សរកូដ Python 3.7.5 រួមជាមួយបណ្ណាល័យ TensorFlow 2.0, Scikit-learn និង PVLIB ដំណើរការលើ Visual Studio Code។
Dataset: ទិន្នន័យប្រវត្តិពីប្រព័ន្ធ SCADA របស់រោងចក្រ (កម្រិតពង្រីក 5 នាទីម្តង) រួមមានកម្លាំងថាមពល កាំរស្មីព្រះអាទិត្យ សីតុណ្ហភាព ខ្យល់ និងសំណើម រយៈពេលជាង 13 ខែ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីរោងចក្រថាមពលព្រះអាទិត្យខ្នាតធំ (48 MW និង 39 MWp) នៅភាគខាងត្បូងប្រទេសវៀតណាម ដែលមានអាកាសធាតុតំបន់ត្រូពិចស្រដៀងនឹងប្រទេសកម្ពុជា (មានពន្លឺព្រះអាទិត្យ 2200-2500 ម៉ោង/ឆ្នាំ)។ ទោះយ៉ាងណាក៏ដោយ លក្ខខណ្ឌអាកាសធាតុក្នុងតំបន់ (Micro-climate) អាចមានភាពខុសគ្នា ដូច្នេះការអនុវត្តនៅកម្ពុជាទាមទារការបង្ហាត់គំរូឡើងវិញជាមួយទិន្នន័យជាក់ស្តែងក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងអាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់ការគ្រប់គ្រងវិស័យថាមពលកកើតឡើងវិញនៅកម្ពុជា។

អគ្គិសនីកម្ពុជា (Electricite du Cambodge - EDC): អាចប្រើប្រាស់កម្មវិធីនេះសម្រាប់ព្យាករណ៍ការផ្គត់ផ្គង់ថាមពល ដើម្បីធ្វើការរៀបចំផែនការបែងចែកថាមពលបម្រុង (Grid dispatch) ជាមុន ជួយទប់ស្កាត់អស្ថិរភាពបណ្តាញនៅពេលមានបម្រែបម្រួលពពកភ្លាមៗ។
រោងចក្រថាមពលព្រះអាទិត្យខ្នាតធំ (ឧ. នៅខេត្តកំពង់ស្ពឺ ពោធិ៍សាត់ ឬបាត់ដំបង): ជួយម្ចាស់រោងចក្រក្នុងការទស្សន៍ទាយទិន្នផលប្រចាំថ្ងៃ ដើម្បីរាយការណ៍ទៅកាន់បណ្តាញជាតិ និងចៀសវាងការផាកពិន័យ ឬការកាត់បន្ថយការបញ្ចេញថាមពល (Curtailment) ។

ការអភិវឌ្ឍប្រព័ន្ធព្យាករណ៍តាមទម្រង់នេះ នឹងជួយសម្រួលដល់អន្តរកាលថាមពលស្អាតនៅកម្ពុជា ធានាបាននូវសន្តិសុខថាមពល និងកាត់បន្ថយថ្លៃដើមនៃប្រតិបត្តិការបណ្តាញអគ្គិសនីជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Python និងការរៀបចំទិន្នន័យ: និស្សិតត្រូវរៀនសរសេរកូដ Python និងស្វែងយល់ពីរបៀបប្រើប្រាស់ Pandas និង Numpy សម្រាប់សម្អាតទិន្នន័យ (Data Cleaning) ដូចជាការរកចំណុចខុសប្រក្រតី (Outliers) ដោយប្រើបច្ចេកទេស IQR ដូចមានក្នុងឯកសារ។
សិក្សាពីការវិភាគទិន្នន័យតាមពេលវេលា (Time Series Analysis): ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃការប្រើប្រាស់គំរូស្ថិតិដូចជា ARIMA និងផ្តើមធ្វើការបណ្តុះបណ្តាលគំរូសាមញ្ញដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn ដើម្បីប្រៀបធៀប។
អភិវឌ្ឍជំនាញរៀនស៊ីជម្រៅ (Deep Learning): ផ្តោតលើការសរសេរកូដបង្កើតបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ជាពិសេសប្រភេទ LSTM ដោយប្រើប្រាស់ TensorFlow 2.0 ឬ Keras រួមទាំងការប្រើប្រាស់មុខងារ Early Stopping និង Adam Optimizer។
អនុវត្តជាមួយទិន្នន័យថាមពលព្រះអាទិត្យពិត: ប្រមូលទិន្នន័យអាកាសធាតុ (សីតុណ្ហភាព កាំរស្មីព្រះអាទិត្យ) និងសាកល្បងប្រើប្រាស់បណ្ណាល័យ PVLIB ដើម្បីគណនាកាំរស្មីមេឃស្រឡះ (Clear-sky radiation) យកមកធ្វើជាទិន្នន័យបញ្ចូលបន្ថែម (Input features) សម្រាប់គំរូ។
បង្កើតកម្មវិធីព្យាករណ៍ជាក់ស្តែង (Web App): ប្រើប្រាស់ក្របខ័ណ្ឌការងារដូចជា Streamlit ឬ FastAPI ដើម្បីបង្កើតចំណុចប្រទាក់អ្នកប្រើប្រាស់ (User Interface) អនុញ្ញាតឱ្យអ្នកប្រើបញ្ចូលទិន្នន័យអាកាសធាតុ និងបង្ហាញលទ្ធផលព្យាករណ៍ថាមពលព្រះអាទិត្យត្រឡប់មកវិញភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Long Short-Term Memory (LSTM)	វាគឺជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់ (RNN) ដែលមានសមត្ថភាពចងចាំទិន្នន័យពីអតីតកាលក្នុងរយៈពេលយូរ ហើយអាចសម្រេចចិត្តថាព័ត៌មានណាគួររក្សាទុក ឬបោះបង់ ដើម្បីយកមកទស្សន៍ទាយនិន្នាការនាពេលអនាគត។ វាកាត់បន្ថយបញ្ហាបាត់បង់ព័ត៌មានពេលបណ្តុះបណ្តាលទិន្នន័យវែងៗ។	ដូចជាមនុស្សម្នាក់ដែលអានសៀវភៅរឿងវែងមួយ ហើយអាចចងចាំតួអង្គសំខាន់ៗពីជំពូកដំបូងៗ មកភ្ជាប់សាច់រឿងនៅជំពូកចុងក្រោយបាន ដោយមិនភ្លេចសាច់រឿង។
Global Horizontal Irradiance (GHI)	ជារង្វាស់នៃបរិមាណកាំរស្មីព្រះអាទិត្យសរុប (ទាំងពន្លឺបាញ់ផ្ទាល់ និងពន្លឺខ្ចាត់ខ្ចាយពីពពក) ដែលធ្លាក់មកលើផ្ទៃរាបស្មើនៅលើផែនដី។ នៅក្នុងការសិក្សានេះ វាគឺជាកត្តាដ៏សំខាន់បំផុតដែលជះឥទ្ធិពលផ្ទាល់ដល់ទិន្នផលថាមពលអគ្គិសនីដែលបន្ទះសូឡាអាចផលិតបាន។	ដូចជាការវាស់បរិមាណទឹកភ្លៀងសរុបដែលធ្លាក់ចូលក្នុងធុងទឹកមួយ ទោះជាតំណក់ទឹកនោះធ្លាក់ត្រង់ ឬត្រូវខ្យល់បក់ប៉ើងបញ្ឆិតក៏ដោយ។
Clear-sky Radiation	វាជាកម្រិតនៃកាំរស្មីព្រះអាទិត្យអតិបរមាដែលអាចរំពឹងទុកថានឹងធ្លាក់មកដល់ផ្ទៃដី នៅទីតាំងនិងពេលវេលាជាក់លាក់ណាមួយ ក្នុងលក្ខខណ្ឌដែលមេឃស្រឡះល្អគ្មានពពកបាំងទាល់តែសោះ។ នៅក្នុងការសិក្សានេះ គេយកវាជំនួសឱ្យតម្លៃពេលវេលាដើម្បីធ្វើជាទិន្នន័យបញ្ចូលសម្រាប់បង្កើនភាពសុក្រឹត។	ដូចជាការគណនាទុកជាមុននូវកម្រិតពន្លឺអំពូលដែលភ្លឺច្បាស់ល្អបំផុតដោយមិនមានការរំខាន ឬស្រមោលបាំងអ្វីទាំងអស់។
Interquartile Range (IQR)	វាជាបច្ចេកទេសស្ថិតិមួយដែលប្រើសម្រាប់វាស់ស្ទង់គម្លាតនៃទិន្នន័យកណ្តាល (៥០% នៃទិន្នន័យសរុប)។ នៅក្នុងការសិក្សានេះ គេប្រើវិធីសាស្ត្រ IQR ដើម្បីស្វែងរក និងលុបចោលនូវចំណុចទិន្នន័យខុសប្រក្រតី (Outliers) ដែលបណ្តាលមកពីកំហុសប្រព័ន្ធ ឬអាកាសធាតុប្រែប្រួលខ្លាំង។	ដូចជាការតម្រៀបសិស្សតាមកម្ពស់ រួចកាត់យកតែក្មេងដែលទាបពេក និងខ្ពស់ពេកខុសពីធម្មតាចេញ ដើម្បីងាយស្រួលរកកម្ពស់មធ្យមភាគពិតប្រាកដ។
Early Stopping	គឺជាបច្ចេកទេសមួយក្នុងការបង្ហាត់ម៉ាស៊ីន (Machine Learning) ដែលវាបញ្ឈប់ដំណើរការហ្វឹកហាត់ដោយស្វ័យប្រវត្តិនៅពេលដែលកម្រិតភាពសុក្រឹតនៃម៉ូដែលលែងមានការវិវឌ្ឍទៅមុខ ដើម្បីការពារកុំឱ្យម៉ូដែលនោះទន្ទេញទិន្នន័យចាស់ពេក ដែលនាំឱ្យវាទស្សន៍ទាយទិន្នន័យថ្មីខុស (Overfitting)។	ដូចជាគ្រូប្រាប់សិស្សឱ្យឈប់អានសៀវភៅនៅពេលដែលសិស្សនោះចាប់ផ្តើមទន្ទេញចាំមាត់ដូចសេក ព្រោះបើនៅតែបន្តទន្ទេញ សិស្សនោះនឹងលែងចេះគិតដោះស្រាយលំហាត់ថ្មីៗហើយ។
Mean Absolute Percentage Error (MAPE)	រង្វាស់ស្ថិតិដែលបង្ហាញពីទំហំនៃកំហុសរវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ ដោយគិតជាភាគរយធៀបនឹងតម្លៃពិត។ កាន់តែទាបមានន័យថាម៉ូដែលទស្សន៍ទាយកាន់តែសុក្រឹត។	ដូចជាអ្នកទាយថាផ្លែឪឡឹកនេះមានទម្ងន់ ១០ គីឡូក្រាម តែការពិតវាមានទម្ងន់ ១១ គីឡូក្រាម អញ្ចឹងកំហុសរបស់អ្នកគឺខុសប្រហែល ១០ ភាគរយពីការពិត។
Back Propagation Through Time (BPTT)	គឺជាក្បួនគណនាដែលជួយឱ្យបណ្តាញសរសៃប្រសាទវិលត្រឡប់ (RNN) អាចកែតម្រូវកំហុសរបស់វាបានតាមរយៈការគណនាថយក្រោយតាមលំដាប់ពេលវេលា ដើម្បីផ្លាស់ប្តូរទម្ងន់ (Weights) នៃទិន្នន័យនិងរៀនសូត្រពីកំហុសដែលខ្លួនបានធ្វើកន្លងមក។	ដូចជាអ្នកមើលវីដេអូឡើងវិញថយក្រោយ (Rewind) ដើម្បីស្វែងរកមើលថាតើអ្នកបានធ្វើខុសត្រង់ជំហានណាមួយនៅពេលរាំ ទើបបណ្តាលឱ្យចង្វាក់ចុងក្រោយខុស។
Numerical Weather Prediction (NWP)	ការប្រើប្រាស់ម៉ូដែលគណិតវិទ្យា និងរូបវិទ្យាស្មុគស្មាញលើកុំព្យូទ័រកម្រិតខ្ពស់ (Supercomputers) ដើម្បីក្លែងធ្វើនិងព្យាករណ៍ស្ថានភាពបរិយាកាសនាពេលអនាគត ដោយពឹងផ្អែកលើទិន្នន័យធាតុអាកាសបច្ចុប្បន្ន។	ដូចជាការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រដ៏ធំមួយដើម្បីគណនាទិសដៅនិងល្បឿនខ្យល់ ដើម្បីទស្សន៍ទាយថាតើថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់នៅម៉ោងប៉ុន្មាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖