Original Title: Predictive Analytics in Smart Grids: Leveraging Machine Learning for Renewable Energy Sources
Source: doi.org/10.14741/ijcet/v.11.6.12
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគព្យាករណ៍នៅក្នុងបណ្តាញអគ្គិសនីឆ្លាតវៃ៖ ការប្រើប្រាស់ម៉ាស៊ីនរៀនសម្រាប់ប្រភពថាមពលកកើតឡើងវិញ

ចំណងជើងដើម៖ Predictive Analytics in Smart Grids: Leveraging Machine Learning for Renewable Energy Sources

អ្នកនិពន្ធ៖ Suhag Pandya (Independent Researcher, India)

ឆ្នាំបោះពុម្ព៖ 2021 (International Journal of Current Engineering and Technology)

វិស័យសិក្សា៖ Electrical Engineering, Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាអស្ថិរភាពនៅក្នុងបណ្តាញអគ្គិសនីដែលបណ្តាលមកពីការបញ្ចូលប្រភពថាមពលកកើតឡើងវិញ និងតម្រូវការក្នុងការទស្សន៍ទាយស្ថិរភាពបណ្តាញអគ្គិសនីឆ្លាតវៃដើម្បីជៀសវាងការដាច់ចរន្តអគ្គិសនី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យត្រាប់តាមពី Kaggle និងអនុវត្តម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) ចំនួនបី ដើម្បីវាយតម្លៃ និងទស្សន៍ទាយស្ថិរភាពបណ្តាញអគ្គិសនី។

ការប្រមូល និងរៀបចំទិន្នន័យត្រាប់តាមចំនួន ៦០,០០០ ជួរ និង ១៤ លក្ខណៈពី Kaggle (Data Preprocessing)
ការអនុវត្តម៉ូដែល Artificial Neural Networks (ANN)
ការប្រៀបធៀបជាមួយម៉ូដែល Convolutional Neural Network (CNN) និង Classification and Regression Trees (CART)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល ANN ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៩៨.៧% និង F1-score ៩៨.០២% ក្នុងការទស្សន៍ទាយស្ថិរភាពនៃបណ្តាញ។
ម៉ូដែល CNN ទទួលបានភាពត្រឹមត្រូវ ៨៩.២២% ចំណែកឯម៉ូដែល CART ទទួលបានត្រឹមតែ ៨០% ប៉ុណ្ណោះ។
ការស្រាវជ្រាវនេះបញ្ជាក់ថា វិធីសាស្ត្រ Deep Learning ដូចជា ANN មានប្រសិទ្ធភាពខ្ពស់ក្នុងការធានាភាពជឿជាក់នៃបណ្តាញអគ្គិសនីឆ្លាតវៃដែលប្រើប្រាស់ថាមពលកកើតឡើងវិញ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Artificial Neural Network (ANN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានសមត្ថភាពល្អក្នុងការបែងចែកស្ថិរភាពបណ្តាញអគ្គិសនីឆ្លាតវៃដោយគ្មានបញ្ហា Overfitting ខ្លាំង។	ត្រូវការពេលវេលា និងថាមពលកុំព្យូទ័រក្នុងការហ្វឹកហាត់ (Training) ច្រើនជាងម៉ូដែលមែកធាង (Tree-based models)។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៨.៧% និងពិន្ទុ F1-score ៩៨.០២%។
Convolutional Neural Network (CNN) បណ្ដាញសរសៃប្រសាទខនវ៉ុលលូសិន	មានសមត្ថភាពល្អក្នុងការចាប់យកលំនាំទិន្នន័យស្មុគស្មាញ និងជាជម្រើសល្អមួយក្នុងចំណោមបច្ចេកវិទ្យា Deep Learning។	សម្រាប់ទិន្នន័យជាទម្រង់តារាង (Tabular data) ដូចក្នុងការសិក្សានេះ វាដំណើរការមិនបានល្អ និងមិនមានប្រសិទ្ធភាពដូច ANN នោះទេ។	ទទួលបានភាពត្រឹមត្រូវកម្រិតមធ្យមត្រឹមតែ ៨៩.២២% ប៉ុណ្ណោះ។
Classification and Regression Trees (CART) ម៉ូដែលចំណាត់ថ្នាក់ និងមែកធាងតំរែតំរង់	មានភាពសាមញ្ញ ងាយស្រួលយល់ និងមិនទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រធំដុំក្នុងការដំណើរការកូដ។	មានកម្រិតភាពត្រឹមត្រូវទាបបំផុត និងមិនសូវរឹងមាំក្នុងការចាប់យកទំនាក់ទំនងស្មុគស្មាញរវាងអថេរ (Features) នៃបណ្តាញអគ្គិសនី។	ទទួលបានភាពត្រឹមត្រូវទាបជាងគេបំផុតក្នុងកម្រិត ៨០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែការហ្វឹកហាត់ម៉ូដែល Deep Learning ទាមទារកម្លាំងម៉ាស៊ីនសមរម្យ។

Dataset: ទិន្នន័យត្រាប់តាម (Simulated dataset) ឥតគិតថ្លៃពីវេទិកា Kaggle ដែលមាន ៦០,០០០ ជួរ និងគ្មានទិន្នន័យបាត់បង់ (Missing values)។
Hardware: ត្រូវការកុំព្យូទ័រដែលមានអង្គគណនា (CPU/GPU) ល្មមអាចដំណើរការហ្វឹកហាត់ម៉ូដែល Neural Networks ចំនួន ៥០ ជុំ (50 Epochs) បាន។
Software: តម្រូវឱ្យមានការប្រើប្រាស់ភាសាសរសេរកូដ (ដូចជា Python) និងបណ្ណាល័យ Machine Learning (ដូចជា TensorFlow, Keras ឬ Scikit-learn)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យត្រាប់តាម (Simulated dataset) សិប្បនិម្មិតពី Kaggle ដែលមានគុណភាពល្អឥតខ្ចោះ (គ្មាន Outliers ឬ Missing values)។ ដោយសារវាជាទិន្នន័យសិប្បនិម្មិត វាមិនអាចឆ្លុះបញ្ចាំងទាំងស្រុងពីភាពស្មុគស្មាញនៃប្រព័ន្ធបណ្តាញអគ្គិសនីជាក់ស្តែងនៅកម្ពុជាឡើយ ដែលជារឿយៗតែងតែជួបប្រទះការដាច់ចរន្ត ការប្រែប្រួលតង់ស្យុង និងទិន្នន័យមិនពេញលេញ។ ហេតុនេះ ការអនុវត្តជាក់ស្តែងចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យផ្ទាល់ពីស្ថានីយអគ្គិសនីក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ជាពិសេសក្នុងបរិបទដែលការវិនិយោគលើថាមពលពន្លឺព្រះអាទិត្យ (Solar Energy) កំពុងមានសន្ទុះកើនឡើង។

អគ្គិសនីកម្ពុជា (Electricite du Cambodge - EDC): អាចប្រើប្រាស់ម៉ូដែល ANN ដើម្បីទស្សន៍ទាយស្ថិរភាពបណ្តាញអគ្គិសនីជាតិ ពេលបញ្ចូលថាមពលពីស្ថានីយសូឡាខ្នាតធំ (ឧទាហរណ៍នៅខេត្តកំពង់ស្ពឺ ឬពោធិ៍សាត់) ដើម្បីជៀសវាងអស្ថិរភាពតង់ស្យុង។
ប្រព័ន្ធអគ្គិសនីខ្នាតតូចតាមសហគមន៍ (Microgrids in Rural Areas): អាចអនុវត្តសម្រាប់ប្រព័ន្ធអគ្គិសនីខ្នាតតូចនៅតាមតំបន់ជនបទដាច់ស្រយាលដែលពឹងផ្អែកលើថាមពលកកើតឡើងវិញ ដើម្បីធានាការផ្គត់ផ្គង់ប្រកបដោយស្ថិរភាពជាប្រចាំថ្ងៃ។
តំបន់សេដ្ឋកិច្ចពិសេស (Special Economic Zones - SEZ): តំបន់សេដ្ឋកិច្ចពិសេស (ដូចជាតំបន់សេដ្ឋកិច្ចពិសេសភ្នំពេញ) អាចប្រើបច្ចេកវិទ្យានេះដើម្បីគ្រប់គ្រងបន្ទុកអគ្គិសនីរវាងបណ្តាញរដ្ឋ និងការប្រើប្រាស់បន្ទះសូឡានៅលើដំបូលរោងចក្រក្នុងពេលមានតម្រូវការខ្ពស់ (Peak Demand)។

សរុបមក ការរួមបញ្ចូលបច្ចេកវិទ្យាវិភាគព្យាករណ៍ម៉ាស៊ីនរៀននេះ នឹងជួយកម្ពុជាធ្វើទំនើបកម្មប្រព័ន្ធអគ្គិសនី (Smart Grids) ប្រកបដោយភាពធន់ និងស្ថិរភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការទាញយក និងសម្អាតទិន្នន័យ (Data Preprocessing): ទាញយកទិន្នន័យ 'Smart Grid Stability' ពី Kaggle បន្ទាប់មកប្រើប្រាស់បណ្ណាល័យ Pandas ក្នុង Python ដើម្បីត្រួតពិនិត្យទិន្នន័យ និងគូរ Correlation matrix (Heatmap) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃអថេរនីមួយៗ។
សាងសង់ម៉ូដែលម៉ាស៊ីនរៀនសាមញ្ញជាមូលដ្ឋាន (Baseline Model): ចាប់ផ្តើមសរសេរកូដបង្កើតម៉ូដែល CART (Decision Tree Classifier) ដោយប្រើប្រាស់កម្មវិធី Scikit-learn ដើម្បិស្វែងយល់ពីដំណើរការបែងចែកចំណាត់ថ្នាក់ (Classification) ជំហានដំបូង។
អភិវឌ្ឍម៉ូដែល Deep Learning (ANN): សិក្សាពីការប្រើប្រាស់ TensorFlow ឬ Keras ដើម្បីបង្កើតម៉ូដែល Artificial Neural Network (ANN) ដែលមាន Input, Hidden, និង Output layers ព្រមទាំងហ្វឹកហាត់កូដចំនួន 50 Epochs ដូចក្នុងការសិក្សា។
ការវាយតម្លៃសមត្ថភាពម៉ូដែល (Model Evaluation): អនុវត្តការវាស់ស្ទង់ភាពត្រឹមត្រូវនៃម៉ូដែលដោយប្រើ Confusion Matrix និងទាញយករង្វាស់ដូចជា Accuracy, Precision, Recall, និង F1-score រួចគូរក្រាហ្វិក ROC Curve ដើម្បីប្រៀបធៀបលទ្ធផល។
ការអនុវត្តលើទិន្នន័យជាក់ស្តែងនៅកម្ពុជា: ព្យាយាមស្វែងរកទិន្នន័យ ឬសហការជាមួយស្ថាប័នថាមពលក្នុងស្រុក (ដូចជា EDC ឬអគ្គិសនីឯកជន) ដើម្បីសាកល្បងបញ្ចូលទិន្នន័យប្រើប្រាស់អគ្គិសនីពិតប្រាកដទៅក្នុងម៉ូដែល ដើម្បីតាមដានដំណើរការ (Real-time monitoring) និងវាយតម្លៃភាពរឹងមាំរបស់ម៉ូដែលលើទិន្នន័យដែលមាន Noise។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Predictive Analytics	ការប្រើប្រាស់ទិន្នន័យប្រវត្តិសាស្ត្រ ក្បួនដោះស្រាយស្ថិតិ និងបច្ចេកទេសម៉ាស៊ីនរៀន ដើម្បីកំណត់ពីប្រូបាប៊ីលីតេនៃលទ្ធផលនាពេលអនាគត (ឧទាហរណ៍៖ ទស្សន៍ទាយថាពេលណាបណ្តាញអគ្គិសនីនឹងជួបអស្ថិរភាព ឬដាច់ភ្លើង)។	ដូចជាការព្យាករណ៍អាកាសធាតុ ដោយមើលលើរាងពពក និងទិន្នន័យអាកាសធាតុពីម្សិលមិញ ដើម្បីដឹងថាថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ឬអត់។
Smart Grid	ប្រព័ន្ធបណ្តាញអគ្គិសនីទំនើបដែលប្រើប្រាស់បច្ចេកវិទ្យាព័ត៌មាន និងទូរគមនាគមន៍ ដើម្បីត្រួតពិនិត្យ គ្រប់គ្រង និងធ្វើឲ្យមានតុល្យភាពចំពោះការផលិត និងការប្រើប្រាស់អគ្គិសនីក្នុងពេលជាក់ស្តែង។	ដូចជាប្រព័ន្ធធារាសាស្រ្តឆ្លាតវៃដែលអាចបើកឬបិទទឹកដោយស្វ័យប្រវត្តិ នៅពេលដែលសេនស័រវាស់ដឹងថាដីស្ងួតឬសើមគ្រប់គ្រាន់។
Artificial Neural Network (ANN)	ប្រព័ន្ធកុំព្យូទ័រ (ម៉ូដែលម៉ាស៊ីនរៀន) ដែលត្រូវបានរចនាឡើងដោយយកគំរូតាមបណ្តាញសរសៃប្រសាទនៅក្នុងខួរក្បាលមនុស្ស ដែលមានស្រទាប់បញ្ជូនព័ត៌មាន (Input, Hidden, Output Layers) ទៅវិញទៅមកដើម្បីរៀនពីទិន្នន័យ និងធ្វើការសម្រេចចិត្ត។	ដូចជាខួរក្បាលរបស់កូនក្មេងដែលរៀនស្គាល់សត្វឆ្មាដោយឃើញរូបភាពឆ្មាច្រើនដង រហូតដល់អាចចំណាំវាបានដោយខ្លួនឯងនៅថ្ងៃក្រោយ។
Confusion Matrix	តារាងម៉ាទ្រីសដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ដោយបង្ហាញយ៉ាងលម្អិតពីចំនួនដែលម៉ូដែលទាយត្រូវ និងទាយខុស (ដូចជា True Positive, False Positive ជាដើម)។	ដូចជាតារាងពិន្ទុដែលកត់ត្រាថា សិស្សម្នាក់ឆ្លើយត្រូវប៉ុន្មានសំណួរ និងលួចទាយខុសប៉ុន្មានសំណួរក្នុងការប្រឡង។
Epochs	ចំនួនជុំកំឡុងពេលហ្វឹកហាត់ ដែលកុំព្យូទ័រ (ម៉ូដែលម៉ាស៊ីនរៀន) បានអាន និងរៀនសូត្រលើសំណុំទិន្នន័យទាំងមូលតាំងពីដើមដល់ចប់ម្តង។ ការសិក្សានេះប្រើ 50 Epochs។	ដូចជាការអានសៀវភៅមេរៀនមួយក្បាលចប់មួយដង (១ Epoch) បើអានច្រើនដង នោះសិស្សនឹងកាន់តែចងចាំច្បាស់។
Overfitting	បញ្ហានៅពេលដែលម៉ូដែលម៉ាស៊ីនរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក (សូម្បីតែចំណុចខុសឆ្គង ឬ Noise) ដែលធ្វើឲ្យវាមិនអាចដំណើរការបានល្អនៅពេលយកទៅអនុវត្តលើទិន្នន័យថ្មី។	ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗប្រចាំឆ្នាំទាំងអស់ ប៉ុន្តែប្រឡងធ្លាក់ពេលគ្រូចេញលំហាត់ថ្មីដែលខុសពីមុនបន្តិចបន្តួច។
F1-score	រង្វាស់នៃការវាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល ដោយវាជាមធ្យមភាគម៉ូនិក (Harmonic Mean) រវាង Precision និង Recall ដើម្បីផ្តល់នូវពិន្ទុរួមមួយដែលថ្លឹងថ្លែងកុំឲ្យមានកំហុសលម្អៀង។	ដូចជារង្វាស់ដែលវាយតម្លៃថា អ្នកនេសាទម្នាក់មិនត្រឹមតែចាប់បានត្រីគោលដៅច្រើនប៉ុណ្ណោះទេ ថែមទាំងមិនសូវជាប់សំរាមឬត្រីខុសប្រភេទមកជាមួយសំណាញ់ទៀតផង។
ROC curve	ខ្សែខ្សែកោងក្រាហ្វិកដែលបង្ហាញពីដំណើរការនៃម៉ូដែលចំណាត់ថ្នាក់នៅគ្រប់កម្រិត (Thresholds) ដោយឆ្លុះបញ្ចាំងពីទំនាក់ទំនងរវាងអត្រានៃការទាយត្រូវ (True Positive Rate) និងអត្រានៃការទាយខុស (False Positive Rate)។	ដូចជាឧបករណ៍ថ្លឹងថ្លែងចំពោះសន្តិសុខយាមផ្ទះ រវាងការប្រុងប្រយ័ត្នពេក (លឺសំឡេងខ្យល់ក៍ស្មានថាចោរ) និងការធ្វេសប្រហែសពេក (ចោរចូលពិតមែនតែស្តាប់មិនលឺ)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖