Original Title: Predictive Analytics in Smart Grids: Leveraging Machine Learning for Renewable Energy Sources
Source: doi.org/10.14741/ijcet/v.11.6.12
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគព្យាករណ៍នៅក្នុងបណ្តាញអគ្គិសនីឆ្លាតវៃ៖ ការប្រើប្រាស់ម៉ាស៊ីនរៀនសម្រាប់ប្រភពថាមពលកកើតឡើងវិញ

ចំណងជើងដើម៖ Predictive Analytics in Smart Grids: Leveraging Machine Learning for Renewable Energy Sources

អ្នកនិពន្ធ៖ Suhag Pandya (Independent Researcher, India)

ឆ្នាំបោះពុម្ព៖ 2021 (International Journal of Current Engineering and Technology)

វិស័យសិក្សា៖ Electrical Engineering, Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាអស្ថិរភាពនៅក្នុងបណ្តាញអគ្គិសនីដែលបណ្តាលមកពីការបញ្ចូលប្រភពថាមពលកកើតឡើងវិញ និងតម្រូវការក្នុងការទស្សន៍ទាយស្ថិរភាពបណ្តាញអគ្គិសនីឆ្លាតវៃដើម្បីជៀសវាងការដាច់ចរន្តអគ្គិសនី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យត្រាប់តាមពី Kaggle និងអនុវត្តម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) ចំនួនបី ដើម្បីវាយតម្លៃ និងទស្សន៍ទាយស្ថិរភាពបណ្តាញអគ្គិសនី។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Artificial Neural Network (ANN)
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត
ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានសមត្ថភាពល្អក្នុងការបែងចែកស្ថិរភាពបណ្តាញអគ្គិសនីឆ្លាតវៃដោយគ្មានបញ្ហា Overfitting ខ្លាំង។ ត្រូវការពេលវេលា និងថាមពលកុំព្យូទ័រក្នុងការហ្វឹកហាត់ (Training) ច្រើនជាងម៉ូដែលមែកធាង (Tree-based models)។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៨.៧% និងពិន្ទុ F1-score ៩៨.០២%។
Convolutional Neural Network (CNN)
បណ្ដាញសរសៃប្រសាទខនវ៉ុលលូសិន
មានសមត្ថភាពល្អក្នុងការចាប់យកលំនាំទិន្នន័យស្មុគស្មាញ និងជាជម្រើសល្អមួយក្នុងចំណោមបច្ចេកវិទ្យា Deep Learning។ សម្រាប់ទិន្នន័យជាទម្រង់តារាង (Tabular data) ដូចក្នុងការសិក្សានេះ វាដំណើរការមិនបានល្អ និងមិនមានប្រសិទ្ធភាពដូច ANN នោះទេ។ ទទួលបានភាពត្រឹមត្រូវកម្រិតមធ្យមត្រឹមតែ ៨៩.២២% ប៉ុណ្ណោះ។
Classification and Regression Trees (CART)
ម៉ូដែលចំណាត់ថ្នាក់ និងមែកធាងតំរែតំរង់
មានភាពសាមញ្ញ ងាយស្រួលយល់ និងមិនទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រធំដុំក្នុងការដំណើរការកូដ។ មានកម្រិតភាពត្រឹមត្រូវទាបបំផុត និងមិនសូវរឹងមាំក្នុងការចាប់យកទំនាក់ទំនងស្មុគស្មាញរវាងអថេរ (Features) នៃបណ្តាញអគ្គិសនី។ ទទួលបានភាពត្រឹមត្រូវទាបជាងគេបំផុតក្នុងកម្រិត ៨០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែការហ្វឹកហាត់ម៉ូដែល Deep Learning ទាមទារកម្លាំងម៉ាស៊ីនសមរម្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យត្រាប់តាម (Simulated dataset) សិប្បនិម្មិតពី Kaggle ដែលមានគុណភាពល្អឥតខ្ចោះ (គ្មាន Outliers ឬ Missing values)។ ដោយសារវាជាទិន្នន័យសិប្បនិម្មិត វាមិនអាចឆ្លុះបញ្ចាំងទាំងស្រុងពីភាពស្មុគស្មាញនៃប្រព័ន្ធបណ្តាញអគ្គិសនីជាក់ស្តែងនៅកម្ពុជាឡើយ ដែលជារឿយៗតែងតែជួបប្រទះការដាច់ចរន្ត ការប្រែប្រួលតង់ស្យុង និងទិន្នន័យមិនពេញលេញ។ ហេតុនេះ ការអនុវត្តជាក់ស្តែងចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យផ្ទាល់ពីស្ថានីយអគ្គិសនីក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ជាពិសេសក្នុងបរិបទដែលការវិនិយោគលើថាមពលពន្លឺព្រះអាទិត្យ (Solar Energy) កំពុងមានសន្ទុះកើនឡើង។

សរុបមក ការរួមបញ្ចូលបច្ចេកវិទ្យាវិភាគព្យាករណ៍ម៉ាស៊ីនរៀននេះ នឹងជួយកម្ពុជាធ្វើទំនើបកម្មប្រព័ន្ធអគ្គិសនី (Smart Grids) ប្រកបដោយភាពធន់ និងស្ថិរភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការទាញយក និងសម្អាតទិន្នន័យ (Data Preprocessing): ទាញយកទិន្នន័យ 'Smart Grid Stability' ពី Kaggle បន្ទាប់មកប្រើប្រាស់បណ្ណាល័យ Pandas ក្នុង Python ដើម្បីត្រួតពិនិត្យទិន្នន័យ និងគូរ Correlation matrix (Heatmap) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃអថេរនីមួយៗ។
  2. សាងសង់ម៉ូដែលម៉ាស៊ីនរៀនសាមញ្ញជាមូលដ្ឋាន (Baseline Model): ចាប់ផ្តើមសរសេរកូដបង្កើតម៉ូដែល CART (Decision Tree Classifier) ដោយប្រើប្រាស់កម្មវិធី Scikit-learn ដើម្បិស្វែងយល់ពីដំណើរការបែងចែកចំណាត់ថ្នាក់ (Classification) ជំហានដំបូង។
  3. អភិវឌ្ឍម៉ូដែល Deep Learning (ANN): សិក្សាពីការប្រើប្រាស់ TensorFlowKeras ដើម្បីបង្កើតម៉ូដែល Artificial Neural Network (ANN) ដែលមាន Input, Hidden, និង Output layers ព្រមទាំងហ្វឹកហាត់កូដចំនួន 50 Epochs ដូចក្នុងការសិក្សា។
  4. ការវាយតម្លៃសមត្ថភាពម៉ូដែល (Model Evaluation): អនុវត្តការវាស់ស្ទង់ភាពត្រឹមត្រូវនៃម៉ូដែលដោយប្រើ Confusion Matrix និងទាញយករង្វាស់ដូចជា Accuracy, Precision, Recall, និង F1-score រួចគូរក្រាហ្វិក ROC Curve ដើម្បីប្រៀបធៀបលទ្ធផល។
  5. ការអនុវត្តលើទិន្នន័យជាក់ស្តែងនៅកម្ពុជា: ព្យាយាមស្វែងរកទិន្នន័យ ឬសហការជាមួយស្ថាប័នថាមពលក្នុងស្រុក (ដូចជា EDC ឬអគ្គិសនីឯកជន) ដើម្បីសាកល្បងបញ្ចូលទិន្នន័យប្រើប្រាស់អគ្គិសនីពិតប្រាកដទៅក្នុងម៉ូដែល ដើម្បីតាមដានដំណើរការ (Real-time monitoring) និងវាយតម្លៃភាពរឹងមាំរបស់ម៉ូដែលលើទិន្នន័យដែលមាន Noise

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Predictive Analytics ការប្រើប្រាស់ទិន្នន័យប្រវត្តិសាស្ត្រ ក្បួនដោះស្រាយស្ថិតិ និងបច្ចេកទេសម៉ាស៊ីនរៀន ដើម្បីកំណត់ពីប្រូបាប៊ីលីតេនៃលទ្ធផលនាពេលអនាគត (ឧទាហរណ៍៖ ទស្សន៍ទាយថាពេលណាបណ្តាញអគ្គិសនីនឹងជួបអស្ថិរភាព ឬដាច់ភ្លើង)។ ដូចជាការព្យាករណ៍អាកាសធាតុ ដោយមើលលើរាងពពក និងទិន្នន័យអាកាសធាតុពីម្សិលមិញ ដើម្បីដឹងថាថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ឬអត់។
Smart Grid ប្រព័ន្ធបណ្តាញអគ្គិសនីទំនើបដែលប្រើប្រាស់បច្ចេកវិទ្យាព័ត៌មាន និងទូរគមនាគមន៍ ដើម្បីត្រួតពិនិត្យ គ្រប់គ្រង និងធ្វើឲ្យមានតុល្យភាពចំពោះការផលិត និងការប្រើប្រាស់អគ្គិសនីក្នុងពេលជាក់ស្តែង។ ដូចជាប្រព័ន្ធធារាសាស្រ្តឆ្លាតវៃដែលអាចបើកឬបិទទឹកដោយស្វ័យប្រវត្តិ នៅពេលដែលសេនស័រវាស់ដឹងថាដីស្ងួតឬសើមគ្រប់គ្រាន់។
Artificial Neural Network (ANN) ប្រព័ន្ធកុំព្យូទ័រ (ម៉ូដែលម៉ាស៊ីនរៀន) ដែលត្រូវបានរចនាឡើងដោយយកគំរូតាមបណ្តាញសរសៃប្រសាទនៅក្នុងខួរក្បាលមនុស្ស ដែលមានស្រទាប់បញ្ជូនព័ត៌មាន (Input, Hidden, Output Layers) ទៅវិញទៅមកដើម្បីរៀនពីទិន្នន័យ និងធ្វើការសម្រេចចិត្ត។ ដូចជាខួរក្បាលរបស់កូនក្មេងដែលរៀនស្គាល់សត្វឆ្មាដោយឃើញរូបភាពឆ្មាច្រើនដង រហូតដល់អាចចំណាំវាបានដោយខ្លួនឯងនៅថ្ងៃក្រោយ។
Confusion Matrix តារាងម៉ាទ្រីសដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ដោយបង្ហាញយ៉ាងលម្អិតពីចំនួនដែលម៉ូដែលទាយត្រូវ និងទាយខុស (ដូចជា True Positive, False Positive ជាដើម)។ ដូចជាតារាងពិន្ទុដែលកត់ត្រាថា សិស្សម្នាក់ឆ្លើយត្រូវប៉ុន្មានសំណួរ និងលួចទាយខុសប៉ុន្មានសំណួរក្នុងការប្រឡង។
Epochs ចំនួនជុំកំឡុងពេលហ្វឹកហាត់ ដែលកុំព្យូទ័រ (ម៉ូដែលម៉ាស៊ីនរៀន) បានអាន និងរៀនសូត្រលើសំណុំទិន្នន័យទាំងមូលតាំងពីដើមដល់ចប់ម្តង។ ការសិក្សានេះប្រើ 50 Epochs។ ដូចជាការអានសៀវភៅមេរៀនមួយក្បាលចប់មួយដង (១ Epoch) បើអានច្រើនដង នោះសិស្សនឹងកាន់តែចងចាំច្បាស់។
Overfitting បញ្ហានៅពេលដែលម៉ូដែលម៉ាស៊ីនរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក (សូម្បីតែចំណុចខុសឆ្គង ឬ Noise) ដែលធ្វើឲ្យវាមិនអាចដំណើរការបានល្អនៅពេលយកទៅអនុវត្តលើទិន្នន័យថ្មី។ ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗប្រចាំឆ្នាំទាំងអស់ ប៉ុន្តែប្រឡងធ្លាក់ពេលគ្រូចេញលំហាត់ថ្មីដែលខុសពីមុនបន្តិចបន្តួច។
F1-score រង្វាស់នៃការវាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល ដោយវាជាមធ្យមភាគម៉ូនិក (Harmonic Mean) រវាង Precision និង Recall ដើម្បីផ្តល់នូវពិន្ទុរួមមួយដែលថ្លឹងថ្លែងកុំឲ្យមានកំហុសលម្អៀង។ ដូចជារង្វាស់ដែលវាយតម្លៃថា អ្នកនេសាទម្នាក់មិនត្រឹមតែចាប់បានត្រីគោលដៅច្រើនប៉ុណ្ណោះទេ ថែមទាំងមិនសូវជាប់សំរាមឬត្រីខុសប្រភេទមកជាមួយសំណាញ់ទៀតផង។
ROC curve ខ្សែខ្សែកោងក្រាហ្វិកដែលបង្ហាញពីដំណើរការនៃម៉ូដែលចំណាត់ថ្នាក់នៅគ្រប់កម្រិត (Thresholds) ដោយឆ្លុះបញ្ចាំងពីទំនាក់ទំនងរវាងអត្រានៃការទាយត្រូវ (True Positive Rate) និងអត្រានៃការទាយខុស (False Positive Rate)។ ដូចជាឧបករណ៍ថ្លឹងថ្លែងចំពោះសន្តិសុខយាមផ្ទះ រវាងការប្រុងប្រយ័ត្នពេក (លឺសំឡេងខ្យល់ក៍ស្មានថាចោរ) និងការធ្វេសប្រហែសពេក (ចោរចូលពិតមែនតែស្តាប់មិនលឺ)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖