Original Title: Applications of Supervised and Unsupervised Machine Learning Models in Energy Systems
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តម៉ូដែលរៀនដោយម៉ាស៊ីនប្រភេទមានការត្រួតពិនិត្យ និងគ្មានការត្រួតពិនិត្យនៅក្នុងប្រព័ន្ធថាមពល

ចំណងជើងដើម៖ Applications of Supervised and Unsupervised Machine Learning Models in Energy Systems

អ្នកនិពន្ធ៖ Amirali Saifoddin (University of Tehran), Negin Mirzaei (University of Tehran), Mohammadali Allahrabbi Shirazi (University of Tehran), Hossein Yousefi (University of Tehran)

ឆ្នាំបោះពុម្ព៖ 2025, Journal of Energy Management and Technology (JEMT)

វិស័យសិក្សា៖ Energy Systems and Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធថាមពលទំនើបកំពុងប្រឈមនឹងភាពស្មុគស្មាញកើនឡើង ដោយសារការរួមបញ្ចូលប្រភពថាមពលកកើតឡើងវិញ និងការផ្លាស់ប្តូរទម្រង់នៃការប្រើប្រាស់ថាមពល ដែលបង្ហាញពីដែនកំណត់នៃម៉ូដែលរូបវិទ្យាប្រពៃណី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររំលឹកអក្សរសិល្ប៍ (Literature Review) ដោយបានវិភាគលើអត្ថបទស្រាវជ្រាវចំនួន ៥៥ ដើម្បីប្រៀបធៀបប្រសិទ្ធភាព និងកម្មវិធីរវាងម៉ូដែលរៀនដោយម៉ាស៊ីន។

ការរៀនដោយម៉ាស៊ីនមានការត្រួតពិនិត្យ (Supervised Learning) ដូចជាម៉ូដែល Regression និង LSTM សម្រាប់ការទស្សន៍ទាយ
ការរៀនដោយម៉ាស៊ីនគ្មានការត្រួតពិនិត្យ (Unsupervised Learning) ដូចជា K-means និង Isolation Forest សម្រាប់ការរកភាពមិនប្រក្រតី
ការវាយតម្លៃលើក្របខ័ណ្ឌការងារ (Framework evaluation) ដោយផ្តោតលើប្រភេទកិច្ចការ ទិន្នន័យ និងភាពងាយស្រួលក្នុងការបកស្រាយ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលទស្សន៍ទាយមានការត្រួតពិនិត្យ (Supervised models) អាចសម្រេចបានកម្រិតកំហុស (MAPE) តិចជាង 10% សម្រាប់ការទស្សន៍ទាយបន្ទុក និងភាពត្រឹមត្រូវលើសពី 90% ក្នុងការរកកំហុសឆ្គង។
ម៉ូដែលគ្មានការត្រួតពិនិត្យ (Unsupervised models) មានប្រសិទ្ធភាពខ្ពស់ក្នុងការស្វែងរកទម្រង់លាក់កំបាំង ការធ្វើចំណាត់ថ្នាក់អតិថិជន និងការរកភាពមិនប្រក្រតីដោយមិនត្រូវការទិន្នន័យមានស្លាក (Labeled data)។
ការរួមបញ្ចូលវិធីសាស្ត្រទាំងពីរទៅជាប្រព័ន្ធកូនកាត់ (Hybrid/Semi-supervised frameworks) គឺជាទិសដៅអនាគតដ៏ល្អបំផុតដើម្បីបង្កើនភាពធន់ និងប្រសិទ្ធភាពនៃប្រព័ន្ធគ្រប់គ្រងថាមពល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Supervised Learning ការរៀនដោយម៉ាស៊ីនមានការត្រួតពិនិត្យ (ឧ. Regression, LSTM, SVM)	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយ និងមានសមត្ថភាពក្នុងការវាយតម្លៃកម្រិតកំហុសបានយ៉ាងច្បាស់លាស់ (Quantitative error evaluation)។	ទាមទារទិន្នន័យដែលមានគុណភាពខ្ពស់និងមានស្លាក (Labeled data) ព្រមទាំងងាយរងផលប៉ះពាល់ដោយសារទិន្នន័យបាត់បង់ ឬរំខាន (Noisy data)។	សម្រេចបានកម្រិតកំហុស (MAPE) តិចជាង 10% សម្រាប់ការទស្សន៍ទាយបន្ទុកអគ្គិសនី និងភាពត្រឹមត្រូវលើសពី 90% ក្នុងការរកកំហុសឆ្គងឧបករណ៍។
Unsupervised Learning ការរៀនដោយម៉ាស៊ីនគ្មានការត្រួតពិនិត្យ (ឧ. K-means, PCA, Isolation Forest)	មិនតម្រូវឱ្យមានទិន្នន័យមានស្លាក (Labeled data) និងមានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកទម្រង់លាក់កំបាំង ឬរកភាពមិនប្រក្រតីនៅក្នុងប្រព័ន្ធ។	លទ្ធផលមានការលំបាកក្នុងការបកស្រាយ ទាមទារការគណនាច្រើនដង (Iterative computations) និងពឹងផ្អែកខ្លាំងលើរង្វាស់នៃភាពស្រដៀងគ្នា។	PCA អាចកាត់បន្ថយវិមាត្រទិន្នន័យបាន 70% ដោយរក្សាបាន 95% នៃភាពប្រែប្រួលដើម ហើយ GMM រកឃើញកំហុសឆ្គងអគ្គិសនីបានដល់ទៅ 89%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តម៉ូដែលទាំងនេះទាមទារហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យច្បាស់លាស់ និងធនធានកុំព្យូទ័រអាស្រ័យលើប្រភេទនៃម៉ូដែល។

Hardware: ត្រូវការម៉ាស៊ីនកុំព្យូទ័រមានសមត្ថភាពគណនាខ្ពស់ (ឧ. GPUs) សម្រាប់ដំណើរការក្បួនដោះស្រាយ Unsupervised ដែលទាមទារការគណនាច្រើនដង (Iterative) ឬម៉ូដែល Deep Learning ស្មុគស្មាញ។
Dataset: ទាមទារទិន្នន័យទំហំធំ និងមានគុណភាពខ្ពស់ពី Smart Meters, ឧបករណ៍ IoT និងប្រព័ន្ធ SCADA ហើយត្រូវមានទិន្នន័យដែលមានស្លាក (Labeled data) ជាចាំបាច់សម្រាប់ Supervised Learning។
Expertise: ត្រូវការអ្នកជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Scientists) និងអ្នកជំនាញក្នុងវិស័យថាមពល (Domain Experts) ដើម្បីធ្វើការសម្អាតទិន្នន័យ (Preprocessing) និងបកស្រាយលទ្ធផល ជាពិសេសសម្រាប់ម៉ូដែល Unsupervised។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការរំលឹកអក្សរសិល្ប៍ (Literature Review) ដែលពឹងផ្អែកលើទិន្នន័យពីប្រព័ន្ធអគ្គិសនីទំនើប (Smart grids, SCADA) ភាគច្រើននៅក្នុងប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតឧបករណ៍វាស់ស្ទង់ឆ្លាតវៃ (Smart meters) និងទិន្នន័យប្រវត្តិសាស្ត្រដែលពេញលេញនៅតាមបណ្តាខេត្តមួយចំនួន អាចជាឧបសគ្គចម្បងក្នុងការទទួលបានប្រសិទ្ធភាពខ្ពស់ដូចនៅក្នុងការសិក្សានេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមលើគុណភាពទិន្នន័យក៏ដោយ វិធីសាស្ត្រទាំងនេះមានសក្តានុពលខ្ពស់ក្នុងការជួយទំនើបកម្មវិស័យថាមពលនៅកម្ពុជា។

អគ្គិសនីកម្ពុជា (EDC) - ការទស្សន៍ទាយបន្ទុកអគ្គិសនី: អាចប្រើប្រាស់ម៉ូដែល Supervised Learning (ឧ. LSTM) ដើម្បីទាយទុកជាមុននូវតម្រូវការប្រើប្រាស់អគ្គិសនីនៅរាជធានីភ្នំពេញក្នុងរដូវក្តៅ ដែលជួយដល់ការត្រៀមបម្រុងថាមពល និងកាត់បន្ថយការដាច់ភ្លើង។
កសិដ្ឋានថាមពលព្រះអាទិត្យ (Solar Farms នៅខេត្តកំពង់ស្ពឺ និងពោធិ៍សាត់): អាចប្រើប្រាស់ Hybrid Models ដើម្បីទស្សន៍ទាយទិន្នផលថាមពលដែលប្រែប្រួលតាមអាកាសធាតុ (ពពក ឬភ្លៀង) ព្រមទាំងប្រើ Unsupervised Learning ដើម្បីតាមដានសុខភាពផ្ទាំងសូឡា។
ការទប់ស្កាត់ការលួចភ្លើង និងកំហុសប្រព័ន្ធ (Electricity Theft/Fault Detection): តាមរយៈម៉ូដែល Unsupervised (ឧ. Isolation Forest) អាជ្ញាធរអាចវិភាគទិន្នន័យប្រើប្រាស់ប្រចាំថ្ងៃ ដើម្បីកំណត់ភាពមិនប្រក្រតីដែលអាចជាការលួចតភ្ជាប់បណ្តាញអគ្គិសនីខុសច្បាប់ ឬការលេចធ្លាយថាមពល។

ការចាប់ផ្តើមប្រមូលទិន្នន័យឱ្យបានជាប្រព័ន្ធ និងការដាក់ឱ្យដំណើរការម៉ូដែល AI កូនកាត់ នឹងជួយស្ថាប័នថាមពលកម្ពុជាក្នុងការសន្សំសំចៃចំណាយប្រតិបត្តិការ និងធានាបាននូវស្ថិរភាពបណ្តាញអគ្គិសនីជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

កសាងមូលដ្ឋានគ្រឹះចំណេះដឹងទិន្នន័យ: និស្សិតត្រូវចាប់ផ្តើមរៀនភាសាកម្មវិធី Python និងបណ្ណាល័យមូលដ្ឋានដូចជា Pandas និង Scikit-Learn ដើម្បីស្វែងយល់ពីរបៀបរៀបចំទិន្នន័យ និងដំណើរការក្បួនដោះស្រាយ Machine Learning ទាំងពីរប្រភេទ។
ប្រមូល និងសម្អាតទិន្នន័យថាមពល: ស្វែងរកប្រភពទិន្នន័យបើកចំហ (Open datasets) ឬធ្វើការសហការជាមួយអគ្គិសនីកម្ពុជា (EDC) ដើម្បីប្រមូលទិន្នន័យប្រើប្រាស់អគ្គិសនី រួចប្រើប្រាស់បច្ចេកទេស Preprocessing ដើម្បីដោះស្រាយទិន្នន័យដែលបាត់បង់ (Missing values) ឬមានសំឡេងរំខាន (Noise)។
អនុវត្តម៉ូដែល Supervised សម្រាប់ការទស្សន៍ទាយ: សាកល្បងអភិវឌ្ឍម៉ូដែល Regression ឬ Long Short-Term Memory (LSTM) តាមរយៈបណ្ណាល័យ TensorFlow ឬ Keras ដើម្បីទស្សន៍ទាយតម្រូវការប្រើប្រាស់អគ្គិសនីប្រចាំថ្ងៃ ដោយផ្អែកលើទិន្នន័យប្រវត្តិសាស្ត្រអាកាសធាតុ និងការប្រើប្រាស់។
ប្រើប្រាស់ម៉ូដែល Unsupervised ដើម្បីរកភាពមិនប្រក្រតី: អនុវត្តក្បួនដោះស្រាយ Isolation Forest ឬ K-Means clustering លើទិន្នន័យដែលគ្មានស្លាក ដើម្បីវិភាគទម្រង់នៃការប្រើប្រាស់ និងកំណត់រកភាពមិនប្រក្រតី (Anomaly detection) ដែលអាចបញ្ជាក់ពីកំហុសបច្ចេកទេស ឬការលួចអគ្គិសនី។
អភិវឌ្ឍប្រព័ន្ធកូនកាត់ (Hybrid System): រួមបញ្ចូលម៉ូដែលទាំងពីរទៅជាប្រព័ន្ធពាក់កណ្តាលមានការត្រួតពិនិត្យ (Semi-supervised) និងធ្វើការពិភាក្សាសហការជាមួយអ្នកជំនាញផ្នែកថាមពល (Domain experts) ដើម្បីផ្ទៀងផ្ទាត់លទ្ធផល និងធានាថាវាស្របតាមតម្រូវការប្រតិបត្តិការជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Supervised Learning	ជាប្រភេទក្បួនដោះស្រាយបញ្ញាសិប្បនិម្មិតដែលរៀនពីទិន្នន័យដែលមានស្លាក (Labeled data មានន័យថាវាដឹងពីចម្លើយរួចជាស្រេច) ដើម្បីស្វែងរកទំនាក់ទំនងរវាងទិន្នន័យបញ្ចូល និងលទ្ធផលបញ្ចេញ សម្រាប់ទស្សន៍ទាយអនាគត។	ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វ ដោយបង្ហាញរូបភាពសត្វព្រមទាំងប្រាប់ឈ្មោះវាច្បាស់ៗរហូតដល់គេចំណាំបាន។
Unsupervised Learning	ជាការបង្វឹកម៉ូដែលកុំព្យូទ័រដោយប្រើទិន្នន័យដែលគ្មានស្លាក (Unlabeled data មិនមានការប្រាប់ចម្លើយជាមុន) ដើម្បីឱ្យវាស្វែងរកទម្រង់លាក់កំបាំង ចាត់ថ្នាក់ទិន្នន័យ ឬស្វែងរកភាពមិនប្រក្រតីដោយស្វ័យប្រវត្តិ។	ដូចជាការឱ្យក្មេងម្នាក់រៀបចំប្រដាប់ក្មេងលេងរាប់រយទៅតាមពណ៌ ឬរូបរាងដោយខ្លួនឯង ដោយមិនប្រាប់ថាវាជាអ្វីឱ្យប្រាកដ។
Concept Drift	គឺជាបាតុភូតនៅក្នុងបរិស្ថានប្រែប្រួល ដែលទំនាក់ទំនងរវាងទិន្នន័យបញ្ចូល និងលទ្ធផលបញ្ចេញបានផ្លាស់ប្តូរតាមពេលវេលា (ឧ. អាកប្បកិរិយាប្រើប្រាស់ភ្លើងប្រែប្រួល) ដែលធ្វើឱ្យម៉ូដែល AI ចាស់ធ្លាក់ចុះភាពត្រឹមត្រូវ។	ដូចជាការដែលយើងធ្លាប់ទាយត្រូវពីចំណូលចិត្តម្ហូបរបស់មិត្តភក្តិ ក៏ប៉ុន្តែយូរៗទៅចំណូលចិត្តរបស់គេបានផ្លាស់ប្តូរ ធ្វើឱ្យយើងទាយខុស។
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដ៏ស្មុគស្មាញមួយ ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលបានយូរ ត្រូវបានគេប្រើប្រាស់យ៉ាងមានប្រសិទ្ធភាពសម្រាប់ទស្សន៍ទាយទិន្នន័យដែលប្រែប្រួលតាមពេលវេលាដូចជាបន្ទុកអគ្គិសនី ឬអាកាសធាតុ។	ដូចជាអ្នកវិភាគម្នាក់ដែលមានសៀវភៅកំណត់ហេតុដែលអាចជួយគេចងចាំព្រឹត្តិការណ៍សំខាន់ៗកាលពីអតីតកាល ដើម្បីធ្វើការទាយព្រឹត្តិការណ៍នៅថ្ងៃស្អែកបានយ៉ាងត្រឹមត្រូវ។
Isolation Forest	ជាក្បួនដោះស្រាយ Unsupervised Learning ដែលមានតួនាទីក្នុងការស្វែងរកភាពមិនប្រក្រតី (Anomaly Detection) ដោយធ្វើការបំបែក (Isolate) ទិន្នន័យដែលខុសគេចេញពីទិន្នន័យធម្មតា ដើម្បីកំណត់រកកំហុសឆ្គងប្រព័ន្ធ ឬការវាយប្រហារតាមអ៊ីនធឺណិត។	ដូចជាការរកមើលផ្លែប៉ោមពណ៌ស ក្នុងចំណោមផ្លែប៉ោមពណ៌ក្រហមមួយកន្ត្រកធំ ដោយគ្រាន់តែបំបែកពណ៌ដែលខុសគេចេញភ្លាមៗ។
Principal Component Analysis (PCA)	ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់កាត់បន្ថយវិមាត្រ ឬចំនួនអថេរនៃទិន្នន័យដ៏ស្មុគស្មាញ (Dimensionality reduction) ដោយរក្សាទុកតែព័ត៌មានសំខាន់ៗបំផុត ដើម្បីងាយស្រួលក្នុងការវិភាគ កាត់បន្ថយទំហំផ្ទុក និងបង្កើនល្បឿនដំណើរការ។	ដូចជាការសង្ខេបសៀវភៅមួយក្បាលក្រាស់ ឱ្យមកត្រឹមតែ១ទំព័រ ដោយនៅតែរក្សាបាននូវអត្ថន័យសំខាន់ៗដើមទាំងស្រុង។
Support Vector Machines (SVM)	ជាក្បួនដោះស្រាយ Supervised Learning សម្រាប់ធ្វើចំណាត់ថ្នាក់ (Classification) ដែលដំណើរការដោយការស្វែងរកបន្ទាត់ ឬព្រំដែន (Hyperplane) ដ៏ល្អបំផុត ដើម្បីបែងចែកក្រុមទិន្នន័យខុសៗគ្នា (ឧ. បែងចែកទិន្នន័យដំណើរការប្រក្រតី និងទិន្នន័យមានកំហុស) ឱ្យនៅដាច់ពីគ្នា។	ដូចជាការគូសបន្ទាត់មួយនៅលើដី ដើម្បីបែងចែកក្រុមសិស្សពាក់អាវស និងសិស្សពាក់អាវខៀវឱ្យនៅដាច់ពីគ្នាយ៉ាងច្បាស់លាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖