Original Title: Anomaly Detection and Diagnosis of Wind Turbines Using Deep Learning Techniques: Aeolian Wind Speed Case Study
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពខុសប្រក្រតី និងការវិភាគរោគវិនិច្ឆ័យនៃទួរប៊ីនខ្យល់ដោយប្រើបច្ចេកទេស Deep Learning៖ ការសិក្សាករណីល្បឿនខ្យល់ Aeolian

ចំណងជើងដើម៖ Anomaly Detection and Diagnosis of Wind Turbines Using Deep Learning Techniques: Aeolian Wind Speed Case Study

អ្នកនិពន្ធ៖ Brahami Menaouer (National Polytechnic School of Oran, LABAB Laboratory, Algeria), Sabri Mohammed (National Polytechnic School of Oran, Algeria), Bezzemmit Chaïmaâ (National Polytechnic School of Oran, Algeria), Matta Nada (University of Technology of Troyes, France)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការត្រួតពិនិត្យ និងការរកឃើញភាពខុសប្រក្រតីនៃទួរប៊ីនខ្យល់ (Wind Turbines) ដោយសារតែទិន្នន័យ SCADA មានការពឹងផ្អែកខ្លាំងទៅលើលក្ខខណ្ឌប្រតិបត្តិការ និងអាកាសធាតុ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យ SCADA ពីកសិដ្ឋានខ្យល់ រួចធ្វើការសម្អាត និងអនុវត្តម៉ូដែល Deep Learning ចំនួនបីដើម្បីប្រៀបធៀបក្នុងការទស្សន៍ទាយភាពខុសប្រក្រតី។

ការប្រមូល និងរៀបចំទិន្នន័យពីប្រព័ន្ធ SCADA (SCADA Data Preprocessing) ដោយផ្តោតលើល្បឿនខ្យល់ ថាមពលសកម្ម និងទិសដៅខ្យល់។
ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត CNN (Convolutional Neural Networks) សម្រាប់ការទាញយកលក្ខណៈពិសេស។
ការអនុវត្តម៉ូដែល LSTM (Long Short-Term Memory) ដើម្បីចាប់យកទិន្នន័យតាមពេលវេលា។
ការអនុវត្តម៉ូដែល GRU (Gated Recurrent Unit) ដើម្បីទស្សន៍ទាយតម្លៃអតិបរមា និងអប្បបរមានៃល្បឿនខ្យល់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល GRU ទទួលបានលទ្ធផលល្អជាងគេបំផុត ដោយមានភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយរហូតដល់ ៩៦,៩% និងមានតម្លៃ R² ៨២,៤% (សម្រាប់ការធ្វើតេស្ត)។
ម៉ូដែល GRU និង LSTM អាចចាប់យកទំនាក់ទំនងរយៈពេលវែងនៃទិន្នន័យបានល្អជាង CNN ក្នុងការកត់សម្គាល់អាកប្បកិរិយាខុសប្រក្រតីរបស់ទួរប៊ីនខ្យល់។
បច្ចេកទេស Deep Learning ដែលបានស្នើឡើងនេះផ្តល់នូវឧបករណ៍រោគវិនិច្ឆ័យដ៏មានប្រសិទ្ធភាព ដែលអាចអនុញ្ញាតឱ្យមានការអន្តរាគមន៍ទាន់ពេលវេលា និងកាត់បន្ថយការខូចខាតឧបករណ៍ធ្ងន់ធ្ងរ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GRU (Gated Recurrent Unit) បណ្ដាញសរសៃប្រសាទ GRU (Gated Recurrent Unit)	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យរយៈពេលវែង (Long-term dependencies) និងមានល្បឿនហ្វឹកហាត់លឿនជាង LSTM ដោយសារមានរចនាសម្ព័ន្ធសាមញ្ញជាង។	នៅតែទាមទារធនធានគណនាខ្ពស់បើប្រៀបធៀបនឹងម៉ូដែលសាមញ្ញ (Classical Machine Learning) ហើយអាចងាយរងគ្រោះពីបញ្ហា Overfitting ប្រសិនបើទិន្នន័យមិនគ្រប់គ្រាន់។	ទទួលបានលទ្ធផលល្អបំផុត ដោយមានតម្លៃ R² កម្រិត ៨២,៤%, MSE កម្រិត ០,០២៤ និងភាពត្រឹមត្រូវ ៩៦,៩%។
LSTM (Long Short-Term Memory) បណ្ដាញសរសៃប្រសាទ LSTM (Long Short-Term Memory)	ដោះស្រាយបញ្ហា Gradient Vanishing បានយ៉ាងល្អ និងពូកែក្នុងការទាញយកលក្ខណៈពិសេសពីទិន្នន័យស៊េរីពេលវេលា (Time-series) ដែលមិនមែនជាបន្ទាត់ត្រង់។	មានរចនាសម្ព័ន្ធស្មុគស្មាញ និងទាមទារពេលវេលាយូរក្នុងការហ្វឹកហាត់ម៉ូដែលបើប្រៀបធៀបទៅនឹង GRU និង CNN។	ទទួលបានលទ្ធផលល្អបង្គួរ ដោយមានតម្លៃ R² កម្រិត ៧៣,៤% និង MSE កម្រិត ០,០៣៧។
CNN (Convolutional Neural Network) បណ្ដាញសរសៃប្រសាទ CNN (Convolutional Neural Network)	មានភាពលេចធ្លោក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ការចែករំលែកទម្ងន់ទិន្នន័យ និងកាត់បន្ថយពេលវេលាសម្រាប់ការធ្វើ Preprocessing។	មិនសូវមានប្រសិទ្ធភាពក្នុងការចាប់យកការផ្លាស់ប្តូរនៃទិន្នន័យដែលពឹងផ្អែកលើពេលវេលា (Time-dependent) ដូចជាទិន្នន័យល្បឿនខ្យល់។	ទទួលបានលទ្ធផលទាបជាងគេបន្តិច ដោយមានតម្លៃ R² កម្រិត ៧២,៧% និង MSE កម្រិត ០,១៧៥។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ជាពិសេសក្រាហ្វិកកាត (GPU) ដើម្បីធានាដល់ល្បឿន និងប្រសិទ្ធភាពក្នុងការហ្វឹកហាត់ម៉ូដែល Deep Learning លើទិន្នន័យដ៏ធំ។

Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមាន CPU Intel I9-11900k និងក្រាហ្វិកកាត GPU NVIDIA RTX 3070 ទំហំ 12 GB VRAM។
Software: ប្រព័ន្ធប្រតិបត្តិការ Windows 10, Python 3.6.2, Jupyter, និងបណ្ណាល័យសំខាន់ៗដូចជា TensorFlow 1.11.0, PyTorch, Keras, Numpy, Pandas និង Scikit-learn។
Dataset: ទិន្នន័យ SCADA ចំនួន ៥០.៥៣០ កំណត់ត្រា (ប្រមូលរៀងរាល់ ១០នាទីម្តង) ក្នុងរយៈពេលពេញមួយឆ្នាំ ដែលមានទំហំធំ និងតម្រូវឱ្យមានការសម្អាត (Data Pre-processing)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Science) និងការយល់ដឹងពីលក្ខណៈរូបវន្តរបស់ប្រព័ន្ធទួរប៊ីនខ្យល់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យពីកសិដ្ឋានខ្យល់មួយនៅតំបន់ Yalova ប្រទេសទួរគី ក្នុងឆ្នាំ២០១៨។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីលក្ខខណ្ឌអាកាសធាតុ ល្បឿនខ្យល់ និងប្រភេទម៉ាស៊ីនជាក់លាក់ប្រចាំតំបន់អឺរ៉ុប-អាស៊ី ដែលមានភាពខុសគ្នាពីតំបន់ត្រូពិច។ សម្រាប់កម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ដោយផ្ទាល់អាចមិនទទួលបានភាពត្រឹមត្រូវ១០០% ទេ ដោយសារយើងមានរបបខ្យល់មូសុង និងសីតុណ្ហភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីហ្វឹកហាត់ម៉ូដែលឡើងវិញ (Fine-tuning)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការតាមដាន និងទស្សន៍ទាយភាពខុសប្រក្រតីនេះ មានសក្តានុពលខ្ពស់សម្រាប់ជួយគាំទ្រដល់គម្រោងអភិវឌ្ឍន៍ថាមពលកកើតឡើងវិញរបស់កម្ពុជា។

កសិដ្ឋានថាមពលខ្យល់នៅខេត្តមណ្ឌលគិរី និងកំពត (Wind Farms in Mondulkiri & Kampot): កម្ពុជាកំពុងមានការសិក្សាសក្តានុពលថាមពលខ្យល់នៅខេត្តទាំងនេះ។ បច្ចេកទេស Deep Learning នេះអាចប្រើប្រាស់សម្រាប់ប្រព័ន្ធប្រកាសអាសន្នជាមុន (Early warning system) ជួយកាត់បន្ថយការខូចខាតទួរប៊ីន និងសន្សំសំចៃថ្លៃជួសជុល។
រោងចក្រផលិតថាមពលពន្លឺព្រះអាទិត្យ (Solar Power Plants): ទោះបីជាឯកសារនេះផ្តោតលើទួរប៊ីនខ្យល់ក៏ដោយ ក៏ម៉ូដែល GRU និង LSTM អាចត្រូវបានកែច្នៃ (Adapted) ដើម្បីទស្សន៍ទាយផលិតកម្មថាមពល និងរកឃើញភាពខុសប្រក្រតីនៃបន្ទះសូឡាដោយប្រើប្រាស់ទិន្នន័យ SCADA របស់រោងចក្រសូឡានៅកម្ពុជាបានផងដែរ។
វិស័យអប់រំ និងការស្រាវជ្រាវ (Education & Research): សាកលវិទ្យាល័យផ្នែកវិស្វកម្ម និងបច្ចេកវិទ្យានៅកម្ពុជា អាចយកវិធីសាស្ត្រនេះជាគំរូសម្រាប់បង្រៀននិស្សិតអំពីការអនុវត្តបញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងវិស័យឧស្សាហកម្ម៤.០ (Industry 4.0)។

សរុបមក បច្ចេកទេសនេះគឺជាគន្លឹះដ៏សំខាន់សម្រាប់ជួយឱ្យស្ថាប័នថាមពលកម្ពុជា អាចផ្លាស់ប្តូរពីការថែទាំតាមបែបប្រពៃណី ទៅជាការថែទាំបែបប្រមើលមើលទុកជាមុន (Predictive Maintenance) ប្រកបដោយភាពវៃឆ្លាត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំមូលដ្ឋានគ្រឹះកូដ និងបរិស្ថានការងារ: និស្សិតត្រូវចាប់ផ្តើមដោយការដំឡើង Python រួមជាមួយនឹងបណ្ណាល័យវិភាគទិន្នន័យដូចជា Pandas និង Scikit-learn ព្រមទាំងរៀបចំ Jupyter Notebook ដើម្បីមានភាពងាយស្រួលក្នុងការសរសេរ និងសាកល្បងកូដ។
ទាញយក និងសម្អាតទិន្នន័យ (Data Preprocessing): ចូលទៅកាន់គេហទំព័រ Kaggle ដើម្បីទាញយកទិន្នន័យ Wind Turbine SCADA Dataset រួចអនុវត្តការសម្អាតទិន្នន័យ (Data Cleaning) ដូចជាការលុបទិន្នន័យដែលបាត់ (Missing values) និងធ្វើបទដ្ឋានកម្មទិន្នន័យ (Data Normalization) ដោយប្រើ MinMaxScaler ពី Scikit-learn។
កសាង និងហ្វឹកហាត់ម៉ូដែល Deep Learning: ប្រើប្រាស់ TensorFlow ឬ PyTorch ដើម្បីសរសេរកូដបង្កើតរចនាសម្ព័ន្ធម៉ូដែល GRU និង LSTM។ បន្ទាប់មក ធ្វើការបែងចែកទិន្នន័យជាពីរផ្នែក (៨០% សម្រាប់ Training និង ២០% សម្រាប់ Testing) រួចចាប់ផ្តើមហ្វឹកហាត់ម៉ូដែលទាំងនោះ។
វាយតម្លៃ និងប្រៀបធៀបលទ្ធផល: វាស់ស្ទង់សមត្ថភាពម៉ូដែលនីមួយៗ ដោយគណនាតម្លៃរង្វាស់ MSE, MAE, RMSE, និង R-squared រួចប្រើប្រាស់ Matplotlib ដើម្បីគូសក្រាហ្វិកបង្ហាញពីភាពខុសគ្នារវាងទិន្នន័យពិត និងទិន្នន័យដែលម៉ូដែលទស្សន៍ទាយបាន។
សាកល្បងជាមួយទិន្នន័យក្នុងស្រុក (Localization): សហការជាមួយសាស្ត្រាចារ្យ ឬក្រុមហ៊ុនថាមពល ដើម្បីស្វែងរកទិន្នន័យអាកាសធាតុ ឬទិន្នន័យប្រតិបត្តិការម៉ាស៊ីននៅកម្ពុជា រួចយកម៉ូដែល GRU ដែលបានហ្វឹកហាត់រួច មកធ្វើការកែសម្រួល (Fine-tune) ដើម្បីបង្កើតជាប្រព័ន្ធតាមដានខ្នាតតូចមួយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Supervisory Control and Data Acquisition (SCADA)	ជាប្រព័ន្ធកុំព្យូទ័រឧស្សាហកម្មដែលប្រើសម្រាប់ប្រមូលទិន្នន័យ ត្រួតពិនិត្យ និងគ្រប់គ្រងប្រតិបត្តិការរបស់ម៉ាស៊ីនខ្នាតធំ (ដូចជាទួរប៊ីនខ្យល់) ពីចម្ងាយក្នុងពេលវេលាជាក់ស្តែង។	ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធបញ្ជាចង្កូតបញ្ចូលគ្នាតែមួយ ដែលអនុញ្ញាតឱ្យយើងមើលឃើញពីចម្ងាយផង និងអាចបញ្ជាម៉ាស៊ីនបានផង។
Gated Recurrent Unit (GRU)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់ ដែលមានសមត្ថភាពចងចាំទិន្នន័យស៊េរីពេលវេលាពីអតីតកាលបានយូរ ហើយមានរចនាសម្ព័ន្ធសាមញ្ញជាង LSTM ដែលធ្វើឱ្យវាដំណើរការគណនាបានលឿនជាង។	ដូចជាសៀវភៅកំណត់ហេតុឆ្លាតវៃមួយ ដែលចេះសម្រេចចិត្តដោយស្វ័យប្រវត្តិថា ព័ត៌មានចាស់ណាមួយគួររក្សាទុក ហើយព័ត៌មានណាមួយគួរបោះចោលដើម្បីកុំឱ្យធ្ងន់ខួរក្បាល។
Long Short-Term Memory (LSTM)	ជាម៉ូដែល Deep Learning ដែលពូកែខាងវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ (Sequence data) ដោយដោះស្រាយបញ្ហាភ្លេចព័ត៌មានចាស់ៗរបស់បណ្តាញ RNN ធម្មតា និងអាចចាប់យកទំនាក់ទំនងរយៈពេលវែងនៃទិន្នន័យបានល្អ។	ដូចជាមនុស្សចាស់ដែលមានការចងចាំពិសេស អាចចងចាំរឿងរ៉ាវសំខាន់ៗដែលបានកើតឡើងតាំងពីយូរណាស់មកហើយ ដើម្បីយកមកធ្វើការសម្រេចចិត្តនៅថ្ងៃនេះ។
Convolutional Neural Network (CNN)	ជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីទិន្នន័យ ដែលជាទូទៅប្រើប្រាស់ខ្លាំងក្នុងការសម្គាល់រូបភាព ប៉ុន្តែនៅក្នុងការសិក្សានេះវាត្រូវបានប្រើសម្រាប់ទាញយកលំនាំនៃទិន្នន័យល្បឿនខ្យល់។	ដូចជាកែវពង្រីកដែលស្កេនមើលរូបភាព ឬទិន្នន័យម្តងមួយផ្នែកៗ ដើម្បីស្វែងរកចំណុចលេចធ្លោ ឬភាពមិនប្រក្រតីដែលលាក់កំបាំង។
predictive maintenance	គឺជាការប្រើប្រាស់ទិន្នន័យ និងម៉ូដែលបញ្ញាសិប្បនិម្មិតដើម្បីវិភាគ និងទស្សន៍ទាយទុកជាមុនថាតើម៉ាស៊ីន ឬឧបករណ៍ណាមួយនឹងជិតខូចនៅពេលណា ដើម្បីអាចចូលទៅជួសជុលទាន់ពេលវេលា។	ដូចជាការយកឡានទៅជាងជួសជុលនៅពេលដែលកុំព្យូទ័រឡានលោតសញ្ញាប្រាប់ថាគ្រឿងបន្លាស់ជិតខូច ជាជាងចាំដល់ពេលឡានដាច់ម៉ាស៊ីនខូចតាមផ្លូវ។
Mean-Square Error (MSE)	ជារង្វាស់ស្ថិតិដែលប្រើសម្រាប់វាស់ស្ទង់ភាពខុសគ្នារវាងតម្លៃដែលម៉ូដែលកុំព្យូទ័រទស្សន៍ទាយបាន និងតម្លៃការពិតជាក់ស្តែង ដោយយកភាពខុសគ្នានោះមកលើកជាការ៉េដើម្បីពិន័យចំពោះកំហុសធំៗ។	ដូចជាច្បាប់ពិន័យកំហុស គឺបើអ្នកធ្វើខុសតិចតួចត្រូវពិន័យតិច តែបើធ្វើខុសធំគឺត្រូវពិន័យធ្ងន់ធ្ងរមែនទែន (លើកជាការ៉េ)។
overfitting	គឺជាបញ្ហាមួយនៅក្នុង Machine Learning ដែលម៉ូដែលមួយបានរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក រហូតដល់ពេលយកវាទៅប្រើជាមួយទិន្នន័យថ្មីដែលវាមិនធ្លាប់ឃើញ បែរជាវាទស្សន៍ទាយមិនបានត្រឹមត្រូវ។	ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយលំហាត់ក្នុងសៀវភៅបានយ៉ាងស្ទាត់ ប៉ុន្តែមិនចេះធ្វើលំហាត់ពេលប្រឡងព្រោះគ្រូដូរលេខតិចតួច។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖