Original Title: Anomaly Detection of Aeolian Wind Speed Using Deep Learning Techniques
Source: jaiai.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពមិនប្រក្រតីនៃល្បឿនខ្យល់ Aeolian ដោយប្រើប្រាស់បច្ចេកទេស Deep Learning

ចំណងជើងដើម៖ Anomaly Detection of Aeolian Wind Speed Using Deep Learning Techniques

អ្នកនិពន្ធ៖ Brahami Menaouer (National Polytechnic School of Oran), Sabri Mohammed (National Polytechnic School of Oran), Bezzemmit Chaïmaâ (National Polytechnic School of Oran), Matta Nada (University of Technology of Troyes)

ឆ្នាំបោះពុម្ព៖ 2024, Journal of Artificial Intelligence and Autonomous Intelligence

វិស័យសិក្សា៖ Artificial Intelligence / Renewable Energy

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការរកឃើញភាពមិនប្រក្រតីនៃទួរប៊ីនខ្យល់ (Wind Turbines) ដោយសារការប្រែប្រួលលក្ខខណ្ឌប្រតិបត្តិការ ដើម្បីជួយសម្រួលដល់ការថែទាំនិងជួសជុលបានទាន់ពេលវេលា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់បច្ចេកទេស Deep Learning ចំនួន៣ប្រភេទ ដើម្បីវិភាគនិងទស្សន៍ទាយលើទិន្នន័យប្រវត្តិពីប្រព័ន្ធ SCADA របស់ទួរប៊ីនខ្យល់។

ការសម្អាត និងរៀបចំទិន្នន័យ SCADA (Data Pre-processing and SCADA Dataset Analysis)
ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ (Convolutional Neural Networks - CNN)
ការប្រើប្រាស់ម៉ូដែលចងចាំរយៈពេលខ្លី-វែង (Long Short-Term Memory - LSTM)
ការប្រើប្រាស់បណ្ដាញចងចាំ GRU (Gated Recurrent Unit - GRU) សម្រាប់ការទស្សន៍ទាយ និងរកឃើញភាពមិនប្រក្រតី

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល GRU ទទួលបានលទ្ធផលល្អបំផុតជាមួយនឹងតម្លៃ R2 ស្មើនឹង 82.37%, MSE 0.0242 និង Pearson Correlation 0.91 ក្នុងការទស្សន៍ទាយថាមពល និងល្បឿនខ្យល់។
ម៉ូដែល LSTM ក៏បង្ហាញពីដំណើរការល្អគួរឱ្យកត់សម្គាល់ ខណៈពេលដែលម៉ូដែល CNN មានកម្រិតទាបជាងក្នុងការទស្សន៍ទាយថាមពលសកម្ម (Active Power)។
វិធីសាស្ត្រនេះអាចតាមដានអាកប្បកិរិយាមិនប្រក្រតីនៃល្បឿនខ្យល់តាំងពីដំណាក់កាលដំបូង ដែលអនុញ្ញាតឱ្យមានការត្រួតពិនិត្យ និងកាត់បន្ថយការខូចខាតធ្ងន់ធ្ងរដល់ទួរប៊ីនខ្យល់ប្រកបដោយប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Gated Recurrent Unit (GRU) បណ្ដាញចងចាំ GRU	មានរចនាសម្ព័ន្ធសាមញ្ញជាងម៉ូដែល LSTM ព្រោះមាន Gates តិចជាង និងមានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យរយៈពេលវែង (Long-term dependencies)។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងស៊ីពេលយូរនៅពេលដំណើរការហ្វឹកហាត់លើទិន្នន័យធំៗ។	ទទួលបានលទ្ធផលល្អបំផុតដោយមាន MSE ០.០២៤, ភាពត្រឹមត្រូវ R² ៨២.៣៧% និងទំនាក់ទំនង Pearson ០.៩១។
Long Short-Term Memory (LSTM) ម៉ូដែលចងចាំរយៈពេលខ្លី-វែង (LSTM)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេសពីទិន្នន័យ Time-series ដែលមិនមែនជាលីនេអ៊ែរ និងអាចដោះស្រាយបញ្ហា Gradient vanishing បានយ៉ាងល្អ។	មានរចនាសម្ព័ន្ធស្មុគស្មាញ (Complexity) ជាង GRU ដែលធ្វើឱ្យការប្រើប្រាស់អង្គចងចាំ និងធនធានមានកម្រិតខ្ពស់ជាង។	ទទួលបាន R² ៧៣.៦០% និងទំនាក់ទំនង Pearson ០.៨៨ ដែលបង្ហាញពីសមត្ថភាពទស្សន៍ទាយល្អបង្គួរតែទាបជាង GRU បន្តិច។
Convolutional Neural Network (CNN) បណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ (CNN)	មានសមត្ថភាពក្នុងការជ្រើសរើសមុខងារ (Feature selection) និងចែករំលែកទម្ងន់ទិន្នន័យ (Weight sharing) ល្អសម្រាប់ទិន្នន័យជាប្រភេទរូបភាព ឬ Grid-like។	មិនសូវមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យ Time-series ដូចជាល្បឿនខ្យល់ និងការទស្សន៍ទាយថាមពលសកម្មឡើយ។	ទទួលបាន R² ៧៣.៦០% ដូច LSTM ដែរ ប៉ុន្តែមានទំនាក់ទំនង Pearson ទាបបំផុតត្រឹមតែ ០.០៧៦ ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ (Hardware) កម្រិតខ្ពស់ និងកម្មវិធីឯកទេសផ្នែក Data Science ដើម្បីដំណើរការក្បួនដោះស្រាយ Deep Learning លើទិន្នន័យធំៗ។

Hardware: តម្រូវឱ្យមាន CPU ខ្លាំង (Intel I9-11900k) និងក្រាហ្វិកកាត (GPU) NVIDIA 3070 12GB VRAM ដើម្បីដំណើរការម៉ូដែលបានលឿន។
Software: ដំណើរការលើ Windows 10 ដោយប្រើប្រាស់ Python 3.6.2, TensorFlow 1.11.0, PyTorch, Keras 2.2.4 និងបណ្ណាល័យវិភាគទិន្នន័យដូចជា Pandas, Scikit-learn។
Dataset: ទិន្នន័យ SCADA របស់កសិដ្ឋានខ្យល់នៅ Yalova ប្រទេសទួរគី រយៈពេល១ឆ្នាំ (២០១៨) ដែលមានកំណត់ត្រាជារៀងរាល់ ១០នាទីម្តង។
Expertise: ទាមទារចំណេះដឹងផ្នែក AI/Deep Learning, ការសម្អាតទិន្នន័យ (Data Preprocessing) និងចំណេះដឹងពីប្រព័ន្ធប្រតិបត្តិការរបស់ទួរប៊ីនខ្យល់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកទាំងស្រុងលើទិន្នន័យពីកសិដ្ឋានខ្យល់នៅតំបន់ Yalova ប្រទេសទួរគី ដែលស្ថិតក្នុងតំបន់អាកាសធាតុត្រជាក់មានសីតុណ្ហភាពខុសពីកម្ពុជា។ នេះជាចំណុចសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះម៉ូដែលដែលត្រូវបានហ្វឹកហាត់ដោយប្រើទិន្នន័យបរទេសនេះ អាចនឹងធ្វើការទស្សន៍ទាយខុស (Misclassification) ប្រសិនបើត្រូវយកមកប្រើប្រាស់ជាមួយលក្ខខណ្ឌខ្យល់មូសុង ឬខ្យល់ត្រូពិចនៅក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Deep Learning ក្នុងការរកឃើញភាពមិនប្រក្រតីនេះ មានសក្តានុពលខ្ពស់សម្រាប់គម្រោងអភិវឌ្ឍន៍ថាមពលកកើតឡើងវិញនៅកម្ពុជានាពេលអនាគត។

គម្រោងកសិដ្ឋានថាមពលខ្យល់ (ខេត្តកំពត និងមណ្ឌលគិរី): កម្ពុជាកំពុងសិក្សាពីសក្តានុពលថាមពលខ្យល់នៅតំបន់ភ្នំបូកគោ និងជួរភ្នំក្រវាញ។ ការប្រើប្រាស់ AI (ជាពិសេស GRU) នឹងជួយកាត់បន្ថយចំណាយលើការថែទាំយ៉ាងច្រើន ដោយវាអាចផ្តលសញ្ញាព្រមានមុនពេលទួរប៊ីនខូចនៅតំបន់ដាច់ស្រយាល។
អគ្គិសនីកម្ពុជា (EDC): អាចប្រើប្រាស់ម៉ូដែលទាំងនេះដើម្បីព្យាករណ៍ និងតាមដានភាពមិនប្រក្រតីនៃប្រភពថាមពលខ្យល់មុននឹងបញ្ចូលចរន្តទៅក្នុងបណ្តាញអគ្គិសនីជាតិ (National Grid) ដើម្បីធានាស្ថិរភាពតង់ស្យុង។

ជារួម បច្ចេកវិទ្យានេះគឺជាឧបករណ៍ដ៏មានតម្លៃសម្រាប់វិស្វករកម្ពុជាក្នុងការគ្រប់គ្រងអាយុកាលឧបករណ៍ និងធានាស្ថិរភាពផលិតកម្មថាមពលបៃតងឱ្យមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាពីមូលដ្ឋាននៃការរៀបចំទិន្នន័យ (Data Preprocessing): ចាប់ផ្តើមរៀនប្រើប្រាស់ Python និងបណ្ណាល័យ Pandas ឬ Scikit-learn (MinMaxScaler) ដើម្បីសម្អាតទិន្នន័យ (Missing Value Filling) និងធ្វើ Normalization លើទិន្នន័យ Time-series។
២. ស្វែងយល់ពីម៉ូដែល Deep Learning សម្រាប់ Time-series: សិក្សាពីទ្រឹស្តី និងភាពខុសគ្នារវាងម៉ូដែលសរសៃប្រសាទ RNN, LSTM និង GRU ដោយសាកល្បងសរសេរកូដជាមួយ Frameworks ដូចជា TensorFlow/Keras។
៣. អនុវត្តផ្ទាល់ជាមួយទិន្នន័យ SCADA គំរូ: ទាញយកទិន្នន័យ 'Wind Turbine SCADA Dataset' ពីគេហទំព័រ Kaggle ដើម្បីហ្វឹកហាត់ម៉ូដែល និងវាស់ស្ទង់លទ្ធផលតាមរយៈមាត្រដ្ឋានវាយតម្លៃដូចជា MSE, RMSE, R² និង Pearson Correlation។
៤. សាកល្បងជាមួយទិន្នន័យអាកាសធាតុកម្ពុជា: ប្រមូលទិន្នន័យប្រវត្តិល្បឿនខ្យល់ពីក្រសួងធនធានទឹក និងឧតុនិយម (MOWRAM) ឬស្ថានីយឧតុនិយមនានា (ឧ. នៅខេត្តកំពត) មកធ្វើការវិភាគដើម្បីមើលពីសក្តានុពល និងលំនាំខ្យល់នៅក្នុងបរិបទប្រទេសកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
SCADA	ប្រព័ន្ធកុំព្យូទ័រដែលប្រើសម្រាប់ត្រួតពិនិត្យ ប្រមូល និងវិភាគទិន្នន័យពីម៉ាស៊ីនឧស្សាហកម្មដូចជាទួរប៊ីនខ្យល់ ដើម្បីតាមដានស្ថានភាពប្រតិបត្តិការ និងការពារពីការខូចខាតធ្ងន់ធ្ងរ។	ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរាយការណ៍ប្រចាំថ្ងៃ ដែលចាំមើលនិងកត់ត្រារាល់សកម្មភាពរបស់រោងចក្រដោយស្វ័យប្រវត្តិ។
Anomaly Detection	ដំណើរការវិភាគទិន្នន័យដើម្បីស្វែងរកព្រឹត្តិការណ៍ ឬទិន្នន័យណាដែលខុសប្រក្រតី ឬមិនដើរតាមលំនាំធម្មតា ដែលអាចបញ្ជាក់ពីការខូចខាត ឬបញ្ហាណាមួយដែលត្រូវជួសជុលជាបន្ទាន់។	ដូចជាគ្រូពេទ្យពិនិត្យមើលចង្វាក់បេះដូងលោតខុសធម្មតា ដើម្បីដឹងថាមនុស្សម្នាក់កំពុងមានជំងឺ។
Long Short-Term Memory (LSTM)	ប្រភេទមួយនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានយន្តការចងចាំទិន្នន័យរយៈពេលវែង និងខ្លី (តាមរយៈ Gates) សម្រាប់ទស្សន៍ទាយទិន្នន័យបន្តបន្ទាប់គ្នា (Time-series) ដូចជាល្បឿនខ្យល់។	ដូចជាសិស្សដែលពូកែចងចាំមេរៀនចាស់ៗពីឆ្នាំមុន និងមេរៀនថ្មីៗ ដើម្បីយកទៅប្រឡងនិងដោះស្រាយលំហាត់ថ្មីៗបានយ៉ាងល្អ។
Gated Recurrent Unit (GRU)	កំណែអាប់ដេតមួយទៀតនៃបណ្ដាញសរសៃប្រសាទដែលស្រដៀងនឹង LSTM ដែរ ប៉ុន្តែមានរចនាសម្ព័ន្ធសាមញ្ញជាង ដោយកាត់បន្ថយចំនួន Gates ធ្វើឱ្យវាដំណើរការហ្វឹកហាត់បានលឿននិងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវិភាគអតីតកាល។	ដូចជាកំណត់ហេតុឆ្លាតវៃដែលអាចសម្រេចចិត្តដោយស្វ័យប្រវត្តិថា ព័ត៌មានចាស់មួយណាសំខាន់គួរទុក និងមួយណាមិនសំខាន់គួរលុបចោលដើម្បីចំណេញទំហំផ្ទុក។
Convolutional Neural Networks (CNNs)	ក្បួនដោះស្រាយ Deep Learning ដែលពូកែក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីទិន្នន័យដែលមានទម្រង់ជាក្រឡាចត្រង្គ។ ក្នុងការសិក្សានេះ គេសាកល្បងវាជាមួយទិន្នន័យ SCADA ទោះបីជាវាមិនសូវស៊ីមេកជាមួយទិន្នន័យប្រភេទពេលវេលាក៏ដោយ។	ដូចជាឧបករណ៍ស្កេនដែលផ្តោតមើលរាល់ចំណុចតូចៗ (Pixels) នៃរូបភាព ដើម្បីកំណត់ថាវាជារូបសត្វអ្វីឱ្យប្រាកដ។
Data Preprocessing	ជំហាននៃការរៀបចំ និងសម្អាតទិន្នន័យឆៅ (Raw Data) ដោយលុបចោលទិន្នន័យខុស (Outliers) ធ្វើមាត្រដ្ឋានទិន្នន័យ (Normalization) និងបំពេញទិន្នន័យដែលបាត់ មុននឹងបញ្ជូនទៅឱ្យម៉ូដែល AI ហ្វឹកហាត់។	ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានត្រឹមត្រូវ មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។
Time-series data	សំណុំទិន្នន័យដែលត្រូវបានប្រមូល និងកត់ត្រាតាមលំដាប់លំដោយនៃពេលវេលាជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ទិន្នន័យល្បឿនខ្យល់ និងថាមពលដែលកត់ត្រារៀងរាល់ ១០នាទីម្តង)។	ដូចជាការកត់ត្រាសីតុណ្ហភាពអាកាសធាតុប្រចាំថ្ងៃនៅម៉ោង ៧ព្រឹក ជារៀងរាល់ថ្ងៃរយៈពេល១ឆ្នាំពេញ។
Pearson Correlation	រង្វាស់ស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីវាស់ស្ទង់ពីកម្រិតទំនាក់ទំនងជាលីនេអ៊ែររវាងអថេរពីរ (ឧទាហរណ៍៖ កម្រិតល្បឿនខ្យល់ និងទំហំថាមពលអគ្គិសនីដែលផលិតបាន) ថាតើវាដើរស្របគ្នា ឬផ្ទុយគ្នាកម្រិតណា។	ដូចជាការវាស់ស្ទង់ថាតើពេលមេឃកាន់តែក្តៅ មនុស្សកាន់តែទិញទឹកកកច្រើនកម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖