Original Title: Anomaly Detection of Aeolian Wind Speed Using Deep Learning Techniques
Source: jaiai.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពមិនប្រក្រតីនៃល្បឿនខ្យល់ Aeolian ដោយប្រើប្រាស់បច្ចេកទេស Deep Learning

ចំណងជើងដើម៖ Anomaly Detection of Aeolian Wind Speed Using Deep Learning Techniques

អ្នកនិពន្ធ៖ Brahami Menaouer (National Polytechnic School of Oran), Sabri Mohammed (National Polytechnic School of Oran), Bezzemmit Chaïmaâ (National Polytechnic School of Oran), Matta Nada (University of Technology of Troyes)

ឆ្នាំបោះពុម្ព៖ 2024, Journal of Artificial Intelligence and Autonomous Intelligence

វិស័យសិក្សា៖ Artificial Intelligence / Renewable Energy

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការរកឃើញភាពមិនប្រក្រតីនៃទួរប៊ីនខ្យល់ (Wind Turbines) ដោយសារការប្រែប្រួលលក្ខខណ្ឌប្រតិបត្តិការ ដើម្បីជួយសម្រួលដល់ការថែទាំនិងជួសជុលបានទាន់ពេលវេលា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់បច្ចេកទេស Deep Learning ចំនួន៣ប្រភេទ ដើម្បីវិភាគនិងទស្សន៍ទាយលើទិន្នន័យប្រវត្តិពីប្រព័ន្ធ SCADA របស់ទួរប៊ីនខ្យល់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Gated Recurrent Unit (GRU)
បណ្ដាញចងចាំ GRU
មានរចនាសម្ព័ន្ធសាមញ្ញជាងម៉ូដែល LSTM ព្រោះមាន Gates តិចជាង និងមានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យរយៈពេលវែង (Long-term dependencies)។ ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងស៊ីពេលយូរនៅពេលដំណើរការហ្វឹកហាត់លើទិន្នន័យធំៗ។ ទទួលបានលទ្ធផលល្អបំផុតដោយមាន MSE ០.០២៤, ភាពត្រឹមត្រូវ R² ៨២.៣៧% និងទំនាក់ទំនង Pearson ០.៩១។
Long Short-Term Memory (LSTM)
ម៉ូដែលចងចាំរយៈពេលខ្លី-វែង (LSTM)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេសពីទិន្នន័យ Time-series ដែលមិនមែនជាលីនេអ៊ែរ និងអាចដោះស្រាយបញ្ហា Gradient vanishing បានយ៉ាងល្អ។ មានរចនាសម្ព័ន្ធស្មុគស្មាញ (Complexity) ជាង GRU ដែលធ្វើឱ្យការប្រើប្រាស់អង្គចងចាំ និងធនធានមានកម្រិតខ្ពស់ជាង។ ទទួលបាន R² ៧៣.៦០% និងទំនាក់ទំនង Pearson ០.៨៨ ដែលបង្ហាញពីសមត្ថភាពទស្សន៍ទាយល្អបង្គួរតែទាបជាង GRU បន្តិច។
Convolutional Neural Network (CNN)
បណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ (CNN)
មានសមត្ថភាពក្នុងការជ្រើសរើសមុខងារ (Feature selection) និងចែករំលែកទម្ងន់ទិន្នន័យ (Weight sharing) ល្អសម្រាប់ទិន្នន័យជាប្រភេទរូបភាព ឬ Grid-like។ មិនសូវមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យ Time-series ដូចជាល្បឿនខ្យល់ និងការទស្សន៍ទាយថាមពលសកម្មឡើយ។ ទទួលបាន R² ៧៣.៦០% ដូច LSTM ដែរ ប៉ុន្តែមានទំនាក់ទំនង Pearson ទាបបំផុតត្រឹមតែ ០.០៧៦ ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ (Hardware) កម្រិតខ្ពស់ និងកម្មវិធីឯកទេសផ្នែក Data Science ដើម្បីដំណើរការក្បួនដោះស្រាយ Deep Learning លើទិន្នន័យធំៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកទាំងស្រុងលើទិន្នន័យពីកសិដ្ឋានខ្យល់នៅតំបន់ Yalova ប្រទេសទួរគី ដែលស្ថិតក្នុងតំបន់អាកាសធាតុត្រជាក់មានសីតុណ្ហភាពខុសពីកម្ពុជា។ នេះជាចំណុចសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះម៉ូដែលដែលត្រូវបានហ្វឹកហាត់ដោយប្រើទិន្នន័យបរទេសនេះ អាចនឹងធ្វើការទស្សន៍ទាយខុស (Misclassification) ប្រសិនបើត្រូវយកមកប្រើប្រាស់ជាមួយលក្ខខណ្ឌខ្យល់មូសុង ឬខ្យល់ត្រូពិចនៅក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Deep Learning ក្នុងការរកឃើញភាពមិនប្រក្រតីនេះ មានសក្តានុពលខ្ពស់សម្រាប់គម្រោងអភិវឌ្ឍន៍ថាមពលកកើតឡើងវិញនៅកម្ពុជានាពេលអនាគត។

ជារួម បច្ចេកវិទ្យានេះគឺជាឧបករណ៍ដ៏មានតម្លៃសម្រាប់វិស្វករកម្ពុជាក្នុងការគ្រប់គ្រងអាយុកាលឧបករណ៍ និងធានាស្ថិរភាពផលិតកម្មថាមពលបៃតងឱ្យមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ១. សិក្សាពីមូលដ្ឋាននៃការរៀបចំទិន្នន័យ (Data Preprocessing): ចាប់ផ្តើមរៀនប្រើប្រាស់ Python និងបណ្ណាល័យ PandasScikit-learn (MinMaxScaler) ដើម្បីសម្អាតទិន្នន័យ (Missing Value Filling) និងធ្វើ Normalization លើទិន្នន័យ Time-series។
  2. ២. ស្វែងយល់ពីម៉ូដែល Deep Learning សម្រាប់ Time-series: សិក្សាពីទ្រឹស្តី និងភាពខុសគ្នារវាងម៉ូដែលសរសៃប្រសាទ RNN, LSTM និង GRU ដោយសាកល្បងសរសេរកូដជាមួយ Frameworks ដូចជា TensorFlow/Keras
  3. ៣. អនុវត្តផ្ទាល់ជាមួយទិន្នន័យ SCADA គំរូ: ទាញយកទិន្នន័យ 'Wind Turbine SCADA Dataset' ពីគេហទំព័រ Kaggle ដើម្បីហ្វឹកហាត់ម៉ូដែល និងវាស់ស្ទង់លទ្ធផលតាមរយៈមាត្រដ្ឋានវាយតម្លៃដូចជា MSE, RMSE, R² និង Pearson Correlation។
  4. ៤. សាកល្បងជាមួយទិន្នន័យអាកាសធាតុកម្ពុជា: ប្រមូលទិន្នន័យប្រវត្តិល្បឿនខ្យល់ពីក្រសួងធនធានទឹក និងឧតុនិយម (MOWRAM) ឬស្ថានីយឧតុនិយមនានា (ឧ. នៅខេត្តកំពត) មកធ្វើការវិភាគដើម្បីមើលពីសក្តានុពល និងលំនាំខ្យល់នៅក្នុងបរិបទប្រទេសកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
SCADA ប្រព័ន្ធកុំព្យូទ័រដែលប្រើសម្រាប់ត្រួតពិនិត្យ ប្រមូល និងវិភាគទិន្នន័យពីម៉ាស៊ីនឧស្សាហកម្មដូចជាទួរប៊ីនខ្យល់ ដើម្បីតាមដានស្ថានភាពប្រតិបត្តិការ និងការពារពីការខូចខាតធ្ងន់ធ្ងរ។ ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរាយការណ៍ប្រចាំថ្ងៃ ដែលចាំមើលនិងកត់ត្រារាល់សកម្មភាពរបស់រោងចក្រដោយស្វ័យប្រវត្តិ។
Anomaly Detection ដំណើរការវិភាគទិន្នន័យដើម្បីស្វែងរកព្រឹត្តិការណ៍ ឬទិន្នន័យណាដែលខុសប្រក្រតី ឬមិនដើរតាមលំនាំធម្មតា ដែលអាចបញ្ជាក់ពីការខូចខាត ឬបញ្ហាណាមួយដែលត្រូវជួសជុលជាបន្ទាន់។ ដូចជាគ្រូពេទ្យពិនិត្យមើលចង្វាក់បេះដូងលោតខុសធម្មតា ដើម្បីដឹងថាមនុស្សម្នាក់កំពុងមានជំងឺ។
Long Short-Term Memory (LSTM) ប្រភេទមួយនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានយន្តការចងចាំទិន្នន័យរយៈពេលវែង និងខ្លី (តាមរយៈ Gates) សម្រាប់ទស្សន៍ទាយទិន្នន័យបន្តបន្ទាប់គ្នា (Time-series) ដូចជាល្បឿនខ្យល់។ ដូចជាសិស្សដែលពូកែចងចាំមេរៀនចាស់ៗពីឆ្នាំមុន និងមេរៀនថ្មីៗ ដើម្បីយកទៅប្រឡងនិងដោះស្រាយលំហាត់ថ្មីៗបានយ៉ាងល្អ។
Gated Recurrent Unit (GRU) កំណែអាប់ដេតមួយទៀតនៃបណ្ដាញសរសៃប្រសាទដែលស្រដៀងនឹង LSTM ដែរ ប៉ុន្តែមានរចនាសម្ព័ន្ធសាមញ្ញជាង ដោយកាត់បន្ថយចំនួន Gates ធ្វើឱ្យវាដំណើរការហ្វឹកហាត់បានលឿននិងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវិភាគអតីតកាល។ ដូចជាកំណត់ហេតុឆ្លាតវៃដែលអាចសម្រេចចិត្តដោយស្វ័យប្រវត្តិថា ព័ត៌មានចាស់មួយណាសំខាន់គួរទុក និងមួយណាមិនសំខាន់គួរលុបចោលដើម្បីចំណេញទំហំផ្ទុក។
Convolutional Neural Networks (CNNs) ក្បួនដោះស្រាយ Deep Learning ដែលពូកែក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីទិន្នន័យដែលមានទម្រង់ជាក្រឡាចត្រង្គ។ ក្នុងការសិក្សានេះ គេសាកល្បងវាជាមួយទិន្នន័យ SCADA ទោះបីជាវាមិនសូវស៊ីមេកជាមួយទិន្នន័យប្រភេទពេលវេលាក៏ដោយ។ ដូចជាឧបករណ៍ស្កេនដែលផ្តោតមើលរាល់ចំណុចតូចៗ (Pixels) នៃរូបភាព ដើម្បីកំណត់ថាវាជារូបសត្វអ្វីឱ្យប្រាកដ។
Data Preprocessing ជំហាននៃការរៀបចំ និងសម្អាតទិន្នន័យឆៅ (Raw Data) ដោយលុបចោលទិន្នន័យខុស (Outliers) ធ្វើមាត្រដ្ឋានទិន្នន័យ (Normalization) និងបំពេញទិន្នន័យដែលបាត់ មុននឹងបញ្ជូនទៅឱ្យម៉ូដែល AI ហ្វឹកហាត់។ ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានត្រឹមត្រូវ មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។
Time-series data សំណុំទិន្នន័យដែលត្រូវបានប្រមូល និងកត់ត្រាតាមលំដាប់លំដោយនៃពេលវេលាជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ទិន្នន័យល្បឿនខ្យល់ និងថាមពលដែលកត់ត្រារៀងរាល់ ១០នាទីម្តង)។ ដូចជាការកត់ត្រាសីតុណ្ហភាពអាកាសធាតុប្រចាំថ្ងៃនៅម៉ោង ៧ព្រឹក ជារៀងរាល់ថ្ងៃរយៈពេល១ឆ្នាំពេញ។
Pearson Correlation រង្វាស់ស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីវាស់ស្ទង់ពីកម្រិតទំនាក់ទំនងជាលីនេអ៊ែររវាងអថេរពីរ (ឧទាហរណ៍៖ កម្រិតល្បឿនខ្យល់ និងទំហំថាមពលអគ្គិសនីដែលផលិតបាន) ថាតើវាដើរស្របគ្នា ឬផ្ទុយគ្នាកម្រិតណា។ ដូចជាការវាស់ស្ទង់ថាតើពេលមេឃកាន់តែក្តៅ មនុស្សកាន់តែទិញទឹកកកច្រើនកម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖