Original Title: Optimizing Industrial Systems with Machine Learning Anomaly Detection
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធឧស្សាហកម្មជាមួយនឹងការរកឃើញភាពមិនប្រក្រតីដោយម៉ាស៊ីនរៀន (Machine Learning)

ចំណងជើងដើម៖ Optimizing Industrial Systems with Machine Learning Anomaly Detection

អ្នកនិពន្ធ៖ Sheikh Khalid Bin Khalifa Bin Mohammed Bin Khalid Al Nahyan (Mohamed bin Zayed University of Artificial Intelligence)

ឆ្នាំបោះពុម្ព៖ 2023, Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការស្វែងរកបច្ចេកទេសម៉ាស៊ីនរៀន (Machine Learning) ដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់ការថែទាំបែបព្យាករណ៍ (Predictive Maintenance) នៅក្នុងវិស័យឧស្សាហកម្មផ្សេងៗ ដើម្បីការពារការខូចខាតឧបករណ៍និងកាត់បន្ថយពេលវេលាផ្អាកដំណើរការ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀប (Benchmark) ក្បួនដោះស្រាយ (Algorithms) ជាច្រើនប្រភេទ ទៅលើទិន្នន័យជាក់ស្តែងពីក្រុមហ៊ុន ADNOC ដើម្បីវាយតម្លៃប្រសិទ្ធភាពក្នុងការរកឃើញភាពមិនប្រក្រតី។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
LSTM Auto-encoder with a Predictor (Model 2)
ម៉ូដែលបណ្ដាញសរសៃប្រសាទ LSTM (ប្រភេទព្យាករណ៍អនាគត)
អាចទស្សន៍ទាយភាពមិនប្រក្រតីបានមុនពេលវាច្បាស់លាស់ ព្រមទាំងមានសមត្ថភាពចាប់យកនិន្នាការរយៈពេលវែង (Long-term trends) បានល្អ។ ទាមទារទំហំទិន្នន័យច្រើនសម្រាប់ការបង្ហាត់ម៉ូដែល និងមានភាពរសើបខ្លាំងចំពោះទិន្នន័យដែលមានការប្រែប្រួលភ្លាមៗ (Drops/Noise)។ ទទួលបានពិន្ទុ F1 0.708 លើទិន្នន័យ Huawei និងជួយកាត់បន្ថយការភាន់ច្រឡំមធ្យមការ៉េ (MSE) យ៉ាងច្រើនសម្រាប់ទិន្នន័យ ADNOC។
Isolation Forest (IF)
ក្បួនដោះស្រាយដើមឈើឯកោ (Isolation Forest)
មានប្រសិទ្ធភាពខ្ពស់និងងាយស្រួលប្រើសម្រាប់ការស្វែងរកភាពមិនប្រក្រតីទូទៅនិងតាមបរិបទ (Global & Contextual outliers)។ មិនសូវពូកែក្នុងការស្វែងរកភាពមិនប្រក្រតីដែលមានលក្ខណៈជាចង្កោម (Collective anomalies) ប្រសិនបើមិនមានការចម្រោះ (Filtering) ទិន្នន័យជាមុន។ ទទួលបានពិន្ទុ F1 ខ្ពស់រហូតដល់ 0.731 បន្ទាប់ពីធ្វើការចម្រោះទិន្នន័យ (Filtered) លើទិន្នន័យ Huawei។
Gaussian Mixture Model (GMM)
ម៉ូដែលល្បាយហ្គាសៀន សម្រាប់ទិន្នន័យអថេរច្រើន
អាចធ្វើចំណាត់ថ្នាក់ទិន្នន័យដោយទន់ភ្លន់ (Soft clustering) និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ទិន្នន័យអថេរច្រើន (Multi-variate 2D/3D)។ សន្មតថាទិន្នន័យមានរាងជារង្វង់ពងក្រពើ (Gaussian distribution) និងទាមទារការកំណត់កម្រិត (Threshold) ដោយដៃ ដើម្បីទាញយកលទ្ធផល។ អាចទស្សន៍ទាយភាពមិនប្រក្រតីចំនួន ៨៥ ករណីយ៉ាងជោគជ័យ លើទិន្នន័យ 2D នៃកុងប្រេសឺររបស់ក្រុមហ៊ុន ADNOC។
One-Class Support Vector Machine (OCSVM)
ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រថ្នាក់ទីមួយ
ជាទូទៅដំណើរការបានល្អសម្រាប់ទិន្នន័យដែលមានតែមួយថ្នាក់ (One-class) និងទិន្នន័យដែលមានវិមាត្រខ្ពស់។ មិនទទួលបានលទ្ធផលល្អសោះសម្រាប់ការសិក្សានេះ ដោយសារវាចាត់ទុកទិន្នន័យទាំងមូលជាចង្កោមតែមួយ ធ្វើឱ្យការបង្ហាត់ខុសប្រក្រតី។ ទទួលបានសមត្ថភាពចាប់យកភាពមិនប្រក្រតីទាបជាងគេបំផុត (រកឃើញត្រឹមតែ ២៥០ ភាពមិនប្រក្រតី) ប្រៀបធៀបនឹងម៉ូដែលដទៃ។
Temporal Convolutional Networks (TCN)
បណ្តាញខនវ៉ុលយូសិនតាមពេលវេលា
មានសមត្ថភាពដំណើរការលឿន និងអាចចាប់យកទិន្នន័យបន្តបន្ទាប់ (Sequence) បានវែងជាងម៉ូដែល LSTM ធម្មតា។ ទទួលបានលទ្ធផលទាបខ្លាំងនៅពេលប្រឈមនឹងទិន្នន័យដែលមានភាពស្មុគស្មាញ និងមានរដូវកាល (Seasonality)។ ទទួលបានពិន្ទុ F1 ទាបបំផុត (ត្រឹមតែ 0.244 សម្រាប់ម៉ូដែលល្អបំផុតទី១ របស់វា)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តម៉ូដែលបញ្ញាសិប្បនិម្មិតសម្រាប់ការថែទាំបែបព្យាករណ៍ ទាមទារហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាខ្លាំង និងទិន្នន័យឧស្សាហកម្មជាក់ស្តែងដែលប្រមូលបានតាមរយៈឧបករណ៍ IoT យ៉ាងពិតប្រាកដ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើទិន្នន័យពីក្រុមហ៊ុនប្រេងខ្នាតធំ ADNOC នៅអេមីរ៉ាតអារ៉ាប់រួម និងក្រុមហ៊ុនទូរគមនាគមន៍ Huawei ដែលមានប្រព័ន្ធប្រមូលទិន្នន័យស្វ័យប្រវត្តិដ៏ទំនើបនិងច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតហេដ្ឋារចនាសម្ព័ន្ធ IoT នៅក្នុងរោងចក្រភាគច្រើន អាចធ្វើឱ្យការប្រមូលទិន្នន័យមានការរំខាន (Noise) ច្រើន ដែលទាមទារឱ្យមានការសម្អាតទិន្នន័យយ៉ាងប្រុងប្រយ័ត្នមុននឹងអនុវត្តម៉ូដែលទាំងនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកប្រមូលទិន្នន័យក៏ដោយ បច្ចេកទេសថែទាំបែបព្យាករណ៍ (Predictive Maintenance) នេះមានសក្តានុពលខ្លាំងក្នុងការកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការឧស្សាហកម្មនៅកម្ពុជា។

ជារួម ការជំរុញឱ្យមានការបំពាក់ឧបករណ៍ចាប់សញ្ញា (Sensors) និងអនុវត្តការវិភាគទិន្នន័យដោយ AI នឹងជួយវិស័យឧស្សាហកម្មកម្ពុជាផ្លាស់ប្តូរពីការជួសជុលពេលខូច (Reactive) ទៅជាការថែទាំបែបឆ្លាតវៃនិងសន្សំសំចៃ (Predictive)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃការវិភាគទិន្នន័យតាមពេលវេលា: អ្នកស្រាវជ្រាវត្រូវស្វែងយល់ពីគោលការណ៍នៃការកត់ត្រាទិន្នន័យតាមពេលវេលា (Time Series Data) ការកំណត់លំនាំតាមរដូវកាល (Seasonality) និងនិន្នាការ (Trend) ជាមុនសិន ដោយផ្តោតលើទិន្នន័យឧស្សាហកម្ម។
  2. អនុវត្តម៉ូដែលម៉ាស៊ីនរៀនកម្រិតមូលដ្ឋាន (Traditional ML): ប្រើប្រាស់បណ្ណាល័យ Scikit-learn នៅក្នុង Python ដើម្បីសរសេរកូដសម្រាប់ក្បួនដោះស្រាយដូចជា Isolation ForestGaussian Mixture Model (GMM) ដើម្បីស្វែងរកភាពមិនប្រក្រតីសាមញ្ញៗ។
  3. ឈានចូលការប្រើប្រាស់ Deep Learning សម្រាប់ការព្យាករណ៍: សិក្សាសរសេរកូដបង្កើតបណ្តាញ Long Short-Term Memory (LSTM) ដោយប្រើប្រាស់មុខងារ TensorFlowPyTorch ដើម្បីបង្កើតម៉ូដែល Autoencoder ដែលអាចទស្សន៍ទាយនិន្នាការទៅអនាគត។
  4. បញ្ចូលបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI): រៀនប្រើប្រាស់កញ្ចប់ SHAP library ដើម្បីកំណត់ថាតើលក្ខណៈទិន្នន័យ (Features) ណាខ្លះ ឧទាហរណ៍ដូចជា សីតុណ្ហភាព ឬ រំញ័រ ដែលមានឥទ្ធិពលខ្លាំងជាងគេដល់ការទស្សន៍ទាយរបស់ម៉ូដែល។
  5. អនុវត្តគម្រោងលើទិន្នន័យជាក់ស្តែងនិងវាយតម្លៃលទ្ធផល: ទាញយកទិន្នន័យឧស្សាហកម្មបើកទូលាយ (Open-source datasets) ឬប្រមូលទិន្នន័យពីឧបករណ៍ IoT Sensors ខ្នាតតូច រួចយកមកធ្វើតេស្ត និងវាយតម្លៃដោយប្រើ F1 ScoreMean Squared Error (MSE)

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Predictive Maintenance វិធីសាស្ត្រនៃការប្រើប្រាស់ទិន្នន័យនិងម៉ូដែលកុំព្យូទ័រដើម្បីតាមដានស្ថានភាពម៉ាស៊ីនយ៉ាងជាប់លាប់ និងទស្សន៍ទាយទុកជាមុនពីពេលដែលម៉ាស៊ីនអាចនឹងមានបញ្ហា ដើម្បីធ្វើការជួសជុលបានទាន់ពេលវេលាមុនពេលការខូចខាតកើតឡើង។ ដូចជាការស្តាប់សំឡេងម៉ាស៊ីនឡានប្លែកៗដើម្បីយកទៅឱ្យជាងពិនិត្យមុនពេលឡានងាប់ម៉ាស៊ីនតាមផ្លូវ។
Anomaly Detection ដំណើរការនៃការប្រើប្រាស់ក្បួនដោះស្រាយគណិតវិទ្យាដើម្បីស្វែងរកទិន្នន័យណាមួយដែលមានលក្ខណៈខុសប្លែកពីទិន្នន័យធម្មតាភាគច្រើន ដែលជាសញ្ញាបញ្ជាក់ពីបញ្ហា ឬការធ្លាក់ចុះគុណភាពនៃប្រព័ន្ធ។ ដូចជាការស្វែងរកសិស្សម្នាក់ដែលពាក់អាវពណ៌ក្រហម ក្នុងចំណោមសិស្សរាប់រយនាក់ដែលពាក់អាវពណ៌ស។
Long Short-Term Memory (LSTM) ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាពចងចាំទិន្នន័យពីអតីតកាលក្នុងរយៈពេលវែងនិងខ្លី ដើម្បីយកមកវិភាគរកនិន្នាការ និងទស្សន៍ទាយទិន្នន័យជាបន្តបន្ទាប់នាពេលអនាគតបានយ៉ាងច្បាស់លាស់។ ដូចជាមនុស្សម្នាក់ដែលអាចចងចាំសាច់រឿងភាពយន្តតាំងពីដើមរហូតដល់ចប់ ដើម្បីទាយដឹងថាឈុតបន្ទាប់នឹងមានអ្វីកើតឡើង។
Autoencoder ជាប្រភេទម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលរៀនបង្រួមទិន្នន័យឱ្យតូច (Encode) រួចពង្រីកវាឱ្យដូចទម្រង់ដើមវិញ (Decode) ដែលវាជួយចាប់កំហុសនៅពេលដែលមានទិន្នន័យខុសប្រក្រតីឆ្លងកាត់ ព្រោះវាមិនអាចបំប្លែងភាពមិនប្រក្រតីនោះឱ្យចេញជារាងដើមបានទេ។ ដូចជាការគូររូបថតចម្លងតាមរូបដើម ប្រសិនបើរូបដើមមានស្នាមប្រឡាក់ខុសធម្មតា អ្នកគូរនឹងគូរមិនបានដូច ឬគូរចេញមកខុសទ្រង់ទ្រាយជាក់ជាមិនខាន។
Explainable AI (XAI) ជាបច្ចេកទេសដែលជួយបកស្រាយនិងពន្យល់ពីមូលហេតុខាងក្នុងដែលធ្វើឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ទាញបានលទ្ធផល ឬធ្វើការសម្រេចចិត្តបែបនោះ ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន ជាជាងទុកម៉ូដែលជាប្រអប់ខ្មៅ (Black box)។ ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់ឈ្មោះជំងឺប៉ុណ្ណោះទេ តែថែមទាំងពន្យល់ប្រាប់អ្នកជំងឺពីមូលហេតុនិងរោគសញ្ញាដែលនាំឱ្យមានជំងឺនោះយ៉ាងច្បាស់លាស់។
Shapley values ជារង្វាស់គណិតវិទ្យា (មានប្រភពពីទ្រឹស្តីល្បែង - Game Theory) ដែលត្រូវបានយកមកប្រើក្នុងបញ្ញាសិប្បនិម្មិតដើម្បីបែងចែក និងកំណត់ថាតើអថេរ (Feature) នីមួយៗមានឥទ្ធិពល ឬបានចូលរួមចំណែកកម្រិតណាខ្លះ ក្នុងការជួយឱ្យម៉ូដែលទាយលទ្ធផលបានច្បាស់លាស់។ ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករម្នាក់ៗក្នុងក្រុមបាល់ទាត់ ទៅតាមទំហំនៃការខិតខំប្រឹងប្រែងរៀងៗខ្លួនដែលជួយឱ្យក្រុមទទួលបានជ័យជម្នះ។
Gaussian Mixture Model (GMM) ជាម៉ូដែលស្ថិតិដែលបំបែកទិន្នន័យទៅជាក្រុមតូចៗ (Clusters) ដោយផ្អែកលើទម្រង់របាយទិន្នន័យជារាងកណ្តឹង (Gaussian distribution) ដែលវាជួយកំណត់ថាទិន្នន័យណាដែលស្ថិតនៅឆ្ងាយពីកណ្តាលក្រុម គឺជាទិន្នន័យមិនប្រក្រតី។ ដូចជាការបែងចែកមនុស្សជាក្រុមៗតាមកម្ពស់និងទម្ងន់ ប្រសិនបើមាននរណាម្នាក់មានកម្ពស់ខុសគេខ្លាំង អ្នកនោះនឹងត្រូវចាត់ទុកថាខុសពីប្រក្រតី។
Isolation Forest ជាក្បួនដោះស្រាយផ្អែកលើដើមឈើសម្រេចចិត្ត (Decision Trees) ដោយធ្វើការកាត់ផ្តាច់ទិន្នន័យជាច្រើនដំណាក់កាល ដែលទិន្នន័យណាមានលក្ខណៈខុសគេខ្លាំង នឹងត្រូវកាត់ផ្តាច់ចេញលឿនជាងគេ (មានផ្លូវតភ្ជាប់ខ្លីជាងគេ)។ ដូចជាការលេងល្បែងទាយឈ្មោះសត្វ សត្វដែលមានលក្ខណៈចម្លែកខុសគេ (ឧទាហរណ៍ សត្វដែលមានក១០ម៉ែត្រ) ត្រូវការសួរតែមួយឬពីរសំណួរប៉ុណ្ណោះក៏អាចទាយដឹងភ្លាម ធៀបនឹងសត្វទូទៅ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖