Original Title: Optimizing Industrial Systems with Machine Learning Anomaly Detection
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធឧស្សាហកម្មជាមួយនឹងការរកឃើញភាពមិនប្រក្រតីដោយម៉ាស៊ីនរៀន (Machine Learning)

ចំណងជើងដើម៖ Optimizing Industrial Systems with Machine Learning Anomaly Detection

អ្នកនិពន្ធ៖ Sheikh Khalid Bin Khalifa Bin Mohammed Bin Khalid Al Nahyan (Mohamed bin Zayed University of Artificial Intelligence)

ឆ្នាំបោះពុម្ព៖ 2023, Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការស្វែងរកបច្ចេកទេសម៉ាស៊ីនរៀន (Machine Learning) ដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់ការថែទាំបែបព្យាករណ៍ (Predictive Maintenance) នៅក្នុងវិស័យឧស្សាហកម្មផ្សេងៗ ដើម្បីការពារការខូចខាតឧបករណ៍និងកាត់បន្ថយពេលវេលាផ្អាកដំណើរការ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀប (Benchmark) ក្បួនដោះស្រាយ (Algorithms) ជាច្រើនប្រភេទ ទៅលើទិន្នន័យជាក់ស្តែងពីក្រុមហ៊ុន ADNOC ដើម្បីវាយតម្លៃប្រសិទ្ធភាពក្នុងការរកឃើញភាពមិនប្រក្រតី។

ក្បួនដោះស្រាយសម្រាប់ភាពមិនប្រក្រតីទូទៅនិងតាមបរិបទ (Global and Contextual Outliers): Isolation Forest (IF), Local Outlier Factor (LOF), Gaussian Mixture Model (GMM), K-Means និង OCSVM
បណ្តាញសរសៃប្រសាទសម្រាប់ភាពមិនប្រក្រតីរួម (Collective Outliers): Long Short-Term Memory (LSTM), Temporal Convolutional Networks (TCN) និង ARIMA
ការវិភាគទិន្នន័យស្វែងយល់ (Exploratory Data Analysis - EDA)
បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI - XAI) ដោយប្រើប្រាស់ Shapley values ដើម្បីកំណត់និងជ្រើសរើសលក្ខណៈសំខាន់ៗ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល LSTM ទីពីរ (ម៉ូដែលព្យាករណ៍) និងម៉ូដែល Isolation Forest ដែលបានចម្រោះ រកបានពិន្ទុ F1 (F1 Score) ខ្ពស់ជាងគេបំផុតសម្រាប់ការរកឃើញភាពមិនប្រក្រតី។
ក្បួនដោះស្រាយម៉ាស៊ីនរៀនប្រភេទបុរាណដូចជា GMM អាចទស្សន៍ទាយភាពមិនប្រក្រតីបានយ៉ាងមានប្រសិទ្ធភាព ខណៈដែលម៉ូដែល OCSVM មិនទទួលបានលទ្ធផលល្អនោះទេ។
ការប្រើប្រាស់ Explainable AI (XAI) ដើម្បីជ្រើសរើសតែលក្ខណៈទិន្នន័យដែលពាក់ព័ន្ធ (Relevant features) បានជួយកែលម្អដំណើរការរបស់ម៉ូដែល LSTM យ៉ាងច្រើន តាមរយៈការកាត់បន្ថយកំហុសមធ្យមការ៉េ (MSE)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LSTM Auto-encoder with a Predictor (Model 2) ម៉ូដែលបណ្ដាញសរសៃប្រសាទ LSTM (ប្រភេទព្យាករណ៍អនាគត)	អាចទស្សន៍ទាយភាពមិនប្រក្រតីបានមុនពេលវាច្បាស់លាស់ ព្រមទាំងមានសមត្ថភាពចាប់យកនិន្នាការរយៈពេលវែង (Long-term trends) បានល្អ។	ទាមទារទំហំទិន្នន័យច្រើនសម្រាប់ការបង្ហាត់ម៉ូដែល និងមានភាពរសើបខ្លាំងចំពោះទិន្នន័យដែលមានការប្រែប្រួលភ្លាមៗ (Drops/Noise)។	ទទួលបានពិន្ទុ F1 0.708 លើទិន្នន័យ Huawei និងជួយកាត់បន្ថយការភាន់ច្រឡំមធ្យមការ៉េ (MSE) យ៉ាងច្រើនសម្រាប់ទិន្នន័យ ADNOC។
Isolation Forest (IF) ក្បួនដោះស្រាយដើមឈើឯកោ (Isolation Forest)	មានប្រសិទ្ធភាពខ្ពស់និងងាយស្រួលប្រើសម្រាប់ការស្វែងរកភាពមិនប្រក្រតីទូទៅនិងតាមបរិបទ (Global & Contextual outliers)។	មិនសូវពូកែក្នុងការស្វែងរកភាពមិនប្រក្រតីដែលមានលក្ខណៈជាចង្កោម (Collective anomalies) ប្រសិនបើមិនមានការចម្រោះ (Filtering) ទិន្នន័យជាមុន។	ទទួលបានពិន្ទុ F1 ខ្ពស់រហូតដល់ 0.731 បន្ទាប់ពីធ្វើការចម្រោះទិន្នន័យ (Filtered) លើទិន្នន័យ Huawei។
Gaussian Mixture Model (GMM) ម៉ូដែលល្បាយហ្គាសៀន សម្រាប់ទិន្នន័យអថេរច្រើន	អាចធ្វើចំណាត់ថ្នាក់ទិន្នន័យដោយទន់ភ្លន់ (Soft clustering) និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ទិន្នន័យអថេរច្រើន (Multi-variate 2D/3D)។	សន្មតថាទិន្នន័យមានរាងជារង្វង់ពងក្រពើ (Gaussian distribution) និងទាមទារការកំណត់កម្រិត (Threshold) ដោយដៃ ដើម្បីទាញយកលទ្ធផល។	អាចទស្សន៍ទាយភាពមិនប្រក្រតីចំនួន ៨៥ ករណីយ៉ាងជោគជ័យ លើទិន្នន័យ 2D នៃកុងប្រេសឺររបស់ក្រុមហ៊ុន ADNOC។
One-Class Support Vector Machine (OCSVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រថ្នាក់ទីមួយ	ជាទូទៅដំណើរការបានល្អសម្រាប់ទិន្នន័យដែលមានតែមួយថ្នាក់ (One-class) និងទិន្នន័យដែលមានវិមាត្រខ្ពស់។	មិនទទួលបានលទ្ធផលល្អសោះសម្រាប់ការសិក្សានេះ ដោយសារវាចាត់ទុកទិន្នន័យទាំងមូលជាចង្កោមតែមួយ ធ្វើឱ្យការបង្ហាត់ខុសប្រក្រតី។	ទទួលបានសមត្ថភាពចាប់យកភាពមិនប្រក្រតីទាបជាងគេបំផុត (រកឃើញត្រឹមតែ ២៥០ ភាពមិនប្រក្រតី) ប្រៀបធៀបនឹងម៉ូដែលដទៃ។
Temporal Convolutional Networks (TCN) បណ្តាញខនវ៉ុលយូសិនតាមពេលវេលា	មានសមត្ថភាពដំណើរការលឿន និងអាចចាប់យកទិន្នន័យបន្តបន្ទាប់ (Sequence) បានវែងជាងម៉ូដែល LSTM ធម្មតា។	ទទួលបានលទ្ធផលទាបខ្លាំងនៅពេលប្រឈមនឹងទិន្នន័យដែលមានភាពស្មុគស្មាញ និងមានរដូវកាល (Seasonality)។	ទទួលបានពិន្ទុ F1 ទាបបំផុត (ត្រឹមតែ 0.244 សម្រាប់ម៉ូដែលល្អបំផុតទី១ របស់វា)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តម៉ូដែលបញ្ញាសិប្បនិម្មិតសម្រាប់ការថែទាំបែបព្យាករណ៍ ទាមទារហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាខ្លាំង និងទិន្នន័យឧស្សាហកម្មជាក់ស្តែងដែលប្រមូលបានតាមរយៈឧបករណ៍ IoT យ៉ាងពិតប្រាកដ។

Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានអង្គគណនា (GPU) កម្រិតខ្ពស់ ដើម្បីមានលទ្ធភាពគ្រប់គ្រាន់ក្នុងការដំណើរការម៉ូដែល Deep Learning ដូចជា LSTM និង Autoencoders។
Software: ការចេះប្រើប្រាស់ភាសា Python ព្រមទាំងបណ្ណាល័យសំខាន់ៗដូចជា Scikit-learn (សម្រាប់ ML បុរាណ) និងកញ្ចប់ SHAP សម្រាប់ Explainable AI។
Dataset: ត្រូវការទិន្នន័យទំហំធំពីឧបករណ៍ចាប់សញ្ញា (Sensors) ដូចជាសីតុណ្ហភាព រំញ័រ ដែលប្រមូលជាបន្តបន្ទាប់រៀងរាល់នាទី ឬម៉ោង (ឧទាហរណ៍ ទិន្នន័យប្រមូលពេញ ១ ឆ្នាំរបស់ ADNOC)។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅលើការវិភាគទិន្នន័យតាមពេលវេលា (Time Series Analysis) ការរចនាម៉ូដែលបញ្ញាសិប្បនិម្មិត និងការយល់ដឹងពីប្រព័ន្ធមេកានិកឧស្សាហកម្ម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើទិន្នន័យពីក្រុមហ៊ុនប្រេងខ្នាតធំ ADNOC នៅអេមីរ៉ាតអារ៉ាប់រួម និងក្រុមហ៊ុនទូរគមនាគមន៍ Huawei ដែលមានប្រព័ន្ធប្រមូលទិន្នន័យស្វ័យប្រវត្តិដ៏ទំនើបនិងច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតហេដ្ឋារចនាសម្ព័ន្ធ IoT នៅក្នុងរោងចក្រភាគច្រើន អាចធ្វើឱ្យការប្រមូលទិន្នន័យមានការរំខាន (Noise) ច្រើន ដែលទាមទារឱ្យមានការសម្អាតទិន្នន័យយ៉ាងប្រុងប្រយ័ត្នមុននឹងអនុវត្តម៉ូដែលទាំងនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកប្រមូលទិន្នន័យក៏ដោយ បច្ចេកទេសថែទាំបែបព្យាករណ៍ (Predictive Maintenance) នេះមានសក្តានុពលខ្លាំងក្នុងការកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការឧស្សាហកម្មនៅកម្ពុជា។

រោងចក្រវាយនភណ្ឌ និងកាត់ដេរ (Garment and Textile Factories): អាចប្រើប្រាស់បច្ចេកទេស ML ទាំងនេះសម្រាប់ការត្រួតពិនិត្យដំណើរការម៉ូទ័រ ឬម៉ាស៊ីនដេរខ្នាតធំៗ ដើម្បីដឹងមុនពីការខូចខាតភ្លាមៗដែលធ្វើឱ្យរាំងស្ទះខ្សែសង្វាក់ផលិតកម្ម។
វារីអគ្គិសនី និងរោងចក្រថាមពល (Hydropower and Energy Sector): ឧទាហរណ៍នៅវារីអគ្គិសនីសេសានក្រោម២ ការអនុវត្តម៉ូដែល GMM ឬ LSTM លើការវិភាគរំញ័រនិងសីតុណ្ហភាពរបស់ទួរប៊ីន (Turbines) អាចជួយឱ្យដឹងមុនពីតម្រូវការផ្លាស់ប្តូរគ្រឿងបន្លាស់។
វិស័យទូរគមនាគមន៍ (Telecommunications): ក្រុមហ៊ុនទូរស័ព្ទចល័តដូចជា Smart ឬ Cellcard អាចប្រើបច្ចេកទេសនេះដើម្បីតាមដានសូចនាករប្រតិបត្តិការ (KPI) នៃប្រព័ន្ធបណ្តាញរបស់ខ្លួន ដូចដែលបានធ្វើលើទិន្នន័យរបស់ Huawei ដែរ។

ជារួម ការជំរុញឱ្យមានការបំពាក់ឧបករណ៍ចាប់សញ្ញា (Sensors) និងអនុវត្តការវិភាគទិន្នន័យដោយ AI នឹងជួយវិស័យឧស្សាហកម្មកម្ពុជាផ្លាស់ប្តូរពីការជួសជុលពេលខូច (Reactive) ទៅជាការថែទាំបែបឆ្លាតវៃនិងសន្សំសំចៃ (Predictive)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការវិភាគទិន្នន័យតាមពេលវេលា: អ្នកស្រាវជ្រាវត្រូវស្វែងយល់ពីគោលការណ៍នៃការកត់ត្រាទិន្នន័យតាមពេលវេលា (Time Series Data) ការកំណត់លំនាំតាមរដូវកាល (Seasonality) និងនិន្នាការ (Trend) ជាមុនសិន ដោយផ្តោតលើទិន្នន័យឧស្សាហកម្ម។
អនុវត្តម៉ូដែលម៉ាស៊ីនរៀនកម្រិតមូលដ្ឋាន (Traditional ML): ប្រើប្រាស់បណ្ណាល័យ Scikit-learn នៅក្នុង Python ដើម្បីសរសេរកូដសម្រាប់ក្បួនដោះស្រាយដូចជា Isolation Forest ឫ Gaussian Mixture Model (GMM) ដើម្បីស្វែងរកភាពមិនប្រក្រតីសាមញ្ញៗ។
ឈានចូលការប្រើប្រាស់ Deep Learning សម្រាប់ការព្យាករណ៍: សិក្សាសរសេរកូដបង្កើតបណ្តាញ Long Short-Term Memory (LSTM) ដោយប្រើប្រាស់មុខងារ TensorFlow ឬ PyTorch ដើម្បីបង្កើតម៉ូដែល Autoencoder ដែលអាចទស្សន៍ទាយនិន្នាការទៅអនាគត។
បញ្ចូលបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI): រៀនប្រើប្រាស់កញ្ចប់ SHAP library ដើម្បីកំណត់ថាតើលក្ខណៈទិន្នន័យ (Features) ណាខ្លះ ឧទាហរណ៍ដូចជា សីតុណ្ហភាព ឬ រំញ័រ ដែលមានឥទ្ធិពលខ្លាំងជាងគេដល់ការទស្សន៍ទាយរបស់ម៉ូដែល។
អនុវត្តគម្រោងលើទិន្នន័យជាក់ស្តែងនិងវាយតម្លៃលទ្ធផល: ទាញយកទិន្នន័យឧស្សាហកម្មបើកទូលាយ (Open-source datasets) ឬប្រមូលទិន្នន័យពីឧបករណ៍ IoT Sensors ខ្នាតតូច រួចយកមកធ្វើតេស្ត និងវាយតម្លៃដោយប្រើ F1 Score ឬ Mean Squared Error (MSE)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Predictive Maintenance	វិធីសាស្ត្រនៃការប្រើប្រាស់ទិន្នន័យនិងម៉ូដែលកុំព្យូទ័រដើម្បីតាមដានស្ថានភាពម៉ាស៊ីនយ៉ាងជាប់លាប់ និងទស្សន៍ទាយទុកជាមុនពីពេលដែលម៉ាស៊ីនអាចនឹងមានបញ្ហា ដើម្បីធ្វើការជួសជុលបានទាន់ពេលវេលាមុនពេលការខូចខាតកើតឡើង។	ដូចជាការស្តាប់សំឡេងម៉ាស៊ីនឡានប្លែកៗដើម្បីយកទៅឱ្យជាងពិនិត្យមុនពេលឡានងាប់ម៉ាស៊ីនតាមផ្លូវ។
Anomaly Detection	ដំណើរការនៃការប្រើប្រាស់ក្បួនដោះស្រាយគណិតវិទ្យាដើម្បីស្វែងរកទិន្នន័យណាមួយដែលមានលក្ខណៈខុសប្លែកពីទិន្នន័យធម្មតាភាគច្រើន ដែលជាសញ្ញាបញ្ជាក់ពីបញ្ហា ឬការធ្លាក់ចុះគុណភាពនៃប្រព័ន្ធ។	ដូចជាការស្វែងរកសិស្សម្នាក់ដែលពាក់អាវពណ៌ក្រហម ក្នុងចំណោមសិស្សរាប់រយនាក់ដែលពាក់អាវពណ៌ស។
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាពចងចាំទិន្នន័យពីអតីតកាលក្នុងរយៈពេលវែងនិងខ្លី ដើម្បីយកមកវិភាគរកនិន្នាការ និងទស្សន៍ទាយទិន្នន័យជាបន្តបន្ទាប់នាពេលអនាគតបានយ៉ាងច្បាស់លាស់។	ដូចជាមនុស្សម្នាក់ដែលអាចចងចាំសាច់រឿងភាពយន្តតាំងពីដើមរហូតដល់ចប់ ដើម្បីទាយដឹងថាឈុតបន្ទាប់នឹងមានអ្វីកើតឡើង។
Autoencoder	ជាប្រភេទម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលរៀនបង្រួមទិន្នន័យឱ្យតូច (Encode) រួចពង្រីកវាឱ្យដូចទម្រង់ដើមវិញ (Decode) ដែលវាជួយចាប់កំហុសនៅពេលដែលមានទិន្នន័យខុសប្រក្រតីឆ្លងកាត់ ព្រោះវាមិនអាចបំប្លែងភាពមិនប្រក្រតីនោះឱ្យចេញជារាងដើមបានទេ។	ដូចជាការគូររូបថតចម្លងតាមរូបដើម ប្រសិនបើរូបដើមមានស្នាមប្រឡាក់ខុសធម្មតា អ្នកគូរនឹងគូរមិនបានដូច ឬគូរចេញមកខុសទ្រង់ទ្រាយជាក់ជាមិនខាន។
Explainable AI (XAI)	ជាបច្ចេកទេសដែលជួយបកស្រាយនិងពន្យល់ពីមូលហេតុខាងក្នុងដែលធ្វើឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ទាញបានលទ្ធផល ឬធ្វើការសម្រេចចិត្តបែបនោះ ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន ជាជាងទុកម៉ូដែលជាប្រអប់ខ្មៅ (Black box)។	ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់ឈ្មោះជំងឺប៉ុណ្ណោះទេ តែថែមទាំងពន្យល់ប្រាប់អ្នកជំងឺពីមូលហេតុនិងរោគសញ្ញាដែលនាំឱ្យមានជំងឺនោះយ៉ាងច្បាស់លាស់។
Shapley values	ជារង្វាស់គណិតវិទ្យា (មានប្រភពពីទ្រឹស្តីល្បែង - Game Theory) ដែលត្រូវបានយកមកប្រើក្នុងបញ្ញាសិប្បនិម្មិតដើម្បីបែងចែក និងកំណត់ថាតើអថេរ (Feature) នីមួយៗមានឥទ្ធិពល ឬបានចូលរួមចំណែកកម្រិតណាខ្លះ ក្នុងការជួយឱ្យម៉ូដែលទាយលទ្ធផលបានច្បាស់លាស់។	ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករម្នាក់ៗក្នុងក្រុមបាល់ទាត់ ទៅតាមទំហំនៃការខិតខំប្រឹងប្រែងរៀងៗខ្លួនដែលជួយឱ្យក្រុមទទួលបានជ័យជម្នះ។
Gaussian Mixture Model (GMM)	ជាម៉ូដែលស្ថិតិដែលបំបែកទិន្នន័យទៅជាក្រុមតូចៗ (Clusters) ដោយផ្អែកលើទម្រង់របាយទិន្នន័យជារាងកណ្តឹង (Gaussian distribution) ដែលវាជួយកំណត់ថាទិន្នន័យណាដែលស្ថិតនៅឆ្ងាយពីកណ្តាលក្រុម គឺជាទិន្នន័យមិនប្រក្រតី។	ដូចជាការបែងចែកមនុស្សជាក្រុមៗតាមកម្ពស់និងទម្ងន់ ប្រសិនបើមាននរណាម្នាក់មានកម្ពស់ខុសគេខ្លាំង អ្នកនោះនឹងត្រូវចាត់ទុកថាខុសពីប្រក្រតី។
Isolation Forest	ជាក្បួនដោះស្រាយផ្អែកលើដើមឈើសម្រេចចិត្ត (Decision Trees) ដោយធ្វើការកាត់ផ្តាច់ទិន្នន័យជាច្រើនដំណាក់កាល ដែលទិន្នន័យណាមានលក្ខណៈខុសគេខ្លាំង នឹងត្រូវកាត់ផ្តាច់ចេញលឿនជាងគេ (មានផ្លូវតភ្ជាប់ខ្លីជាងគេ)។	ដូចជាការលេងល្បែងទាយឈ្មោះសត្វ សត្វដែលមានលក្ខណៈចម្លែកខុសគេ (ឧទាហរណ៍ សត្វដែលមានក១០ម៉ែត្រ) ត្រូវការសួរតែមួយឬពីរសំណួរប៉ុណ្ណោះក៏អាចទាយដឹងភ្លាម ធៀបនឹងសត្វទូទៅ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖