បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការស្វែងរកបច្ចេកទេសម៉ាស៊ីនរៀន (Machine Learning) ដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់ការថែទាំបែបព្យាករណ៍ (Predictive Maintenance) នៅក្នុងវិស័យឧស្សាហកម្មផ្សេងៗ ដើម្បីការពារការខូចខាតឧបករណ៍និងកាត់បន្ថយពេលវេលាផ្អាកដំណើរការ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀប (Benchmark) ក្បួនដោះស្រាយ (Algorithms) ជាច្រើនប្រភេទ ទៅលើទិន្នន័យជាក់ស្តែងពីក្រុមហ៊ុន ADNOC ដើម្បីវាយតម្លៃប្រសិទ្ធភាពក្នុងការរកឃើញភាពមិនប្រក្រតី។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| LSTM Auto-encoder with a Predictor (Model 2) ម៉ូដែលបណ្ដាញសរសៃប្រសាទ LSTM (ប្រភេទព្យាករណ៍អនាគត) |
អាចទស្សន៍ទាយភាពមិនប្រក្រតីបានមុនពេលវាច្បាស់លាស់ ព្រមទាំងមានសមត្ថភាពចាប់យកនិន្នាការរយៈពេលវែង (Long-term trends) បានល្អ។ | ទាមទារទំហំទិន្នន័យច្រើនសម្រាប់ការបង្ហាត់ម៉ូដែល និងមានភាពរសើបខ្លាំងចំពោះទិន្នន័យដែលមានការប្រែប្រួលភ្លាមៗ (Drops/Noise)។ | ទទួលបានពិន្ទុ F1 0.708 លើទិន្នន័យ Huawei និងជួយកាត់បន្ថយការភាន់ច្រឡំមធ្យមការ៉េ (MSE) យ៉ាងច្រើនសម្រាប់ទិន្នន័យ ADNOC។ |
| Isolation Forest (IF) ក្បួនដោះស្រាយដើមឈើឯកោ (Isolation Forest) |
មានប្រសិទ្ធភាពខ្ពស់និងងាយស្រួលប្រើសម្រាប់ការស្វែងរកភាពមិនប្រក្រតីទូទៅនិងតាមបរិបទ (Global & Contextual outliers)។ | មិនសូវពូកែក្នុងការស្វែងរកភាពមិនប្រក្រតីដែលមានលក្ខណៈជាចង្កោម (Collective anomalies) ប្រសិនបើមិនមានការចម្រោះ (Filtering) ទិន្នន័យជាមុន។ | ទទួលបានពិន្ទុ F1 ខ្ពស់រហូតដល់ 0.731 បន្ទាប់ពីធ្វើការចម្រោះទិន្នន័យ (Filtered) លើទិន្នន័យ Huawei។ |
| Gaussian Mixture Model (GMM) ម៉ូដែលល្បាយហ្គាសៀន សម្រាប់ទិន្នន័យអថេរច្រើន |
អាចធ្វើចំណាត់ថ្នាក់ទិន្នន័យដោយទន់ភ្លន់ (Soft clustering) និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ទិន្នន័យអថេរច្រើន (Multi-variate 2D/3D)។ | សន្មតថាទិន្នន័យមានរាងជារង្វង់ពងក្រពើ (Gaussian distribution) និងទាមទារការកំណត់កម្រិត (Threshold) ដោយដៃ ដើម្បីទាញយកលទ្ធផល។ | អាចទស្សន៍ទាយភាពមិនប្រក្រតីចំនួន ៨៥ ករណីយ៉ាងជោគជ័យ លើទិន្នន័យ 2D នៃកុងប្រេសឺររបស់ក្រុមហ៊ុន ADNOC។ |
| One-Class Support Vector Machine (OCSVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រថ្នាក់ទីមួយ |
ជាទូទៅដំណើរការបានល្អសម្រាប់ទិន្នន័យដែលមានតែមួយថ្នាក់ (One-class) និងទិន្នន័យដែលមានវិមាត្រខ្ពស់។ | មិនទទួលបានលទ្ធផលល្អសោះសម្រាប់ការសិក្សានេះ ដោយសារវាចាត់ទុកទិន្នន័យទាំងមូលជាចង្កោមតែមួយ ធ្វើឱ្យការបង្ហាត់ខុសប្រក្រតី។ | ទទួលបានសមត្ថភាពចាប់យកភាពមិនប្រក្រតីទាបជាងគេបំផុត (រកឃើញត្រឹមតែ ២៥០ ភាពមិនប្រក្រតី) ប្រៀបធៀបនឹងម៉ូដែលដទៃ។ |
| Temporal Convolutional Networks (TCN) បណ្តាញខនវ៉ុលយូសិនតាមពេលវេលា |
មានសមត្ថភាពដំណើរការលឿន និងអាចចាប់យកទិន្នន័យបន្តបន្ទាប់ (Sequence) បានវែងជាងម៉ូដែល LSTM ធម្មតា។ | ទទួលបានលទ្ធផលទាបខ្លាំងនៅពេលប្រឈមនឹងទិន្នន័យដែលមានភាពស្មុគស្មាញ និងមានរដូវកាល (Seasonality)។ | ទទួលបានពិន្ទុ F1 ទាបបំផុត (ត្រឹមតែ 0.244 សម្រាប់ម៉ូដែលល្អបំផុតទី១ របស់វា)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តម៉ូដែលបញ្ញាសិប្បនិម្មិតសម្រាប់ការថែទាំបែបព្យាករណ៍ ទាមទារហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាខ្លាំង និងទិន្នន័យឧស្សាហកម្មជាក់ស្តែងដែលប្រមូលបានតាមរយៈឧបករណ៍ IoT យ៉ាងពិតប្រាកដ។
ការសិក្សានេះផ្អែកលើទិន្នន័យពីក្រុមហ៊ុនប្រេងខ្នាតធំ ADNOC នៅអេមីរ៉ាតអារ៉ាប់រួម និងក្រុមហ៊ុនទូរគមនាគមន៍ Huawei ដែលមានប្រព័ន្ធប្រមូលទិន្នន័យស្វ័យប្រវត្តិដ៏ទំនើបនិងច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតហេដ្ឋារចនាសម្ព័ន្ធ IoT នៅក្នុងរោងចក្រភាគច្រើន អាចធ្វើឱ្យការប្រមូលទិន្នន័យមានការរំខាន (Noise) ច្រើន ដែលទាមទារឱ្យមានការសម្អាតទិន្នន័យយ៉ាងប្រុងប្រយ័ត្នមុននឹងអនុវត្តម៉ូដែលទាំងនេះ។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកប្រមូលទិន្នន័យក៏ដោយ បច្ចេកទេសថែទាំបែបព្យាករណ៍ (Predictive Maintenance) នេះមានសក្តានុពលខ្លាំងក្នុងការកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការឧស្សាហកម្មនៅកម្ពុជា។
ជារួម ការជំរុញឱ្យមានការបំពាក់ឧបករណ៍ចាប់សញ្ញា (Sensors) និងអនុវត្តការវិភាគទិន្នន័យដោយ AI នឹងជួយវិស័យឧស្សាហកម្មកម្ពុជាផ្លាស់ប្តូរពីការជួសជុលពេលខូច (Reactive) ទៅជាការថែទាំបែបឆ្លាតវៃនិងសន្សំសំចៃ (Predictive)។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Predictive Maintenance | វិធីសាស្ត្រនៃការប្រើប្រាស់ទិន្នន័យនិងម៉ូដែលកុំព្យូទ័រដើម្បីតាមដានស្ថានភាពម៉ាស៊ីនយ៉ាងជាប់លាប់ និងទស្សន៍ទាយទុកជាមុនពីពេលដែលម៉ាស៊ីនអាចនឹងមានបញ្ហា ដើម្បីធ្វើការជួសជុលបានទាន់ពេលវេលាមុនពេលការខូចខាតកើតឡើង។ | ដូចជាការស្តាប់សំឡេងម៉ាស៊ីនឡានប្លែកៗដើម្បីយកទៅឱ្យជាងពិនិត្យមុនពេលឡានងាប់ម៉ាស៊ីនតាមផ្លូវ។ |
| Anomaly Detection | ដំណើរការនៃការប្រើប្រាស់ក្បួនដោះស្រាយគណិតវិទ្យាដើម្បីស្វែងរកទិន្នន័យណាមួយដែលមានលក្ខណៈខុសប្លែកពីទិន្នន័យធម្មតាភាគច្រើន ដែលជាសញ្ញាបញ្ជាក់ពីបញ្ហា ឬការធ្លាក់ចុះគុណភាពនៃប្រព័ន្ធ។ | ដូចជាការស្វែងរកសិស្សម្នាក់ដែលពាក់អាវពណ៌ក្រហម ក្នុងចំណោមសិស្សរាប់រយនាក់ដែលពាក់អាវពណ៌ស។ |
| Long Short-Term Memory (LSTM) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាពចងចាំទិន្នន័យពីអតីតកាលក្នុងរយៈពេលវែងនិងខ្លី ដើម្បីយកមកវិភាគរកនិន្នាការ និងទស្សន៍ទាយទិន្នន័យជាបន្តបន្ទាប់នាពេលអនាគតបានយ៉ាងច្បាស់លាស់។ | ដូចជាមនុស្សម្នាក់ដែលអាចចងចាំសាច់រឿងភាពយន្តតាំងពីដើមរហូតដល់ចប់ ដើម្បីទាយដឹងថាឈុតបន្ទាប់នឹងមានអ្វីកើតឡើង។ |
| Autoencoder | ជាប្រភេទម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលរៀនបង្រួមទិន្នន័យឱ្យតូច (Encode) រួចពង្រីកវាឱ្យដូចទម្រង់ដើមវិញ (Decode) ដែលវាជួយចាប់កំហុសនៅពេលដែលមានទិន្នន័យខុសប្រក្រតីឆ្លងកាត់ ព្រោះវាមិនអាចបំប្លែងភាពមិនប្រក្រតីនោះឱ្យចេញជារាងដើមបានទេ។ | ដូចជាការគូររូបថតចម្លងតាមរូបដើម ប្រសិនបើរូបដើមមានស្នាមប្រឡាក់ខុសធម្មតា អ្នកគូរនឹងគូរមិនបានដូច ឬគូរចេញមកខុសទ្រង់ទ្រាយជាក់ជាមិនខាន។ |
| Explainable AI (XAI) | ជាបច្ចេកទេសដែលជួយបកស្រាយនិងពន្យល់ពីមូលហេតុខាងក្នុងដែលធ្វើឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ទាញបានលទ្ធផល ឬធ្វើការសម្រេចចិត្តបែបនោះ ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន ជាជាងទុកម៉ូដែលជាប្រអប់ខ្មៅ (Black box)។ | ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់ឈ្មោះជំងឺប៉ុណ្ណោះទេ តែថែមទាំងពន្យល់ប្រាប់អ្នកជំងឺពីមូលហេតុនិងរោគសញ្ញាដែលនាំឱ្យមានជំងឺនោះយ៉ាងច្បាស់លាស់។ |
| Shapley values | ជារង្វាស់គណិតវិទ្យា (មានប្រភពពីទ្រឹស្តីល្បែង - Game Theory) ដែលត្រូវបានយកមកប្រើក្នុងបញ្ញាសិប្បនិម្មិតដើម្បីបែងចែក និងកំណត់ថាតើអថេរ (Feature) នីមួយៗមានឥទ្ធិពល ឬបានចូលរួមចំណែកកម្រិតណាខ្លះ ក្នុងការជួយឱ្យម៉ូដែលទាយលទ្ធផលបានច្បាស់លាស់។ | ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករម្នាក់ៗក្នុងក្រុមបាល់ទាត់ ទៅតាមទំហំនៃការខិតខំប្រឹងប្រែងរៀងៗខ្លួនដែលជួយឱ្យក្រុមទទួលបានជ័យជម្នះ។ |
| Gaussian Mixture Model (GMM) | ជាម៉ូដែលស្ថិតិដែលបំបែកទិន្នន័យទៅជាក្រុមតូចៗ (Clusters) ដោយផ្អែកលើទម្រង់របាយទិន្នន័យជារាងកណ្តឹង (Gaussian distribution) ដែលវាជួយកំណត់ថាទិន្នន័យណាដែលស្ថិតនៅឆ្ងាយពីកណ្តាលក្រុម គឺជាទិន្នន័យមិនប្រក្រតី។ | ដូចជាការបែងចែកមនុស្សជាក្រុមៗតាមកម្ពស់និងទម្ងន់ ប្រសិនបើមាននរណាម្នាក់មានកម្ពស់ខុសគេខ្លាំង អ្នកនោះនឹងត្រូវចាត់ទុកថាខុសពីប្រក្រតី។ |
| Isolation Forest | ជាក្បួនដោះស្រាយផ្អែកលើដើមឈើសម្រេចចិត្ត (Decision Trees) ដោយធ្វើការកាត់ផ្តាច់ទិន្នន័យជាច្រើនដំណាក់កាល ដែលទិន្នន័យណាមានលក្ខណៈខុសគេខ្លាំង នឹងត្រូវកាត់ផ្តាច់ចេញលឿនជាងគេ (មានផ្លូវតភ្ជាប់ខ្លីជាងគេ)។ | ដូចជាការលេងល្បែងទាយឈ្មោះសត្វ សត្វដែលមានលក្ខណៈចម្លែកខុសគេ (ឧទាហរណ៍ សត្វដែលមានក១០ម៉ែត្រ) ត្រូវការសួរតែមួយឬពីរសំណួរប៉ុណ្ណោះក៏អាចទាយដឹងភ្លាម ធៀបនឹងសត្វទូទៅ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖