បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកំណត់រកមូលហេតុដើម (ឧបករណ៍ចាប់សញ្ញា ឬឧបករណ៍បញ្ជាដែលត្រូវបានគេវាយប្រហារ) នៅក្នុងប្រព័ន្ធគ្រប់គ្រងឧស្សាហកម្ម (ICS) នៅពេលដែលម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) រកឃើញភាពមិនប្រក្រតីណាមួយ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការប្រៀបធៀបវិធីសាស្ត្រកំណត់ហេតុផល (Attribution Methods) ជាច្រើនប្រភេទ ដោយអនុវត្តទៅលើម៉ូដែលរកឃើញភាពមិនប្រក្រតីផ្សេងៗគ្នា និងប្រើយកសំណុំទិន្នន័យវាយប្រហារជាក់ស្តែង រួមទាំងការស្ទង់មតិពីអ្នកប្រតិបត្តិការផ្ទាល់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Raw-error ranking (MSE) ចំណាត់ថ្នាក់កំហុសដើម (MSE) |
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលល្អសម្រាប់ការវាយប្រហារលើឧបករណ៍ចាប់សញ្ញា (sensors) ដែលមានទំហំធំ និងដំណើរការលឿនក្នុងពេលជាក់ស្តែង។ | មិនមានភាពសុក្រឹតទេនៅពេលមានអន្តរកម្មស្មុគស្មាញរវាងឧបករណ៍ ហើយខ្សោយខ្លាំងសម្រាប់ការវាយប្រហារលើឧបករណ៍បញ្ជា (actuators)។ | មានអត្រាភាពត្រឹមត្រូវទាបបំផុត (AvgRank ខ្ពស់ចន្លោះ ០.១៤ ដល់ ០.៣៨) និងអាចរកឃើញមុខសញ្ញាពិតប្រាកដក្នុងកម្រិតកំពូលបានតិចជាង ៤០% នៃការវាយប្រហារសរុប។ |
| Black-box ML Attributions (SHAP, LEMNA) វិធីសាស្ត្រ Black-box ML (SHAP, LEMNA) |
អាចស្វែងយល់ពីទំនាក់ទំនងអន្តរមុខងាររវាងឧបករណ៍បានល្អ និងមានភាពត្រឹមត្រូវខ្ពស់សម្រាប់ការវាយប្រហារលើឧបករណ៍បញ្ជា (actuators)។ | ទាមទារការគណនាច្រើន ប្រើប្រាស់ពេលវេលាយូរ និងត្រូវការការកំណត់ពេលវេលាចាប់ផ្តើមឱ្យបានត្រឹមត្រូវបំផុត (best-guess timing) ដើម្បីទទួលបានលទ្ធផលល្អ។ | LEMNA ទទួលបាន AvgRank ល្អប្រសើរ (០.០៧០ ដល់ ០.១២៤) ពេលប្រើប្រាស់ជាមួយការចាប់ពេលវេលាត្រឹមត្រូវ (best-guess timing) ប៉ុន្តែខ្សោយនៅពេលប្រើក្នុងពេលជាក់ស្តែង។ |
| White-box ML Attributions (Saliency Maps) វិធីសាស្ត្រ White-box ML (Saliency Maps) |
ប្រើប្រាស់ក្រាហ្វិកខាងក្នុងម៉ូដែល (internal gradients) ដើម្បីរកមូលហេតុ ដែលមានល្បឿនលឿនជាង Black-box និងដំណើរការល្អប្រសើរជាមួយទិន្នន័យក្លែងធ្វើ។ | ងាយរងឥទ្ធិពលពីបំរែបំរួលតូចៗនៃទិន្នន័យបញ្ចូល ហើយមិនសូវមានប្រសិទ្ធភាពខ្ពស់ដូចរំពឹងទុកនៅពេលជួបប្រទះភាពស្មុគស្មាញនៃប្រព័ន្ធ ICS ពិតប្រាកដ។ | Saliency Maps ជាវិធីសាស្ត្រ White-box ដ៏ល្អជាងគេដោយឈ្នះវិធីសាស្ត្រ MSE ធម្មតា ប៉ុន្តែនៅតែមានប្រសិទ្ធភាពទាបជាងវិធីសាស្ត្រចម្រុះ។ |
| Ensemble Method (Proposed) វិធីសាស្ត្រចម្រុះ (Ensemble Method) |
រួបរួមចំណុចខ្លាំងនៃវិធីសាស្ត្រនីមួយៗ (MSE, SM, និង LEMNA) ដែលផ្តល់លទ្ធផលល្អបំផុតទាំងសម្រាប់ឧបករណ៍ចាប់សញ្ញា និងឧបករណ៍បញ្ជា ទោះមិនដឹងពេលវេលាចាប់ផ្តើមច្បាស់លាស់ក៏ដោយ។ | មានភាពស្មុគស្មាញក្នុងការអភិវឌ្ឍរៀបចំ និងទាមទារធនធានកុំព្យូទ័រក្នុងការគណនាខ្ពស់ជាងវិធីសាស្ត្រទោល។ | ផ្តល់នូវចំណាត់ថ្នាក់ល្អបំផុត (AvgRank ទាបជាងគេបំផុត) គ្រប់កាលៈទេសៈទាំងអស់ ដោយឈ្នះដាច់វិធីសាស្ត្រនីមួយៗដែលដំណើរការដាច់ដោយឡែកពីគ្នា។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធរកឃើញភាពមិនប្រក្រតី និងការកំណត់ហេតុផលនេះ ទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ ព្រមទាំងទាមទារជំនាញកម្រិតខ្ពស់ផ្នែករៀនដោយម៉ាស៊ីន (Machine Learning) និងចំណេះដឹងពីប្រព័ន្ធគ្រប់គ្រងឧស្សាហកម្ម។
ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យពីប្រព័ន្ធប្រព្រឹត្តកម្មទឹកស្អាតខ្នាតតូចនៅប្រទេសសិង្ហបុរី (SWaT, WADI) និងប្រព័ន្ធក្លែងធ្វើសារធាតុគីមី (TEP)។ ទោះបីជាប្រព័ន្ធទាំងនេះមានស្តង់ដារអន្តរជាតិក៏ដោយ ការកំណត់រចនាសម្ព័ន្ធ និងបរិបទនៃប្រតិបត្តិការជាក់ស្តែងនៅកម្ពុជាអាចមានភាពខុសគ្នាស្រឡះ និងប្រើប្រាស់ឧបករណ៍ម៉ាកផ្សេងៗគ្នា។ នេះមានន័យថាម៉ូដែលត្រូវតែមានការហ្វឹកហាត់សារជាថ្មីដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងពីរោងចក្រក្នុងស្រុក ដើម្បីឆ្លើយតបទៅនឹងទម្រង់នៃការវាយប្រហារ និងកម្រិតនៃកំហុសបច្ចេកទេសជាក់ស្តែង។
វិធីសាស្ត្រដែលបានស្នើឡើងនៅក្នុងឯកសារនេះ មានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការការពារហេដ្ឋារចនាសម្ព័ន្ធរិះគន់ (Critical Infrastructures) នៅប្រទេសកម្ពុជា ដែលកំពុងបោះជំហានយ៉ាងលឿនទៅរកឌីជីថលនីយកម្ម។
សរុបមក ការស្វែងយល់ និងយកវិធីសាស្ត្រកំណត់ហេតុផលចម្រុះ (Ensemble Attribution) មកប្រើប្រាស់ជាមួយប្រព័ន្ធតាមដានទិន្នន័យកណ្តាល នឹងជួយពន្លឿនការស៊ើបអង្កេតរបស់មន្ត្រីសន្តិសុខប្រព័ន្ធអ៊ិនធឺណិត (SOC Analysts) នៅតាមស្ថាប័នសំខាន់ៗនៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Industrial Control Systems (ICS) | ជាបណ្តាញប្រព័ន្ធកុំព្យូទ័រ និងគ្រឿងចក្រដែលធ្វើការរួមគ្នាដើម្បីគ្រប់គ្រង និងស្វ័យប្រវត្តិកម្មដំណើរការរូបវន្តខ្នាតធំ ដូចជាការគ្រប់គ្រងសម្ពាធទឹកក្នុងរោងចក្រទឹកស្អាត ឬការគ្រប់គ្រងចរន្តអគ្គិសនីក្នុងរោងចក្រថាមពលជាដើម។ | ដូចជាខួរក្បាល និងប្រព័ន្ធសរសៃប្រសាទដែលបញ្ជាសាច់ដុំ (ម៉ាស៊ីន) ឱ្យធ្វើការក្នុងរាងកាយមនុស្ស ដើម្បីធានាថារាងកាយដំណើរការដោយរលូន។ |
| Attribution methods | ជាបច្ចេកទេសមួយក្នុងវិស័យបញ្ញាសិប្បនិម្មិត (AI) ដែលមានតួនាទីគណនា និងរៀបចំណាត់ថ្នាក់កត្តាបញ្ចូល (inputs) ណាមួយ ដើម្បីស្វែងរកទីតាំងឧបករណ៍ (ឧ. សេនស័រ) ដែលជាដើមហេតុពិតប្រាកដធ្វើឱ្យប្រព័ន្ធចាប់បានភាពមិនប្រក្រតី។ | ដូចជាអ្នកស៊ើបអង្កេតដែលតាមដានភស្តុតាង ដើម្បីវែកមុខរកជនសង្ស័យម្នាក់ដែលជាអ្នកបង្កហេតុពិតប្រាកដ ក្នុងចំណោមមនុស្សជាច្រើននៅកន្លែងកើតហេតុ។ |
| Anomaly Detection | ជាយន្តការផ្នែកទន់ (Software) ដែលប្រើប្រាស់ក្បួន Machine Learning ដើម្បីតាមដានលំហូរទិន្នន័យជាប្រចាំ ហើយវាស់ស្ទង់រកមើលអាកប្បកិរិយា ឬទិន្នន័យណាដែលលោតខុសឆ្ងាយពីសកម្មភាពប្រក្រតី ដើម្បីប្រកាសអាសន្នពីការវាយប្រហារតាមសាយប័រ។ | ដូចជាសន្តិសុខយាមទ្វារដែលចាំសង្កេតមើលភ្ញៀវចូលរួមកម្មវិធី ហើយឃាត់សួរអ្នកណាដែលស្លៀកពាក់ ឬមានអាកប្បកិរិយាគួរឱ្យសង្ស័យខុសពីភ្ញៀវទូទៅ។ |
| Reconstruction error | ជារង្វាស់គណិតវិទ្យា (ច្រើនគិតជាមធ្យមភាគការ៉េនៃកំហុស - MSE) ដែលវាស់ពីគម្លាតរវាងទិន្នន័យសេនស័រជាក់ស្តែងដែលកំពុងដើរ និងទិន្នន័យដែលម៉ូដែល AI ទស្សន៍ទាយថាគួរតែមាន។ បើគម្លាតនេះធំ មានន័យថាប្រព័ន្ធកំពុងរងការវាយប្រហារ។ | ដូចជាការប្រៀបធៀបគំនូរដែលអ្នកគូរចម្លងដោយផ្អែកលើការចងចាំ ទៅនឹងរូបភាពដើមពិតប្រាកដ បើខុសគ្នាខ្លាំង មានន័យថាមានអ្វីមួយមិនប្រក្រតី។ |
| Actuators | ជាឧបករណ៍មេកានិក ឬអេឡិចត្រូនិកនៅក្នុងរោងចក្រ ដែលទទួលការបញ្ជាពីប្រព័ន្ធកុំព្យូទ័រ (Controllers) ដើម្បីធ្វើសកម្មភាពផ្លាស់ប្តូរស្ថានភាពរូបវន្តផ្ទាល់ ដូចជាការបើកសន្ទះបំពង់ទឹក ការបញ្ឆេះម៉ូទ័រ ឬការបិទកុងតាក់អគ្គិសនី។ | ដូចជាដៃនិងជើងរបស់យើង ដែលធ្វើចលនាកាន់របស់របរ ឬដើរ ទៅតាមការបញ្ជារបស់ខួរក្បាល។ |
| Saliency maps | ជាវិធីសាស្ត្រ White-box ដែលមើលចូលទៅក្នុងសមីការគណិតវិទ្យាខាងក្នុងរបស់ម៉ូដែល AI ដើម្បីគូសផែនទីបង្ហាញពីអថេរ (features) ណាដែលការផ្លាស់ប្តូររបស់វាមានឥទ្ធិពលខ្លាំងជាងគេទៅលើការកើនឡើងនៃកំហុស (Error) របស់ប្រព័ន្ធទាំងមូល។ | ដូចជាការប្រើកាមេរ៉ាចាប់កម្តៅ (Thermal camera) ថតមើលម៉ាស៊ីនរថយន្ត ដើម្បីដឹងភ្លាមៗថាតើផ្នែកណាខ្លះនៃម៉ាស៊ីនកំពុងឡើងកម្តៅខុសធម្មតា។ |
| Black-box attribution | ជាក្រុមនៃវិធីសាស្ត្រ (ដូចជា SHAP, LIME, LEMNA) ដែលស្វែងរកមូលហេតុនៃភាពមិនប្រក្រតី ដោយមិនចាំបាច់ដឹងពីរចនាសម្ព័ន្ធកូដខាងក្នុងរបស់ម៉ូដែល AI ឡើយ។ ពួកគេធ្វើការផ្លាស់ប្តូរទិន្នន័យបញ្ចូលបន្តិចម្តងៗ ហើយសង្កេតមើលពីរបៀបដែលលទ្ធផលប្រែប្រួល។ | ដូចជាការព្យាយាមស្ទាបស្ទង់រកមើលថាតើប្រអប់បិទជិតមួយមានផ្ទុកអ្វី ដោយគ្រាន់តែចាប់អង្រួន និងស្តាប់សំឡេងតបមកវិញ ដោយមិនបាច់បើកប្រអប់មើលខាងក្នុង។ |
| AvgRank | ជារង្វាស់ដែលវាស់ពីទីតាំងមធ្យមនៃឧបករណ៍ដែលត្រូវគេវាយប្រហារ នៅក្នុងបញ្ជីចំណាត់ថ្នាក់ពិន្ទុអាក្រក់បំផុត (Attribution score) ធៀបនឹងចំនួនឧបករណ៍សរុប។ បើពិន្ទុ AvgRank កាន់តែទាប (កៀកនឹង ០) មានន័យថាវិធីសាស្ត្រនោះកាន់តែច្បាស់លាស់ក្នុងការចង្អុលបង្ហាញកន្លែងត្រូវវាយប្រហារ។ | ដូចជាចំណាត់ថ្នាក់របស់សិស្សប្រចាំថ្នាក់ដែរ បើទទួលបានលេខរៀងមធ្យមកាន់តែតូច (ឧទាហរណ៍ លេខ២ ឬលេខ៣) មានន័យថាសិស្សនោះរៀនកាន់តែពូកែ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖