Original Title: Attributions for ML-based ICS Anomaly Detection: From Theory to Practice
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកំណត់ហេតុផលសម្រាប់ការរកឃើញភាពមិនប្រក្រតីនៃប្រព័ន្ធ ICS ដោយផ្អែកលើ ML៖ ពីទ្រឹស្តីទៅការអនុវត្តជាក់ស្តែង

ចំណងជើងដើម៖ Attributions for ML-based ICS Anomaly Detection: From Theory to Practice

អ្នកនិពន្ធ៖ Clement Fung (Carnegie Mellon University), Eric Zeng (Carnegie Mellon University), Lujo Bauer (Carnegie Mellon University)

ឆ្នាំបោះពុម្ព៖ 2024 Network and Distributed System Security (NDSS) Symposium

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកំណត់រកមូលហេតុដើម (ឧបករណ៍ចាប់សញ្ញា ឬឧបករណ៍បញ្ជាដែលត្រូវបានគេវាយប្រហារ) នៅក្នុងប្រព័ន្ធគ្រប់គ្រងឧស្សាហកម្ម (ICS) នៅពេលដែលម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) រកឃើញភាពមិនប្រក្រតីណាមួយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការប្រៀបធៀបវិធីសាស្ត្រកំណត់ហេតុផល (Attribution Methods) ជាច្រើនប្រភេទ ដោយអនុវត្តទៅលើម៉ូដែលរកឃើញភាពមិនប្រក្រតីផ្សេងៗគ្នា និងប្រើយកសំណុំទិន្នន័យវាយប្រហារជាក់ស្តែង រួមទាំងការស្ទង់មតិពីអ្នកប្រតិបត្តិការផ្ទាល់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Raw-error ranking (MSE)
ចំណាត់ថ្នាក់កំហុសដើម (MSE)
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលល្អសម្រាប់ការវាយប្រហារលើឧបករណ៍ចាប់សញ្ញា (sensors) ដែលមានទំហំធំ និងដំណើរការលឿនក្នុងពេលជាក់ស្តែង។ មិនមានភាពសុក្រឹតទេនៅពេលមានអន្តរកម្មស្មុគស្មាញរវាងឧបករណ៍ ហើយខ្សោយខ្លាំងសម្រាប់ការវាយប្រហារលើឧបករណ៍បញ្ជា (actuators)។ មានអត្រាភាពត្រឹមត្រូវទាបបំផុត (AvgRank ខ្ពស់ចន្លោះ ០.១៤ ដល់ ០.៣៨) និងអាចរកឃើញមុខសញ្ញាពិតប្រាកដក្នុងកម្រិតកំពូលបានតិចជាង ៤០% នៃការវាយប្រហារសរុប។
Black-box ML Attributions (SHAP, LEMNA)
វិធីសាស្ត្រ Black-box ML (SHAP, LEMNA)
អាចស្វែងយល់ពីទំនាក់ទំនងអន្តរមុខងាររវាងឧបករណ៍បានល្អ និងមានភាពត្រឹមត្រូវខ្ពស់សម្រាប់ការវាយប្រហារលើឧបករណ៍បញ្ជា (actuators)។ ទាមទារការគណនាច្រើន ប្រើប្រាស់ពេលវេលាយូរ និងត្រូវការការកំណត់ពេលវេលាចាប់ផ្តើមឱ្យបានត្រឹមត្រូវបំផុត (best-guess timing) ដើម្បីទទួលបានលទ្ធផលល្អ។ LEMNA ទទួលបាន AvgRank ល្អប្រសើរ (០.០៧០ ដល់ ០.១២៤) ពេលប្រើប្រាស់ជាមួយការចាប់ពេលវេលាត្រឹមត្រូវ (best-guess timing) ប៉ុន្តែខ្សោយនៅពេលប្រើក្នុងពេលជាក់ស្តែង។
White-box ML Attributions (Saliency Maps)
វិធីសាស្ត្រ White-box ML (Saliency Maps)
ប្រើប្រាស់ក្រាហ្វិកខាងក្នុងម៉ូដែល (internal gradients) ដើម្បីរកមូលហេតុ ដែលមានល្បឿនលឿនជាង Black-box និងដំណើរការល្អប្រសើរជាមួយទិន្នន័យក្លែងធ្វើ។ ងាយរងឥទ្ធិពលពីបំរែបំរួលតូចៗនៃទិន្នន័យបញ្ចូល ហើយមិនសូវមានប្រសិទ្ធភាពខ្ពស់ដូចរំពឹងទុកនៅពេលជួបប្រទះភាពស្មុគស្មាញនៃប្រព័ន្ធ ICS ពិតប្រាកដ។ Saliency Maps ជាវិធីសាស្ត្រ White-box ដ៏ល្អជាងគេដោយឈ្នះវិធីសាស្ត្រ MSE ធម្មតា ប៉ុន្តែនៅតែមានប្រសិទ្ធភាពទាបជាងវិធីសាស្ត្រចម្រុះ។
Ensemble Method (Proposed)
វិធីសាស្ត្រចម្រុះ (Ensemble Method)
រួបរួមចំណុចខ្លាំងនៃវិធីសាស្ត្រនីមួយៗ (MSE, SM, និង LEMNA) ដែលផ្តល់លទ្ធផលល្អបំផុតទាំងសម្រាប់ឧបករណ៍ចាប់សញ្ញា និងឧបករណ៍បញ្ជា ទោះមិនដឹងពេលវេលាចាប់ផ្តើមច្បាស់លាស់ក៏ដោយ។ មានភាពស្មុគស្មាញក្នុងការអភិវឌ្ឍរៀបចំ និងទាមទារធនធានកុំព្យូទ័រក្នុងការគណនាខ្ពស់ជាងវិធីសាស្ត្រទោល។ ផ្តល់នូវចំណាត់ថ្នាក់ល្អបំផុត (AvgRank ទាបជាងគេបំផុត) គ្រប់កាលៈទេសៈទាំងអស់ ដោយឈ្នះដាច់វិធីសាស្ត្រនីមួយៗដែលដំណើរការដាច់ដោយឡែកពីគ្នា។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធរកឃើញភាពមិនប្រក្រតី និងការកំណត់ហេតុផលនេះ ទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ ព្រមទាំងទាមទារជំនាញកម្រិតខ្ពស់ផ្នែករៀនដោយម៉ាស៊ីន (Machine Learning) និងចំណេះដឹងពីប្រព័ន្ធគ្រប់គ្រងឧស្សាហកម្ម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យពីប្រព័ន្ធប្រព្រឹត្តកម្មទឹកស្អាតខ្នាតតូចនៅប្រទេសសិង្ហបុរី (SWaT, WADI) និងប្រព័ន្ធក្លែងធ្វើសារធាតុគីមី (TEP)។ ទោះបីជាប្រព័ន្ធទាំងនេះមានស្តង់ដារអន្តរជាតិក៏ដោយ ការកំណត់រចនាសម្ព័ន្ធ និងបរិបទនៃប្រតិបត្តិការជាក់ស្តែងនៅកម្ពុជាអាចមានភាពខុសគ្នាស្រឡះ និងប្រើប្រាស់ឧបករណ៍ម៉ាកផ្សេងៗគ្នា។ នេះមានន័យថាម៉ូដែលត្រូវតែមានការហ្វឹកហាត់សារជាថ្មីដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងពីរោងចក្រក្នុងស្រុក ដើម្បីឆ្លើយតបទៅនឹងទម្រង់នៃការវាយប្រហារ និងកម្រិតនៃកំហុសបច្ចេកទេសជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលបានស្នើឡើងនៅក្នុងឯកសារនេះ មានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការការពារហេដ្ឋារចនាសម្ព័ន្ធរិះគន់ (Critical Infrastructures) នៅប្រទេសកម្ពុជា ដែលកំពុងបោះជំហានយ៉ាងលឿនទៅរកឌីជីថលនីយកម្ម។

សរុបមក ការស្វែងយល់ និងយកវិធីសាស្ត្រកំណត់ហេតុផលចម្រុះ (Ensemble Attribution) មកប្រើប្រាស់ជាមួយប្រព័ន្ធតាមដានទិន្នន័យកណ្តាល នឹងជួយពន្លឿនការស៊ើបអង្កេតរបស់មន្ត្រីសន្តិសុខប្រព័ន្ធអ៊ិនធឺណិត (SOC Analysts) នៅតាមស្ថាប័នសំខាន់ៗនៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាស្វែងយល់ពីប្រព័ន្ធ ICS និងសំណុំទិន្នន័យអន្តរជាតិ: និស្សិតត្រូវចាប់ផ្តើមដោយការធ្វើសំណើរសុំទាញយកសំណុំទិន្នន័យ SWaTWADI (តាមរយៈគេហទំព័ររបស់ស្ថាប័ន iTrust នៃសាកលវិទ្យាល័យ SUTD) រួចធ្វើការវិភាគលើរចនាសម្ព័ន្ធទិន្នន័យ Time-series របស់ឧបករណ៍ចាប់សញ្ញា (sensors) និងឧបករណ៍បញ្ជា (actuators) ដើម្បីយល់ពីឥរិយាបថធម្មតានិងពេលមានការវាយប្រហារ។
  2. ជំហានទី២៖ កសាងម៉ូដែលរកឃើញភាពមិនប្រក្រតីផ្អែកលើ Deep Learning: អនុវត្តការសរសេរកូដបង្កើតម៉ូដែល Unsupervised Learning ដូចជា CNN, GRU, ឬ LSTM ដោយប្រើប្រាស់បណ្ណាល័យ TensorFlow/Keras ជាភាសា Python ដើម្បីធ្វើការទស្សន៍ទាយតម្លៃបន្ទាប់នៃប្រព័ន្ធ (Next-state prediction) និងគណនាកំហុស (Reconstruction Error / MSE)។
  3. ជំហានទី៣៖ អនុវត្តនិងប្រៀបធៀបវិធីសាស្ត្រកំណត់ហេតុផល (Attribution Methods): សាកល្បងបញ្ចូលបណ្ណាល័យ SHAP និង LIME ព្រមទាំងសរសេរកូដសម្រាប់ Saliency Maps ទៅក្នុងម៉ូដែលរបស់អ្នក ដើម្បីគណនាពិន្ទុឥទ្ធិពល (Attribution scores) របស់មុខងារនីមួយៗនៅពេលប្រព័ន្ធប្រកាសអាសន្ន រួចប្រៀបធៀបប្រសិទ្ធភាពរបស់វាជាមួយនឹងការប្រើត្រឹម Raw MSE
  4. ជំហានទី៤៖ បង្កើតវិធីសាស្ត្រចម្រុះ (Ensemble Method) និងវាយតម្លៃដោយប្រើ AvgRank: សរសេរកូដដើម្បីគណនាមធ្យមភាគមានទម្ងន់ (Weighted average) រវាងលទ្ធផលដែលទទួលបានពី MSE, Saliency Maps, និង LEMNA/SHAP (ដោយផ្តល់ទម្ងន់ខ្ពស់លើ ML attributions សម្រាប់ឧបករណ៍ actuators) រួចប្រើប្រាស់រង្វាស់ AvgRank ដើម្បីធានាថាវាផ្តល់លទ្ធផលល្អជាងវិធីសាស្ត្រដាច់ដោយឡែក។
  5. ជំហានទី៥៖ ធ្វើសមាហរណកម្មប្រព័ន្ធសម្រាប់ប្រើប្រាស់ក្រោយហេតុការណ៍ (Post-hoc Analysis): បង្កើតផ្ទាំងគ្រប់គ្រង (Dashboard) សាមញ្ញមួយ ឧទាហរណ៍ដោយប្រើ StreamlitDash ដើម្បីបង្ហាញបញ្ជីឧបករណ៍ដែលសង្ស័យជាងគេទាំង ១០ ទៅកាន់អ្នកប្រតិបត្តិការ ដោយផ្តោតលើការទាញយកទិន្នន័យពី Data Historian មកវិភាគក្រោយពេលមានសញ្ញាព្រមាន ជំនួសឱ្យការបង្ខំគណនាក្នុងពេលជាក់ស្តែងភ្លាមៗ (Real-time)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Industrial Control Systems (ICS) ជាបណ្តាញប្រព័ន្ធកុំព្យូទ័រ និងគ្រឿងចក្រដែលធ្វើការរួមគ្នាដើម្បីគ្រប់គ្រង និងស្វ័យប្រវត្តិកម្មដំណើរការរូបវន្តខ្នាតធំ ដូចជាការគ្រប់គ្រងសម្ពាធទឹកក្នុងរោងចក្រទឹកស្អាត ឬការគ្រប់គ្រងចរន្តអគ្គិសនីក្នុងរោងចក្រថាមពលជាដើម។ ដូចជាខួរក្បាល និងប្រព័ន្ធសរសៃប្រសាទដែលបញ្ជាសាច់ដុំ (ម៉ាស៊ីន) ឱ្យធ្វើការក្នុងរាងកាយមនុស្ស ដើម្បីធានាថារាងកាយដំណើរការដោយរលូន។
Attribution methods ជាបច្ចេកទេសមួយក្នុងវិស័យបញ្ញាសិប្បនិម្មិត (AI) ដែលមានតួនាទីគណនា និងរៀបចំណាត់ថ្នាក់កត្តាបញ្ចូល (inputs) ណាមួយ ដើម្បីស្វែងរកទីតាំងឧបករណ៍ (ឧ. សេនស័រ) ដែលជាដើមហេតុពិតប្រាកដធ្វើឱ្យប្រព័ន្ធចាប់បានភាពមិនប្រក្រតី។ ដូចជាអ្នកស៊ើបអង្កេតដែលតាមដានភស្តុតាង ដើម្បីវែកមុខរកជនសង្ស័យម្នាក់ដែលជាអ្នកបង្កហេតុពិតប្រាកដ ក្នុងចំណោមមនុស្សជាច្រើននៅកន្លែងកើតហេតុ។
Anomaly Detection ជាយន្តការផ្នែកទន់ (Software) ដែលប្រើប្រាស់ក្បួន Machine Learning ដើម្បីតាមដានលំហូរទិន្នន័យជាប្រចាំ ហើយវាស់ស្ទង់រកមើលអាកប្បកិរិយា ឬទិន្នន័យណាដែលលោតខុសឆ្ងាយពីសកម្មភាពប្រក្រតី ដើម្បីប្រកាសអាសន្នពីការវាយប្រហារតាមសាយប័រ។ ដូចជាសន្តិសុខយាមទ្វារដែលចាំសង្កេតមើលភ្ញៀវចូលរួមកម្មវិធី ហើយឃាត់សួរអ្នកណាដែលស្លៀកពាក់ ឬមានអាកប្បកិរិយាគួរឱ្យសង្ស័យខុសពីភ្ញៀវទូទៅ។
Reconstruction error ជារង្វាស់គណិតវិទ្យា (ច្រើនគិតជាមធ្យមភាគការ៉េនៃកំហុស - MSE) ដែលវាស់ពីគម្លាតរវាងទិន្នន័យសេនស័រជាក់ស្តែងដែលកំពុងដើរ និងទិន្នន័យដែលម៉ូដែល AI ទស្សន៍ទាយថាគួរតែមាន។ បើគម្លាតនេះធំ មានន័យថាប្រព័ន្ធកំពុងរងការវាយប្រហារ។ ដូចជាការប្រៀបធៀបគំនូរដែលអ្នកគូរចម្លងដោយផ្អែកលើការចងចាំ ទៅនឹងរូបភាពដើមពិតប្រាកដ បើខុសគ្នាខ្លាំង មានន័យថាមានអ្វីមួយមិនប្រក្រតី។
Actuators ជាឧបករណ៍មេកានិក ឬអេឡិចត្រូនិកនៅក្នុងរោងចក្រ ដែលទទួលការបញ្ជាពីប្រព័ន្ធកុំព្យូទ័រ (Controllers) ដើម្បីធ្វើសកម្មភាពផ្លាស់ប្តូរស្ថានភាពរូបវន្តផ្ទាល់ ដូចជាការបើកសន្ទះបំពង់ទឹក ការបញ្ឆេះម៉ូទ័រ ឬការបិទកុងតាក់អគ្គិសនី។ ដូចជាដៃនិងជើងរបស់យើង ដែលធ្វើចលនាកាន់របស់របរ ឬដើរ ទៅតាមការបញ្ជារបស់ខួរក្បាល។
Saliency maps ជាវិធីសាស្ត្រ White-box ដែលមើលចូលទៅក្នុងសមីការគណិតវិទ្យាខាងក្នុងរបស់ម៉ូដែល AI ដើម្បីគូសផែនទីបង្ហាញពីអថេរ (features) ណាដែលការផ្លាស់ប្តូររបស់វាមានឥទ្ធិពលខ្លាំងជាងគេទៅលើការកើនឡើងនៃកំហុស (Error) របស់ប្រព័ន្ធទាំងមូល។ ដូចជាការប្រើកាមេរ៉ាចាប់កម្តៅ (Thermal camera) ថតមើលម៉ាស៊ីនរថយន្ត ដើម្បីដឹងភ្លាមៗថាតើផ្នែកណាខ្លះនៃម៉ាស៊ីនកំពុងឡើងកម្តៅខុសធម្មតា។
Black-box attribution ជាក្រុមនៃវិធីសាស្ត្រ (ដូចជា SHAP, LIME, LEMNA) ដែលស្វែងរកមូលហេតុនៃភាពមិនប្រក្រតី ដោយមិនចាំបាច់ដឹងពីរចនាសម្ព័ន្ធកូដខាងក្នុងរបស់ម៉ូដែល AI ឡើយ។ ពួកគេធ្វើការផ្លាស់ប្តូរទិន្នន័យបញ្ចូលបន្តិចម្តងៗ ហើយសង្កេតមើលពីរបៀបដែលលទ្ធផលប្រែប្រួល។ ដូចជាការព្យាយាមស្ទាបស្ទង់រកមើលថាតើប្រអប់បិទជិតមួយមានផ្ទុកអ្វី ដោយគ្រាន់តែចាប់អង្រួន និងស្តាប់សំឡេងតបមកវិញ ដោយមិនបាច់បើកប្រអប់មើលខាងក្នុង។
AvgRank ជារង្វាស់ដែលវាស់ពីទីតាំងមធ្យមនៃឧបករណ៍ដែលត្រូវគេវាយប្រហារ នៅក្នុងបញ្ជីចំណាត់ថ្នាក់ពិន្ទុអាក្រក់បំផុត (Attribution score) ធៀបនឹងចំនួនឧបករណ៍សរុប។ បើពិន្ទុ AvgRank កាន់តែទាប (កៀកនឹង ០) មានន័យថាវិធីសាស្ត្រនោះកាន់តែច្បាស់លាស់ក្នុងការចង្អុលបង្ហាញកន្លែងត្រូវវាយប្រហារ។ ដូចជាចំណាត់ថ្នាក់របស់សិស្សប្រចាំថ្នាក់ដែរ បើទទួលបានលេខរៀងមធ្យមកាន់តែតូច (ឧទាហរណ៍ លេខ២ ឬលេខ៣) មានន័យថាសិស្សនោះរៀនកាន់តែពូកែ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖