Original Title: Machine Learning Approaches and Explainability for Real-Time Cyberattack Detection
Source: doi.org/10.1007/s11276-022-03214-3
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន និងការពន្យល់បានសម្រាប់ការរកឃើញការវាយប្រហារតាមអ៊ីនធឺណិតក្នុងពេលវេលាជាក់ស្តែង

ចំណងជើងដើម៖ Machine Learning Approaches and Explainability for Real-Time Cyberattack Detection

អ្នកនិពន្ធ៖ Inés Ortega Fernández, Juan Carlos Burguillo Rial, Marta Sestelo Pérez

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បណ្តាញប្រព័ន្ធគ្រប់គ្រងឧស្សាហកម្មឆ្លាតវៃ (Industry 4.0) កំពុងប្រឈមមុខនឹងការគំរាមកំហែងនៃការវាយប្រហារតាមអ៊ីនធឺណិតកាន់តែខ្លាំងឡើង ជាពិសេសការវាយប្រហារប្រភេទបដិសេធសេវាកម្ម (DoS) ដែលតម្រូវឱ្យមានប្រព័ន្ធរកឃើញដែលអាចដំណើរការក្នុងពេលវេលាជាក់ស្តែងដោយមិនរំខានដល់ប្រតិបត្តិការ។ បន្ថែមពីនេះ ម៉ូដែល Deep Learning ភាគច្រើនមានភាពស្មុគស្មាញ ដែលធ្វើឱ្យពិបាកក្នុងការពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តរបស់ប្រព័ន្ធ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន (Machine Learning) ទាំងទម្រង់មានការត្រួតពិនិត្យ និងគ្មានការត្រួតពិនិត្យ ដើម្បីបង្កើតប្រព័ន្ធរកឃើញការឈ្លានពាន (IDS) ព្រមទាំងអភិវឌ្ឍក្របខណ្ឌសម្រាប់ភាពអាចពន្យល់បាននៃបណ្តាញសរសៃប្រសាទដោយខ្លួនឯង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Deep Autoencoder (Proposed NIDS)
ម៉ូដែល Deep Autoencoder (ប្រព័ន្ធ NIDS ដែលបានស្នើ)
មានសមត្ថភាពខ្ពស់ក្នុងការរកឃើញភាពមិនប្រក្រតីដោយមិនមានការត្រួតពិនិត្យ (Unsupervised) ធន់នឹងទិន្នន័យដែលមិនមានតុល្យភាព និងងាយស្រួលដាក់ឱ្យប្រើប្រាស់ដោយពឹងផ្អែកលើលំហូរទិន្នន័យ (Network flows)។ ទោះបីជាមានភាពត្រឹមត្រូវខ្ពស់ ក៏នៅតែមានការរាយការណ៍ខុស (False alarms) តិចតួចនៅពេលអនុវត្តក្នុងបរិស្ថានពិតធៀបនឹងទ្រឹស្តីគណិតវិទ្យាសុទ្ធ។ សម្រេចបានអត្រាវិជ្ជមានមិនពិត (FPR) ទាបបំផុតត្រឹម 0.0005% លើទិន្នន័យរោងចក្រពិត និងមានតម្លៃ AUC-ROC ខ្ពស់ជាង 0.96 លើទិន្នន័យស្រាវជ្រាវ។
Isolation Forest (Baseline)
ម៉ូដែល Isolation Forest (វិធីសាស្ត្រមូលដ្ឋាន)
ជាវិធីសាស្ត្រស្តង់ដារដែលងាយស្រួលប្រើសម្រាប់ការរកឃើញភាពមិនប្រក្រតីនៃទិន្នន័យដោយមិនមានការត្រួតពិនិត្យ និងអាចដោះស្រាយទិន្នន័យមានវិមាត្រច្រើន។ មានអត្រាអវិជ្ជមានមិនពិត (False Negative) ខ្ពស់ និងមានភាពទន់ខ្សោយខ្លាំងក្នុងការដោះស្រាយជាមួយទិន្នន័យដែលមិនមានតុល្យភាពជម្រៅ។ ពិន្ទុ AUC-PR ធ្លាក់ចុះដល់ 0.154 ក្នុងករណីទិន្នន័យមិនមានតុល្យភាពខ្លាំង ដែលទាបជាងម៉ូដែល Deep Autoencoder ឆ្ងាយ។
Supervised Classifiers (RF, DT, SVM, kNN)
ចំណាត់ថ្នាក់មានការត្រួតពិនិត្យ (RF, DT, SVM, kNN)
អាចផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់នៅពេលមានទិន្នន័យដែលមានស្លាក (Labeled data) ច្បាស់លាស់សម្រាប់ការបង្ហាត់។ ទាមទារទិន្នន័យមានស្លាកដែលពិបាករកក្នុងបរិស្ថានរោងចក្រពិត និងត្រូវការទិន្នន័យស៊ីជម្រៅ (Deep Packet Inspection) ដែលស៊ីធនធានកុំព្យូទ័រខ្លាំង។ ពិន្ទុ F1-Score ធ្លាក់ចុះខ្លាំងរហូតដល់ 0.7 នៅពេលមានភាគរយទិន្នន័យនៃការវាយប្រហារទាប។
neuralGAM (Generalized Additive Neural Networks)
ក្របខណ្ឌបណ្តាញសរសៃប្រសាទ neuralGAM
អាចបកស្រាយពីមូលហេតុនៃការសម្រេចចិត្តបានយ៉ាងច្បាស់ (Fully interpretable) អាចរៀនពីទំនាក់ទំនងស្មុគស្មាញដោយមិនត្រូវការបំប្លែងទំហំទិន្នន័យជាមុន។ ត្រូវការពេលវេលាបង្ហាត់យូរជាងម៉ូដែលធម្មតា ដោយសារត្រូវបង្ហាត់បណ្តាញសរសៃប្រសាទដាច់ដោយឡែកពីគ្នាសម្រាប់អថេរ (Feature) នីមួយៗ។ ទទួលបានតម្លៃ MSE 0.7692 ស្រដៀងនឹងម៉ូដែល NAM តែមានភាពលម្អៀង (Bias) ទាបជាង និងបកស្រាយក្រាហ្វបានត្រឹមត្រូវជាងម៉ូដែល NAM។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង ប៉ុន្តែត្រូវការសមត្ថភាពខ្ពស់សម្រាប់ការបង្ហាត់ម៉ូដែល និងការដំឡើងសូហ្វវែរដើម្បីប្រមូលទិន្នន័យតាមពេលវេលាជាក់ស្តែង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសាកល្បង Cyber-security ICS ពីសាកលវិទ្យាល័យ Coimbra និងទិន្នន័យជាក់ស្តែងពីរោងចក្រម្ហូបអាហារនៅតំបន់ Galicia ប្រទេសអេស្ប៉ាញ។ ទិន្នន័យទាំងនេះឆ្លុះបញ្ចាំងពីបរិស្ថានរោងចក្រទំនើបនៅអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា ដែលភាគច្រើនប្រើប្រាស់បច្ចេកវិទ្យាចម្រុះ និងម៉ាស៊ីនជំនាន់ចាស់នៅក្នុងរោងចក្រ ការប្រមូលទិន្នន័យក្នុងស្រុកដោយផ្ទាល់ដើម្បីបង្ហាត់ម៉ូដែលគឺជារឿងចាំបាច់បំផុតដើម្បីចៀសវាងភាពលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ NIDS ដោយប្រើកញ្ចប់ទិន្នន័យលំហូរ (Network flows) នេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ដោយសារវាមានតម្លៃថោក និងមិនរំខានដល់ប្រតិបត្តិការ។

សរុបមក ការអនុវត្តវិធីសាស្ត្រ Machine Learning នេះនឹងជួយពង្រឹងសន្តិសុខសាយប័រសម្រាប់ហេដ្ឋារចនាសម្ព័ន្ធសំខាន់ៗនៅកម្ពុជា ជាមួយនឹងការវិនិយោគធនធានតិចតួច។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃការវិភាគទិន្នន័យ និងសរសេរកូដ: និស្សិតគួរចាប់ផ្តើមសិក្សាអំពីពិធីការបណ្តាញ (Network Protocols) និងរៀនសរសេរកូដ Python ជាពិសេសរៀនប្រើប្រាស់បណ្ណាល័យ TensorFlow និង Keras សម្រាប់ការបង្កើតម៉ូដែលការរៀនស៊ីជម្រៅ (Deep Learning)។
  2. អនុវត្តការប្រមូលទិន្នន័យបណ្តាញ (Network Traffic Collection): សាកល្បងដំឡើង និងប្រើប្រាស់ឧបករណ៍អូផេនស៊ស (Open-source tools) ដូចជា Argus, Fluentd និង Apache Kafka ដើម្បីចាប់យកនិងបំប្លែងទិន្នន័យ (Network Flows) ពីបណ្តាញអ៊ីនធឺណិតក្នុងមន្ទីរពិសោធន៍។
  3. សាកល្បងបង្កើតប្រព័ន្ធ NIDS ជាមួយទិន្នន័យស្តង់ដារ: ទាញយកសំណុំទិន្នន័យ Cyber-security ICS dataset របស់សាកលវិទ្យាល័យ Coimbra មកបង្ហាត់ម៉ូដែល Deep Autoencoder ផ្ទាល់ខ្លួន ដើម្បីស្វែងយល់ពីរបៀបកំណត់កម្រិត Threshold និងគណនាអត្រាជោគជ័យ (AUC-ROC)។
  4. សិក្សាពីភាពអាចពន្យល់បាននៃ AI តាមរយៈកញ្ចប់សូហ្វវែរថ្មី: ដំឡើងនិងអនុវត្តកញ្ចប់ neuralGAM នៅក្នុងភាសា R ដើម្បីស្វែងយល់ពីគោលការណ៍ Explainable AI តាមរយៈការបង្កើតក្រាហ្វវិភាគឥទ្ធិពលនៃអថេរនីមួយៗ (Partial effect plots) លើលទ្ធផលចុងក្រោយ។
  5. អនុវត្តគម្រោងស្រាវជ្រាវខ្នាតតូចក្នុងបរិស្ថានកម្ពុជា: បង្កើតគម្រោងសហការជាមួយសាកលវិទ្យាល័យ ឬក្រុមហ៊ុនក្នុងស្រុក ដើម្បីប្រមូលទិន្នន័យពិតប្រាកដ និងសាកល្បងសមត្ថភាពម៉ូដែលក្នុងការរកឃើញការវាយប្រហារប្រភេទ DoS ក្លែងក្លាយនៅក្នុងប្រព័ន្ធបណ្តាញកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Deep Autoencoder វាគឺជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលរៀនបង្រួមទិន្នន័យ (encode) ហើយព្យាយាមបង្កើតទិន្នន័យនោះឡើងវិញ (decode) ឱ្យដូចដើម។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីរៀនពីទម្រង់ចរាចរណ៍បណ្តាញធម្មតា ហើយនៅពេលមានការវាយប្រហារ វានឹងមិនអាចបង្កើតទិន្នន័យនោះឡើងវិញបានត្រឹមត្រូវទេ ដែលជួយឱ្យប្រព័ន្ធចាប់បាននូវភាពមិនប្រក្រតីនោះ។ ដូចជាមនុស្សម្នាក់ដែលរៀនគូររូបថតមួយសន្លឹកដោយមើលតែចំណុចសំខាន់ៗ ប្រសិនបើរូបថតនោះជារូបចម្លែកដែលគេមិនធ្លាប់ស្គាល់ គេនឹងគូរខុសច្រើនមិនខាន។
Generalized Additive Neural Networks (GANN) វាគឺជាទម្រង់នៃបណ្តាញសរសៃប្រសាទដែលបំបែកការរៀនសូត្រទៅជាបណ្តាញតូចៗដាច់ដោយឡែកពីគ្នាសម្រាប់អថេរ (feature) នីមួយៗ រួចបូកបញ្ចូលលទ្ធផលបញ្ជូលគ្នា។ វិធីនេះជួយឱ្យអ្នកប្រើប្រាស់អាចមើលឃើញច្បាស់ពីកម្រិតនៃឥទ្ធិពលរបស់កត្តានីមួយៗទៅលើលទ្ធផលចុងក្រោយ ដោយដោះស្រាយបញ្ហាប្រអប់ខ្មៅ (black-box) របស់ AI។ ដូចជាការវាយតម្លៃសិស្សដោយគ្រូ៥នាក់ផ្សេងគ្នាលើមុខវិជ្ជា៥ផ្សេងគ្នា រួចយកពិន្ទុមករួមបញ្ចូលគ្នានៅចុងក្រោយ ដែលធ្វើឱ្យយើងដឹងច្បាស់ថាសិស្សពូកែឬខ្សោយដោយសារមុខវិជ្ជាមួយណា។
Distributed Denial of Service (DDoS) គឺជាប្រភេទនៃការវាយប្រហារតាមអ៊ីនធឺណិតដែលប្រើប្រាស់កុំព្យូទ័រឬឧបករណ៍ជាច្រើនគ្រឿងក្នុងពេលតែមួយ ដើម្បីបញ្ជូនទិន្នន័យទៅកាន់ប្រព័ន្ធគោលដៅក្នុងបរិមាណដ៏ច្រើនលើសលប់ ធ្វើឱ្យប្រព័ន្ធគាំង អស់ធនធាន និងមិនអាចបម្រើសេវាដល់អ្នកប្រើប្រាស់ធម្មតាបាន។ ដូចជាការរៀបចំមនុស្សរាប់ពាន់នាក់ឱ្យតេទៅលេខទូរស័ព្ទរបស់ហាងមួយក្នុងពេលតែមួយ ធ្វើឱ្យអតិថិជនពិតប្រាកដតេមិនចូលដោយសារទូរស័ព្ទរវល់រហូត។
Reconstruction Error គឺជារង្វាស់គណិតវិទ្យាដែលវាស់ពីភាពខុសគ្នារវាងទិន្នន័យដើមដែលបានបញ្ចូលទៅក្នុងម៉ូដែល Autoencoder និងទិន្នន័យថ្មីដែលម៉ូដែលនោះបង្កើតឡើងវិញ។ នៅក្នុងប្រព័ន្ធ IDS ប្រសិនបើតម្លៃនៃកំហុសនេះខ្ពស់ វាបញ្ជាក់ថាទិន្នន័យនោះមានភាពមិនប្រក្រតី ឬជាការវាយប្រហារដែលម៉ូដែលមិនធ្លាប់បានរៀនពីមុនមក។ ដូចជាការឱ្យសិស្សចម្លងអត្ថបទមួយ ប្រសិនបើកំហុសអក្ខរាវិរុទ្ធមានច្រើនទំហំធំ មានន័យថាសិស្សនោះមិនធ្លាប់ស្គាល់ពាក្យទាំងនោះពីមុនមកទេ។
Network flows គឺជាទិន្នន័យស្ថិតិដែលពិពណ៌នាអំពីការភ្ជាប់ទំនាក់ទំនងក្នុងបណ្តាញកុំព្យូទ័រ (ដូចជាអាសយដ្ឋាន IP ទំហំទិន្នន័យ និងរយៈពេលនៃការតភ្ជាប់) ដោយមិនចាំបាច់បើកមើលខ្លឹមសារខាងក្នុងនៃកញ្ចប់ទិន្នន័យ (packet payload) នោះទេ។ វាជួយឱ្យការវិភាគរកការវាយប្រហារប្រព្រឹត្តទៅបានលឿនជាងមុន ដោយមិនស៊ីធនធានកុំព្យូទ័រច្រើន។ ដូចជាការមើលតែព័ត៌មាននៅលើស្រោមសំបុត្រ (អ្នកផ្ញើ អ្នកទទួល ទម្ងន់) ដើម្បីវិភាគរកភាពមិនប្រក្រតី ដោយមិនចាំបាច់ហែកសំបុត្រអានសាច់រឿងខាងក្នុង។
Ante-hoc interpretability សំដៅលើការរចនាម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលមានតម្លាភាពពីកំណើត ពោលគឺរចនាសម្ព័ន្ធរបស់វាត្រូវបានរៀបចំឡើងដើម្បីឱ្យមនុស្សអាចមើលយល់ពីរបៀបដែលវាធ្វើសេចក្តីសម្រេចចិត្តបានដោយផ្ទាល់ ដោយមិនចាំបាច់ប្រើឧបករណ៍ស្រង់ទិន្នន័យមកពន្យល់ពីក្រោយនោះទេ។ ដូចជាម៉ាស៊ីនដែលធ្វើពីកញ្ចក់ថ្លា ដែលយើងអាចមើលឃើញធ្មេញកង់រវៃនៅខាងក្នុងច្បាស់លាស់ ផ្ទុយពីម៉ាស៊ីនប្រអប់ខ្មៅដែលយើងមិនដឹងថាវាដំណើរការយ៉ាងម៉េច។
Industrial Control Systems (ICS) គឺជាបណ្តាញនៃប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់សម្រាប់គ្រប់គ្រង ត្រួតពិនិត្យ និងដំណើរការគ្រឿងម៉ាស៊ីនស្វ័យប្រវត្តិនៅក្នុងរោងចក្រ ស្ថានីយអគ្គិសនី ឬហេដ្ឋារចនាសម្ព័ន្ធធំៗ។ ការការពារប្រព័ន្ធនេះមានសារៈសំខាន់ណាស់ ព្រោះការវាយប្រហារអាចបង្កឱ្យមានការខូចខាតដល់ឧបករណ៍រូបវន្តនៅរោងចក្រផ្ទាល់តែម្តង។ ដូចជាខួរក្បាលអេឡិចត្រូនិចដែលបញ្ជាដៃជើងយន្តនៅក្នុងរោងចក្រឱ្យធ្វើការផលិតដោយស្វ័យប្រវត្តិ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖