Original Title: Enhancing Intrusion Detection with Explainable AI: A Transparent Approach to Network Security
Source: doi.org/10.2478/cait-2024-0006
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការលើកកម្ពស់ការរកឃើញការចូលលុកលុយជាមួយនឹង AI ដែលអាចពន្យល់បាន៖ អភិក្រមប្រកបដោយតម្លាភាពចំពោះសន្តិសុខបណ្តាញ

ចំណងជើងដើម៖ Enhancing Intrusion Detection with Explainable AI: A Transparent Approach to Network Security

អ្នកនិពន្ធ៖ Seshu Bhavani Mallampati (VIT-AP University), Hari Seetha (VIT-AP University)

ឆ្នាំបោះពុម្ព៖ 2024 CYBERNETICS AND INFORMATION TECHNOLOGIES

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធរកឃើញការចូលលុកលុយ (Intrusion Detection Systems - IDS) ច្រើនតែដំណើរការមិនសូវបានល្អដោយសារតែអតុល្យភាពទិន្នន័យ ការមានលក្ខណៈពិសេសដែលមិនពាក់ព័ន្ធច្រើន និងកង្វះតម្លាភាពអំពីរបៀបដែលម៉ូដែលធ្វើការសម្រេចចិត្ត (Black-box nature)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយដោយរួមបញ្ចូលការរៀបចំទិន្នន័យ ការជ្រើសរើសលក្ខណៈពិសេស និងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Proposed Model (PCIG-SFFS-LGBM with k-Means SMOTE)
ម៉ូដែលដែលបានស្នើឡើង (LGBM ជាមួយការជ្រើសរើសលក្ខណៈពិសេសចម្រុះ និងការថ្លឹងទិន្នន័យ)
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ខ្លាំង ប្រើប្រាស់លក្ខណៈពិសេសតិច (ត្រឹមតែ 5 ទៅ 7) និងមានតម្លាភាពដោយសារមានការបកស្រាយពី SHAP ។ ត្រូវការពេលវេលា និងធនធានកុំព្យូទ័រគួរសម ក្នុងដំណាក់កាលជ្រើសរើសលក្ខណៈពិសេសតាមបែប SFFS ប្រសិនបើទិន្នន័យមានទំហំធំខ្លាំង។ ទទួលបានភាពត្រឹមត្រូវ 99.98% (CICIDS-2017) និង 90.71% (UNSW-NB15) ព្រមទាំងមានការពន្យល់ម៉ូដែល (XAI) យ៉ាងច្បាស់លាស់។
Base Random Forest (RF) - Unbalanced Data
ម៉ូដែល Random Forest (RF) ដើម (មិនមានការថ្លឹងទិន្នន័យ)
ងាយស្រួលក្នុងការអនុវត្ត និងអាចចាប់យកទំនាក់ទំនងនៃទិន្នន័យដែលមិនលីនេអ៊ែរ (Non-linear) បានល្អ។ ដំណើរការខ្សោយខ្លាំងនៅពេលទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data) និងត្រូវការពេលវេលាបង្ហាត់យូរជាងគេ។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ 52.61% លើសំណុំទិន្នន័យ UNSW-NB15 និងចំណាយពេលបង្ហាត់រហូតដល់ 20.04 វិនាទី។
Base Decision Tree (DT) - Balanced Data with FS
ម៉ូដែល Decision Tree (DT) (មានការថ្លឹងទិន្នន័យ និងជ្រើសរើសលក្ខណៈពិសេស)
ស៊ីពេលបង្ហាត់តិចបំផុត និងងាយយល់ពីរចនាសម្ព័ន្ធនៃការសម្រេចចិត្ត (Tree-based rules)។ ងាយរងនូវបញ្ហា Overfitting ប្រសិនបើមិនបានកំណត់ជម្រៅ (Max Depth) ឲ្យបានត្រឹមត្រូវ ហើយមានកម្រិតភាពត្រឹមត្រូវទាបជាង LGBM បន្តិច។ ប្រើពេលត្រឹមតែ 1.55 វិនាទី តែទទួលបានភាពត្រឹមត្រូវ 99.95% (លើ CICIDS-2017 ជាមួយលក្ខណៈពិសេសចំនួន 5)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នៅក្នុងឯកសារនេះត្រូវបានអនុវត្តដោយប្រើប្រាស់កុំព្យូទ័រប្រភេទ Workstation ដែលមានសមត្ថភាពខ្ពស់គួរសម សម្រាប់ការដំណើរការទិន្នន័យបណ្តាញដែលមានទំហំធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានវាយតម្លៃដោយប្រើប្រាស់សំណុំទិន្នន័យពីវិទ្យាស្ថានសន្តិសុខបណ្តាញនៅប្រទេសកាណាដា (CICIDS-2017) និងមន្ទីរពិសោធន៍នៅប្រទេសអូស្ត្រាលី (UNSW-NB15) ដែលជាទិន្នន័យស្តង់ដារអន្តរជាតិ។ ទោះបីជាទិន្នន័យទាំងនេះមានលក្ខណៈគ្រប់ជ្រុងជ្រោយ ប៉ុន្តែលក្ខណៈនៃចរាចរណ៍បណ្តាញ (Network Traffic) និងទម្រង់នៃការវាយប្រហារនៅប្រទេសកម្ពុជាអាចមានភាពខុសប្លែកគ្នា។ ដូច្នេះ ស្ថាប័ននៅកម្ពុជាគួរតែប្រមូលទិន្នន័យចរាចរណ៍បណ្តាញក្នុងស្រុកបន្ថែម ដើម្បីធានាថាប្រសិទ្ធភាពម៉ូដែលនេះឆ្លើយតបនឹងបរិបទជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការត្រួតពិនិត្យ និងពន្យល់ពីការវាយប្រហារបណ្តាញនេះ មានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ស្របពេលដែលការគំរាមកំហែងសន្តិសុខសាយប័រមានការកើនឡើងគួរឲ្យកត់សម្គាល់។

សរុបមក ការរួមបញ្ចូលគ្នារវាងម៉ូដែល Machine Learning ល្បឿនលឿន (LGBM) និង AI ដែលអាចពន្យល់បាន (SHAP) នឹងជួយបង្កើនទំនុកចិត្តដល់អ្នកជំនាញសន្តិសុខបណ្តាញនៅកម្ពុជា ក្នុងការឆ្លើយតបទៅនឹងការគំរាមកំហែងបានយ៉ាងឆាប់រហ័សនិងច្បាស់លាស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងស្វែងយល់ពីទិន្នន័យចរាចរណ៍បណ្តាញ: ទាញយកសំណុំទិន្នន័យស្តង់ដារដូចជា CICIDS-2017 ដើម្បីសិក្សាពីទម្រង់ ឬប្រើប្រាស់ឧបករណ៍ដូចជា Wireshark ដើម្បីចាប់យកកំណត់ហេតុបណ្តាញ (Network Logs) ពីម៉ាស៊ីនមេក្នុងស្រុកសម្រាប់ធ្វើការវិភាគ។
  2. សម្អាតទិន្នន័យ និងដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ (Class Imbalance): លុបចោលទិន្នន័យស្ទួន និងតម្លៃទទេ (Missing Values) ដោយប្រើ KNN Imputation រួចអនុវត្តបច្ចេកទេស k-Means SMOTE ក្នុង Python imbalanced-learn ដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ប្រភេទការវាយប្រហារដែលកម្រ។
  3. អនុវត្តការជ្រើសរើសលក្ខណៈពិសេសចម្រុះ (Hybrid Feature Selection): សរសេរកូដប្រើប្រាស់ Pearson Correlation និង Mutual Information ដើម្បីជម្រុះចោលលក្ខណៈដែលមិនពាក់ព័ន្ធ បន្ទាប់មកប្រើប្រាស់ SFFS (Sequential Forward Floating Selection) ពីបណ្ណាល័យ mlxtend ដើម្បីស្វែងរកលក្ខណៈពិសេស (Features) ដ៏ល្អបំផុត។
  4. បង្ហាត់ម៉ូដែល និងកំណត់ប៉ារ៉ាម៉ែត្រ (Train and Tune Model): ប្រើប្រាស់ក្បួន LightGBM សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ (Classification) ដោយធ្វើការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter Tuning) តាមរយៈក្បួន RandomizedSearchCV ដើម្បីស្វែងរកកម្រិតអតិបរមានៃភាពត្រឹមត្រូវ។
  5. ពន្យល់ពីលទ្ធផលម៉ូដែលដោយប្រើ XAI: ដំឡើងកញ្ចប់ SHAP (SHapley Additive exPlanations) ដើម្បីបង្កើតក្រាហ្វិកដូចជា Summary Plot សម្រាប់មើលឥទ្ធិពលរួម និង Force Plot ដើម្បីពន្យល់ថាតើលក្ខណៈពិសេសណាខ្លះដែលជំរុញឲ្យម៉ូដែលសម្រេចចិត្តថាចរាចរណ៍មួយនោះគឺជាការវាយប្រហារ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Explainable AI (XAI) ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផល ឬការទស្សន៍ទាយប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចពន្យល់ពីមូលហេតុ និងដំណើរការដែលនាំឱ្យមានការសម្រេចចិត្តនោះ ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន។ ដូចជាគ្រូពេទ្យម្នាក់ដែលមិនត្រឹមតែប្រាប់ថាអ្នកមានជំងឺអ្វីទេ តែថែមទាំងពន្យល់ប្រាប់ពីមូលហេតុ និងរោគសញ្ញាដែលនាំឱ្យគាត់សន្និដ្ឋានបែបនេះ។
k-Means SMOTE ជាបច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយប្រើការបែងចែកទិន្នន័យជាក្រុម (Clustering) រួចបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលខ្វះខាត ដើម្បីកុំឱ្យម៉ូដែលរៀនលម្អៀងទៅរកតែទិន្នន័យដែលមានច្រើន។ ដូចជាការថតចម្លងឯកសារសៀវភៅដែលកម្រមាន ទុកចែកឱ្យសិស្សានុសិស្សអាន ដើម្បីឱ្យមានតុល្យភាពជាមួយសៀវភៅដែលមានច្រើនស្រាប់នៅលើទីផ្សារ។
Light Gradient Boosting Machine (LGBM) ជាក្បួន Machine Learning ប្រភេទដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានល្បឿនលឿន និងប្រើប្រាស់អង្គចងចាំតិច ក្នុងការរៀនពីទិន្នន័យដែលមានទំហំធំ ដោយវាបំបែកមែកធាងតាមស្លឹក (Leaf-wise split) ដើម្បីស្វែងរកភាពត្រឹមត្រូវខ្ពស់ជាងមុន។ ដូចជាអ្នករៀបចំសៀវភៅក្នុងបណ្ណាល័យដ៏ចំណានម្នាក់ ដែលចេះបែងចែកប្រភេទសៀវភៅរាប់ម៉ឺនក្បាលបានយ៉ាងលឿន និងរក្សាទុកក្នុងកន្លែងតូចៗបានយ៉ាងមានសណ្តាប់ធ្នាប់។
SHapley Additive exPlanation (SHAP) ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងទ្រឹស្តីល្បែង (Game Theory) ដែលត្រូវបានប្រើដើម្បីគណនា និងពន្យល់ពីទម្ងន់ ឬការចូលរួមចំណែកនៃលក្ខណៈពិសេស (Feature) នីមួយៗក្នុងការសម្រេចចិត្តរបស់ម៉ូដែល Machine Learning។ ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករក្នុងក្រុមបាល់ទាត់ម្នាក់ៗ ទៅតាមទំហំនៃការប្រឹងប្រែង និងការស៊ុតបញ្ចូលទីដែលពួកគេម្នាក់ៗបានធ្វើ។
Sequential Forward Floating Selection (SFFS) ជាក្បួនជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ដែលធ្វើការបន្ថែមលក្ខណៈពិសេសល្អៗម្តងមួយៗចូលទៅក្នុងក្រុម ហើយអាចដកវាចេញវិញនៅពេលក្រោយប្រសិនបើវាលែងមានប្រយោជន៍ ដើម្បីរក្សាតែលក្ខណៈពិសេសដែលល្អបំផុតសម្រាប់ម៉ូដែល។ ដូចជាការជ្រើសរើសកីឡាករចូលក្រុមជម្រើសជាតិ ដោយហៅចូលម្តងម្នាក់ៗ ហើយអាចដកកីឡាករចាស់ៗចេញវិញបើកីឡាករថ្មីមានទម្រង់លេងស៊ីចង្វាក់គ្នាជាង។
Intrusion Detection System (IDS) ជាប្រព័ន្ធសុវត្ថិភាពដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញកុំព្យូទ័រជាប្រចាំ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារចូលលួចទិន្នន័យ និងរាយការណ៍ប្រាប់អ្នកគ្រប់គ្រងប្រព័ន្ធ។ ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរោទិ៍នៅក្នុងផ្ទះ ដែលចាំចាប់សញ្ញាចោរលួចចូល ហើយបន្លឺសំឡេងប្រកាសអាសន្ន។
Mutual Information (MI) ជាការវាស់ស្ទង់ក្នុងទ្រឹស្តីព័ត៌មាន (Information Theory) ដើម្បីដឹងថាអថេរពីរមានទំនាក់ទំនងគ្នាកម្រិតណា ពោលគឺបើដឹងព័ត៌មានពីអថេរមួយ តើវាជួយឱ្យយើងកាត់បន្ថយភាពមិនច្បាស់លាស់ពីអថេរមួយទៀតបានកម្រិតណា។ ដូចជាការដឹងពីសីតុណ្ហភាពខាងក្រៅ ដែលអាចប្រាប់យើងយ៉ាងច្បាស់ថាតើយើងគួរពាក់អាវរងាឬអត់។
Imbalance Ratio (IR) ជារង្វាស់ដែលបង្ហាញពីភាពខុសគ្នា ឬអតុល្យភាពរវាងចំនួនទិន្នន័យក្នុងថ្នាក់ភាគច្រើន (Majority Class) និងថ្នាក់ភាគតិច (Minority Class) ដែលទិន្នន័យនេះអាចធ្វើឱ្យម៉ូដែលទស្សន៍ទាយលម្អៀង។ ដូចជាការប្រកួតកីឡាដែលមានអ្នកគាំទ្រក្រុម A ចំនួន ១០០០ នាក់ និងអ្នកគាំទ្រក្រុម B តែ ១០ នាក់ ដែលធ្វើឱ្យសំឡេងគាំទ្រមិនមានតុល្យភាពគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖