Original Title: Enhancing Intrusion Detection with Explainable AI: A Transparent Approach to Network Security
Source: doi.org/10.2478/cait-2024-0006
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការលើកកម្ពស់ការរកឃើញការចូលលុកលុយជាមួយនឹង AI ដែលអាចពន្យល់បាន៖ អភិក្រមប្រកបដោយតម្លាភាពចំពោះសន្តិសុខបណ្តាញ

ចំណងជើងដើម៖ Enhancing Intrusion Detection with Explainable AI: A Transparent Approach to Network Security

អ្នកនិពន្ធ៖ Seshu Bhavani Mallampati (VIT-AP University), Hari Seetha (VIT-AP University)

ឆ្នាំបោះពុម្ព៖ 2024 CYBERNETICS AND INFORMATION TECHNOLOGIES

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធរកឃើញការចូលលុកលុយ (Intrusion Detection Systems - IDS) ច្រើនតែដំណើរការមិនសូវបានល្អដោយសារតែអតុល្យភាពទិន្នន័យ ការមានលក្ខណៈពិសេសដែលមិនពាក់ព័ន្ធច្រើន និងកង្វះតម្លាភាពអំពីរបៀបដែលម៉ូដែលធ្វើការសម្រេចចិត្ត (Black-box nature)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយដោយរួមបញ្ចូលការរៀបចំទិន្នន័យ ការជ្រើសរើសលក្ខណៈពិសេស និងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI)។

ការដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យដោយប្រើបច្ចេកទេស k-Means SMOTE (Handling Imbalance)
ការជ្រើសរើសលក្ខណៈពិសេសចម្រុះដោយប្រើក្បួន PCIG-SFFS-LGBM (Hybrid Feature Selection)
ការចាត់ថ្នាក់ទិន្នន័យដោយប្រើម៉ូដែល Light Gradient Boosting Machine (LGBM Classification)
ការបកស្រាយពីដំណើរការសម្រេចចិត្តរបស់ម៉ូដែលដោយប្រើ SHAP (SHAP Explainability)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានស្នើឡើងទទួលបានភាពត្រឹមត្រូវរហូតដល់ 90.71% និងពិន្ទុ F1-score 91.64% ដោយប្រើលក្ខណៈពិសេសល្អបំផុតចំនួន 7 លើសំណុំទិន្នន័យ UNSW-NB15។
សម្រាប់សំណុំទិន្នន័យ CICIDS-2017 ម៉ូដែលនេះសម្រេចបានភាពត្រឹមត្រូវ 99.98% និងពិន្ទុ F1-score 99.98% ជាមួយនឹងលក្ខណៈពិសេសល្អបំផុតចំនួនត្រឹមតែ 5 ប៉ុណ្ណោះ។
ការប្រើប្រាស់បច្ចេកទេស SHAP (SHapley Additive exPlanation) អាចផ្តល់ការពន្យល់យ៉ាងច្បាស់ទាំងក្នុងកម្រិតសកល និងកម្រិតមូលដ្ឋានអំពីឥទ្ធិពលនៃលក្ខណៈពិសេសនីមួយៗ ក្នុងការបង្កើនតម្លាភាពនិងភាពជឿជាក់នៃប្រព័ន្ធ IDS។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Proposed Model (PCIG-SFFS-LGBM with k-Means SMOTE) ម៉ូដែលដែលបានស្នើឡើង (LGBM ជាមួយការជ្រើសរើសលក្ខណៈពិសេសចម្រុះ និងការថ្លឹងទិន្នន័យ)	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ខ្លាំង ប្រើប្រាស់លក្ខណៈពិសេសតិច (ត្រឹមតែ 5 ទៅ 7) និងមានតម្លាភាពដោយសារមានការបកស្រាយពី SHAP ។	ត្រូវការពេលវេលា និងធនធានកុំព្យូទ័រគួរសម ក្នុងដំណាក់កាលជ្រើសរើសលក្ខណៈពិសេសតាមបែប SFFS ប្រសិនបើទិន្នន័យមានទំហំធំខ្លាំង។	ទទួលបានភាពត្រឹមត្រូវ 99.98% (CICIDS-2017) និង 90.71% (UNSW-NB15) ព្រមទាំងមានការពន្យល់ម៉ូដែល (XAI) យ៉ាងច្បាស់លាស់។
Base Random Forest (RF) - Unbalanced Data ម៉ូដែល Random Forest (RF) ដើម (មិនមានការថ្លឹងទិន្នន័យ)	ងាយស្រួលក្នុងការអនុវត្ត និងអាចចាប់យកទំនាក់ទំនងនៃទិន្នន័យដែលមិនលីនេអ៊ែរ (Non-linear) បានល្អ។	ដំណើរការខ្សោយខ្លាំងនៅពេលទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data) និងត្រូវការពេលវេលាបង្ហាត់យូរជាងគេ។	សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ 52.61% លើសំណុំទិន្នន័យ UNSW-NB15 និងចំណាយពេលបង្ហាត់រហូតដល់ 20.04 វិនាទី។
Base Decision Tree (DT) - Balanced Data with FS ម៉ូដែល Decision Tree (DT) (មានការថ្លឹងទិន្នន័យ និងជ្រើសរើសលក្ខណៈពិសេស)	ស៊ីពេលបង្ហាត់តិចបំផុត និងងាយយល់ពីរចនាសម្ព័ន្ធនៃការសម្រេចចិត្ត (Tree-based rules)។	ងាយរងនូវបញ្ហា Overfitting ប្រសិនបើមិនបានកំណត់ជម្រៅ (Max Depth) ឲ្យបានត្រឹមត្រូវ ហើយមានកម្រិតភាពត្រឹមត្រូវទាបជាង LGBM បន្តិច។	ប្រើពេលត្រឹមតែ 1.55 វិនាទី តែទទួលបានភាពត្រឹមត្រូវ 99.95% (លើ CICIDS-2017 ជាមួយលក្ខណៈពិសេសចំនួន 5)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នៅក្នុងឯកសារនេះត្រូវបានអនុវត្តដោយប្រើប្រាស់កុំព្យូទ័រប្រភេទ Workstation ដែលមានសមត្ថភាពខ្ពស់គួរសម សម្រាប់ការដំណើរការទិន្នន័យបណ្តាញដែលមានទំហំធំ។

Hardware: ត្រូវការម៉ាស៊ីន Workstation ដែលមាន RAM 64 GB និងស៊ីភីយូ Intel Xeon E-3 1271 ល្បឿន 3.6 GHz ដំណើរការលើប្រព័ន្ធប្រតិបត្តិការ Windows 64-bit។
Software: ត្រូវការភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា sklearn (សម្រាប់ Machine Learning និង Feature Selection) និងកញ្ចប់ SHAP សម្រាប់ពន្យល់ពីម៉ូដែល (Explainable AI)។
Dataset: សំណុំទិន្នន័យសាធារណៈ CICIDS-2017 (មានផ្ទុកកំណត់ត្រាជាង 1.4 លាន) និង UNSW-NB15 ដែលត្រូវការទំហំផ្ទុកទិន្នន័យ និងសតិ (RAM) គ្រប់គ្រាន់ដើម្បីដំណើរការ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានវាយតម្លៃដោយប្រើប្រាស់សំណុំទិន្នន័យពីវិទ្យាស្ថានសន្តិសុខបណ្តាញនៅប្រទេសកាណាដា (CICIDS-2017) និងមន្ទីរពិសោធន៍នៅប្រទេសអូស្ត្រាលី (UNSW-NB15) ដែលជាទិន្នន័យស្តង់ដារអន្តរជាតិ។ ទោះបីជាទិន្នន័យទាំងនេះមានលក្ខណៈគ្រប់ជ្រុងជ្រោយ ប៉ុន្តែលក្ខណៈនៃចរាចរណ៍បណ្តាញ (Network Traffic) និងទម្រង់នៃការវាយប្រហារនៅប្រទេសកម្ពុជាអាចមានភាពខុសប្លែកគ្នា។ ដូច្នេះ ស្ថាប័ននៅកម្ពុជាគួរតែប្រមូលទិន្នន័យចរាចរណ៍បណ្តាញក្នុងស្រុកបន្ថែម ដើម្បីធានាថាប្រសិទ្ធភាពម៉ូដែលនេះឆ្លើយតបនឹងបរិបទជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការត្រួតពិនិត្យ និងពន្យល់ពីការវាយប្រហារបណ្តាញនេះ មានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ស្របពេលដែលការគំរាមកំហែងសន្តិសុខសាយប័រមានការកើនឡើងគួរឲ្យកត់សម្គាល់។

វិស័យហិរញ្ញវត្ថុ និងធនាគារ (Financial and Banking Sector): ធនាគារជាតិ និងធនាគារពាណិជ្ជនៅកម្ពុជាអាចប្រើប្រាស់ XAI-IDS នេះដើម្បីតាមដាន និងការពារប្រព័ន្ធទូទាត់ប្រាក់ពីការជ្រៀតចូល ដោយអាចដឹងច្បាស់ពីមូលហេតុនៃការវាយប្រហារតាមរយៈ SHAP។
រាជរដ្ឋាភិបាលឌីជីថល (Digital Government - MPTC): ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ ឬស្ថាប័នរដ្ឋាភិបាលផ្សេងៗ អាចអនុវត្តប្រព័ន្ធនេះដើម្បីការពារហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យជាតិ ធានាបាននូវតម្លាភាពក្នុងការស៊ើបអង្កេតប្រភពនៃការវាយប្រហារ។
ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិត (ISPs & Telecom): ក្រុមហ៊ុនដូចជា Cellcard, Smart ឬ Ezecom អាចប្រើប្រាស់ម៉ូដែល LGBM ដ៏លឿននេះ ដើម្បីត្រង និងទប់ស្កាត់ចរាចរណ៍បណ្តាញខុសប្រក្រតី (Malicious Traffic) ក្នុងល្បឿនលឿនជាក់ស្តែង (Real-time)។

សរុបមក ការរួមបញ្ចូលគ្នារវាងម៉ូដែល Machine Learning ល្បឿនលឿន (LGBM) និង AI ដែលអាចពន្យល់បាន (SHAP) នឹងជួយបង្កើនទំនុកចិត្តដល់អ្នកជំនាញសន្តិសុខបណ្តាញនៅកម្ពុជា ក្នុងការឆ្លើយតបទៅនឹងការគំរាមកំហែងបានយ៉ាងឆាប់រហ័សនិងច្បាស់លាស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងស្វែងយល់ពីទិន្នន័យចរាចរណ៍បណ្តាញ: ទាញយកសំណុំទិន្នន័យស្តង់ដារដូចជា CICIDS-2017 ដើម្បីសិក្សាពីទម្រង់ ឬប្រើប្រាស់ឧបករណ៍ដូចជា Wireshark ដើម្បីចាប់យកកំណត់ហេតុបណ្តាញ (Network Logs) ពីម៉ាស៊ីនមេក្នុងស្រុកសម្រាប់ធ្វើការវិភាគ។
សម្អាតទិន្នន័យ និងដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ (Class Imbalance): លុបចោលទិន្នន័យស្ទួន និងតម្លៃទទេ (Missing Values) ដោយប្រើ KNN Imputation រួចអនុវត្តបច្ចេកទេស k-Means SMOTE ក្នុង Python imbalanced-learn ដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ប្រភេទការវាយប្រហារដែលកម្រ។
អនុវត្តការជ្រើសរើសលក្ខណៈពិសេសចម្រុះ (Hybrid Feature Selection): សរសេរកូដប្រើប្រាស់ Pearson Correlation និង Mutual Information ដើម្បីជម្រុះចោលលក្ខណៈដែលមិនពាក់ព័ន្ធ បន្ទាប់មកប្រើប្រាស់ SFFS (Sequential Forward Floating Selection) ពីបណ្ណាល័យ mlxtend ដើម្បីស្វែងរកលក្ខណៈពិសេស (Features) ដ៏ល្អបំផុត។
បង្ហាត់ម៉ូដែល និងកំណត់ប៉ារ៉ាម៉ែត្រ (Train and Tune Model): ប្រើប្រាស់ក្បួន LightGBM សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ (Classification) ដោយធ្វើការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter Tuning) តាមរយៈក្បួន RandomizedSearchCV ដើម្បីស្វែងរកកម្រិតអតិបរមានៃភាពត្រឹមត្រូវ។
ពន្យល់ពីលទ្ធផលម៉ូដែលដោយប្រើ XAI: ដំឡើងកញ្ចប់ SHAP (SHapley Additive exPlanations) ដើម្បីបង្កើតក្រាហ្វិកដូចជា Summary Plot សម្រាប់មើលឥទ្ធិពលរួម និង Force Plot ដើម្បីពន្យល់ថាតើលក្ខណៈពិសេសណាខ្លះដែលជំរុញឲ្យម៉ូដែលសម្រេចចិត្តថាចរាចរណ៍មួយនោះគឺជាការវាយប្រហារ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Explainable AI (XAI)	ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផល ឬការទស្សន៍ទាយប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចពន្យល់ពីមូលហេតុ និងដំណើរការដែលនាំឱ្យមានការសម្រេចចិត្តនោះ ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន។	ដូចជាគ្រូពេទ្យម្នាក់ដែលមិនត្រឹមតែប្រាប់ថាអ្នកមានជំងឺអ្វីទេ តែថែមទាំងពន្យល់ប្រាប់ពីមូលហេតុ និងរោគសញ្ញាដែលនាំឱ្យគាត់សន្និដ្ឋានបែបនេះ។
k-Means SMOTE	ជាបច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយប្រើការបែងចែកទិន្នន័យជាក្រុម (Clustering) រួចបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលខ្វះខាត ដើម្បីកុំឱ្យម៉ូដែលរៀនលម្អៀងទៅរកតែទិន្នន័យដែលមានច្រើន។	ដូចជាការថតចម្លងឯកសារសៀវភៅដែលកម្រមាន ទុកចែកឱ្យសិស្សានុសិស្សអាន ដើម្បីឱ្យមានតុល្យភាពជាមួយសៀវភៅដែលមានច្រើនស្រាប់នៅលើទីផ្សារ។
Light Gradient Boosting Machine (LGBM)	ជាក្បួន Machine Learning ប្រភេទដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានល្បឿនលឿន និងប្រើប្រាស់អង្គចងចាំតិច ក្នុងការរៀនពីទិន្នន័យដែលមានទំហំធំ ដោយវាបំបែកមែកធាងតាមស្លឹក (Leaf-wise split) ដើម្បីស្វែងរកភាពត្រឹមត្រូវខ្ពស់ជាងមុន។	ដូចជាអ្នករៀបចំសៀវភៅក្នុងបណ្ណាល័យដ៏ចំណានម្នាក់ ដែលចេះបែងចែកប្រភេទសៀវភៅរាប់ម៉ឺនក្បាលបានយ៉ាងលឿន និងរក្សាទុកក្នុងកន្លែងតូចៗបានយ៉ាងមានសណ្តាប់ធ្នាប់។
SHapley Additive exPlanation (SHAP)	ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងទ្រឹស្តីល្បែង (Game Theory) ដែលត្រូវបានប្រើដើម្បីគណនា និងពន្យល់ពីទម្ងន់ ឬការចូលរួមចំណែកនៃលក្ខណៈពិសេស (Feature) នីមួយៗក្នុងការសម្រេចចិត្តរបស់ម៉ូដែល Machine Learning។	ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករក្នុងក្រុមបាល់ទាត់ម្នាក់ៗ ទៅតាមទំហំនៃការប្រឹងប្រែង និងការស៊ុតបញ្ចូលទីដែលពួកគេម្នាក់ៗបានធ្វើ។
Sequential Forward Floating Selection (SFFS)	ជាក្បួនជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ដែលធ្វើការបន្ថែមលក្ខណៈពិសេសល្អៗម្តងមួយៗចូលទៅក្នុងក្រុម ហើយអាចដកវាចេញវិញនៅពេលក្រោយប្រសិនបើវាលែងមានប្រយោជន៍ ដើម្បីរក្សាតែលក្ខណៈពិសេសដែលល្អបំផុតសម្រាប់ម៉ូដែល។	ដូចជាការជ្រើសរើសកីឡាករចូលក្រុមជម្រើសជាតិ ដោយហៅចូលម្តងម្នាក់ៗ ហើយអាចដកកីឡាករចាស់ៗចេញវិញបើកីឡាករថ្មីមានទម្រង់លេងស៊ីចង្វាក់គ្នាជាង។
Intrusion Detection System (IDS)	ជាប្រព័ន្ធសុវត្ថិភាពដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញកុំព្យូទ័រជាប្រចាំ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារចូលលួចទិន្នន័យ និងរាយការណ៍ប្រាប់អ្នកគ្រប់គ្រងប្រព័ន្ធ។	ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរោទិ៍នៅក្នុងផ្ទះ ដែលចាំចាប់សញ្ញាចោរលួចចូល ហើយបន្លឺសំឡេងប្រកាសអាសន្ន។
Mutual Information (MI)	ជាការវាស់ស្ទង់ក្នុងទ្រឹស្តីព័ត៌មាន (Information Theory) ដើម្បីដឹងថាអថេរពីរមានទំនាក់ទំនងគ្នាកម្រិតណា ពោលគឺបើដឹងព័ត៌មានពីអថេរមួយ តើវាជួយឱ្យយើងកាត់បន្ថយភាពមិនច្បាស់លាស់ពីអថេរមួយទៀតបានកម្រិតណា។	ដូចជាការដឹងពីសីតុណ្ហភាពខាងក្រៅ ដែលអាចប្រាប់យើងយ៉ាងច្បាស់ថាតើយើងគួរពាក់អាវរងាឬអត់។
Imbalance Ratio (IR)	ជារង្វាស់ដែលបង្ហាញពីភាពខុសគ្នា ឬអតុល្យភាពរវាងចំនួនទិន្នន័យក្នុងថ្នាក់ភាគច្រើន (Majority Class) និងថ្នាក់ភាគតិច (Minority Class) ដែលទិន្នន័យនេះអាចធ្វើឱ្យម៉ូដែលទស្សន៍ទាយលម្អៀង។	ដូចជាការប្រកួតកីឡាដែលមានអ្នកគាំទ្រក្រុម A ចំនួន ១០០០ នាក់ និងអ្នកគាំទ្រក្រុម B តែ ១០ នាក់ ដែលធ្វើឱ្យសំឡេងគាំទ្រមិនមានតុល្យភាពគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖