បញ្ហា (The Problem)៖ ប្រព័ន្ធរកឃើញការចូលលុកលុយ (Intrusion Detection Systems - IDS) ច្រើនតែដំណើរការមិនសូវបានល្អដោយសារតែអតុល្យភាពទិន្នន័យ ការមានលក្ខណៈពិសេសដែលមិនពាក់ព័ន្ធច្រើន និងកង្វះតម្លាភាពអំពីរបៀបដែលម៉ូដែលធ្វើការសម្រេចចិត្ត (Black-box nature)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយដោយរួមបញ្ចូលការរៀបចំទិន្នន័យ ការជ្រើសរើសលក្ខណៈពិសេស និងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Proposed Model (PCIG-SFFS-LGBM with k-Means SMOTE) ម៉ូដែលដែលបានស្នើឡើង (LGBM ជាមួយការជ្រើសរើសលក្ខណៈពិសេសចម្រុះ និងការថ្លឹងទិន្នន័យ) |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ខ្លាំង ប្រើប្រាស់លក្ខណៈពិសេសតិច (ត្រឹមតែ 5 ទៅ 7) និងមានតម្លាភាពដោយសារមានការបកស្រាយពី SHAP ។ | ត្រូវការពេលវេលា និងធនធានកុំព្យូទ័រគួរសម ក្នុងដំណាក់កាលជ្រើសរើសលក្ខណៈពិសេសតាមបែប SFFS ប្រសិនបើទិន្នន័យមានទំហំធំខ្លាំង។ | ទទួលបានភាពត្រឹមត្រូវ 99.98% (CICIDS-2017) និង 90.71% (UNSW-NB15) ព្រមទាំងមានការពន្យល់ម៉ូដែល (XAI) យ៉ាងច្បាស់លាស់។ |
| Base Random Forest (RF) - Unbalanced Data ម៉ូដែល Random Forest (RF) ដើម (មិនមានការថ្លឹងទិន្នន័យ) |
ងាយស្រួលក្នុងការអនុវត្ត និងអាចចាប់យកទំនាក់ទំនងនៃទិន្នន័យដែលមិនលីនេអ៊ែរ (Non-linear) បានល្អ។ | ដំណើរការខ្សោយខ្លាំងនៅពេលទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data) និងត្រូវការពេលវេលាបង្ហាត់យូរជាងគេ។ | សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ 52.61% លើសំណុំទិន្នន័យ UNSW-NB15 និងចំណាយពេលបង្ហាត់រហូតដល់ 20.04 វិនាទី។ |
| Base Decision Tree (DT) - Balanced Data with FS ម៉ូដែល Decision Tree (DT) (មានការថ្លឹងទិន្នន័យ និងជ្រើសរើសលក្ខណៈពិសេស) |
ស៊ីពេលបង្ហាត់តិចបំផុត និងងាយយល់ពីរចនាសម្ព័ន្ធនៃការសម្រេចចិត្ត (Tree-based rules)។ | ងាយរងនូវបញ្ហា Overfitting ប្រសិនបើមិនបានកំណត់ជម្រៅ (Max Depth) ឲ្យបានត្រឹមត្រូវ ហើយមានកម្រិតភាពត្រឹមត្រូវទាបជាង LGBM បន្តិច។ | ប្រើពេលត្រឹមតែ 1.55 វិនាទី តែទទួលបានភាពត្រឹមត្រូវ 99.95% (លើ CICIDS-2017 ជាមួយលក្ខណៈពិសេសចំនួន 5)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នៅក្នុងឯកសារនេះត្រូវបានអនុវត្តដោយប្រើប្រាស់កុំព្យូទ័រប្រភេទ Workstation ដែលមានសមត្ថភាពខ្ពស់គួរសម សម្រាប់ការដំណើរការទិន្នន័យបណ្តាញដែលមានទំហំធំ។
ការសិក្សានេះត្រូវបានវាយតម្លៃដោយប្រើប្រាស់សំណុំទិន្នន័យពីវិទ្យាស្ថានសន្តិសុខបណ្តាញនៅប្រទេសកាណាដា (CICIDS-2017) និងមន្ទីរពិសោធន៍នៅប្រទេសអូស្ត្រាលី (UNSW-NB15) ដែលជាទិន្នន័យស្តង់ដារអន្តរជាតិ។ ទោះបីជាទិន្នន័យទាំងនេះមានលក្ខណៈគ្រប់ជ្រុងជ្រោយ ប៉ុន្តែលក្ខណៈនៃចរាចរណ៍បណ្តាញ (Network Traffic) និងទម្រង់នៃការវាយប្រហារនៅប្រទេសកម្ពុជាអាចមានភាពខុសប្លែកគ្នា។ ដូច្នេះ ស្ថាប័ននៅកម្ពុជាគួរតែប្រមូលទិន្នន័យចរាចរណ៍បណ្តាញក្នុងស្រុកបន្ថែម ដើម្បីធានាថាប្រសិទ្ធភាពម៉ូដែលនេះឆ្លើយតបនឹងបរិបទជាក់ស្តែង។
វិធីសាស្ត្រក្នុងការត្រួតពិនិត្យ និងពន្យល់ពីការវាយប្រហារបណ្តាញនេះ មានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ស្របពេលដែលការគំរាមកំហែងសន្តិសុខសាយប័រមានការកើនឡើងគួរឲ្យកត់សម្គាល់។
សរុបមក ការរួមបញ្ចូលគ្នារវាងម៉ូដែល Machine Learning ល្បឿនលឿន (LGBM) និង AI ដែលអាចពន្យល់បាន (SHAP) នឹងជួយបង្កើនទំនុកចិត្តដល់អ្នកជំនាញសន្តិសុខបណ្តាញនៅកម្ពុជា ក្នុងការឆ្លើយតបទៅនឹងការគំរាមកំហែងបានយ៉ាងឆាប់រហ័សនិងច្បាស់លាស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Explainable AI (XAI) | ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផល ឬការទស្សន៍ទាយប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចពន្យល់ពីមូលហេតុ និងដំណើរការដែលនាំឱ្យមានការសម្រេចចិត្តនោះ ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន។ | ដូចជាគ្រូពេទ្យម្នាក់ដែលមិនត្រឹមតែប្រាប់ថាអ្នកមានជំងឺអ្វីទេ តែថែមទាំងពន្យល់ប្រាប់ពីមូលហេតុ និងរោគសញ្ញាដែលនាំឱ្យគាត់សន្និដ្ឋានបែបនេះ។ |
| k-Means SMOTE | ជាបច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយប្រើការបែងចែកទិន្នន័យជាក្រុម (Clustering) រួចបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលខ្វះខាត ដើម្បីកុំឱ្យម៉ូដែលរៀនលម្អៀងទៅរកតែទិន្នន័យដែលមានច្រើន។ | ដូចជាការថតចម្លងឯកសារសៀវភៅដែលកម្រមាន ទុកចែកឱ្យសិស្សានុសិស្សអាន ដើម្បីឱ្យមានតុល្យភាពជាមួយសៀវភៅដែលមានច្រើនស្រាប់នៅលើទីផ្សារ។ |
| Light Gradient Boosting Machine (LGBM) | ជាក្បួន Machine Learning ប្រភេទដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានល្បឿនលឿន និងប្រើប្រាស់អង្គចងចាំតិច ក្នុងការរៀនពីទិន្នន័យដែលមានទំហំធំ ដោយវាបំបែកមែកធាងតាមស្លឹក (Leaf-wise split) ដើម្បីស្វែងរកភាពត្រឹមត្រូវខ្ពស់ជាងមុន។ | ដូចជាអ្នករៀបចំសៀវភៅក្នុងបណ្ណាល័យដ៏ចំណានម្នាក់ ដែលចេះបែងចែកប្រភេទសៀវភៅរាប់ម៉ឺនក្បាលបានយ៉ាងលឿន និងរក្សាទុកក្នុងកន្លែងតូចៗបានយ៉ាងមានសណ្តាប់ធ្នាប់។ |
| SHapley Additive exPlanation (SHAP) | ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងទ្រឹស្តីល្បែង (Game Theory) ដែលត្រូវបានប្រើដើម្បីគណនា និងពន្យល់ពីទម្ងន់ ឬការចូលរួមចំណែកនៃលក្ខណៈពិសេស (Feature) នីមួយៗក្នុងការសម្រេចចិត្តរបស់ម៉ូដែល Machine Learning។ | ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករក្នុងក្រុមបាល់ទាត់ម្នាក់ៗ ទៅតាមទំហំនៃការប្រឹងប្រែង និងការស៊ុតបញ្ចូលទីដែលពួកគេម្នាក់ៗបានធ្វើ។ |
| Sequential Forward Floating Selection (SFFS) | ជាក្បួនជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ដែលធ្វើការបន្ថែមលក្ខណៈពិសេសល្អៗម្តងមួយៗចូលទៅក្នុងក្រុម ហើយអាចដកវាចេញវិញនៅពេលក្រោយប្រសិនបើវាលែងមានប្រយោជន៍ ដើម្បីរក្សាតែលក្ខណៈពិសេសដែលល្អបំផុតសម្រាប់ម៉ូដែល។ | ដូចជាការជ្រើសរើសកីឡាករចូលក្រុមជម្រើសជាតិ ដោយហៅចូលម្តងម្នាក់ៗ ហើយអាចដកកីឡាករចាស់ៗចេញវិញបើកីឡាករថ្មីមានទម្រង់លេងស៊ីចង្វាក់គ្នាជាង។ |
| Intrusion Detection System (IDS) | ជាប្រព័ន្ធសុវត្ថិភាពដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញកុំព្យូទ័រជាប្រចាំ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារចូលលួចទិន្នន័យ និងរាយការណ៍ប្រាប់អ្នកគ្រប់គ្រងប្រព័ន្ធ។ | ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរោទិ៍នៅក្នុងផ្ទះ ដែលចាំចាប់សញ្ញាចោរលួចចូល ហើយបន្លឺសំឡេងប្រកាសអាសន្ន។ |
| Mutual Information (MI) | ជាការវាស់ស្ទង់ក្នុងទ្រឹស្តីព័ត៌មាន (Information Theory) ដើម្បីដឹងថាអថេរពីរមានទំនាក់ទំនងគ្នាកម្រិតណា ពោលគឺបើដឹងព័ត៌មានពីអថេរមួយ តើវាជួយឱ្យយើងកាត់បន្ថយភាពមិនច្បាស់លាស់ពីអថេរមួយទៀតបានកម្រិតណា។ | ដូចជាការដឹងពីសីតុណ្ហភាពខាងក្រៅ ដែលអាចប្រាប់យើងយ៉ាងច្បាស់ថាតើយើងគួរពាក់អាវរងាឬអត់។ |
| Imbalance Ratio (IR) | ជារង្វាស់ដែលបង្ហាញពីភាពខុសគ្នា ឬអតុល្យភាពរវាងចំនួនទិន្នន័យក្នុងថ្នាក់ភាគច្រើន (Majority Class) និងថ្នាក់ភាគតិច (Minority Class) ដែលទិន្នន័យនេះអាចធ្វើឱ្យម៉ូដែលទស្សន៍ទាយលម្អៀង។ | ដូចជាការប្រកួតកីឡាដែលមានអ្នកគាំទ្រក្រុម A ចំនួន ១០០០ នាក់ និងអ្នកគាំទ្រក្រុម B តែ ១០ នាក់ ដែលធ្វើឱ្យសំឡេងគាំទ្រមិនមានតុល្យភាពគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖