Original Title: Adaptive Ensemble Learning for Zero-Day Attack Detection in Software-Defined Vehicular Networks
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនបណ្តុំបន្សាំសម្រាប់រកការវាយប្រហារ Zero-Day នៅក្នុងបណ្តាញយានយន្តដែលកំណត់ដោយផ្នែកទន់

ចំណងជើងដើម៖ Adaptive Ensemble Learning for Zero-Day Attack Detection in Software-Defined Vehicular Networks

អ្នកនិពន្ធ៖ Ilesanmi Michael

ឆ្នាំបោះពុម្ព៖ 2025

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បណ្តាញយានយន្តដែលកំណត់ដោយផ្នែកទន់ (SDVNs) ប្រឈមនឹងការគំរាមកំហែងតាមអ៊ីនធឺណិតកាន់តែខ្លាំងឡើង ជាពិសេសការវាយប្រហារប្រភេទថ្មី (Zero-day attacks) ដែលប្រព័ន្ធសុវត្ថិភាពប្រពៃណីមិនអាចរកឃើញបានដោយសារការផ្លាស់ប្តូរលឿនរហ័សនៃទម្រង់បណ្តាញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវក្របខ័ណ្ឌរកឃើញការវាយប្រហារដោយប្រើម៉ាស៊ីនរៀន (Machine Learning) បែបបណ្តុំបន្សាំ ដែលអាចធ្វើបច្ចុប្បន្នភាពតាមពេលវេលាជាក់ស្តែង ដើម្បីសម្របទៅនឹងការផ្លាស់ប្តូរទម្រង់នៃការវាយប្រហារ។

ការទាញយកនិងជ្រើសរើសលក្ខណៈពិសេស (Feature Extraction and Selection)
ការរៀនបណ្តុំដោយប្រើម៉ូដែលគោល (Ensemble Learning with RF, SVM, and XGBoost)
យន្តការស្វែងរកគម្លាតនិងការបន្សាំ (Drift Detection and Adaptive Incremental Learning)
ការក្លែងធ្វើបណ្តាញដោយប្រើឧបករណ៍រួមបញ្ចូលគ្នា (Network Simulation using Mininet-WiFi, SUMO, and NS-3)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលបណ្តុំបន្សាំ (Adaptive Ensemble) សម្រេចបានភាពត្រឹមត្រូវជារួម ៩៨,០% និងពិន្ទុ F1-score ៩៦,៨% ខ្ពស់ជាងម៉ូដែលទោល និងម៉ូដែលអសកម្ម (Static Ensemble)។
ប្រព័ន្ធនេះមានអត្រារកឃើញការវាយប្រហារប្រភេទថ្មី (Zero-Day Detection Rate) រហូតដល់ ៩១,៨% ដោយមានអត្រាវិជ្ជមានមិនពិត (False Positive Rate) ត្រឹមតែ ៤,២% ប៉ុណ្ណោះ។
ការបន្ថែមក្បួនរៀនតាមពេលវេលាជាក់ស្តែង (Online learning) ជួយរក្សាស្ថិរភាពប្រសិទ្ធភាពម៉ូដែលក្នុងរយៈពេល ៤៨ ម៉ោងនៃការក្លែងធ្វើ ទោះបីជាមានការផ្លាស់ប្តូរទម្រង់ចរាចរណ៍បណ្តាញក៏ដោយ ជាមួយនឹងពេលដំណើរការត្រឹមតែ ១០,១ មីលីវិនាទី (10.1 ms)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Adaptive Ensemble (Proposed) ម៉ូដែលបណ្តុំបន្សាំ (ស្នើឡើង)	មានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការរកឃើញការវាយប្រហារថ្មីៗ (Zero-Day) និងអាចសម្របខ្លួនតាមពេលវេលាជាក់ស្តែងនៅពេលទម្រង់បណ្តាញផ្លាស់ប្តូរ។	ប្រើប្រាស់កម្លាំងម៉ាស៊ីន (CPU) និងអង្គចងចាំ (RAM) ច្រើនជាងម៉ូដែលអសកម្មបន្តិច ដែលអាចជាបញ្ហាសម្រាប់ឧបករណ៍ Edge ដែលមានធនធានខ្សោយខ្លាំង។	ភាពត្រឹមត្រូវ ៩៨.០%, អត្រារកឃើញ Zero-Day ៩១.៨%, អត្រាវិជ្ជមានមិនពិតត្រឹម ៤.២%។
Static Ensemble ម៉ូដែលបណ្តុំអសកម្ម	ដំណើរការលឿនជាង (ចំណាយពេលត្រឹម ៨.៣ ms) និងស៊ីធនធានកុំព្យូទ័រតិច (Memory 520MB) សាកសមនឹងប្រព័ន្ធដែលមិនសូវប្រែប្រួល។	ធ្លាក់ចុះប្រសិទ្ធភាពយ៉ាងខ្លាំងនៅពេលមានការផ្លាស់ប្តូរទម្រង់បណ្តាញ (Concept Drift) និងខ្សោយក្នុងការរកឃើញការវាយប្រហារប្រភេទថ្មី។	ភាពត្រឹមត្រូវ ៩៦.៣%, អត្រារកឃើញ Zero-Day ៧៩.៤%។
Individual Models (RF, XGBoost, SVM) ម៉ូដែលឯកត្តជន (RF, XGBoost, SVM)	មានភាពសាមញ្ញ ងាយស្រួលក្នុងការហ្វឹកហាត់ និងដាក់ឱ្យដំណើរការឯករាជ្យដោយមិនទាមទារប្រព័ន្ធសាំញ៉ាំ។	មានអត្រាវិជ្ជមានមិនពិត (False Positive) ខ្ពស់ និងមិនអាចធានាភាពជាក់លាក់លើទម្រង់នៃការវាយប្រហារដែលមិនធ្លាប់ស្គាល់។	ភាពត្រឹមត្រូវចន្លោះពី ៩១.២% (SVM) ទៅ ៩៥.៦% (XGBoost)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីធនធានកុំព្យូទ័រ ដោយម៉ូដែលបន្សាំមានការប្រើប្រាស់ធនធានកើនឡើងប្រមាណ ២២% ប៉ុន្តែនៅតែស្ថិតក្នុងកម្រិតដែលអាចប្រតិបត្តិការបានសម្រាប់ឧបករណ៍ទំនើប។

Hardware: ការប្រើប្រាស់ CPU មធ្យម ៥៦% និងទាមទារអង្គចងចាំ (RAM) ប្រមាណ ៦១៥ MB សម្រាប់ម៉ូដែលបន្សាំក្នុងពេលដំណើរការ។
Software Simulation: ទាមទារការប្រើប្រាស់ Mininet-WiFi សម្រាប់បណ្តាញ, SUMO សម្រាប់ចលនាយានយន្ត, និង NS-3 សម្រាប់ការក្លែងធ្វើបណ្តាញឥតខ្សែ។
Dataset: ត្រូវការសំណុំទិន្នន័យស្តង់ដាររួមមាន CICIDS 2017/2018 និង VeReMi រួមបញ្ចូលជាមួយទិន្នន័យ Custom SDVN ដើម្បីហ្វឹកហាត់ម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យសាធារណៈដូចជា CICIDS 2017/2018 និង VeReMi ដែលភាគច្រើនឆ្លុះបញ្ចាំងពីទម្រង់ចរាចរណ៍អ៊ីនធឺណិត និងបរិបទយានយន្តនៅប្រទេសលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា ទម្រង់ចរាចរណ៍ជាក់ស្តែង គុណភាពហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញ (V2X) និងអាកប្បកិរិយារបស់អ្នកបើកបរមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីចៀសវាងភាពលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធការពារនិងតាមដានការវាយប្រហារនេះមានសក្តានុពលខ្ពស់សម្រាប់ការត្រួសត្រាយផ្លូវអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងឆ្លាតវៃនៅកម្ពុជា។

Smart City Projects (Phnom Penh & Sihanoukville): គម្រោងទីក្រុងឆ្លាតវៃនៅរាជធានីភ្នំពេញ និងក្រុងព្រះសីហនុ ដែលគ្រោងនឹងបំពាក់ប្រព័ន្ធភ្លើងស្តុបឆ្លាតវៃ អាចប្រើប្រាស់ក្របខ័ណ្ឌ SDN នេះដើម្បីការពារប្រព័ន្ធគ្រប់គ្រងកណ្តាលពីការគំរាមកំហែងតាមអ៊ីនធឺណិត។
Logistics and Connected Transport Sectors: ក្រុមហ៊ុនដឹកជញ្ជូននិងភស្តុភារនៅកម្ពុជាដែលចាប់ផ្តើមប្រើប្រាស់រថយន្តបំពាក់ប្រព័ន្ធ GPS និងការតភ្ជាប់អ៊ីនធឺណិត (Connected Vehicles) អាចប្រើប្រាស់វាដើម្បីត្រួតពិនិត្យភាពមិនប្រក្រតីនៃទិន្នន័យបណ្តាញដើម្បីការពារការលួចចូលគ្រប់គ្រងទិន្នន័យយានយន្ត។

ជារួម បច្ចេកវិទ្យានេះគឺជាជំហានដ៏សំខាន់មួយសម្រាប់កម្ពុជាក្នុងការរៀបចំប្រព័ន្ធការពារសន្តិសុខបណ្តាញក្នុងបរិបទនៃយានយន្តឆ្លាតវៃនិងស្វ័យប្រវត្តិនាពេលអនាគតដ៏ខ្លី។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាស្ថាបត្យកម្ម Software-Defined Networking (SDN): ស្វែងយល់ពីរបៀបដែល SDN ផ្តាច់កម្រិតគ្រប់គ្រងចេញពីទិន្នន័យ (Control and Data planes) ដោយអនុវត្តការបង្កើតបណ្តាញសាកល្បងជាមួយនឹងឧបករណ៍ Mininet និងភ្ជាប់វាទៅកាន់ OpenDaylight controller។
បង្កើតបរិស្ថានក្លែងធ្វើបណ្តាញយានយន្ត (Vehicular Network Simulation): ប្រើប្រាស់ឧបករណ៍បញ្ចបញ្ចូលគ្នាដើម្បីបង្កើតទិន្នន័យ។ ដំឡើង Mininet-WiFi សម្រាប់បង្កើតបណ្តាញឥតខ្សែ និងប្រើប្រាស់ SUMO ដើម្បីបង្កើតគំរូចលនាយានយន្តដែលស្រដៀងនឹងស្ថានភាពចរាចរណ៍ពិត។
រៀបចំទិន្នន័យ និងដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា (Data Preprocessing): ទាញយកសំណុំទិន្នន័យសាធារណៈដូចជា CICIDS 2017 រួចប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ក្នុង Python ដើម្បីអនុវត្តបច្ចេកទេស SMOTE ឬ ADASYN ក្នុងការកែតម្រូវទិន្នន័យវាយប្រហារដែលខ្វះខាត (Minority Class)។
អភិវឌ្ឍម៉ូដែល Machine Learning បែបបណ្តុំ (Ensemble Model): សរសេរកូដហ្វឹកហាត់ម៉ូដែល Random Forest, SVM, និង XGBoost ជាម៉ូដែលគោល (Base Models) និងសាកល្បងបច្ចេកទេស Stacking ឬ Dynamic Weighting ដើម្បីបញ្ចូលលទ្ធផលរបស់ពួកវាទៅជាម៉ូដែលតែមួយ។
ដាក់បញ្ចូលយន្តការបន្សាំតាមពេលវេលាជាក់ស្តែង (Adaptive Mechanisms): ប្រើប្រាស់ក្បួន ADWIN ឬ Page-Hinkley តាមរយៈកញ្ចប់កូដ River ក្នុង Python ដើម្បីតាមដានការប្រែប្រួលនៃទម្រង់ទិន្នន័យ (Concept Drift) និងបញ្ជាឱ្យម៉ូដែលធ្វើបច្ចុប្បន្នភាពដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Zero-Day Attack	ការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដោយប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាងដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង និងមិនទាន់មានវិធីការពារនៅឡើយ។	ដូចជាចោរដែលរកឃើញវិធីថ្មីក្នុងការគាស់សោផ្ទះដែលគ្មាននរណាម្នាក់ធ្លាប់ដឹងពីមុនមក ធ្វើឱ្យម្ចាស់ផ្ទះមិនទាន់ត្រៀមខ្លួនការពារទាន់ពេល។
Software-Defined Vehicular Networks (SDVNs)	បណ្តាញទំនាក់ទំនងយានយន្តដែលប្រើប្រាស់បច្ចេកវិទ្យា SDN ដើម្បីបំបែកផ្នែកបញ្ជា (Control Plane) ចេញពីផ្នែកបញ្ជូនទិន្នន័យ (Data Plane) ដែលអនុញ្ញាតឱ្យមានការគ្រប់គ្រងចរាចរណ៍បណ្តាញកណ្តាល និងអាចបត់បែនបានយ៉ាងងាយស្រួលតាមរយៈការសរសេរកូដ។	ដូចជាមានប៉ូលីសចរាចរណ៍ម្នាក់ឈរនៅទីបញ្ជាការកណ្តាល មើលឃើញផ្លូវទាំងអស់តាមកាមេរ៉ា ហើយចុចបញ្ជាភ្លើងស្តុបគ្រប់ទីកន្លែងដើម្បីសម្រួលចរាចរណ៍ ជាជាងឱ្យភ្លើងស្តុបនីមួយៗដំណើរការដោយខ្លួនឯង។
Ensemble Learning	បច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត (AI/ML) ដែលរួមបញ្ចូលម៉ូដែលទស្សន៍ទាយច្រើនបញ្ចូលគ្នា (ដូចជា Random Forest, SVM, XGBoost) ដើម្បីបង្កើតបានជាប្រព័ន្ធទស្សន៍ទាយមួយដែលមានភាពត្រឹមត្រូវ និងរឹងមាំជាងការប្រើម៉ូដែលតែមួយ។	ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញ៣នាក់ផ្សេងគ្នាដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺមួយ ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់ ដើម្បីទទួលបានលទ្ធផលច្បាស់លាស់បំផុត។
Concept Drift	បាតុភូតនៅក្នុងម៉ាស៊ីនរៀន (Machine Learning) ដែលលក្ខណៈនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យម៉ូដែលដែលធ្លាប់តែទាយត្រូវ ក្លាយជាលែងសុក្រឹតនៅពេលអនាគត ទាមទារឱ្យមានការរៀនបន្សាំសាជាថ្មី។	ដូចជាការចងចាំចំណង់ចំណូលចិត្តម្ហូបរបស់មិត្តភក្តិ ប៉ុន្តែយូរៗទៅគាត់ប្តូរចំណូលចិត្ត បើអ្នកនៅតែទិញម្ហូបចាស់ឱ្យគាត់ គាត់នឹងលែងញ៉ាំទៀតហើយ។
Feature Engineering	ដំណើរការនៃការទាញយក និងជ្រើសរើសព័ត៌មាន ឬលក្ខណៈសំខាន់ៗ (Features) ពីទិន្នន័យឆៅ ដើម្បីជួយឱ្យម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) ងាយស្រួលយល់ និងធ្វើការទស្សន៍ទាយបានកាន់តែច្បាស់។	ដូចជាការចម្រាញ់យកតែសាច់មាន់និងបន្លែល្អៗចេញពីកញ្ចប់គ្រឿងទេស ដើម្បីយកទៅស្លជាស៊ុបដ៏មានឱជារស ជាជាងចាក់អ្វីៗគ្រប់យ៉ាងចូលក្នុងឆ្នាំងតែម្តង។
False Positive Rate (FPR)	អត្រានៃការរាយការណ៍ខុសរបស់ប្រព័ន្ធសុវត្ថិភាព ដោយវាចាត់ទុកចរាចរណ៍បណ្តាញធម្មតា ឬសកម្មភាពសុវត្ថិភាព ថាជាការវាយប្រហារ (សញ្ញាអាសន្នមិនពិត)។	ដូចជាសំឡេងរោទ៍ប្រាប់ពីចោរលួចចូលផ្ទះបន្លឺឡើងដោយសារតែសត្វឆ្មាលោតកាត់ មិនមែនដោយសារមានចោរចូលពិតប្រាកដនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖