Original Title: Reinforcement Learning-Based Voting for Feature Drift-Aware Intrusion Detection: An Incremental Learning Framework
Source: doi.org/10.1109/ACCESS.2025.3544221
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបោះឆ្នោតផ្អែកលើការរៀនពង្រឹងសម្រាប់ការរកឃើញការឈ្លានពានដែលដឹងអំពីការផ្លាស់ប្តូរលក្ខណៈពិសេស៖ ក្របខ័ណ្ឌនៃការរៀនបន្ថែម

ចំណងជើងដើម៖ Reinforcement Learning-Based Voting for Feature Drift-Aware Intrusion Detection: An Incremental Learning Framework

អ្នកនិពន្ធ៖ Methaq A. Shyaa (Universiti Sains Malaysia), Noor Farizah Ibrahim (Universiti Sains Malaysia)

ឆ្នាំបោះពុម្ព៖ 2025

វិស័យសិក្សា៖ Cybersecurity / Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធស្វែងរកការឈ្លានពាន (IDS) បែបប្រពៃណីជួបប្រទះការលំបាកក្នុងការរក្សាកម្រិតភាពត្រឹមត្រូវនៅពេលដែលទិន្នន័យចរាចរណ៍បណ្តាញមានការផ្លាស់ប្តូរតាមពេលវេលា (Concept Drift) និងការផ្លាស់ប្តូរភាពពាក់ព័ន្ធនៃលក្ខណៈពិសេស (Feature Drift) ដែលធ្វើឱ្យម៉ូដែលចាស់ៗមិនអាចចាប់យកការវាយប្រហារថ្មីៗបានល្អ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះណែនាំនូវក្របខ័ណ្ឌថ្មីមួយឈ្មោះ IFDA-GPC ដែលរួមបញ្ចូលគ្នានូវវិធីសាស្ត្រការរៀនបន្ថែម (Incremental Learning) ជាមួយនឹងយន្តការជ្រើសរើសលក្ខណៈពិសេសតាមបែបឌីណាមិក ដោយប្រើប្រាស់ភ្នាក់ងារឆ្លាតវៃច្រើន (Multi-Agent System)។

ការជ្រើសរើសលក្ខណៈពិសេសដោយប្រើ Deep Q-Network និងការបោះឆ្នោត (Voting Enhanced Deep Q-Network Multi-Agent Feature Selection - VE-DQN-MAFS)
ការរៀនបន្ថែមដោយប្រើក្បួនដោះស្រាយហ្សែន (Incremental Genetic Programming Combiner - IGPC)
ការវាយតម្លៃលើសំណុំទិន្នន័យស្តង់ដារដូចជា KDD Cup ’99, CICIDS-2017, HIKARI-2021 និង ISCX2012

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល GPC-KOS-DFS ដែលបានស្នើឡើងទទួលបានអត្រាភាពត្រឹមត្រូវរហូតដល់ ៩៣% លើសំណុំទិន្នន័យ CICIDS-2017 ដែលខ្ពស់ជាងវិធីសាស្ត្រដែលមានស្រាប់យ៉ាងខ្លាំង។
ក្របខ័ណ្ឌនេះបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយបញ្ហា Feature Drift ដោយរក្សាបាននូវសមត្ថភាពចាត់ថ្នាក់ទិន្នន័យបានល្អ និងមានស្ថិរភាពទោះបីជាមានការផ្លាស់ប្តូរលក្ខណៈពិសេសនៃទិន្នន័យក៏ដោយ។
ប្រព័ន្ធបោះឆ្នោតពហុភ្នាក់ងារ (Multi-Agent Voting) បានជួយកាត់បន្ថយភាពលំអៀង និងបង្កើនភាពជឿជាក់ក្នុងការសម្រេចចិត្តជ្រើសរើសលក្ខណៈពិសេសសម្រាប់ការរកឃើញការវាយប្រហារតាមអ៊ីនធឺណិត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GPC-KOS-DFS (Proposed Method) ការរួមបញ្ចូលគ្នានៃកម្មវិធីហ្សែនជាមួយការជ្រើសរើសលក្ខណៈពិសេសតាមបែបឌីណាមិក និងប្រព័ន្ធបោះឆ្នោត	មានស្ថិរភាពខ្ពស់ក្នុងការដោះស្រាយជាមួយការផ្លាស់ប្តូរលក្ខណៈទិន្នន័យ (Feature Drift) និងផ្តល់នូវអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង។	មានភាពស្មុគស្មាញក្នុងការគណនាជាងវិធីសាស្ត្របុរាណ ដោយសារត្រូវប្រើភ្នាក់ងារ AI ច្រើន (Multi-Agent) សម្រាប់ធ្វើការបោះឆ្នោត។	ទទួលបានអត្រាភាពត្រឹមត្រូវ (Accuracy) ៩៦.០៤% លើសំណុំទិន្នន័យ CICIDS-2017 និង ៩៩.៥៦% លើ KDD Cup '99។
GPC-KOS-RF (Benchmark) ការប្រើប្រាស់ Random Forest សម្រាប់ការជ្រើសរើសលក្ខណៈពិសេសជំនួសឱ្យការរៀនពង្រឹង (RL)	ជារបៀបសាមញ្ញជាង និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងប្រព័ន្ធ IDS បែបប្រពៃណី។	មានប្រសិទ្ធភាពទាបនៅពេលដែលទិន្នន័យមានការផ្លាស់ប្តូរលក្ខណៈពិសេស (Evolving Scenarios) ដោយទទួលបានពិន្ទុ Recall ទាប។	ទទួលបានអត្រាភាពត្រឹមត្រូវត្រឹមតែ ៨៥.៣២% លើ CICIDS-2017 ដែលទាបជាងវិធីសាស្ត្រដែលបានស្នើឡើងយ៉ាងខ្លាំង។
GPC-DQN-MAFS (Variants without Voting) ការប្រើប្រាស់ភ្នាក់ងារ Deep Q-Network តែមួយ ឬគ្មានប្រព័ន្ធបោះឆ្នោតរួម	ប្រើប្រាស់បច្ចេកវិទ្យា RL ទំនើបដើម្បីសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរទិន្នន័យ។	បង្ហាញពីអស្ថិរភាព (High Variability) នៃលទ្ធផល ដោយសារការសម្រេចចិត្តរបស់ភ្នាក់ងារនីមួយៗអាចមានភាពលំអៀងប្រសិនបើគ្មានការបោះឆ្នោត។	ទទួលបានលទ្ធផលល្អប្រសើរជាង Random Forest ប៉ុន្តែនៅតែមានកម្រិតទាបជាង និងមិនមានស្ថិរភាពដូច GPC-KOS-DFS ទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រនេះទាមទារធនធានគណនាមធ្យមទៅខ្ពស់ ដោយសារវាត្រូវដំណើរការភ្នាក់ងារ Deep Q-Network ច្រើនដំណាលគ្នា និងធ្វើបច្ចុប្បន្នភាពគំរូជាប្រចាំ។

Hardware Requirements: តម្រូវឱ្យមានអង្គគណនាដែលមានសមត្ថភាពខ្ពស់ (High-performance CPU/GPU) ដើម្បីបង្វឹក Deep Q-Network ក្នុងពេលជាក់ស្តែង (Real-time)។
Data Processing: ត្រូវការយន្តការរក្សាទុកទិន្នន័យបណ្តោះអាសន្ន (Buffer) ដើម្បីធ្វើការថ្លឹងថ្លែងទិន្នន័យ (Data Balancing) មុនពេលបង្វឹក។
Algorithm Complexity: ភាពស្មុគស្មាញកើនឡើងជាលីនេអ៊ែរ (Linear Scaling) ទៅតាមចំនួននៃលក្ខណៈពិសេស (Features) និងចំនួនភ្នាក់ងារ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារដូចជា KDD Cup '99, CICIDS-2017 និង HIKARI-2021 ដែលឆ្លុះបញ្ចាំងពីបរិស្ថានបណ្តាញនៅលោកខាងលិច ឬក្នុងមន្ទីរពិសោធន៍។ សម្រាប់កម្ពុជា ទម្រង់នៃការវាយប្រហារ និងចរាចរណ៍បណ្តាញអាចមានលក្ខណៈខុសប្លែក ដោយសារការប្រើប្រាស់ហេដ្ឋារចនាសម្ព័ន្ធ និងកម្មវិធីដែលមានលក្ខណៈតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ដែលកំពុងប្រឈមមុខនឹងការវាយប្រហារតាមអ៊ីនធឺណិតកាន់តែស្មុគស្មាញ និងមានការផ្លាស់ប្តូរលឿន។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): ស្ថាប័នដូចជាធនាគារអេស៊ីលីដា ឬ ABA អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីការពារប្រព័ន្ធ Core Banking ពីការវាយប្រហារថ្មីៗដែលមិនធ្លាប់ស្គាល់ (Zero-day attacks)។
អ្នកផ្តល់សេវាអ៊ីនធឺណិត (ISPs): ក្រុមហ៊ុនដូចជា EZECOM ឬ ISP ផ្សេងទៀតអាចអនុវត្តវាដើម្បីត្រួតពិនិត្យចរាចរណ៍បណ្តាញធំៗ និងរកឃើញការវាយប្រហារ DDoS ដែលមានការផ្លាស់ប្តូរទម្រង់។
មជ្ឈមណ្ឌលជាតិទិន្នន័យ (National Data Centers): ការពារហេដ្ឋារចនាសម្ព័ន្ធរដ្ឋាភិបាលពីការវាយប្រហារដែលមានលក្ខណៈវិវត្តន៍ (Evolving Threats) ដោយមិនចាំបាច់បិទប្រព័ន្ធដើម្បីបង្វឹកម៉ូដែលសារជាថ្មី។

បច្ចេកវិទ្យានេះផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំសម្រាប់ការការពារប្រព័ន្ធបណ្តាញនៅកម្ពុជា ប៉ុន្តែត្រូវការការកែតម្រូវលើការកំណត់រចនាសម្ព័ន្ធភ្នាក់ងារ AI ដើម្បីឱ្យសមស្របនឹងបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនពង្រឹង (Reinforcement Learning): និស្សិតគួរចាប់ផ្តើមសិក្សាអំពីគោលការណ៍របស់ Q-Learning និង Deep Q-Network (DQN) ដោយប្រើប្រាស់បណ្ណាល័យដូចជា PyTorch ឬ TensorFlow ។
២. ស្វែងយល់ពីទិន្នន័យចរាចរណ៍បណ្តាញ: ទាញយកសំណុំទិន្នន័យ CICIDS-2017 និង HIKARI-2021 ដើម្បីវិភាគរចនាសម្ព័ន្ធ និងលក្ខណៈនៃការវាយប្រហារផ្សេងៗ។
៣. អនុវត្តក្បួនដោះស្រាយ OSELM: សរសេរកូដដើម្បីបង្កើតម៉ូដែល Online Sequential Extreme Learning Machine (OSELM) ដែលជាសមាសធាតុស្នូលនៃក្របខ័ណ្ឌនេះ សម្រាប់ធ្វើការរៀនពីទិន្នន័យដែលហូរចូលជាបន្តបន្ទាប់។
៤. បង្កើតប្រព័ន្ធភ្នាក់ងារច្រើន (Multi-Agent System): បង្កើតភ្នាក់ងារ DQN សម្រាប់លក្ខណៈពិសេសនីមួយៗ និងអនុវត្តយន្តការបោះឆ្នោត (Voting Mechanism) ដើម្បីសម្រេចថាតើត្រូវជ្រើសរើសលក្ខណៈពិសេសណាមួយ។
៥. ធ្វើតេស្តជាមួយការផ្លាស់ប្តូរលក្ខណៈពិសេស (Feature Drift Simulation): បង្កើតបរិស្ថានពិសោធន៍ដោយការលុបចោល ឬផ្លាស់ប្តូរភាពសំខាន់នៃលក្ខណៈពិសេសមួយចំនួនតាមពេលវេលា ដើម្បីវាយតម្លៃថាប្រព័ន្ធអាចសម្របខ្លួនបានល្អកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Feature Drift	គឺជាបាតុភូតមួយនៅក្នុងប្រព័ន្ធទិន្នន័យ ដែលកម្រិតនៃភាពសំខាន់ ឬការពាក់ព័ន្ធនៃលក្ខណៈពិសេស (Features) ផ្លាស់ប្តូរតាមពេលវេលា។ នៅក្នុងបរិបទនៃការរក្សាសុវត្ថិភាពអ៊ីនធឺណិត ទិន្នន័យដែលធ្លាប់តែប្រើដើម្បីសម្គាល់ការវាយប្រហារកាលពីមុន អាចនឹងលែងមានប្រសិទ្ធភាពនៅពេលបច្ចុប្បន្ន។	ដូចជាការផ្លាស់ប្តូរម៉ូតសម្លៀកបំពាក់អញ្ចឹង អ្វីដែលពេញនិយមនិងសំខាន់នៅឆ្នាំមុន អាចនឹងលែងសំខាន់នៅឆ្នាំនេះ។
Concept Drift	សំដៅទៅលើការផ្លាស់ប្តូរនៃទម្រង់ទិន្នន័យ ឬអាកប្បកិរិយារបស់ការវាយប្រហារតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែល AI ដែលបានបណ្តុះបណ្តាលពីមុន លែងមានភាពសុក្រឹតក្នុងការទស្សន៍ទាយ ឬចាប់យកការវាយប្រហារថ្មីៗ។	ប្រៀបដូចជាការប្រើប្រាស់ផែនទីចាស់ដើម្បីធ្វើដំណើរក្នុងទីក្រុងដែលមានការសាងសង់ផ្លូវថ្មីៗជាច្រើន ដែលធ្វើឲ្យយើងអាចវង្វេងផ្លូវបាន។
Reinforcement Learning (RL)	ជាបច្ចេកវិទ្យា AI ដែលរៀនតាមរយៈការសាកល្បងនិងកំហុស (Trial and Error)។ ប្រព័ន្ធកុំព្យូទ័រនឹងទទួលបាន 'រង្វាន់' នៅពេលវាធ្វើការសម្រេចចិត្តត្រូវ និងទទួល 'ពិន័យ' នៅពេលវាធ្វើខុស ដើម្បីកែលម្អសមត្ថភាពរបស់វាក្នុងការជ្រើសរើសទិន្នន័យសំខាន់ៗ។	ដូចជាការបង្រៀនសត្វចិញ្ចឹមឱ្យចេះស្តាប់បញ្ជា ដោយផ្តល់ចំណីជារង្វាន់នៅពេលវាធ្វើត្រូវតាមការណែនាំ។
Genetic Programming Combiner (GPC)	ជារចនាសម្ព័ន្ធមួយដែលរួមបញ្ចូលគ្នានូវម៉ូដែលការពារជាច្រើន (Ensemble) និងប្រើប្រាស់គោលការណ៍វិវត្តន៍ (Evolution) ដើម្បីស្វែងរកវិធីសាស្ត្រល្អបំផុតក្នុងការផ្សំលទ្ធផលពីម៉ូដែលទាំងនោះ ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងការរកឃើញការវាយប្រហារ។	ដូចជាក្រុមប្រឹក្សាមួយដែលមានសមាជិកច្រើន ហើយសមាជិកដែលធ្វើការមិនល្អត្រូវបានជំនួសដោយសមាជិកថ្មីដែលពូកែជាងជាបន្តបន្ទាប់ ដើម្បីឱ្យការសម្រេចចិត្តកាន់តែល្អប្រសើរ។
Deep Q-Network (DQN)	គឺជាក្បួនដោះស្រាយដែលរួមបញ្ចូលគ្នារវាង Deep Neural Networks និង Q-learning ដើម្បីអនុញ្ញាតឱ្យភ្នាក់ងារ AI (Agents) អាចរៀនវាយតម្លៃថា តើគួរជ្រើសរើសយកទិន្នន័យមួយណាដែលមានប្រយោជន៍បំផុតសម្រាប់ការរកឃើញមេរោគ។	ដូចជាអ្នកលេងហ្គេមវីដេអូដ៏ឆ្លាតវៃម្នាក់ ដែលរៀនដោយខ្លួនឯងថាត្រូវចុចប៊ូតុងមួយណាដើម្បីទទួលបានពិន្ទុខ្ពស់បំផុតនៅក្នុងស្ថានភាពផ្សេងៗគ្នា។
Incremental Learning	គឺជាវិធីសាស្ត្ររៀនសូត្រដែលម៉ូដែល AI អាចធ្វើបច្ចុប្បន្នភាពចំណេះដឹងរបស់ខ្លួនជាបន្តបន្ទាប់នៅពេលមានទិន្នន័យថ្មីចូលមក ដោយមិនចាំបាច់រៀនពីដើមឡើងវិញទាំងអស់ (Retraining from scratch)។	ដូចជាសិស្សដែលរៀនមេរៀនថ្មីបន្ថែមជារៀងរាល់ថ្ងៃ ដោយមិនចាំបាច់ត្រឡប់ទៅរៀនថ្នាក់ទី ១ ឡើងវិញរាល់ពេលនោះទេ។
Intrusion Detection Systems (IDS)	ជាប្រព័ន្ធសុវត្ថិភាពបណ្តាញដែលឃ្លាំមើលចរាចរណ៍ទិន្នន័យ ដើម្បីស្វែងរកសកម្មភាពដែលគួរឱ្យសង្ស័យ ឬការលួចចូលដោយគ្មានការអនុញ្ញាត និងផ្តល់ដំណឹងដល់អ្នកគ្រប់គ្រង។	ដូចជាកាមេរ៉ាសុវត្ថិភាព ឬសន្តិសុខដែលយាមនៅច្រកទ្វារផ្ទះ ដើម្បីចាប់អ្នកដែលប៉ុនប៉ងចូលលួចទ្រព្យសម្បត្តិ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖