Original Title: Reinforcement Learning-Based Voting for Feature Drift-Aware Intrusion Detection: An Incremental Learning Framework
Source: doi.org/10.1109/ACCESS.2025.3544221
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបោះឆ្នោតផ្អែកលើការរៀនពង្រឹងសម្រាប់ការរកឃើញការឈ្លានពានដែលដឹងអំពីការផ្លាស់ប្តូរលក្ខណៈពិសេស៖ ក្របខ័ណ្ឌនៃការរៀនបន្ថែម

ចំណងជើងដើម៖ Reinforcement Learning-Based Voting for Feature Drift-Aware Intrusion Detection: An Incremental Learning Framework

អ្នកនិពន្ធ៖ Methaq A. Shyaa (Universiti Sains Malaysia), Noor Farizah Ibrahim (Universiti Sains Malaysia)

ឆ្នាំបោះពុម្ព៖ 2025

វិស័យសិក្សា៖ Cybersecurity / Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធស្វែងរកការឈ្លានពាន (IDS) បែបប្រពៃណីជួបប្រទះការលំបាកក្នុងការរក្សាកម្រិតភាពត្រឹមត្រូវនៅពេលដែលទិន្នន័យចរាចរណ៍បណ្តាញមានការផ្លាស់ប្តូរតាមពេលវេលា (Concept Drift) និងការផ្លាស់ប្តូរភាពពាក់ព័ន្ធនៃលក្ខណៈពិសេស (Feature Drift) ដែលធ្វើឱ្យម៉ូដែលចាស់ៗមិនអាចចាប់យកការវាយប្រហារថ្មីៗបានល្អ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះណែនាំនូវក្របខ័ណ្ឌថ្មីមួយឈ្មោះ IFDA-GPC ដែលរួមបញ្ចូលគ្នានូវវិធីសាស្ត្រការរៀនបន្ថែម (Incremental Learning) ជាមួយនឹងយន្តការជ្រើសរើសលក្ខណៈពិសេសតាមបែបឌីណាមិក ដោយប្រើប្រាស់ភ្នាក់ងារឆ្លាតវៃច្រើន (Multi-Agent System)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
GPC-KOS-DFS (Proposed Method)
ការរួមបញ្ចូលគ្នានៃកម្មវិធីហ្សែនជាមួយការជ្រើសរើសលក្ខណៈពិសេសតាមបែបឌីណាមិក និងប្រព័ន្ធបោះឆ្នោត
មានស្ថិរភាពខ្ពស់ក្នុងការដោះស្រាយជាមួយការផ្លាស់ប្តូរលក្ខណៈទិន្នន័យ (Feature Drift) និងផ្តល់នូវអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង។ មានភាពស្មុគស្មាញក្នុងការគណនាជាងវិធីសាស្ត្របុរាណ ដោយសារត្រូវប្រើភ្នាក់ងារ AI ច្រើន (Multi-Agent) សម្រាប់ធ្វើការបោះឆ្នោត។ ទទួលបានអត្រាភាពត្រឹមត្រូវ (Accuracy) ៩៦.០៤% លើសំណុំទិន្នន័យ CICIDS-2017 និង ៩៩.៥៦% លើ KDD Cup '99។
GPC-KOS-RF (Benchmark)
ការប្រើប្រាស់ Random Forest សម្រាប់ការជ្រើសរើសលក្ខណៈពិសេសជំនួសឱ្យការរៀនពង្រឹង (RL)
ជារបៀបសាមញ្ញជាង និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងប្រព័ន្ធ IDS បែបប្រពៃណី។ មានប្រសិទ្ធភាពទាបនៅពេលដែលទិន្នន័យមានការផ្លាស់ប្តូរលក្ខណៈពិសេស (Evolving Scenarios) ដោយទទួលបានពិន្ទុ Recall ទាប។ ទទួលបានអត្រាភាពត្រឹមត្រូវត្រឹមតែ ៨៥.៣២% លើ CICIDS-2017 ដែលទាបជាងវិធីសាស្ត្រដែលបានស្នើឡើងយ៉ាងខ្លាំង។
GPC-DQN-MAFS (Variants without Voting)
ការប្រើប្រាស់ភ្នាក់ងារ Deep Q-Network តែមួយ ឬគ្មានប្រព័ន្ធបោះឆ្នោតរួម
ប្រើប្រាស់បច្ចេកវិទ្យា RL ទំនើបដើម្បីសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរទិន្នន័យ។ បង្ហាញពីអស្ថិរភាព (High Variability) នៃលទ្ធផល ដោយសារការសម្រេចចិត្តរបស់ភ្នាក់ងារនីមួយៗអាចមានភាពលំអៀងប្រសិនបើគ្មានការបោះឆ្នោត។ ទទួលបានលទ្ធផលល្អប្រសើរជាង Random Forest ប៉ុន្តែនៅតែមានកម្រិតទាបជាង និងមិនមានស្ថិរភាពដូច GPC-KOS-DFS ទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រនេះទាមទារធនធានគណនាមធ្យមទៅខ្ពស់ ដោយសារវាត្រូវដំណើរការភ្នាក់ងារ Deep Q-Network ច្រើនដំណាលគ្នា និងធ្វើបច្ចុប្បន្នភាពគំរូជាប្រចាំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារដូចជា KDD Cup '99, CICIDS-2017 និង HIKARI-2021 ដែលឆ្លុះបញ្ចាំងពីបរិស្ថានបណ្តាញនៅលោកខាងលិច ឬក្នុងមន្ទីរពិសោធន៍។ សម្រាប់កម្ពុជា ទម្រង់នៃការវាយប្រហារ និងចរាចរណ៍បណ្តាញអាចមានលក្ខណៈខុសប្លែក ដោយសារការប្រើប្រាស់ហេដ្ឋារចនាសម្ព័ន្ធ និងកម្មវិធីដែលមានលក្ខណៈតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ដែលកំពុងប្រឈមមុខនឹងការវាយប្រហារតាមអ៊ីនធឺណិតកាន់តែស្មុគស្មាញ និងមានការផ្លាស់ប្តូរលឿន។

បច្ចេកវិទ្យានេះផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំសម្រាប់ការការពារប្រព័ន្ធបណ្តាញនៅកម្ពុជា ប៉ុន្តែត្រូវការការកែតម្រូវលើការកំណត់រចនាសម្ព័ន្ធភ្នាក់ងារ AI ដើម្បីឱ្យសមស្របនឹងបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ១. សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនពង្រឹង (Reinforcement Learning): និស្សិតគួរចាប់ផ្តើមសិក្សាអំពីគោលការណ៍របស់ Q-Learning និង Deep Q-Network (DQN) ដោយប្រើប្រាស់បណ្ណាល័យដូចជា PyTorch ឬ TensorFlow ។
  2. ២. ស្វែងយល់ពីទិន្នន័យចរាចរណ៍បណ្តាញ: ទាញយកសំណុំទិន្នន័យ CICIDS-2017 និង HIKARI-2021 ដើម្បីវិភាគរចនាសម្ព័ន្ធ និងលក្ខណៈនៃការវាយប្រហារផ្សេងៗ។
  3. ៣. អនុវត្តក្បួនដោះស្រាយ OSELM: សរសេរកូដដើម្បីបង្កើតម៉ូដែល Online Sequential Extreme Learning Machine (OSELM) ដែលជាសមាសធាតុស្នូលនៃក្របខ័ណ្ឌនេះ សម្រាប់ធ្វើការរៀនពីទិន្នន័យដែលហូរចូលជាបន្តបន្ទាប់។
  4. ៤. បង្កើតប្រព័ន្ធភ្នាក់ងារច្រើន (Multi-Agent System): បង្កើតភ្នាក់ងារ DQN សម្រាប់លក្ខណៈពិសេសនីមួយៗ និងអនុវត្តយន្តការបោះឆ្នោត (Voting Mechanism) ដើម្បីសម្រេចថាតើត្រូវជ្រើសរើសលក្ខណៈពិសេសណាមួយ។
  5. ៥. ធ្វើតេស្តជាមួយការផ្លាស់ប្តូរលក្ខណៈពិសេស (Feature Drift Simulation): បង្កើតបរិស្ថានពិសោធន៍ដោយការលុបចោល ឬផ្លាស់ប្តូរភាពសំខាន់នៃលក្ខណៈពិសេសមួយចំនួនតាមពេលវេលា ដើម្បីវាយតម្លៃថាប្រព័ន្ធអាចសម្របខ្លួនបានល្អកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Feature Drift គឺជាបាតុភូតមួយនៅក្នុងប្រព័ន្ធទិន្នន័យ ដែលកម្រិតនៃភាពសំខាន់ ឬការពាក់ព័ន្ធនៃលក្ខណៈពិសេស (Features) ផ្លាស់ប្តូរតាមពេលវេលា។ នៅក្នុងបរិបទនៃការរក្សាសុវត្ថិភាពអ៊ីនធឺណិត ទិន្នន័យដែលធ្លាប់តែប្រើដើម្បីសម្គាល់ការវាយប្រហារកាលពីមុន អាចនឹងលែងមានប្រសិទ្ធភាពនៅពេលបច្ចុប្បន្ន។ ដូចជាការផ្លាស់ប្តូរម៉ូតសម្លៀកបំពាក់អញ្ចឹង អ្វីដែលពេញនិយមនិងសំខាន់នៅឆ្នាំមុន អាចនឹងលែងសំខាន់នៅឆ្នាំនេះ។
Concept Drift សំដៅទៅលើការផ្លាស់ប្តូរនៃទម្រង់ទិន្នន័យ ឬអាកប្បកិរិយារបស់ការវាយប្រហារតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែល AI ដែលបានបណ្តុះបណ្តាលពីមុន លែងមានភាពសុក្រឹតក្នុងការទស្សន៍ទាយ ឬចាប់យកការវាយប្រហារថ្មីៗ។ ប្រៀបដូចជាការប្រើប្រាស់ផែនទីចាស់ដើម្បីធ្វើដំណើរក្នុងទីក្រុងដែលមានការសាងសង់ផ្លូវថ្មីៗជាច្រើន ដែលធ្វើឲ្យយើងអាចវង្វេងផ្លូវបាន។
Reinforcement Learning (RL) ជាបច្ចេកវិទ្យា AI ដែលរៀនតាមរយៈការសាកល្បងនិងកំហុស (Trial and Error)។ ប្រព័ន្ធកុំព្យូទ័រនឹងទទួលបាន 'រង្វាន់' នៅពេលវាធ្វើការសម្រេចចិត្តត្រូវ និងទទួល 'ពិន័យ' នៅពេលវាធ្វើខុស ដើម្បីកែលម្អសមត្ថភាពរបស់វាក្នុងការជ្រើសរើសទិន្នន័យសំខាន់ៗ។ ដូចជាការបង្រៀនសត្វចិញ្ចឹមឱ្យចេះស្តាប់បញ្ជា ដោយផ្តល់ចំណីជារង្វាន់នៅពេលវាធ្វើត្រូវតាមការណែនាំ។
Genetic Programming Combiner (GPC) ជារចនាសម្ព័ន្ធមួយដែលរួមបញ្ចូលគ្នានូវម៉ូដែលការពារជាច្រើន (Ensemble) និងប្រើប្រាស់គោលការណ៍វិវត្តន៍ (Evolution) ដើម្បីស្វែងរកវិធីសាស្ត្រល្អបំផុតក្នុងការផ្សំលទ្ធផលពីម៉ូដែលទាំងនោះ ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងការរកឃើញការវាយប្រហារ។ ដូចជាក្រុមប្រឹក្សាមួយដែលមានសមាជិកច្រើន ហើយសមាជិកដែលធ្វើការមិនល្អត្រូវបានជំនួសដោយសមាជិកថ្មីដែលពូកែជាងជាបន្តបន្ទាប់ ដើម្បីឱ្យការសម្រេចចិត្តកាន់តែល្អប្រសើរ។
Deep Q-Network (DQN) គឺជាក្បួនដោះស្រាយដែលរួមបញ្ចូលគ្នារវាង Deep Neural Networks និង Q-learning ដើម្បីអនុញ្ញាតឱ្យភ្នាក់ងារ AI (Agents) អាចរៀនវាយតម្លៃថា តើគួរជ្រើសរើសយកទិន្នន័យមួយណាដែលមានប្រយោជន៍បំផុតសម្រាប់ការរកឃើញមេរោគ។ ដូចជាអ្នកលេងហ្គេមវីដេអូដ៏ឆ្លាតវៃម្នាក់ ដែលរៀនដោយខ្លួនឯងថាត្រូវចុចប៊ូតុងមួយណាដើម្បីទទួលបានពិន្ទុខ្ពស់បំផុតនៅក្នុងស្ថានភាពផ្សេងៗគ្នា។
Incremental Learning គឺជាវិធីសាស្ត្ររៀនសូត្រដែលម៉ូដែល AI អាចធ្វើបច្ចុប្បន្នភាពចំណេះដឹងរបស់ខ្លួនជាបន្តបន្ទាប់នៅពេលមានទិន្នន័យថ្មីចូលមក ដោយមិនចាំបាច់រៀនពីដើមឡើងវិញទាំងអស់ (Retraining from scratch)។ ដូចជាសិស្សដែលរៀនមេរៀនថ្មីបន្ថែមជារៀងរាល់ថ្ងៃ ដោយមិនចាំបាច់ត្រឡប់ទៅរៀនថ្នាក់ទី ១ ឡើងវិញរាល់ពេលនោះទេ។
Intrusion Detection Systems (IDS) ជាប្រព័ន្ធសុវត្ថិភាពបណ្តាញដែលឃ្លាំមើលចរាចរណ៍ទិន្នន័យ ដើម្បីស្វែងរកសកម្មភាពដែលគួរឱ្យសង្ស័យ ឬការលួចចូលដោយគ្មានការអនុញ្ញាត និងផ្តល់ដំណឹងដល់អ្នកគ្រប់គ្រង។ ដូចជាកាមេរ៉ាសុវត្ថិភាព ឬសន្តិសុខដែលយាមនៅច្រកទ្វារផ្ទះ ដើម្បីចាប់អ្នកដែលប៉ុនប៉ងចូលលួចទ្រព្យសម្បត្តិ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖