Original Title: Anomaly Intrusion Detection Based on Concept Drift
Source: www.wwjmrd.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញការជ្រៀតចូលមិនប្រក្រតីដោយផ្អែកលើបម្រែបម្រួលគំនិត (Concept Drift)

ចំណងជើងដើម៖ Anomaly Intrusion Detection Based on Concept Drift

អ្នកនិពន្ធ៖ Gokul R (Anna University, Chennai, India), Pradheep D (Anna University, Chennai, India), Naveen V (Anna University, Chennai, India), Vijayarani J (Anna University, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2020, World Wide Journal of Multidisciplinary Research and Development

វិស័យសិក្សា៖ Computer Science / Network Security

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាសុវត្ថិភាពបណ្តាញកុំព្យូទ័រ ដែលអ្នកវាយប្រហារតែងតែផ្លាស់ប្តូរបច្ចេកទេស និងឧបករណ៍របស់ពួកគេ (ហៅថា Concept Drift) ធ្វើឱ្យប្រព័ន្ធការពារបែបបុរាណមានការលំបាកក្នុងការចាប់យកការវាយប្រហារថ្មីៗទាំងនោះ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់វិធីសាស្ត្រ Machine Learning ចំនួនពីរគឺ Incremental Learning និង Transfer Learning ដើម្បីបណ្តុះបណ្តាលម៉ូដែលលើសំណុំទិន្នន័យ NSL-KDD ក្នុងការស្វែងរកសកម្មភាពជ្រៀតចូលមិនប្រក្រតី។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Incremental Learning (Ensemble)
ការរៀនបែបបន្ថែមដោយប្រើបច្ចេកទេស Ensemble (MLP, MultinomialNB, SGD)
អាចធ្វើបច្ចុប្បន្នភាពម៉ូដែលបានជាបន្តបន្ទាប់ដោយមិនចាំបាច់បង្វឹកពីដើមឡើងវិញ និងមានសមត្ថភាពចាប់យកបម្រែបម្រួលទិន្នន័យ (Concept Drift) តាមរយៈ HDDM និង Hoeffding Tree ។ ទទួលបានកម្រិតសុក្រឹតភាពទាបជាងបច្ចេកទេស Transfer Learning បន្តិចនៅក្នុងការពិសោធន៍នេះ។ សុក្រឹតភាព (Accuracy) ប្រមាណ ០.៧៩ (ឬ ៧៩%)
Transfer Learning
ការរៀនបែបផ្ទេរចំណេះដឹង (ប្រើប្រាស់ម៉ូដែលដែលបានបង្វឹកស្រាប់)
ប្រើប្រាស់ចំណេះដឹងពីម៉ូដែលដែលមានស្រាប់ដើម្បីដោះស្រាយបញ្ហាថ្មី មានប្រសិទ្ធភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងការវាយប្រហារប្រភេទថ្មីៗ និងផ្តល់នូវសុក្រឹតភាពខ្ពស់ជាង។ ទាមទារឱ្យមានការជ្រើសរើស Source Model ដែលសាកសម ហើយដំណើរការអាចមានភាពស្មុគស្មាញក្នុងការរៀបចំដំបូង។ សុក្រឹតភាព (Accuracy) ប្រមាណ ០.៨៨ (ឬ ៨៨%)

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលអាចអនុវត្តបានដោយប្រើកុំព្យូទ័រផ្ទាល់ខ្លួនដែលមានសមត្ថភាពសមរម្យសម្រាប់ការបង្វឹកម៉ូដែល Machine Learning ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ NSL-KDD ដែលជាទិន្នន័យស្តង់ដារក្នុងការសិក្សាស្រាវជ្រាវ ប៉ុន្តែវាជាទិន្នន័យចាស់ និងមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីទម្រង់ចរាចរណ៍បណ្តាញ (Network Traffic) និងការវាយប្រហារតាមអ៊ីនធឺណិតជាក់ស្តែងនៅក្នុងប្រទេសកម្ពុជានាពេលបច្ចុប្បន្ន។ នេះមានន័យថា ប្រសិទ្ធភាពនៃការការពារអាចមានការប្រែប្រួលនៅពេលអនុវត្តលើបណ្តាញពិត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដែលកំពុងជំរុញសេដ្ឋកិច្ចឌីជីថល និងរដ្ឋាភិបាលអេឡិចត្រូនិក។

ការប្រើប្រាស់បច្ចេកទេស Transfer Learning និង Incremental Learning គឺជាជំហានចាំបាច់មួយសម្រាប់អ្នកជំនាញសន្តិសុខបណ្តាញនៅកម្ពុជា ដើម្បីបង្កើតប្រព័ន្ធការពារដែលមានភាពឆ្លាតវៃ និងអាចបត់បែនបាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការសិក្សាមូលដ្ឋានគ្រឹះ និងរៀបចំទិន្នន័យ: ចាប់ផ្តើមដោយការស្វែងយល់ពីរបៀបដំណើរការរបស់ Intrusion Detection System (IDS) និងទាញយកទិន្នន័យ NSL-KDD។ ប្រើប្រាស់ Python (Pandas) ដើម្បីធ្វើ Data Cleaning, Scaling និង Label Encoding ដូចបានរៀបរាប់ក្នុងផ្នែក 'Data Processing' នៃឯកសារ។
  2. ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តការជ្រើសរើសលក្ខណៈពិសេសដោយប្រើ Random Forest Classifier ដើម្បីកាត់បន្ថយចំនួន Features ពី ៤០ មកនៅត្រឹម ៩ Features សំខាន់ៗ ដែលជួយឱ្យម៉ូដែលដំណើរការលឿន។
  3. ការបង្កើតប្រព័ន្ធចាប់យកបម្រែបម្រួល (Drift Detection): សរសេរកូដដើម្បីអនុវត្តក្បួនដោះស្រាយ HDDM និង Hoeffding Tree ដោយប្រើបណ្ណាល័យដូចជា (scikit-multiflow) ដើម្បីស្វែងរកចំណុចដែលទិន្នន័យមានការប្រែប្រួល។
  4. ការអនុវត្ត និងប្រៀបធៀបម៉ូដែល: បង្កើតម៉ូដែលចំនួនពីរ៖ ទីមួយប្រើ Incremental Learning (MLP, SGD) និងទីពីរប្រើ Transfer Learning (Keras Sequential model)។ ធ្វើការប្រៀបធៀបលទ្ធផលសុក្រឹតភាពដូចក្នុងតារាងទី ១ នៃឯកសារ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Concept drift ជាបាតុភូតដែលទិន្នន័យឬគំរូនៃការវាយប្រហារមានការផ្លាស់ប្តូរលក្ខណៈរបស់វាតាមពេលវេលា ដែលធ្វើឱ្យប្រព័ន្ធការពារចាស់ៗលែងមានប្រសិទ្ធភាពក្នុងការចាប់យកការវាយប្រហារថ្មីៗទាំងនោះ។ ដូចជាមេរោគដែលផ្លាស់ប្តូររូបរាងថ្មី ធ្វើឱ្យថ្នាំចាស់ព្យាបាលលែងត្រូវ ដូច្នេះគ្រូពេទ្យត្រូវប្តូររូបមន្តថ្នាំតាម។
Incremental learning ជាវិធីសាស្ត្រដែលកុំព្យូទ័ររៀនពីទិន្នន័យថ្មីៗបន្តិចម្តងៗដើម្បីធ្វើបច្ចុប្បន្នភាពចំណេះដឹងរបស់វា ដោយមិនចាំបាច់លុបចោលការចងចាំចាស់ ឬរៀនពីដើមឡើងវិញទាំងអស់ឡើយ។ ដូចជាសិស្សរៀនមេរៀនថ្មីបន្ថែមជារៀងរាល់ថ្ងៃ ដោយមិនចាំបាច់ត្រឡប់ទៅរៀនថ្នាក់ទី ១ ឡើងវិញរាល់ពេលនោះទេ។
Transfer learning ការយកចំណេះដឹង ឬគំរូ (Model) ដែលម៉ាស៊ីនបានរៀនពីបញ្ហាមួយរួចហើយ ទៅប្រើប្រាស់ជាមូលដ្ឋានដើម្បីដោះស្រាយបញ្ហាមួយផ្សេងទៀតដែលស្រដៀងគ្នា ដើម្បីកុំឱ្យចំណាយពេលរៀនពីចំណុចសូន្យ។ ដូចជាអ្នកចេះជិះកង់រួចហើយ នឹងងាយស្រួលរៀនជិះម៉ូតូជាងអ្នកមិនចេះសោះ ព្រោះវាមានមូលដ្ឋានស្រដៀងគ្នា។
Anomaly Detection ដំណើរការនៃការស្វែងរកសកម្មភាព ឬទិន្នន័យណាដែលខុសប្លែកពីទម្លាប់ធម្មតា (Normal behavior) ដើម្បីសម្គាល់ថាវាអាចជាការវាយប្រហារ ឬជាបញ្ហាក្នុងប្រព័ន្ធ។ ដូចជាសន្តិសុខដែលចាប់អារម្មណ៍ឃើញមនុស្សពាក់អាវរងារក្រាស់នៅរដូវក្តៅ ដែលជាសញ្ញាខុសពីធម្មតា និងគួរឱ្យសង្ស័យ។
Ensemble learning បច្ចេកទេសនៃការប្រើប្រាស់វិធីសាស្ត្រវិភាគ ឬម៉ូដែលច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការសម្រេចចិត្តឱ្យកាន់តែត្រឹមត្រូវ និងមានប្រសិទ្ធភាពខ្ពស់ជាងការពឹងផ្អែកលើម៉ូដែលតែមួយ។ ដូចជាការប្រឹក្សាយោបល់ជាមួយអ្នកជំនាញច្រើននាក់ដើម្បីរកដំណោះស្រាយរួមមួយ ជាជាងជឿលើមនុស្សតែម្នាក់។
Intrusion Detection System (IDS) ជាកម្មវិធី ឬឧបករណ៍ដែលឃ្លាំមើលចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពព្យាបាទ ឬការលួចចូលដោយគ្មានការអនុញ្ញាត។ ដូចជាប្រព័ន្ធកាមេរ៉ាសុវត្ថិភាព និងសញ្ញាអាសន្ននៅតាមផ្ទះ ដែលរោទ៍ឡើងនៅពេលមានចោរគាស់ផ្ទះចូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖