Original Title: Anomaly Intrusion Detection Based on Concept Drift
Source: www.wwjmrd.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញការជ្រៀតចូលមិនប្រក្រតីដោយផ្អែកលើបម្រែបម្រួលគំនិត (Concept Drift)

ចំណងជើងដើម៖ Anomaly Intrusion Detection Based on Concept Drift

អ្នកនិពន្ធ៖ Gokul R (Anna University, Chennai, India), Pradheep D (Anna University, Chennai, India), Naveen V (Anna University, Chennai, India), Vijayarani J (Anna University, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2020, World Wide Journal of Multidisciplinary Research and Development

វិស័យសិក្សា៖ Computer Science / Network Security

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាសុវត្ថិភាពបណ្តាញកុំព្យូទ័រ ដែលអ្នកវាយប្រហារតែងតែផ្លាស់ប្តូរបច្ចេកទេស និងឧបករណ៍របស់ពួកគេ (ហៅថា Concept Drift) ធ្វើឱ្យប្រព័ន្ធការពារបែបបុរាណមានការលំបាកក្នុងការចាប់យកការវាយប្រហារថ្មីៗទាំងនោះ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់វិធីសាស្ត្រ Machine Learning ចំនួនពីរគឺ Incremental Learning និង Transfer Learning ដើម្បីបណ្តុះបណ្តាលម៉ូដែលលើសំណុំទិន្នន័យ NSL-KDD ក្នុងការស្វែងរកសកម្មភាពជ្រៀតចូលមិនប្រក្រតី។

ការរៀបចំទិន្នន័យ (Data Preprocessing) រួមមានការសម្អាត ការបំប្លែងកូដ (Label Encoding) និងការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ដោយប្រើ Random Forest Classifier
ការរកឃើញបម្រែបម្រួលទិន្នន័យ (Drift Detection) ដោយប្រើវិធីសាស្ត្រ HDDM និង Hoeffding Tree
ការប្រៀបធៀបរវាង Ensemble Incremental Learning (ប្រើ MLP, MultinomialNB, SGD) និង Transfer Learning

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ Transfer Learning ទទួលបានប្រសិទ្ធភាពខ្ពស់ជាងវិធីសាស្ត្រ Incremental Learning ក្នុងការស្វែងរកការវាយប្រហារ។
ពិន្ទុ Cross-validation សម្រាប់ Transfer Learning គឺទទួលបានប្រមាណ ០.៨៨ (ឬ ៨៨%) ដែលបង្ហាញថាវាមានសុក្រឹតភាពល្អ។
ប្រព័ន្ធដែលបានស្នើឡើងអាចបត់បែនតាមការផ្លាស់ប្តូរនៃទម្រង់ទិន្នន័យ (Concept Drift) ដើម្បីការពារបណ្តាញពីការវាយប្រហារដែលមិនធ្លាប់ស្គាល់ ឬការវាយប្រហារដែលមានលក្ខណៈប្រែប្រួល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Incremental Learning (Ensemble) ការរៀនបែបបន្ថែមដោយប្រើបច្ចេកទេស Ensemble (MLP, MultinomialNB, SGD)	អាចធ្វើបច្ចុប្បន្នភាពម៉ូដែលបានជាបន្តបន្ទាប់ដោយមិនចាំបាច់បង្វឹកពីដើមឡើងវិញ និងមានសមត្ថភាពចាប់យកបម្រែបម្រួលទិន្នន័យ (Concept Drift) តាមរយៈ HDDM និង Hoeffding Tree ។	ទទួលបានកម្រិតសុក្រឹតភាពទាបជាងបច្ចេកទេស Transfer Learning បន្តិចនៅក្នុងការពិសោធន៍នេះ។	សុក្រឹតភាព (Accuracy) ប្រមាណ ០.៧៩ (ឬ ៧៩%)
Transfer Learning ការរៀនបែបផ្ទេរចំណេះដឹង (ប្រើប្រាស់ម៉ូដែលដែលបានបង្វឹកស្រាប់)	ប្រើប្រាស់ចំណេះដឹងពីម៉ូដែលដែលមានស្រាប់ដើម្បីដោះស្រាយបញ្ហាថ្មី មានប្រសិទ្ធភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងការវាយប្រហារប្រភេទថ្មីៗ និងផ្តល់នូវសុក្រឹតភាពខ្ពស់ជាង។	ទាមទារឱ្យមានការជ្រើសរើស Source Model ដែលសាកសម ហើយដំណើរការអាចមានភាពស្មុគស្មាញក្នុងការរៀបចំដំបូង។	សុក្រឹតភាព (Accuracy) ប្រមាណ ០.៨៨ (ឬ ៨៨%)

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលអាចអនុវត្តបានដោយប្រើកុំព្យូទ័រផ្ទាល់ខ្លួនដែលមានសមត្ថភាពសមរម្យសម្រាប់ការបង្វឹកម៉ូដែល Machine Learning ។

Dataset: ប្រើប្រាស់ទិន្នន័យ NSL-KDD (មានកំណត់ត្រាសម្រាប់ Training ជាង ១៣០,០០០ និង Testing ១២,០០០) ដែលជាទិន្នន័យសាធារណៈ។
Software Framework: តម្រូវឱ្យប្រើប្រាស់ Python រួមជាមួយបណ្ណាល័យដូចជា Keras (សម្រាប់ Deep Learning/Transfer Learning) និង Scikit-learn (សម្រាប់ Classifier ផ្សេងៗ)។
Hardware: មិនតម្រូវឱ្យមាន GPU កម្រិតខ្ពស់ពេកទេ ប៉ុន្តែការមាន GPU នឹងជួយពន្លឿនការបង្វឹកម៉ូដែល Transfer Learning ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ NSL-KDD ដែលជាទិន្នន័យស្តង់ដារក្នុងការសិក្សាស្រាវជ្រាវ ប៉ុន្តែវាជាទិន្នន័យចាស់ និងមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីទម្រង់ចរាចរណ៍បណ្តាញ (Network Traffic) និងការវាយប្រហារតាមអ៊ីនធឺណិតជាក់ស្តែងនៅក្នុងប្រទេសកម្ពុជានាពេលបច្ចុប្បន្ន។ នេះមានន័យថា ប្រសិទ្ធភាពនៃការការពារអាចមានការប្រែប្រួលនៅពេលអនុវត្តលើបណ្តាញពិត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដែលកំពុងជំរុញសេដ្ឋកិច្ចឌីជីថល និងរដ្ឋាភិបាលអេឡិចត្រូនិក។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Banking & MFI): អាចប្រើប្រាស់ដើម្បីការពារប្រព័ន្ធទិន្នន័យហិរញ្ញវត្ថុពីការវាយប្រហារដែលផ្លាស់ប្តូរទម្រង់ជាប្រចាំ (Concept Drift) ដើម្បីលួចទិន្នន័យ ឬបង្កការរំខាន។
អ្នកផ្តល់សេវាអ៊ីនធឺណិត (ISPs & Telecoms): ជួយក្នុងការត្រួតពិនិត្យចរាចរណ៍បណ្តាញ (Network Monitoring) ដើម្បីរកមើលភាពមិនប្រក្រតីដែលបណ្តាលមកពីមេរោគ ឬការវាយប្រហារ DDoS ថ្មីៗ។
ហេដ្ឋារចនាសម្ព័ន្ធរដ្ឋាភិបាល (Government Infrastructure): ពង្រឹងសុវត្ថិភាពមជ្ឈមណ្ឌលទិន្នន័យជាតិ (National Data Center) ទល់នឹងការវាយប្រហារកម្រិតខ្ពស់។

ការប្រើប្រាស់បច្ចេកទេស Transfer Learning និង Incremental Learning គឺជាជំហានចាំបាច់មួយសម្រាប់អ្នកជំនាញសន្តិសុខបណ្តាញនៅកម្ពុជា ដើម្បីបង្កើតប្រព័ន្ធការពារដែលមានភាពឆ្លាតវៃ និងអាចបត់បែនបាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ និងរៀបចំទិន្នន័យ: ចាប់ផ្តើមដោយការស្វែងយល់ពីរបៀបដំណើរការរបស់ Intrusion Detection System (IDS) និងទាញយកទិន្នន័យ NSL-KDD។ ប្រើប្រាស់ Python (Pandas) ដើម្បីធ្វើ Data Cleaning, Scaling និង Label Encoding ដូចបានរៀបរាប់ក្នុងផ្នែក 'Data Processing' នៃឯកសារ។
ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តការជ្រើសរើសលក្ខណៈពិសេសដោយប្រើ Random Forest Classifier ដើម្បីកាត់បន្ថយចំនួន Features ពី ៤០ មកនៅត្រឹម ៩ Features សំខាន់ៗ ដែលជួយឱ្យម៉ូដែលដំណើរការលឿន។
ការបង្កើតប្រព័ន្ធចាប់យកបម្រែបម្រួល (Drift Detection): សរសេរកូដដើម្បីអនុវត្តក្បួនដោះស្រាយ HDDM និង Hoeffding Tree ដោយប្រើបណ្ណាល័យដូចជា (scikit-multiflow) ដើម្បីស្វែងរកចំណុចដែលទិន្នន័យមានការប្រែប្រួល។
ការអនុវត្ត និងប្រៀបធៀបម៉ូដែល: បង្កើតម៉ូដែលចំនួនពីរ៖ ទីមួយប្រើ Incremental Learning (MLP, SGD) និងទីពីរប្រើ Transfer Learning (Keras Sequential model)។ ធ្វើការប្រៀបធៀបលទ្ធផលសុក្រឹតភាពដូចក្នុងតារាងទី ១ នៃឯកសារ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Concept drift	ជាបាតុភូតដែលទិន្នន័យឬគំរូនៃការវាយប្រហារមានការផ្លាស់ប្តូរលក្ខណៈរបស់វាតាមពេលវេលា ដែលធ្វើឱ្យប្រព័ន្ធការពារចាស់ៗលែងមានប្រសិទ្ធភាពក្នុងការចាប់យកការវាយប្រហារថ្មីៗទាំងនោះ។	ដូចជាមេរោគដែលផ្លាស់ប្តូររូបរាងថ្មី ធ្វើឱ្យថ្នាំចាស់ព្យាបាលលែងត្រូវ ដូច្នេះគ្រូពេទ្យត្រូវប្តូររូបមន្តថ្នាំតាម។
Incremental learning	ជាវិធីសាស្ត្រដែលកុំព្យូទ័ររៀនពីទិន្នន័យថ្មីៗបន្តិចម្តងៗដើម្បីធ្វើបច្ចុប្បន្នភាពចំណេះដឹងរបស់វា ដោយមិនចាំបាច់លុបចោលការចងចាំចាស់ ឬរៀនពីដើមឡើងវិញទាំងអស់ឡើយ។	ដូចជាសិស្សរៀនមេរៀនថ្មីបន្ថែមជារៀងរាល់ថ្ងៃ ដោយមិនចាំបាច់ត្រឡប់ទៅរៀនថ្នាក់ទី ១ ឡើងវិញរាល់ពេលនោះទេ។
Transfer learning	ការយកចំណេះដឹង ឬគំរូ (Model) ដែលម៉ាស៊ីនបានរៀនពីបញ្ហាមួយរួចហើយ ទៅប្រើប្រាស់ជាមូលដ្ឋានដើម្បីដោះស្រាយបញ្ហាមួយផ្សេងទៀតដែលស្រដៀងគ្នា ដើម្បីកុំឱ្យចំណាយពេលរៀនពីចំណុចសូន្យ។	ដូចជាអ្នកចេះជិះកង់រួចហើយ នឹងងាយស្រួលរៀនជិះម៉ូតូជាងអ្នកមិនចេះសោះ ព្រោះវាមានមូលដ្ឋានស្រដៀងគ្នា។
Anomaly Detection	ដំណើរការនៃការស្វែងរកសកម្មភាព ឬទិន្នន័យណាដែលខុសប្លែកពីទម្លាប់ធម្មតា (Normal behavior) ដើម្បីសម្គាល់ថាវាអាចជាការវាយប្រហារ ឬជាបញ្ហាក្នុងប្រព័ន្ធ។	ដូចជាសន្តិសុខដែលចាប់អារម្មណ៍ឃើញមនុស្សពាក់អាវរងារក្រាស់នៅរដូវក្តៅ ដែលជាសញ្ញាខុសពីធម្មតា និងគួរឱ្យសង្ស័យ។
Ensemble learning	បច្ចេកទេសនៃការប្រើប្រាស់វិធីសាស្ត្រវិភាគ ឬម៉ូដែលច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការសម្រេចចិត្តឱ្យកាន់តែត្រឹមត្រូវ និងមានប្រសិទ្ធភាពខ្ពស់ជាងការពឹងផ្អែកលើម៉ូដែលតែមួយ។	ដូចជាការប្រឹក្សាយោបល់ជាមួយអ្នកជំនាញច្រើននាក់ដើម្បីរកដំណោះស្រាយរួមមួយ ជាជាងជឿលើមនុស្សតែម្នាក់។
Intrusion Detection System (IDS)	ជាកម្មវិធី ឬឧបករណ៍ដែលឃ្លាំមើលចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពព្យាបាទ ឬការលួចចូលដោយគ្មានការអនុញ្ញាត។	ដូចជាប្រព័ន្ធកាមេរ៉ាសុវត្ថិភាព និងសញ្ញាអាសន្ននៅតាមផ្ទះ ដែលរោទ៍ឡើងនៅពេលមានចោរគាស់ផ្ទះចូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖