Original Title: Feature Engineering Methods in Intrusion Detection System: A Performance Evaluation
Source: doi.org/10.5829/ije.2023.36.07a.15
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រវិស្វកម្មលក្ខណៈពិសេសនៅក្នុងប្រព័ន្ធរកឃើញការឈ្លានពាន៖ ការវាយតម្លៃដំណើរការ

ចំណងជើងដើម៖ Feature Engineering Methods in Intrusion Detection System: A Performance Evaluation

អ្នកនិពន្ធ៖ F. Zare (Department of Compute Engineering, University of Mazandaran), P. Mahmoudi-Nasr (Department of Compute Engineering, University of Mazandaran)

ឆ្នាំបោះពុម្ព៖ 2023, International Journal of Engineering

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវទំហំ និងភាពស្មុគស្មាញនៃការវាយប្រហារតាមអ៊ីនធឺណិត (Cyber-attacks) ដោយផ្តោតលើការកាត់បន្ថយទិន្នន័យដែលគ្មានប្រយោជន៍ ដើម្បីបង្កើនប្រសិទ្ធភាពប្រព័ន្ធរកឃើញការឈ្លានពាន (IDS)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស និងការកាត់បន្ថយវិមាត្រ ដោយប្រើប្រាស់សំណុំទិន្នន័យ KDDCUP99 និងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅជាឧបករណ៍ចាត់ថ្នាក់កម្រិតខ្ពស់។

ការជ្រើសរើសលក្ខណៈពិសេសតាមវិធីសាស្ត្រចម្រោះ លាក់បាំង និងបង្កប់ (Filtering, Wrapper, and Embedded methods)
ការកាត់បន្ថយវិមាត្រដោយប្រើប្រាស់ PCA, LDA និង t-SNE (Dimensionality Reduction)
ការចាត់ថ្នាក់ដោយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅ (Deep Neural Network - DNN) និងម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)
ការវាយតម្លៃលើសំណុំទិន្នន័យ (KDDCUP99 Dataset)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្របង្កប់ (Embedded methods) ដែលប្រើប្រាស់ Random Forest រួមជាមួយ Mutual Information ផ្តល់លទ្ធផលល្អបំផុត ដោយសម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៩៩.៩%។
វិធីសាស្ត្រចម្រោះ (Filter methods) មានដំណើរការលឿនជាងគេ ប៉ុន្តែមានភាពត្រឹមត្រូវទាប ចំណែកឯវិធីសាស្ត្ររុំ (Wrapper methods) មានភាពត្រឹមត្រូវខ្ពស់ តែត្រូវចំណាយពេលវេលាគណនាច្រើន។
សម្រាប់ការកាត់បន្ថយវិមាត្រ (DR) វិធីសាស្ត្រវិភាគការរើសអើងលីនេអ៊ែរ (LDA) ដំណើរការបានល្អបំផុត និងមានល្បឿនលឿន សូម្បីតែផ្តល់លទ្ធផលល្អជាងវិធីសាស្ត្របង្កប់មួយចំនួនផងដែរ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Filtering Methods (MI, Correlation, MSE) វិធីសាស្ត្រចម្រោះ (Mutual Information, Correlation, Mean Squared Error)	ដំណើរការលឿន ប្រើប្រាស់ធនធានគណនាតិច និងឯករាជ្យពីម៉ូដែលចំណាត់ថ្នាក់។ វាស័ក្តិសមសម្រាប់ប្រព័ន្ធដែលទាមទារល្បឿនជាចម្បង។	មិនមានអន្តរកម្មជាមួយម៉ូដែលចំណាត់ថ្នាក់ (Classifier) ដែលធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិតទាបជាងវិធីសាស្ត្រផ្សេងទៀត។	ភាពត្រឹមត្រូវទាបបំផុតគឺវិធីសាស្ត្រ Correlation (៧៩%) ប៉ុន្តែវិធីសាស្ត្រ MI និង MSE អាចទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៩% នៅពេលប្រើជាមួយ SVM។
Wrapper Methods (SFS, SBS) វិធីសាស្ត្ររុំ (Sequential Forward/Backward Search)	មានអន្តរកម្មជាមួយម៉ូដែលចំណាត់ថ្នាក់ និងកត់ត្រាការពឹងផ្អែកនៃលក្ខណៈពិសេស ដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងវិធីសាស្ត្រចម្រោះ។	ចំណាយធនធានគណនាច្រើន ចំណាយពេលយូរក្នុងការរត់ (ជាពិសេស SBS) និងងាយប្រឈមនឹងបញ្ហា Overfitting។	អាចជ្រើសរើសលក្ខណៈពិសេសល្អបំផុតចំនួន ៣ ដោយទទួលបានភាពត្រឹមត្រូវប្រមាណ ៩៩% ប៉ុន្តែប្រើពេលវេលាគណនាយូរ។
Embedded Methods (Random Forest + MI) វិធីសាស្ត្របង្កប់ (Random Forest បញ្ចូលគ្នាជាមួយ Mutual Information)	ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលអន្តរកម្មជាមួយ Classifier និងមានការចំណាយធនធានគណនាតិចជាងវិធីសាស្ត្រ Wrapper ។	វាពឹងផ្អែកខ្លាំងទៅលើប្រភេទ Classifier ដែលត្រូវបានប្រើប្រាស់ក្នុងការកំណត់លក្ខណៈពិសេស។	ទទួលបានលទ្ធផលល្អដាច់គេ ជាមួយនឹងភាពត្រឹមត្រូវ (Accuracy), Precision, Recall, និង F1-Score ដល់ទៅ ៩៩.៩%។
Linear Discriminant Analysis (LDA) ការវិភាគការរើសអើងលីនេអ៊ែរ (កាត់បន្ថយវិមាត្រ)	ដំណើរការលឿន និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងគេក្នុងចំណោមវិធីសាស្ត្រកាត់បន្ថយវិមាត្រ។	ទាមទារទិន្នន័យដែលមានស្លាកសញ្ញា (Labeled data) ជាមុន និងមិនសូវល្អសម្រាប់ទិន្នន័យដែលគ្មានទំនាក់ទំនងលីនេអ៊ែរ។	សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៧៦% ជាមួយនឹងការប្រើប្រាស់ Deep Neural Network (DNN)។
t-distributed Stochastic Neighbor Embedding (t-SNE) ការបង្កប់អ្នកជិតខាងដោយចៃដន្យដែលចែកចាយតាម t (កាត់បន្ថយវិមាត្រ)	អាចទាញយកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear) និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលមានវិមាត្រខ្ពស់ខ្លាំង។	ប្រើប្រាស់ពេលគណនាយូរខ្លាំង (យឺតបំផុត) និងមិនសូវផ្តល់លទ្ធផលល្អលើសំណុំទិន្នន័យនេះបើធៀបនឹង LDA ឡើយ។	ទទួលបានភាពត្រឹមត្រូវទាបបំផុត (ប្រហែល ៦៩.១៧% សម្រាប់ការរត់ 1000 iter) និងចំណាយពេលយូរ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ ជាពិសេសត្រូវការក្រាហ្វិកកាត (GPU) ដើម្បីបង្វឹកម៉ូដែល Deep Neural Network ឱ្យបានលឿន និងទប់ទល់នឹងទំហំទិន្នន័យជាង ១លានកំណត់ត្រា។

Hardware: កុំព្យូទ័រយួរដៃ Intel(R) Core(TM) i7-10510U CPU, RAM ទំហំ 12GB, និងក្រាហ្វិកកាត NVIDIA GP108 PCIe 2GB។
Software: ភាសា Python 3.9, កម្មវិធី Visual Studio Code, និងបណ្ណាល័យ Machine Learning ដូចជា Keras និង Scikit-learn។
Dataset: សំណុំទិន្នន័យ KDDCUP99 (មានទិន្នន័យសរុប ១,០៧២,៩៩២ កំណត់ត្រា និងលក្ខណៈពិសេសចំនួន ៤១)។
Expertise: ចំណេះដឹងផ្នែកសន្តិសុខបណ្តាញអ៊ីនធឺណិត (Cybersecurity), ការរៀបចំទិន្នន័យ (Data Preprocessing), និង Deep Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យបណ្តាញ KDDCUP99 ដែលជាទិន្នន័យកែច្នៃតាំងពីឆ្នាំ ១៩៩៩។ ទោះបីជាវាជាទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវ ប៉ុន្តែវាមិនឆ្លុះបញ្ចាំងពីទម្រង់នៃការវាយប្រហារតាមអ៊ីនធឺណិតថ្មីៗ និងស្មុគស្មាញ (ដូចជា Zero-day attacks) នាពេលបច្ចុប្បន្ននោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យចាស់នេះពេកអាចធ្វើឱ្យប្រព័ន្ធការពារជាក់ស្តែងមិនអាចទប់ទល់នឹងការវាយប្រហារប្រភេទថ្មីបានល្អឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យសាកល្បងជាទិន្នន័យចាស់ ប៉ុន្តែវិធីសាស្ត្រវិស្វកម្មលក្ខណៈពិសេស (Feature Engineering) និងតក្កវិទ្យានៅពីក្រោយប្រព័ន្ធនេះ អាចត្រូវបានយកមកអនុវត្តប្រកបដោយប្រសិទ្ធភាពសម្រាប់ការពារហេដ្ឋារចនាសម្ព័ន្ធឌីជីថលនៅកម្ពុជា។

ក្រុមហ៊ុនទូរគមនាគមន៍ (Telecommunications): ក្រុមហ៊ុនដូចជា Smart, Cellcard និង Metfone អាចប្រើប្រាស់វិធីសាស្ត្របង្កប់ (Embedded methods) ដើម្បីរកឃើញ និងទប់ស្កាត់ការវាយប្រហារបណ្តាញកម្រិតខ្ពស់ (ដូចជា DDoS) បានលឿន ជួយការពារទិន្នន័យអតិថិជន និងរក្សាស្ថិរភាពសេវាអ៊ីនធឺណិត។
ធនាគារ និងគ្រឹះស្ថានហិរញ្ញវត្ថុ (Banking & Finance): ធនាគារ (ឧ. ABA, ACLEDA) អាចប្រើប្រាស់ម៉ូដែល Deep Neural Network ដែលឆ្លងកាត់ការកាត់បន្ថយវិមាត្រ (LDA) ដើម្បីស្វែងរកប្រតិបត្តិការទូទាត់ខុសប្រក្រតី ដោយធានាបាននូវល្បឿនលឿន និងប្រើប្រាស់ធនធាន Server តិចតួច។
មជ្ឈមណ្ឌលទិន្នន័យរដ្ឋាភិបាល (Government Data Centers): ក្រសួងស្ថាប័នរដ្ឋ ដូចជាក្រសួងប្រៃសណីយ៍ និងប្រព័ន្ធ CamDX អាចយកគោលគំនិតនៃការបង្កើតប្រព័ន្ធប្រឆាំងការឈ្លានពាន (IDS) នេះទៅការពារប្រព័ន្ធផ្ទុកទិន្នន័យជាតិ ពីការចូលលួចទិន្នន័យដោយខុសច្បាប់ពីសំណាក់ក្រុម Hacker ។

ការបំពាក់ប្រព័ន្ធរកឃើញការឈ្លានពានដែលត្រូវបានធ្វើឱ្យប្រសើរឡើងដោយបច្ចេកវិទ្យា AI នឹងជួយពង្រឹងកម្រិតសន្តិសុខសាយប័ររបស់កម្ពុជាឱ្យកាន់តែរឹងមាំ និងឆ្លើយតបបានទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះ Network Security និងទិន្នន័យ: ត្រូវស្វែងយល់ពីគោលការណ៍នៃការវាយប្រហារបណ្តាញ ព្រមទាំងទាញយកសំណុំទិន្នន័យបណ្តុះបណ្តាល KDDCUP99 មកសិក្សាអំពីប្រភេទអថេរ (Features) និងទម្រង់នៃការវាយប្រហារ (DoS, Probe, U2R, R2L) ជាមុនសិន។
អនុវត្តការរៀបចំទិន្នន័យជាមុន (Data Preprocessing): សរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Pandas សម្រាប់ការសម្អាតទិន្នន័យ និងប្រើប្រាស់ Scikit-learn សម្រាប់ធ្វើ Label Encoding និង StandardScaler ដើម្បីបំប្លែងតម្លៃទិន្នន័យឱ្យស្ថិតនៅចន្លោះ -1 និង 1។
សាកល្បងវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស (Feature Engineering): ចាប់ផ្តើមសរសេរកូដសាកល្បងក្បួនដោះស្រាយកាត់បន្ថយទិន្នន័យ។ អ្នកគួរផ្តោតលើការអនុវត្ត Embedded Method ដោយប្រើ Random Forest រួមជាមួយ Mutual Information និងវិធីសាស្ត្រ LDA ព្រោះវាផ្តល់លទ្ធផលល្អបំផុតនៅក្នុងការស្រាវជ្រាវនេះ។
កសាងម៉ូដែល Deep Neural Network (DNN): ប្រើប្រាស់បណ្ណាល័យ Keras ដើម្បីរចនាម៉ូដែលប្រព័ន្ធសរសៃប្រសាទសិប្បនិម្មិតដែលមាន Layer ដូចជា ReLU, Tanh និង Softmax។ បន្ទាប់មក ធ្វើការវាយតម្លៃលទ្ធផលម៉ូដែលដោយប្រើរង្វាស់ Accuracy, Precision, Recall, និង F1-Score លើទិន្នន័យដែលបានកាត់បន្ថយវិមាត្ររួច។
សាកល្បងជាមួយសំណុំទិន្នន័យថ្មីៗទំនើបជាងមុន: បន្ទាប់ពីយល់ច្បាស់ពីដំណើរការហើយ ដើម្បីទទួលបានម៉ូដែលដែលអាចប្រើការបានពិតប្រាកដនាពេលបច្ចុប្បន្ន អ្នកគួរប្តូរទៅប្រើប្រាស់សំណុំទិន្នន័យ Cybersecurity ថ្មីៗដូចជា UNSW-NB15 ឬ CIC-IDS-2017 ជំនួសវិញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Feature Engineering	ដំណើរការនៃការជ្រើសរើស កែច្នៃ និងទាញយកលក្ខណៈសម្បត្តិ ឬទិន្នន័យសំខាន់ៗពីសំណុំទិន្នន័យដើម ដើម្បីជួយឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) អាចរៀនសូត្រ និងធ្វើការទស្សន៍ទាយបានកាន់តែច្បាស់លាស់ និងមានល្បឿនលឿនជាងមុន។	ដូចជាការចម្រាញ់រ៉ែមាសចេញពីដីខ្សាច់ មុននឹងយកទៅកែច្នៃជារបស់របរប្រើប្រាស់ ដើម្បីចំណេញពេល និងទទួលបានតែរបស់មានតម្លៃពិតប្រាកដ។
Intrusion Detection System	ប្រព័ន្ធសន្តិសុខដែលតាមដាន និងវិភាគចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារដែលបំពានច្បាប់សុវត្ថិភាពទិន្នន័យ។	ប្រៀបដូចជាកាមេរ៉ាសុវត្ថិភាព និងសន្តិសុខដែលឈរយាមនៅច្រកទ្វារក្រុមហ៊ុន ដើម្បីពិនិត្យមើលអ្នកចេញចូល និងរារាំងចោរ។
Dimensions Reduction	បច្ចេកទេសកាត់បន្ថយចំនួនអថេរ ឬលក្ខណៈ (Features) នៃទិន្នន័យដែលមានភាពស្មុគស្មាញខ្ពស់ មកនៅត្រឹមទិន្នន័យតូចជាងមុន ដោយមិនបាត់បង់ព័ត៌មាន ឬទំនាក់ទំនងសំខាន់ៗនៃទិន្នន័យដើមឡើយ។	ដូចជាការបង្រួញសៀវភៅក្រាស់មួយក្បាល មកត្រឹមសេចក្តីសង្ខេបមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យដើមទាំងស្រុង។
Feature Selection	ការជ្រើសរើសយកតែលក្ខណៈទិន្នន័យណាដែលពាក់ព័ន្ធ និងមានប្រយោជន៍បំផុតសម្រាប់ការបង្វឹកម៉ូដែល Machine Learning ដោយលុបចោលទិន្នន័យដែលគ្មានប្រយោជន៍ ឬស្ទួនគ្នា ដើម្បីកាត់បន្ថយការចំណាយធនធានកុំព្យូទ័រ។	ដូចជាការរើសយកតែផ្លែឈើល្អៗដាក់ក្នុងកន្ត្រក និងបោះចោលផ្លែឈើដែលរលួយ ឬមិនទាន់ទុំ។
Deep Neural Network	ប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់ (Layers) កែច្នៃទិន្នន័យច្រើនជាន់ ដែលមានសមត្ថភាពអាចរៀនពីទិន្នន័យស្មុគស្មាញ និងធ្វើការសម្រេចចិត្ត ឬចំណាត់ថ្នាក់បានយ៉ាងសុក្រឹត។	ប្រៀបដូចជាខួរក្បាលរបស់មនុស្សដែលមានកោសិកាជាច្រើនតភ្ជាប់គ្នា ដើម្បីរៀនសូត្រ និងចងចាំបទពិសោធន៍ថ្មីៗ។
Filter Methods	វិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសដោយផ្អែកលើលក្ខណៈស្ថិតិរបស់ទិន្នន័យ (ដូចជាកម្រិតនៃទំនាក់ទំនងគ្នា - Correlation) ដោយមិនពឹងផ្អែកលើម៉ូដែល Machine Learning ឡើយ ដែលធ្វើឱ្យវាដំណើរការបានលឿន។	ដូចជាការប្រើកន្ត្រងត្រងយកគ្រាប់ខ្សាច់ធំៗចេញពីខ្សាច់ម៉ត់ ដោយមិនចាំបាច់យកវាទៅពិសោធន៍អ្វីបន្តទៀត។
Wrapper Methods	វិធីសាស្ត្រដែលសាកល្បងបន្សំនៃលក្ខណៈពិសេសផ្សេងៗគ្នា ដោយប្រើប្រាស់ម៉ូដែល Machine Learning ជាក់ស្តែងដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាព ដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់តែត្រូវចំណាយពេលយូរក្នុងការគណនា។	ដូចជាការសាកល្បងស្លៀកសម្លៀកបំពាក់ច្រើនឈុតម្តងមួយៗ ដើម្បីមើលថាតើឈុតមួយណាស័ក្តិសមជាមួយអ្នកជាងគេ។
Linear Discriminant Analysis	ក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យដោយមានការត្រួតពិនិត្យ (Supervised Learning) ដែលព្យាយាមរកបន្ទាត់ ឬប្លង់ដែលពង្រីកគម្លាតរវាងក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យនៅឆ្ងាយពីគ្នាបំផុត។	ដូចជាការរៀបចំសិស្សក្នុងថ្នាក់ឱ្យអង្គុយជាក្រុមតាមចំណង់ចំណូលចិត្តរៀងៗខ្លួន ដើម្បីឱ្យគ្រូងាយស្រួលបែងចែក និងគ្រប់គ្រង។
Overfitting	បញ្ហាដែលម៉ូដែល Machine Learning រៀនទន្ទេញចាំទិន្នន័យបង្វឹក (Training Data) និងទិន្នន័យរំខាន (Noise) ច្បាស់ពេក រហូតដល់មិនអាចធ្វើការទស្សន៍ទាយទិន្នន័យថ្មីៗដែលវាមិនធ្លាប់ជួបបានត្រឹមត្រូវ។	ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗយ៉ាងស្ទាត់ ប៉ុន្តែប្រឡងធ្លាក់នៅពេលគ្រូចេញលំហាត់ថ្មីដែលគ្រាន់តែប្តូរលេខ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖