Original Title: Feature Engineering Methods in Intrusion Detection System: A Performance Evaluation
Source: doi.org/10.5829/ije.2023.36.07a.15
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រវិស្វកម្មលក្ខណៈពិសេសនៅក្នុងប្រព័ន្ធរកឃើញការឈ្លានពាន៖ ការវាយតម្លៃដំណើរការ

ចំណងជើងដើម៖ Feature Engineering Methods in Intrusion Detection System: A Performance Evaluation

អ្នកនិពន្ធ៖ F. Zare (Department of Compute Engineering, University of Mazandaran), P. Mahmoudi-Nasr (Department of Compute Engineering, University of Mazandaran)

ឆ្នាំបោះពុម្ព៖ 2023, International Journal of Engineering

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវទំហំ និងភាពស្មុគស្មាញនៃការវាយប្រហារតាមអ៊ីនធឺណិត (Cyber-attacks) ដោយផ្តោតលើការកាត់បន្ថយទិន្នន័យដែលគ្មានប្រយោជន៍ ដើម្បីបង្កើនប្រសិទ្ធភាពប្រព័ន្ធរកឃើញការឈ្លានពាន (IDS)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស និងការកាត់បន្ថយវិមាត្រ ដោយប្រើប្រាស់សំណុំទិន្នន័យ KDDCUP99 និងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅជាឧបករណ៍ចាត់ថ្នាក់កម្រិតខ្ពស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Filtering Methods (MI, Correlation, MSE)
វិធីសាស្ត្រចម្រោះ (Mutual Information, Correlation, Mean Squared Error)
ដំណើរការលឿន ប្រើប្រាស់ធនធានគណនាតិច និងឯករាជ្យពីម៉ូដែលចំណាត់ថ្នាក់។ វាស័ក្តិសមសម្រាប់ប្រព័ន្ធដែលទាមទារល្បឿនជាចម្បង។ មិនមានអន្តរកម្មជាមួយម៉ូដែលចំណាត់ថ្នាក់ (Classifier) ដែលធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិតទាបជាងវិធីសាស្ត្រផ្សេងទៀត។ ភាពត្រឹមត្រូវទាបបំផុតគឺវិធីសាស្ត្រ Correlation (៧៩%) ប៉ុន្តែវិធីសាស្ត្រ MI និង MSE អាចទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៩% នៅពេលប្រើជាមួយ SVM។
Wrapper Methods (SFS, SBS)
វិធីសាស្ត្ររុំ (Sequential Forward/Backward Search)
មានអន្តរកម្មជាមួយម៉ូដែលចំណាត់ថ្នាក់ និងកត់ត្រាការពឹងផ្អែកនៃលក្ខណៈពិសេស ដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងវិធីសាស្ត្រចម្រោះ។ ចំណាយធនធានគណនាច្រើន ចំណាយពេលយូរក្នុងការរត់ (ជាពិសេស SBS) និងងាយប្រឈមនឹងបញ្ហា Overfitting។ អាចជ្រើសរើសលក្ខណៈពិសេសល្អបំផុតចំនួន ៣ ដោយទទួលបានភាពត្រឹមត្រូវប្រមាណ ៩៩% ប៉ុន្តែប្រើពេលវេលាគណនាយូរ។
Embedded Methods (Random Forest + MI)
វិធីសាស្ត្របង្កប់ (Random Forest បញ្ចូលគ្នាជាមួយ Mutual Information)
ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលអន្តរកម្មជាមួយ Classifier និងមានការចំណាយធនធានគណនាតិចជាងវិធីសាស្ត្រ Wrapper ។ វាពឹងផ្អែកខ្លាំងទៅលើប្រភេទ Classifier ដែលត្រូវបានប្រើប្រាស់ក្នុងការកំណត់លក្ខណៈពិសេស។ ទទួលបានលទ្ធផលល្អដាច់គេ ជាមួយនឹងភាពត្រឹមត្រូវ (Accuracy), Precision, Recall, និង F1-Score ដល់ទៅ ៩៩.៩%។
Linear Discriminant Analysis (LDA)
ការវិភាគការរើសអើងលីនេអ៊ែរ (កាត់បន្ថយវិមាត្រ)
ដំណើរការលឿន និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងគេក្នុងចំណោមវិធីសាស្ត្រកាត់បន្ថយវិមាត្រ។ ទាមទារទិន្នន័យដែលមានស្លាកសញ្ញា (Labeled data) ជាមុន និងមិនសូវល្អសម្រាប់ទិន្នន័យដែលគ្មានទំនាក់ទំនងលីនេអ៊ែរ។ សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៧៦% ជាមួយនឹងការប្រើប្រាស់ Deep Neural Network (DNN)។
t-distributed Stochastic Neighbor Embedding (t-SNE)
ការបង្កប់អ្នកជិតខាងដោយចៃដន្យដែលចែកចាយតាម t (កាត់បន្ថយវិមាត្រ)
អាចទាញយកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear) និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលមានវិមាត្រខ្ពស់ខ្លាំង។ ប្រើប្រាស់ពេលគណនាយូរខ្លាំង (យឺតបំផុត) និងមិនសូវផ្តល់លទ្ធផលល្អលើសំណុំទិន្នន័យនេះបើធៀបនឹង LDA ឡើយ។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុត (ប្រហែល ៦៩.១៧% សម្រាប់ការរត់ 1000 iter) និងចំណាយពេលយូរ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ ជាពិសេសត្រូវការក្រាហ្វិកកាត (GPU) ដើម្បីបង្វឹកម៉ូដែល Deep Neural Network ឱ្យបានលឿន និងទប់ទល់នឹងទំហំទិន្នន័យជាង ១លានកំណត់ត្រា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យបណ្តាញ KDDCUP99 ដែលជាទិន្នន័យកែច្នៃតាំងពីឆ្នាំ ១៩៩៩។ ទោះបីជាវាជាទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវ ប៉ុន្តែវាមិនឆ្លុះបញ្ចាំងពីទម្រង់នៃការវាយប្រហារតាមអ៊ីនធឺណិតថ្មីៗ និងស្មុគស្មាញ (ដូចជា Zero-day attacks) នាពេលបច្ចុប្បន្ននោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យចាស់នេះពេកអាចធ្វើឱ្យប្រព័ន្ធការពារជាក់ស្តែងមិនអាចទប់ទល់នឹងការវាយប្រហារប្រភេទថ្មីបានល្អឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យសាកល្បងជាទិន្នន័យចាស់ ប៉ុន្តែវិធីសាស្ត្រវិស្វកម្មលក្ខណៈពិសេស (Feature Engineering) និងតក្កវិទ្យានៅពីក្រោយប្រព័ន្ធនេះ អាចត្រូវបានយកមកអនុវត្តប្រកបដោយប្រសិទ្ធភាពសម្រាប់ការពារហេដ្ឋារចនាសម្ព័ន្ធឌីជីថលនៅកម្ពុជា។

ការបំពាក់ប្រព័ន្ធរកឃើញការឈ្លានពានដែលត្រូវបានធ្វើឱ្យប្រសើរឡើងដោយបច្ចេកវិទ្យា AI នឹងជួយពង្រឹងកម្រិតសន្តិសុខសាយប័ររបស់កម្ពុជាឱ្យកាន់តែរឹងមាំ និងឆ្លើយតបបានទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះ Network Security និងទិន្នន័យ: ត្រូវស្វែងយល់ពីគោលការណ៍នៃការវាយប្រហារបណ្តាញ ព្រមទាំងទាញយកសំណុំទិន្នន័យបណ្តុះបណ្តាល KDDCUP99 មកសិក្សាអំពីប្រភេទអថេរ (Features) និងទម្រង់នៃការវាយប្រហារ (DoS, Probe, U2R, R2L) ជាមុនសិន។
  2. អនុវត្តការរៀបចំទិន្នន័យជាមុន (Data Preprocessing): សរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Pandas សម្រាប់ការសម្អាតទិន្នន័យ និងប្រើប្រាស់ Scikit-learn សម្រាប់ធ្វើ Label Encoding និង StandardScaler ដើម្បីបំប្លែងតម្លៃទិន្នន័យឱ្យស្ថិតនៅចន្លោះ -1 និង 1។
  3. សាកល្បងវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស (Feature Engineering): ចាប់ផ្តើមសរសេរកូដសាកល្បងក្បួនដោះស្រាយកាត់បន្ថយទិន្នន័យ។ អ្នកគួរផ្តោតលើការអនុវត្ត Embedded Method ដោយប្រើ Random Forest រួមជាមួយ Mutual Information និងវិធីសាស្ត្រ LDA ព្រោះវាផ្តល់លទ្ធផលល្អបំផុតនៅក្នុងការស្រាវជ្រាវនេះ។
  4. កសាងម៉ូដែល Deep Neural Network (DNN): ប្រើប្រាស់បណ្ណាល័យ Keras ដើម្បីរចនាម៉ូដែលប្រព័ន្ធសរសៃប្រសាទសិប្បនិម្មិតដែលមាន Layer ដូចជា ReLU, Tanh និង Softmax។ បន្ទាប់មក ធ្វើការវាយតម្លៃលទ្ធផលម៉ូដែលដោយប្រើរង្វាស់ Accuracy, Precision, Recall, និង F1-Score លើទិន្នន័យដែលបានកាត់បន្ថយវិមាត្ររួច។
  5. សាកល្បងជាមួយសំណុំទិន្នន័យថ្មីៗទំនើបជាងមុន: បន្ទាប់ពីយល់ច្បាស់ពីដំណើរការហើយ ដើម្បីទទួលបានម៉ូដែលដែលអាចប្រើការបានពិតប្រាកដនាពេលបច្ចុប្បន្ន អ្នកគួរប្តូរទៅប្រើប្រាស់សំណុំទិន្នន័យ Cybersecurity ថ្មីៗដូចជា UNSW-NB15CIC-IDS-2017 ជំនួសវិញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Feature Engineering ដំណើរការនៃការជ្រើសរើស កែច្នៃ និងទាញយកលក្ខណៈសម្បត្តិ ឬទិន្នន័យសំខាន់ៗពីសំណុំទិន្នន័យដើម ដើម្បីជួយឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) អាចរៀនសូត្រ និងធ្វើការទស្សន៍ទាយបានកាន់តែច្បាស់លាស់ និងមានល្បឿនលឿនជាងមុន។ ដូចជាការចម្រាញ់រ៉ែមាសចេញពីដីខ្សាច់ មុននឹងយកទៅកែច្នៃជារបស់របរប្រើប្រាស់ ដើម្បីចំណេញពេល និងទទួលបានតែរបស់មានតម្លៃពិតប្រាកដ។
Intrusion Detection System ប្រព័ន្ធសន្តិសុខដែលតាមដាន និងវិភាគចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារដែលបំពានច្បាប់សុវត្ថិភាពទិន្នន័យ។ ប្រៀបដូចជាកាមេរ៉ាសុវត្ថិភាព និងសន្តិសុខដែលឈរយាមនៅច្រកទ្វារក្រុមហ៊ុន ដើម្បីពិនិត្យមើលអ្នកចេញចូល និងរារាំងចោរ។
Dimensions Reduction បច្ចេកទេសកាត់បន្ថយចំនួនអថេរ ឬលក្ខណៈ (Features) នៃទិន្នន័យដែលមានភាពស្មុគស្មាញខ្ពស់ មកនៅត្រឹមទិន្នន័យតូចជាងមុន ដោយមិនបាត់បង់ព័ត៌មាន ឬទំនាក់ទំនងសំខាន់ៗនៃទិន្នន័យដើមឡើយ។ ដូចជាការបង្រួញសៀវភៅក្រាស់មួយក្បាល មកត្រឹមសេចក្តីសង្ខេបមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យដើមទាំងស្រុង។
Feature Selection ការជ្រើសរើសយកតែលក្ខណៈទិន្នន័យណាដែលពាក់ព័ន្ធ និងមានប្រយោជន៍បំផុតសម្រាប់ការបង្វឹកម៉ូដែល Machine Learning ដោយលុបចោលទិន្នន័យដែលគ្មានប្រយោជន៍ ឬស្ទួនគ្នា ដើម្បីកាត់បន្ថយការចំណាយធនធានកុំព្យូទ័រ។ ដូចជាការរើសយកតែផ្លែឈើល្អៗដាក់ក្នុងកន្ត្រក និងបោះចោលផ្លែឈើដែលរលួយ ឬមិនទាន់ទុំ។
Deep Neural Network ប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់ (Layers) កែច្នៃទិន្នន័យច្រើនជាន់ ដែលមានសមត្ថភាពអាចរៀនពីទិន្នន័យស្មុគស្មាញ និងធ្វើការសម្រេចចិត្ត ឬចំណាត់ថ្នាក់បានយ៉ាងសុក្រឹត។ ប្រៀបដូចជាខួរក្បាលរបស់មនុស្សដែលមានកោសិកាជាច្រើនតភ្ជាប់គ្នា ដើម្បីរៀនសូត្រ និងចងចាំបទពិសោធន៍ថ្មីៗ។
Filter Methods វិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសដោយផ្អែកលើលក្ខណៈស្ថិតិរបស់ទិន្នន័យ (ដូចជាកម្រិតនៃទំនាក់ទំនងគ្នា - Correlation) ដោយមិនពឹងផ្អែកលើម៉ូដែល Machine Learning ឡើយ ដែលធ្វើឱ្យវាដំណើរការបានលឿន។ ដូចជាការប្រើកន្ត្រងត្រងយកគ្រាប់ខ្សាច់ធំៗចេញពីខ្សាច់ម៉ត់ ដោយមិនចាំបាច់យកវាទៅពិសោធន៍អ្វីបន្តទៀត។
Wrapper Methods វិធីសាស្ត្រដែលសាកល្បងបន្សំនៃលក្ខណៈពិសេសផ្សេងៗគ្នា ដោយប្រើប្រាស់ម៉ូដែល Machine Learning ជាក់ស្តែងដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាព ដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់តែត្រូវចំណាយពេលយូរក្នុងការគណនា។ ដូចជាការសាកល្បងស្លៀកសម្លៀកបំពាក់ច្រើនឈុតម្តងមួយៗ ដើម្បីមើលថាតើឈុតមួយណាស័ក្តិសមជាមួយអ្នកជាងគេ។
Linear Discriminant Analysis ក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យដោយមានការត្រួតពិនិត្យ (Supervised Learning) ដែលព្យាយាមរកបន្ទាត់ ឬប្លង់ដែលពង្រីកគម្លាតរវាងក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យនៅឆ្ងាយពីគ្នាបំផុត។ ដូចជាការរៀបចំសិស្សក្នុងថ្នាក់ឱ្យអង្គុយជាក្រុមតាមចំណង់ចំណូលចិត្តរៀងៗខ្លួន ដើម្បីឱ្យគ្រូងាយស្រួលបែងចែក និងគ្រប់គ្រង។
Overfitting បញ្ហាដែលម៉ូដែល Machine Learning រៀនទន្ទេញចាំទិន្នន័យបង្វឹក (Training Data) និងទិន្នន័យរំខាន (Noise) ច្បាស់ពេក រហូតដល់មិនអាចធ្វើការទស្សន៍ទាយទិន្នន័យថ្មីៗដែលវាមិនធ្លាប់ជួបបានត្រឹមត្រូវ។ ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗយ៉ាងស្ទាត់ ប៉ុន្តែប្រឡងធ្លាក់នៅពេលគ្រូចេញលំហាត់ថ្មីដែលគ្រាន់តែប្តូរលេខ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖