Original Title: Comparative Learning Approaches for Zero Day Attack Anomaly Detection Systems
Source: wajiaredu.com.ng
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រសិក្សាប្រៀបធៀបសម្រាប់ប្រព័ន្ធរកឃើញភាពមិនប្រក្រតីនៃការវាយប្រហារ Zero-Day

ចំណងជើងដើម៖ Comparative Learning Approaches for Zero Day Attack Anomaly Detection Systems

អ្នកនិពន្ធ៖ Sochima Godson Alli-Okoro (Imo State University), Chukwudi Igbe, Eleberi Ebele Leticia

ឆ្នាំបោះពុម្ព៖ 2025, West African Journal of Industrial and Academic Research

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកើនឡើងនូវភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមអ៊ីនធឺណិតបានធ្វើឱ្យការវាយប្រហារ Zero-Day (ZDAs) ក្លាយជាបញ្ហាប្រឈមដ៏ធំមួយ ដោយសារប្រព័ន្ធការពារប្រពៃណីមិនអាចទប់ទល់បាន ដែលទាមទារឱ្យមានប្រព័ន្ធរកឃើញភាពមិនប្រក្រតីដែលកាន់តែមានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យចរាចរណ៍បណ្តាញ (Network traffic data) ដើម្បីវាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាពនៃវិធីសាស្ត្ររៀនម៉ាស៊ីនផ្សេងៗគ្នាក្នុងការរកឃើញការវាយប្រហារ ZDAs។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Supervised Learning (Support Vector Machine - SVM)
ការរៀនមានការត្រួតពិនិត្យ (ម៉ូដែល SVM)
អាចសម្រេចបានភាពត្រឹមត្រូវខ្ពស់នៅពេលមានទិន្នន័យត្រូវបានដាក់ស្លាកច្បាស់លាស់ និងអាចរកឃើញទិន្នន័យមិនប្រក្រតីក្នុងពេលវេលាជាក់ស្តែង (real-time)។ ត្រូវការទិន្នន័យដែលបានដាក់ស្លាកក្នុងបរិមាណច្រើន ងាយរងគ្រោះដោយសារការផ្លាស់ប្តូរនិន្នាការទិន្នន័យ (concept drift) និងងាយប្រតិកម្មនឹងទិន្នន័យរំខាន (noise/outliers)។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩២,១% និងពិន្ទុ F1 (F1-score) ៩២,៣%។
Unsupervised Learning (K-means Clustering)
ការរៀនគ្មានការត្រួតពិនិត្យ (K-means Clustering)
អាចរកឃើញភាពមិនប្រក្រតីថ្មីៗ (Novel anomalies) ដោយមិនត្រូវការទិន្នន័យដែលបានដាក់ស្លាកជាមុន។ តម្រូវឱ្យមានការជ្រើសរើសលក្ខណៈពិសេស (features) និងចំនួនចង្កោម (clusters) យ៉ាងប្រុងប្រយ័ត្ន ហើយមានហានិភ័យក្នុងការចាត់ទុកទិន្នន័យរំខានថាជាការវាយប្រហារពិតប្រាកដ។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៨,៥% និងពិន្ទុ F1 (F1-score) ៨៨,៦%។
Hybrid Approach (SVM + K-means with weighted voting)
វិធីសាស្ត្រកូនកាត់ (រួមបញ្ចូល SVM និង K-means ដោយប្រើការបោះឆ្នោតតាមទម្ងន់)
រួមបញ្ចូលចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ មានភាពធន់នឹងទិន្នន័យរំខាន (noise) និងអាចសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរទិន្នន័យដើម្បីរកឃើញការវាយប្រហារ ZDA ថ្មីៗ។ ទាមទារការជ្រើសរើសប៉ារ៉ាម៉ែត្រ (hyperparameters) យ៉ាងប្រុងប្រយ័ត្ន និងតម្រូវឱ្យមានការធ្វើបច្ចុប្បន្នភាពជាបន្តបន្ទាប់ដើម្បីរក្សាភាពត្រឹមត្រូវនៃម៉ូដែល។ ទទួលបានលទ្ធផលល្អបំផុតដោយមានភាពត្រឹមត្រូវ (Accuracy) ៩៥,២% និងពិន្ទុ F1 (F1-score) ៩៥,៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាការសិក្សានេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានជាក់លាក់ក្ដី ប៉ុន្តែវាបានសង្កត់ធ្ងន់យ៉ាងខ្លាំងលើតម្រូវការគុណភាពទិន្នន័យ និងអ្នកជំនាញដើម្បីធ្វើបច្ចុប្បន្នភាពប្រព័ន្ធ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យចរាចរណ៍បណ្តាញក្នុងពិភពពិត ប៉ុន្តែមិនបានបញ្ជាក់ពីបរិបទភូមិសាស្ត្រ ឬប្រភេទស្ថាប័នជាក់លាក់នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងសំខាន់ដែលត្រូវពិចារណា ពីព្រោះទម្រង់នៃចរាចរណ៍បណ្តាញក្នុងស្រុក និងការវាយប្រហារតាមអ៊ីនធឺណិតអាចមានលក្ខណៈខុសប្លែកពីបណ្តាប្រទេសអភិវឌ្ឍន៍ ដោយសារការប្រើប្រាស់បច្ចេកវិទ្យាហេដ្ឋារចនាសម្ព័ន្ធខុសគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររកឃើញភាពមិនប្រក្រតីបែបកូនកាត់ (Hybrid Anomaly Detection) នេះមានសក្ដានុពលខ្លាំង និងមានភាពចាំបាច់សម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធឌីជីថលដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័សនៅប្រទេសកម្ពុជា។

ជារួម ការអនុវត្តប្រព័ន្ធ Hybrid Anomaly Detection នឹងជួយលើកកម្ពស់ទំនុកចិត្តលើសុវត្ថិភាពទិន្នន័យនៅកម្ពុជា និងកាត់បន្ថយហានិភ័យនៃការខូចខាតកេរ្តិ៍ឈ្មោះ ឬការបាត់បង់ផ្នែកហិរញ្ញវត្ថុដោយសារឧក្រិដ្ឋកម្មអ៊ីនធឺណិតថ្មីៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាយល់ដឹងពីទិន្នន័យចរាចរណ៍បណ្តាញ (Network Traffic Data): និស្សិតគួរចាប់ផ្តើមដោយការសិក្សាពីរបៀបចាប់យក និងវិភាគកញ្ចប់ទិន្នន័យបណ្តាញ (Network Packets) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Wireshark និងស្វែងយល់ពីពិធីការបណ្តាញផ្សេងៗ (TCP/IP Protocols) ក្នុងបរិបទសុវត្ថិភាព។
  2. ជំហានទី២៖ ការរៀបចំទិន្នន័យសម្រាប់ការបង្វឹកម៉ូដែល (Data Preprocessing): ទាញយកសំណុំទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវសន្តិសុខបណ្តាញដូចជា NSL-KDD ឬ CICIDS2017 ហើយប្រើប្រាស់ Python ជាមួយបណ្ណាល័យ Pandas និង Scikit-learn ដើម្បីសម្អាតទិន្នន័យ និងដកចេញទិន្នន័យរំខាន (Noise)។
  3. ជំហានទី៣៖ អភិវឌ្ឍម៉ូដែលរៀនម៉ាស៊ីនទោល (Individual ML Models): សរសេរកូដដើម្បីបង្កើតម៉ូដែលការរៀនមានការត្រួតពិនិត្យដោយប្រើក្បួនដោះស្រាយ Support Vector Machine (SVM) និងម៉ូដែលគ្មានការត្រួតពិនិត្យដោយប្រើ K-means Clustering តាមរយៈបណ្ណាល័យ Scikit-learn ដើម្បីស្វែងយល់ពីដំណើរការរបស់វា។
  4. ជំហានទី៤៖ បង្កើតប្រព័ន្ធរកឃើញបែបកូនកាត់ (Hybrid Detection System): រួមបញ្ចូលម៉ូដែល SVM និង K-means ចូលគ្នាដោយប្រើបច្ចេកទេសបោះឆ្នោតតាមទម្ងន់ (Weighted Voting Scheme) ដោយកំណត់ទម្ងន់ខុសៗគ្នាទៅតាមកម្រិតភាពជឿជាក់នៃម៉ូដែលនីមួយៗក្នុងការរកឃើញការវាយប្រហារ។
  5. ជំហានទី៥៖ ការវាយតម្លៃ និងការធ្វើបច្ចុប្បន្នភាពម៉ូដែលជាប្រចាំ (Evaluation & Continuous Learning): វាយតម្លៃប្រព័ន្ធកូនកាត់ដោយប្រើរង្វាស់រង្វាល់ដូចជា Accuracy, Precision, Recall, និង F1-score។ បន្ទាប់មក រៀបចំប្រព័ន្ធស្វ័យប្រវត្តិ (Pipeline) ដើម្បីបង្វឹកម៉ូដែលឡើងវិញ (Retraining) ជាមួយនឹងទិន្នន័យថ្មីៗដើម្បីទប់ទល់នឹងបម្រែបម្រួលទិន្នន័យតាមពេលវេលា (Concept drift)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Zero-Day Attack (ZDA) ការវាយប្រហារតាមអ៊ីនធឺណិតដែលទាញយកអត្ថប្រយោជន៍ពីភាពងាយរងគ្រោះនៃប្រព័ន្ធ (vulnerabilities) ដែលមិនធ្លាប់ត្រូវបានគេដឹងពីមុនមក ហើយអ្នកអភិវឌ្ឍន៍ប្រព័ន្ធមិនទាន់មានវិធីការពារ ឬជួសជុលនៅឡើយ។ ដូចជាចោរដែលរកឃើញទ្វារសម្ងាត់ចូលផ្ទះអ្នក ដែលសូម្បីតែអ្នកផ្ទាល់ក៏មិនដឹងថាមានទ្វារនោះដែរ។
Anomaly Detection ដំណើរការនៃការស្វែងរកទិន្នន័យ ឬសកម្មភាពដែលមិនប្រក្រតី ឬខុសប្លែកពីលំនាំធម្មតានៅក្នុងចរាចរណ៍បណ្តាញ ដែលអាចបញ្ជាក់ពីការជ្រៀតចូល ឬការវាយប្រហារ។ ដូចជាឆ្មាំយាមច្រកទ្វារដែលកត់សម្គាល់ឃើញមនុស្សម្នាក់ស្លៀកពាក់ប្លែកពីគេ ហើយមានសកម្មភាពគួរឱ្យសង្ស័យក្នុងចំណោមហ្វូងមនុស្សធម្មតា។
Supervised Learning វិធីសាស្ត្ររៀនម៉ាស៊ីនដែលទាមទារទិន្នន័យដែលត្រូវបានដាក់ស្លាក (labeled data) ច្បាស់លាស់ ដើម្បីបង្វឹកម៉ូដែលឱ្យចេះបែងចែករវាងទិន្នន័យធម្មតា និងទិន្នន័យមិនប្រក្រតី។ ដូចជាការបង្រៀនក្មេងឱ្យស្គាល់រូបសត្វ ដោយចង្អុលបង្ហាញរូបនីមួយៗប្រាប់គេថា នេះជាឆ្កែ នេះជាឆ្មា រហូតដល់គេអាចចំណាំបានដោយខ្លួនឯង។
Unsupervised Learning វិធីសាស្ត្ររៀនម៉ាស៊ីនដែលមិនត្រូវការទិន្នន័យដែលបានដាក់ស្លាកឡើយ ដោយវាព្យាយាមស្វែងរកលំនាំ និងរៀបចំទិន្នន័យជាក្រុមដោយផ្អែកលើលក្ខណៈស្រដៀងគ្នាដោយស្វ័យប្រវត្តិ។ ដូចជាការឱ្យក្មេងម្នាក់រៀបចំគំនរផ្លែឈើចម្រុះជាក្រុមៗ ដោយគេចេះបំបែកវាទៅតាមទំហំ ឬពណ៌ ទោះបីជាគេមិនស្គាល់ឈ្មោះផ្លែឈើទាំងនោះក៏ដោយ។
Support Vector Machine (SVM) ក្បួនដោះស្រាយរៀនម៉ាស៊ីនមានការត្រួតពិនិត្យ (supervised learning algorithm) ដែលប្រើសម្រាប់បែងចែកទិន្នន័យជាក្រុមៗ ដោយស្វែងរកបន្ទាត់ ឬព្រំដែនដ៏ល្អបំផុត (hyperplane) ដើម្បីញែកប្រភេទអថេរពីគ្នា។ ដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីខណ្ឌចែករវាងកាក់១០០រៀល និងកាក់៥០០រៀលឱ្យដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។
K-means clustering ក្បួនដោះស្រាយរៀនម៉ាស៊ីនគ្មានការត្រួតពិនិត្យ ដែលបែងចែកទិន្នន័យទៅជាចង្កោម (clusters) ចំនួន K ដោយផ្គុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាឱ្យនៅជិតចំណុចកណ្តាលនៃចង្កោមនីមួយៗ។ ដូចជាការប្រមូលផ្តុំសិស្សក្នុងសាលាទៅជាក្រុមៗតាមចំណូលចិត្តកីឡារបស់ពួកគេ (ឧ. ក្រុមបាល់ទាត់ ក្រុមបាល់បោះ)។
Concept Drift បាតុភូតដែលលក្ខណៈ ឬទម្រង់នៃទិន្នន័យផ្លាស់ប្តូរតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលរៀនម៉ាស៊ីនដែលធ្លាប់តែមានភាពត្រឹមត្រូវ ក្លាយជាលែងសូវមានប្រសិទ្ធភាព និងត្រូវការបង្វឹកសារជាថ្មី។ ដូចជាសម្លៀកបំពាក់ដែលធ្លាប់តែពេញនិយមនៅឆ្នាំមុន លែងមានអ្នកស្លៀកពាក់នៅឆ្នាំនេះ ដែលទាមទារឱ្យអ្នកលក់ត្រូវផ្លាស់ប្តូរម៉ូដទំនិញថ្មី។
Transfer Learning បច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត ដែលយកចំណេះដឹងពីម៉ូដែលដែលត្រូវបានបង្វឹករួចហើយ (pre-trained model) លើកិច្ចការមួយ មកប្រើប្រាស់ជាមូលដ្ឋានសម្រាប់ដោះស្រាយកិច្ចការថ្មីមួយទៀតដែលពាក់ព័ន្ធ ដើម្បីចំណេញពេលវេលា។ ដូចជាអ្នកដែលចេះជិះកង់រួចហើយ អាចរៀនជិះម៉ូតូបានយ៉ាងលឿនជាងមុន ព្រោះពួកគេមានមូលដ្ឋានទប់លំនឹងរួចជាស្រេច។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖