Original Title: Comparative Learning Approaches for Zero Day Attack Anomaly Detection Systems
Source: wajiaredu.com.ng
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រសិក្សាប្រៀបធៀបសម្រាប់ប្រព័ន្ធរកឃើញភាពមិនប្រក្រតីនៃការវាយប្រហារ Zero-Day

ចំណងជើងដើម៖ Comparative Learning Approaches for Zero Day Attack Anomaly Detection Systems

អ្នកនិពន្ធ៖ Sochima Godson Alli-Okoro (Imo State University), Chukwudi Igbe, Eleberi Ebele Leticia

ឆ្នាំបោះពុម្ព៖ 2025, West African Journal of Industrial and Academic Research

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកើនឡើងនូវភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមអ៊ីនធឺណិតបានធ្វើឱ្យការវាយប្រហារ Zero-Day (ZDAs) ក្លាយជាបញ្ហាប្រឈមដ៏ធំមួយ ដោយសារប្រព័ន្ធការពារប្រពៃណីមិនអាចទប់ទល់បាន ដែលទាមទារឱ្យមានប្រព័ន្ធរកឃើញភាពមិនប្រក្រតីដែលកាន់តែមានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យចរាចរណ៍បណ្តាញ (Network traffic data) ដើម្បីវាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាពនៃវិធីសាស្ត្ររៀនម៉ាស៊ីនផ្សេងៗគ្នាក្នុងការរកឃើញការវាយប្រហារ ZDAs។

ការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised Learning) ដោយប្រើក្បួនដោះស្រាយ Support Vector Machine (SVM)
ការរៀនម៉ាស៊ីនដែលគ្មានការត្រួតពិនិត្យ (Unsupervised Learning) ដោយប្រើក្បួនដោះស្រាយ K-means Clustering
វិធីសាស្ត្រកូនកាត់ (Hybrid Approach) ដែលរួមបញ្ចូល SVM និង k-means ដោយប្រើប្រព័ន្ធបោះឆ្នោតតាមទម្ងន់ (Weighted voting scheme)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រកូនកាត់ (Hybrid approach) ទទួលបានលទ្ធផលល្អបំផុត ជាមួយនឹងភាពត្រឹមត្រូវ (Accuracy) ៩៥,២% ការចងចាំ (Recall) ៩៦,១% និងពិន្ទុ F1 ៩៥,៣%។
វិធីសាស្ត្ររៀនមានការត្រួតពិនិត្យ (SVM) ទទួលបានភាពត្រឹមត្រូវ ៩២,១% ខណៈដែលវិធីសាស្ត្ររៀនគ្មានការត្រួតពិនិត្យ (k-means) ទទួលបានត្រឹមតែ ៨៨,៥% ប៉ុណ្ណោះ។
វិធីសាស្ត្រកូនកាត់បង្ហាញពីភាពធន់ទៅនឹងទិន្នន័យរំខាន (Noise) និងអាចរកឃើញភាពមិនប្រក្រតីថ្មីៗបានល្អជាងមុន ដែលអង្គភាពនានាគួរតែពិចារណាអនុវត្តដើម្បីពង្រឹងសុវត្ថិភាពអ៊ីនធឺណិតរបស់ខ្លួន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Supervised Learning (Support Vector Machine - SVM) ការរៀនមានការត្រួតពិនិត្យ (ម៉ូដែល SVM)	អាចសម្រេចបានភាពត្រឹមត្រូវខ្ពស់នៅពេលមានទិន្នន័យត្រូវបានដាក់ស្លាកច្បាស់លាស់ និងអាចរកឃើញទិន្នន័យមិនប្រក្រតីក្នុងពេលវេលាជាក់ស្តែង (real-time)។	ត្រូវការទិន្នន័យដែលបានដាក់ស្លាកក្នុងបរិមាណច្រើន ងាយរងគ្រោះដោយសារការផ្លាស់ប្តូរនិន្នាការទិន្នន័យ (concept drift) និងងាយប្រតិកម្មនឹងទិន្នន័យរំខាន (noise/outliers)។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩២,១% និងពិន្ទុ F1 (F1-score) ៩២,៣%។
Unsupervised Learning (K-means Clustering) ការរៀនគ្មានការត្រួតពិនិត្យ (K-means Clustering)	អាចរកឃើញភាពមិនប្រក្រតីថ្មីៗ (Novel anomalies) ដោយមិនត្រូវការទិន្នន័យដែលបានដាក់ស្លាកជាមុន។	តម្រូវឱ្យមានការជ្រើសរើសលក្ខណៈពិសេស (features) និងចំនួនចង្កោម (clusters) យ៉ាងប្រុងប្រយ័ត្ន ហើយមានហានិភ័យក្នុងការចាត់ទុកទិន្នន័យរំខានថាជាការវាយប្រហារពិតប្រាកដ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៨,៥% និងពិន្ទុ F1 (F1-score) ៨៨,៦%។
Hybrid Approach (SVM + K-means with weighted voting) វិធីសាស្ត្រកូនកាត់ (រួមបញ្ចូល SVM និង K-means ដោយប្រើការបោះឆ្នោតតាមទម្ងន់)	រួមបញ្ចូលចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ មានភាពធន់នឹងទិន្នន័យរំខាន (noise) និងអាចសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរទិន្នន័យដើម្បីរកឃើញការវាយប្រហារ ZDA ថ្មីៗ។	ទាមទារការជ្រើសរើសប៉ារ៉ាម៉ែត្រ (hyperparameters) យ៉ាងប្រុងប្រយ័ត្ន និងតម្រូវឱ្យមានការធ្វើបច្ចុប្បន្នភាពជាបន្តបន្ទាប់ដើម្បីរក្សាភាពត្រឹមត្រូវនៃម៉ូដែល។	ទទួលបានលទ្ធផលល្អបំផុតដោយមានភាពត្រឹមត្រូវ (Accuracy) ៩៥,២% និងពិន្ទុ F1 (F1-score) ៩៥,៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាការសិក្សានេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានជាក់លាក់ក្ដី ប៉ុន្តែវាបានសង្កត់ធ្ងន់យ៉ាងខ្លាំងលើតម្រូវការគុណភាពទិន្នន័យ និងអ្នកជំនាញដើម្បីធ្វើបច្ចុប្បន្នភាពប្រព័ន្ធ។

Dataset: ទាមទារទិន្នន័យចរាចរណ៍បណ្តាញ (Network traffic data) ដែលត្រូវបានសម្អាត និងដកចេញនូវទិន្នន័យរំខាន (Noise/Outliers) រួចរាល់សម្រាប់ការបង្វឹកម៉ូដែល។
Expertise: ត្រូវការអ្នកជំនាញផ្នែកសន្តិសុខអ៊ីនធឺណិត និងអ្នកវិទ្យាសាស្ត្រទិន្នន័យ (Data Scientists) ដើម្បីជ្រើសរើស Features និង Tuning Hyperparameters ក៏ដូចជាវាយតម្លៃម៉ូដែល។
Hardware/Computing: តម្រូវឱ្យមានកម្លាំងម៉ាស៊ីនកុំព្យូទ័រគ្រប់គ្រាន់សម្រាប់ការបង្វឹកម៉ូដែលរៀនម៉ាស៊ីនឡើងវិញជាប្រចាំ (Continuous retraining) ដើម្បីទប់ទល់នឹងការវាយប្រហារថ្មីៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យចរាចរណ៍បណ្តាញក្នុងពិភពពិត ប៉ុន្តែមិនបានបញ្ជាក់ពីបរិបទភូមិសាស្ត្រ ឬប្រភេទស្ថាប័នជាក់លាក់នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងសំខាន់ដែលត្រូវពិចារណា ពីព្រោះទម្រង់នៃចរាចរណ៍បណ្តាញក្នុងស្រុក និងការវាយប្រហារតាមអ៊ីនធឺណិតអាចមានលក្ខណៈខុសប្លែកពីបណ្តាប្រទេសអភិវឌ្ឍន៍ ដោយសារការប្រើប្រាស់បច្ចេកវិទ្យាហេដ្ឋារចនាសម្ព័ន្ធខុសគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររកឃើញភាពមិនប្រក្រតីបែបកូនកាត់ (Hybrid Anomaly Detection) នេះមានសក្ដានុពលខ្លាំង និងមានភាពចាំបាច់សម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធឌីជីថលដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័សនៅប្រទេសកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking and Financial Sector): អាចជួយគ្រឹះស្ថានហិរញ្ញវត្ថុធំៗនៅកម្ពុជា ដូចជាធនាគារអេស៊ីលីដា (ACLEDA) ឬធនាគារ ABA ក្នុងការរកឃើញការវាយប្រហារ Zero-day ដែលប៉ុនប៉ងលួចទិន្នន័យហិរញ្ញវត្ថុ ឬប្រព័ន្ធទូទាត់ឌីជីថល។
ស្ថាប័នរដ្ឋាភិបាលឌីជីថល (Digital Government Institutions): ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ (MPTC) ឬមជ្ឈមណ្ឌលជាតិសន្តិសុខបច្ចេកវិទ្យាគមនាគមន៍ និងព័ត៌មានវិទ្យា (CamCERT) អាចប្រើប្រាស់វាដើម្បីការពារមូលដ្ឋានទិន្នន័យជាតិពីការលួចចូលវាយប្រហារ។
ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិត (ISPs in Cambodia): ក្រុមហ៊ុនអ៊ីនធឺណិតដូចជា Ezecom ស៊ីណេត (SINET) ឬ មិត្តហ្វូន អាចដាក់បញ្ចូលប្រព័ន្ធនេះទៅក្នុង Core Network របស់ខ្លួនដើម្បីត្រួតពិនិត្យ និងរារាំងចរាចរណ៍បណ្តាញដែលមិនប្រក្រតីមុនពេលវាឆ្លងចូលដល់អតិថិជន។

ជារួម ការអនុវត្តប្រព័ន្ធ Hybrid Anomaly Detection នឹងជួយលើកកម្ពស់ទំនុកចិត្តលើសុវត្ថិភាពទិន្នន័យនៅកម្ពុជា និងកាត់បន្ថយហានិភ័យនៃការខូចខាតកេរ្តិ៍ឈ្មោះ ឬការបាត់បង់ផ្នែកហិរញ្ញវត្ថុដោយសារឧក្រិដ្ឋកម្មអ៊ីនធឺណិតថ្មីៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាយល់ដឹងពីទិន្នន័យចរាចរណ៍បណ្តាញ (Network Traffic Data): និស្សិតគួរចាប់ផ្តើមដោយការសិក្សាពីរបៀបចាប់យក និងវិភាគកញ្ចប់ទិន្នន័យបណ្តាញ (Network Packets) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Wireshark និងស្វែងយល់ពីពិធីការបណ្តាញផ្សេងៗ (TCP/IP Protocols) ក្នុងបរិបទសុវត្ថិភាព។
ជំហានទី២៖ ការរៀបចំទិន្នន័យសម្រាប់ការបង្វឹកម៉ូដែល (Data Preprocessing): ទាញយកសំណុំទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវសន្តិសុខបណ្តាញដូចជា NSL-KDD ឬ CICIDS2017 ហើយប្រើប្រាស់ Python ជាមួយបណ្ណាល័យ Pandas និង Scikit-learn ដើម្បីសម្អាតទិន្នន័យ និងដកចេញទិន្នន័យរំខាន (Noise)។
ជំហានទី៣៖ អភិវឌ្ឍម៉ូដែលរៀនម៉ាស៊ីនទោល (Individual ML Models): សរសេរកូដដើម្បីបង្កើតម៉ូដែលការរៀនមានការត្រួតពិនិត្យដោយប្រើក្បួនដោះស្រាយ Support Vector Machine (SVM) និងម៉ូដែលគ្មានការត្រួតពិនិត្យដោយប្រើ K-means Clustering តាមរយៈបណ្ណាល័យ Scikit-learn ដើម្បីស្វែងយល់ពីដំណើរការរបស់វា។
ជំហានទី៤៖ បង្កើតប្រព័ន្ធរកឃើញបែបកូនកាត់ (Hybrid Detection System): រួមបញ្ចូលម៉ូដែល SVM និង K-means ចូលគ្នាដោយប្រើបច្ចេកទេសបោះឆ្នោតតាមទម្ងន់ (Weighted Voting Scheme) ដោយកំណត់ទម្ងន់ខុសៗគ្នាទៅតាមកម្រិតភាពជឿជាក់នៃម៉ូដែលនីមួយៗក្នុងការរកឃើញការវាយប្រហារ។
ជំហានទី៥៖ ការវាយតម្លៃ និងការធ្វើបច្ចុប្បន្នភាពម៉ូដែលជាប្រចាំ (Evaluation & Continuous Learning): វាយតម្លៃប្រព័ន្ធកូនកាត់ដោយប្រើរង្វាស់រង្វាល់ដូចជា Accuracy, Precision, Recall, និង F1-score។ បន្ទាប់មក រៀបចំប្រព័ន្ធស្វ័យប្រវត្តិ (Pipeline) ដើម្បីបង្វឹកម៉ូដែលឡើងវិញ (Retraining) ជាមួយនឹងទិន្នន័យថ្មីៗដើម្បីទប់ទល់នឹងបម្រែបម្រួលទិន្នន័យតាមពេលវេលា (Concept drift)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Zero-Day Attack (ZDA)	ការវាយប្រហារតាមអ៊ីនធឺណិតដែលទាញយកអត្ថប្រយោជន៍ពីភាពងាយរងគ្រោះនៃប្រព័ន្ធ (vulnerabilities) ដែលមិនធ្លាប់ត្រូវបានគេដឹងពីមុនមក ហើយអ្នកអភិវឌ្ឍន៍ប្រព័ន្ធមិនទាន់មានវិធីការពារ ឬជួសជុលនៅឡើយ។	ដូចជាចោរដែលរកឃើញទ្វារសម្ងាត់ចូលផ្ទះអ្នក ដែលសូម្បីតែអ្នកផ្ទាល់ក៏មិនដឹងថាមានទ្វារនោះដែរ។
Anomaly Detection	ដំណើរការនៃការស្វែងរកទិន្នន័យ ឬសកម្មភាពដែលមិនប្រក្រតី ឬខុសប្លែកពីលំនាំធម្មតានៅក្នុងចរាចរណ៍បណ្តាញ ដែលអាចបញ្ជាក់ពីការជ្រៀតចូល ឬការវាយប្រហារ។	ដូចជាឆ្មាំយាមច្រកទ្វារដែលកត់សម្គាល់ឃើញមនុស្សម្នាក់ស្លៀកពាក់ប្លែកពីគេ ហើយមានសកម្មភាពគួរឱ្យសង្ស័យក្នុងចំណោមហ្វូងមនុស្សធម្មតា។
Supervised Learning	វិធីសាស្ត្ររៀនម៉ាស៊ីនដែលទាមទារទិន្នន័យដែលត្រូវបានដាក់ស្លាក (labeled data) ច្បាស់លាស់ ដើម្បីបង្វឹកម៉ូដែលឱ្យចេះបែងចែករវាងទិន្នន័យធម្មតា និងទិន្នន័យមិនប្រក្រតី។	ដូចជាការបង្រៀនក្មេងឱ្យស្គាល់រូបសត្វ ដោយចង្អុលបង្ហាញរូបនីមួយៗប្រាប់គេថា នេះជាឆ្កែ នេះជាឆ្មា រហូតដល់គេអាចចំណាំបានដោយខ្លួនឯង។
Unsupervised Learning	វិធីសាស្ត្ររៀនម៉ាស៊ីនដែលមិនត្រូវការទិន្នន័យដែលបានដាក់ស្លាកឡើយ ដោយវាព្យាយាមស្វែងរកលំនាំ និងរៀបចំទិន្នន័យជាក្រុមដោយផ្អែកលើលក្ខណៈស្រដៀងគ្នាដោយស្វ័យប្រវត្តិ។	ដូចជាការឱ្យក្មេងម្នាក់រៀបចំគំនរផ្លែឈើចម្រុះជាក្រុមៗ ដោយគេចេះបំបែកវាទៅតាមទំហំ ឬពណ៌ ទោះបីជាគេមិនស្គាល់ឈ្មោះផ្លែឈើទាំងនោះក៏ដោយ។
Support Vector Machine (SVM)	ក្បួនដោះស្រាយរៀនម៉ាស៊ីនមានការត្រួតពិនិត្យ (supervised learning algorithm) ដែលប្រើសម្រាប់បែងចែកទិន្នន័យជាក្រុមៗ ដោយស្វែងរកបន្ទាត់ ឬព្រំដែនដ៏ល្អបំផុត (hyperplane) ដើម្បីញែកប្រភេទអថេរពីគ្នា។	ដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីខណ្ឌចែករវាងកាក់១០០រៀល និងកាក់៥០០រៀលឱ្យដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។
K-means clustering	ក្បួនដោះស្រាយរៀនម៉ាស៊ីនគ្មានការត្រួតពិនិត្យ ដែលបែងចែកទិន្នន័យទៅជាចង្កោម (clusters) ចំនួន K ដោយផ្គុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាឱ្យនៅជិតចំណុចកណ្តាលនៃចង្កោមនីមួយៗ។	ដូចជាការប្រមូលផ្តុំសិស្សក្នុងសាលាទៅជាក្រុមៗតាមចំណូលចិត្តកីឡារបស់ពួកគេ (ឧ. ក្រុមបាល់ទាត់ ក្រុមបាល់បោះ)។
Concept Drift	បាតុភូតដែលលក្ខណៈ ឬទម្រង់នៃទិន្នន័យផ្លាស់ប្តូរតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលរៀនម៉ាស៊ីនដែលធ្លាប់តែមានភាពត្រឹមត្រូវ ក្លាយជាលែងសូវមានប្រសិទ្ធភាព និងត្រូវការបង្វឹកសារជាថ្មី។	ដូចជាសម្លៀកបំពាក់ដែលធ្លាប់តែពេញនិយមនៅឆ្នាំមុន លែងមានអ្នកស្លៀកពាក់នៅឆ្នាំនេះ ដែលទាមទារឱ្យអ្នកលក់ត្រូវផ្លាស់ប្តូរម៉ូដទំនិញថ្មី។
Transfer Learning	បច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត ដែលយកចំណេះដឹងពីម៉ូដែលដែលត្រូវបានបង្វឹករួចហើយ (pre-trained model) លើកិច្ចការមួយ មកប្រើប្រាស់ជាមូលដ្ឋានសម្រាប់ដោះស្រាយកិច្ចការថ្មីមួយទៀតដែលពាក់ព័ន្ធ ដើម្បីចំណេញពេលវេលា។	ដូចជាអ្នកដែលចេះជិះកង់រួចហើយ អាចរៀនជិះម៉ូតូបានយ៉ាងលឿនជាងមុន ព្រោះពួកគេមានមូលដ្ឋានទប់លំនឹងរួចជាស្រេច។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖