Original Title: Improving Cybersecurity with Deep Learning: An Experimental Approach to Detecting Zero-Day Attacks Using Behavior-Based Models
Source: jsiar.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកែលម្អសន្តិសុខបច្ចេកវិទ្យាគមនាគមន៍ដោយប្រើប្រាស់ការរៀនស៊ីជម្រៅ៖ អភិក្រមពិសោធន៍ក្នុងការរកឃើញការវាយប្រហារសូន្យថ្ងៃ (Zero-Day) ដោយប្រើម៉ូដែលផ្អែកលើអាកប្បកិរិយា

ចំណងជើងដើម៖ Improving Cybersecurity with Deep Learning: An Experimental Approach to Detecting Zero-Day Attacks Using Behavior-Based Models

អ្នកនិពន្ធ៖ Karan Singh (Noida Institute of Engineering and Technology, Greater Noida, India)

ឆ្នាំបោះពុម្ព៖ 2025, Journal of Scientific Innovation and Advanced Research (JSIAR)

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកើនឡើងនៃភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិត ជាពិសេសការវាយប្រហារសូន្យថ្ងៃ (Zero-Day Attacks) បង្កជាបញ្ហាប្រឈមយ៉ាងធំដល់ប្រព័ន្ធសុវត្ថិភាពបែបប្រពៃណីដែលពឹងផ្អែកលើហត្ថលេខា (Signature-based) និងមិនអាចរកឃើញការវាយប្រហារថ្មីៗបានទាន់ពេលវេលា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើត និងសាកល្បងក្របខ័ណ្ឌរកឃើញការវាយប្រហារ ដោយរួមបញ្ចូលការធ្វើម៉ូដែលអាកប្បកិរិយា (Behavior-based Modeling) ជាមួយនឹងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ។

ការប្រមូល និងរៀបចំទិន្នន័យពីកំណត់ហេតុប្រព័ន្ធ (Host-based Logs) និងចរាចរណ៍បណ្តាញ (Network Traffic)
ការបណ្តុះបណ្តាលម៉ូដែលរៀនស៊ីជម្រៅប្រភេទ LSTM, CNN និង Autoencoders ដើម្បីតាមដានភាពមិនប្រក្រតី
ការវាយតម្លៃដោយប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដាររួមមាន NSL-KDD, CICIDS2017 និងការបង្កើតស្ថានភាពវាយប្រហារជាក់ស្តែង (Simulated Attack Scenarios)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល LSTM (Long Short-Term Memory) ទទួលបានលទ្ធផលល្អជាងគេបំផុត ដោយសម្រេចបានភាពត្រឹមត្រូវទូទៅ (Accuracy) ៩៤.៣% និងអត្រារកឃើញ (Recall) ៩១.៨%។
ប្រព័ន្ធដែលបានស្នើឡើងមានអត្រាវិជ្ជមានមិនពិត (False Positives) ទាបបំផុតត្រឹមតែ ២.៩% ប៉ុណ្ណោះ ដែលល្អជាងប្រព័ន្ធ IDS ប្រពៃណីដូចជា Snort (២៣.៦%) និង Suricata (៤១.៧%)។
អភិក្រមផ្អែកលើអាកប្បកិរិយានេះអាចទប់ទល់ និងស្គាល់ការវាយប្រហារបែបសូន្យថ្ងៃ (Zero-Day exploits) ថ្មីៗបានយ៉ាងជោគជ័យ ដោយមិនទាមទារឱ្យមានការបណ្តុះបណ្តាលម៉ូដែលឡើងវិញឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LSTM-Based Behavior Model (Proposed) ម៉ូដែលរៀនស៊ីជម្រៅផ្អែកលើបណ្តាញសរសៃប្រសាទ (LSTM) និងអាកប្បកិរិយា	អាចចាប់បានការវាយប្រហារថ្មីៗដែលមិនធ្លាប់ស្គាល់ (Zero-Day) យ៉ាងពូកែ និងមានអត្រាប្រកាសអាសន្នខុស (False Positives) ទាបបំផុត។	ទាមទារទិន្នន័យច្រើនសម្រាប់ការបណ្តុះបណ្តាល និងម៉ាស៊ីនមានកម្លាំងខ្លាំង (ជាពិសេស GPU) ដើម្បីដំណើរការឱ្យបានលឿន។	អត្រារកឃើញការវាយប្រហារ Zero-Day ៩១.៨%, ភាពត្រឹមត្រូវ ៩៤.៣% និងអត្រាវិជ្ជមានមិនពិតត្រឹមតែ ២.៩% ប៉ុណ្ណោះ។
Snort (Signature-Based IDS) ប្រព័ន្ធរកឃើញការឈ្លានពានផ្អែកលើហត្ថលេខា (Snort)	មានភាពត្រឹមត្រូវខ្ពស់ចំពោះប្រភេទការវាយប្រហារដែលគេធ្លាប់ស្គាល់ពីមុន និងដំណើរការបានលឿនក្នុងពេលជាក់ស្តែង។	មិនមានសមត្ថភាពក្នុងការរកឃើញការវាយប្រហារប្រភេទថ្មីៗសោះ ដោយសារវាពឹងផ្អែកតែលើទិន្នន័យមេរោគដែលមានស្រាប់។	អត្រារកឃើញការវាយប្រហារ Zero-Day ត្រឹមតែ ២៣.៦% និងមានអត្រាវិជ្ជមានមិនពិត ៤.២%។
Suricata (Heuristic Rules) ប្រព័ន្ធរកឃើញការឈ្លានពានផ្អែកលើក្បួនច្បាប់ (Suricata)	មានភាពបត់បែនជាងវិធីសាស្រ្តហត្ថលេខា និងអាចចាប់អាកប្បកិរិយាគួរឱ្យសង្ស័យខ្លះៗបានដោយផ្អែកលើច្បាប់ដែលបានកំណត់។	បង្កើតការប្រកាសអាសន្នខុសច្រើន និងត្រូវការអ្នកជំនាញដើម្បីធ្វើបច្ចុប្បន្នភាពក្បួនច្បាប់ដោយដៃជារឿយៗ។	អត្រារកឃើញការវាយប្រហារ Zero-Day បាន ៤១.៧% និងមានអត្រាវិជ្ជមានមិនពិតកម្រិត ៦.៨%។
Random Forest / Traditional ML ម៉ូដែលរៀនតាមម៉ាស៊ីនបែបប្រពៃណី (Random Forest)	ងាយស្រួលក្នុងការបណ្តុះបណ្តាល និងមិនស៊ីធនធានម៉ាស៊ីនខ្លាំងដូច Deep Learning នោះទេ។	ត្រូវការការទាញយកលក្ខណៈពិសេសដោយដៃ (Manual Feature Engineering) និងមិនសូវពូកែចាប់យកទម្រង់អាកប្បកិរិយាស្មុគស្មាញ។	ទទួលបានភាពត្រឹមត្រូវសរុប ៨៩.៥% និងពិន្ទុ F1-Score ៨៦.៨% ប៉ុន្តែមិនសូវពូកែខាង Zero-Day ទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ជាពិសេសក្រាហ្វិកកាត (GPU) ដើម្បីបណ្តុះបណ្តាលម៉ូដែល Deep Learning និងទំហំផ្ទុកធំសម្រាប់ទិន្នន័យចរាចរណ៍បណ្តាញ។

Hardware: ត្រូវការ CPU ខ្លាំង (ឧទាហរណ៍ Intel Core i9), RAM យ៉ាងហោចណាស់ 64GB, ថាសរឹង 2TB NVMe SSD, និងក្រាហ្វិកកាត NVIDIA RTX 3080 (10GB VRAM) សម្រាប់បង្កើនល្បឿនបណ្តុះបណ្តាលម៉ូដែល (CUDA acceleration)។
Software: ប្រើប្រាស់ប្រព័ន្ធប្រតិបត្តិការ Ubuntu, កម្មវិធីនិម្មិតកម្ម VMware ឬ Docker និង Frameworks សម្រាប់ Deep Learning ដូចជា PyTorch 2.0 ឬ TensorFlow 2.12 រួមទាំង ELK Stack សម្រាប់តាមដានទិន្នន័យ។
Dataset: ត្រូវការសំណុំទិន្នន័យធំៗដូចជា NSL-KDD, CICIDS2017 ឬទិន្នន័យដែលប្រមូលផ្ទាល់ (Custom Captures) តាមរយៈការក្លែងធ្វើការវាយប្រហារ។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងទាំងផ្នែកសន្តិសុខបណ្តាញ (Cybersecurity) និងផ្នែកបញ្ញាសិប្បនិម្មិត/វិទ្យាសាស្ត្រទិន្នន័យ (AI/Data Science)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (NSL-KDD, CICIDS2017) និងការក្លែងធ្វើការវាយប្រហារក្នុងមន្ទីរពិសោធន៍។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យចរាចរណ៍បណ្តាញជាក់ស្តែងនៅក្នុងស្ថាប័នរដ្ឋ ឬឯកជនអាចមានទម្រង់ខុសពីនេះ ដោយសារការប្រើប្រាស់បច្ចេកវិទ្យា និងកម្មវិធីក្នុងស្រុកផ្សេងៗគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីបណ្តុះបណ្តាលម៉ូដែលឱ្យបានសុក្រឹត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តនេះមានសក្តានុពលខ្ពស់ណាស់សម្រាប់ពង្រឹងសន្តិសុខហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាគមនាគមន៍ (Cybersecurity) នៅកម្ពុជា ជាពិសេសក្នុងការការពារស្ថាប័នធំៗពីការវាយប្រហារដែលមិនធ្លាប់ស្គាល់។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking and Finance Sector): ធនាគារពាណិជ្ជនៅកម្ពុជា (ដូចជា ACLEDA ឬ ABA) អាចដាក់ពង្រាយម៉ូដែលនេះដើម្បីឃ្លាំមើលប្រតិបត្តិការ និងការពារប្រព័ន្ធធនាគារស្នូល (Core Banking) ពីការវាយប្រហារបែប Zero-Day ឬការលួចទិន្នន័យដ៏ស្មុគស្មាញ។
ក្រសួង និងស្ថាប័នរដ្ឋ (Government Infrastructure): ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ (MPTC) រួមទាំងមជ្ឈមណ្ឌលទិន្នន័យជាតិ អាចប្រើប្រព័ន្ធនេះដើម្បីឃ្លាំមើលនិងទប់ស្កាត់ការវាយប្រហារតាមអ៊ីនធឺណិតពីសំណាក់ក្រុម Hacker បរទេស កុំឱ្យមានការរំខានដល់សេវាសាធារណៈ។
ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិត (ISPs): ក្រុមហ៊ុន ISP (ដូចជា Ezecom ឬ SINET) អាចប្រើប្រាស់បច្ចេកវិទ្យានេះជាផ្នែកមួយនៃសេវាកម្មសុវត្ថិភាព (Managed Security Services) ដើម្បីជួយច្រោះចរាចរណ៍បណ្តាញដែលសង្ស័យថាជាមេរោគមុនពេលវាទៅដល់អតិថិជន។

ជារួម ការផ្លាស់ប្តូរពីប្រព័ន្ធសុវត្ថិភាពពឹងផ្អែកលើហត្ថលេខាបែបចាស់ មកប្រើប្រាស់ AI ដែលអាចវិភាគអាកប្បកិរិយា នឹងជួយស្ថាប័ននៅកម្ពុជាអាចទប់ទល់នឹងការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិតបានកាន់តែរហ័ស និងមានប្រសិទ្ធភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាពីមូលដ្ឋានគ្រឹះសន្តិសុខបណ្តាញ និងការប្រមូលទិន្នន័យ: និស្សិតគួរចាប់ផ្តើមរៀនប្រើប្រាស់ឧបករណ៍តាមដានបណ្តាញដូចជា Wireshark និង Suricata ដើម្បីយល់ពីរបៀបចាប់យកកញ្ចប់ទិន្នន័យ (Packet sniffing) និងការយល់ដឹងពីទម្រង់ទិន្នន័យចរាចរណ៍បណ្តាញធម្មតា និងបណ្តាញដែលមានមេរោគ។
ជំហានទី២៖ សាងសង់បរិស្ថានក្លែងធ្វើការវាយប្រហារ (Attack Simulation Lab): ដំឡើងម៉ាស៊ីននិម្មិតដោយប្រើប្រាស់ VMware ឬ Docker បន្ទាប់មកប្រើប្រាស់ប្រព័ន្ធប្រតិបត្តិការ Kali Linux រួមជាមួយកម្មវិធី Metasploit ដើម្បីសាកល្បងធ្វើការវាយប្រហារទៅលើម៉ាស៊ីនគោលដៅ ដើម្បីបង្កើតទិន្នន័យកំណត់ហេតុ (Logs) សម្រាប់ការសិក្សាស្រាវជ្រាវ។
ជំហានទី៣៖ អភិវឌ្ឍជំនាញវិទ្យាសាស្ត្រទិន្នន័យ និងការសម្អាតទិន្នន័យ: ប្រើប្រាស់ភាសា Python ជាមួយបណ្ណាល័យ Pandas និង Scikit-learn ដើម្បីធ្វើការសម្អាតទិន្នន័យ (Data Preprocessing), បម្លែងទិន្នន័យពី Logs ទៅជាទម្រង់លេខ (Encoding) ឱ្យស័ក្តិសមសម្រាប់ម៉ាស៊ីនរៀន (Machine Learning)។
ជំហានទី៤៖ សរសេរកូដ និងបណ្តុះបណ្តាលម៉ូដែល Deep Learning: ប្រើប្រាស់ Framework ដូចជា PyTorch ឬ TensorFlow ដើម្បីកសាងម៉ូដែល LSTM។ គួរចាប់ផ្តើមហ្វឹកហាត់ជាមួយសំណុំទិន្នន័យស្តង់ដារដូចជា NSL-KDD ជាមុនសិន ដើម្បីស្ទាបស្ទង់ពីភាពត្រឹមត្រូវ មុននឹងបន្តទៅប្រើប្រាស់ទិន្នន័យជាក់ស្តែង។
ជំហានទី៥៖ ធ្វើសមាហរណកម្មទៅក្នុងប្រព័ន្ធតាមដានជាក់ស្តែង (SIEM Integration): រៀនតភ្ជាប់ម៉ូដែល AI របស់អ្នកទៅកាន់ប្រព័ន្ធគ្រប់គ្រងកំណត់ហេតុដូចជា ELK Stack (Elasticsearch, Logstash, Kibana) ដើម្បីបង្កើតផ្ទាំងព័ត៌មាន (Dashboard) ដែលអាចបង្ហាញការប្រកាសអាសន្នពីការវាយប្រហារក្នុងពេលជាក់ស្តែងពិតៗ (Real-time alerting)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Zero-day attacks	ការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលកេងប្រវ័ញ្ចលើចន្លោះប្រហោងសុវត្ថិភាពថ្មីៗ ដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង ឬមិនទាន់មានវិធីជួសជុល (Patch) នៅឡើយ ធ្វើឱ្យប្រព័ន្ធការពារធម្មតាមិនអាចទប់ស្កាត់បាន។	ដូចជាចោរដែលរកឃើញទ្វារសម្ងាត់ចូលផ្ទះអ្នក ដែលសូម្បីតែអ្នកជាម្ចាស់ផ្ទះក៏មិនធ្លាប់ដឹងថាមានទ្វារនោះដែរ។
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់ (RNN) មួយដែលពូកែខាងចងចាំព័ត៌មានពីអតីតកាលក្នុងរយៈពេលយូរ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ ដូចជាកំណត់ហេតុប្រព័ន្ធ (Logs) ដើម្បីចាប់យកទម្រង់អាកប្បកិរិយារបស់មេរោគ។	ដូចជាអ្នកយាមគុកដែលមានសៀវភៅកំណត់ហេតុចាំច្បាស់លាស់ថា អ្នកទោសណាធ្លាប់ធ្វើអ្វីខ្លះពីប៉ុន្មានខែមុន ដើម្បីទាយថាគេអាចនឹងបង្កបញ្ហាអ្វីនៅថ្ងៃនេះ។
Intrusion Detection Systems (IDS)	ប្រព័ន្ធសុវត្ថិភាពបណ្តាញដែលតាមដានចរាចរណ៍បណ្តាញ (Network Traffic) ឬសកម្មភាពក្នុងប្រព័ន្ធ ដើម្បីស្វែងរកសកម្មភាពអាក្រក់ ឬការបំពានគោលការណ៍សុវត្ថិភាព រួចផ្តល់សញ្ញាប្រកាសអាសន្ន។	ដូចជាកាមេរ៉ាសុវត្ថិភាព និងអ្នកយាមនៅច្រកទ្វារក្រុមហ៊ុន ដែលចាំពិនិត្យមើលអ្នកចេញចូលគ្រប់គ្នាថាតើមាននរណាម្នាក់គួរឱ្យសង្ស័យដែរឬទេ។
Autoencoders	ជាម៉ូដែលបញ្ញាសិប្បនិម្មិតសម្រាប់រៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised Learning) ដែលវាព្យាយាមរៀនថតចម្លងទិន្នន័យដើមធម្មតាៗ។ ពេលវាជួបទិន្នន័យមេរោគដែលខុសប្រក្រតី វាថតចម្លងមិនបានល្អ ដែលធ្វើឱ្យយើងដឹងថាវាជាភាពមិនប្រក្រតី (Anomaly)។	ដូចជាជាងគំនូរដែលពូកែគូរតែរូបមនុស្សធម្មតា ដល់ពេលឱ្យគូររូបមនុស្សភពផ្កាយ គាត់គូរខុសទ្រង់ទ្រាយ ទើបយើងដឹងថាមានអ្វីម្យ៉ាងមិនប្រក្រតី។
Telemetry data	ទិន្នន័យដែលប្រមូលបានដោយស្វ័យប្រវត្តិពីចម្ងាយពីរាល់សកម្មភាពនានា ដូចជាកំណត់ហេតុប្រព័ន្ធ (Logs) និងចរាចរណ៍បណ្តាញ រួចបញ្ជូនមកប្រព័ន្ធកណ្តាលដើម្បីយកមកវិភាគរកមើលសកម្មភាពឈ្លានពាន។	ដូចជានាឡិកាឆ្លាតវៃ (Smartwatch) ដែលតែងតែលួចវាស់ចង្វាក់បេះដូង និងជំហានដើររបស់អ្នក រួចបញ្ជូនទិន្នន័យនោះទៅទូរសព្ទដើម្បីតាមដានសុខភាព។
False positives	ក្នុងបរិបទសន្តិសុខបណ្តាញ គឺជាការដែលប្រព័ន្ធលោតសារប្រកាសអាសន្នប្រាប់ថាមានការវាយប្រហារ ទាំងដែលធាតុពិតវាគ្រាន់តែជាសកម្មភាពធម្មតារបស់អ្នកប្រើប្រាស់ ឬប្រព័ន្ធប៉ុណ្ណោះ។	ដូចជាសំឡេងរោទ៍ប្រកាសអាសន្នអគ្គិភ័យក្នុងអាគារបន្លឺឡើង ទាំងដែលធាតុពិតគ្រាន់តែមានអ្នកដុតធូបប៉ុណ្ណោះ មិនមែនភ្លើងឆេះផ្ទះទេ។
Behavior-based detection	វិធីសាស្ត្រចាប់ការវាយប្រហារដោយមិនពឹងផ្អែកលើហត្ថលេខា ឬឈ្មោះមេរោគចាស់ៗនោះទេ តែពឹងផ្អែកលើការវិភាគអាកប្បកិរិយាខុសធម្មតា ឬទង្វើគួរឱ្យសង្ស័យដែលកើតឡើងនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ។	ដូចជាប៉ូលីសសម្លឹងមើលមនុស្សម្នាក់ដែលដើរលបៗក្បែរធនាគារ ទោះជាមិនស្គាល់មុខថាជាចោរពីមុនមក ក៏អាចដឹងថាគេប្រុងនឹងធ្វើរឿងមិនល្អដែរ តាមរយៈកាយវិការរបស់គេ។
Explainable AI	បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (XAI) ដែលត្រូវបានរចនាឡើងដើម្បីឱ្យមនុស្សអាចមើលឃើញ យល់ដឹង និងបកស្រាយបានពីរបៀប និងហេតុផលដែលម៉ូដែលនោះធ្វើការសម្រេចចិត្តប្រាប់ថាវាជាមេរោគ ដើម្បីធានានូវតម្លាភាពក្នុងការស៊ើបអង្កេត។	ដូចជាគ្រូបង្រៀនគណិតវិទ្យាដែលមិនត្រឹមតែប្រាប់ចម្លើយ ប៉ុន្តែថែមទាំងពន្យល់ពីរបៀបគណនាមួយជំហានម្តងៗ ដើម្បីឱ្យសិស្សយល់ពីមូលហេតុ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖