Original Title: AI Driven Zero Day Vulnerability Detection and Exploit Prediction in Computer Networks
Source: www.ijcsejournal.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពងាយរងគ្រោះ Zero Day និងការព្យាករណ៍ពីការវាយប្រហារនៅក្នុងបណ្តាញកុំព្យូទ័រដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI)

ចំណងជើងដើម៖ AI Driven Zero Day Vulnerability Detection and Exploit Prediction in Computer Networks

អ្នកនិពន្ធ៖ Kismat Chhillar (Bundelkhand University), Alok Verma (Bundelkhand University), Saurabh Shrivastava (Bundelkhand University), Deepak Tomar (Bundelkhand University)

ឆ្នាំបោះពុម្ព៖ 2025, International Journal of Computer Science Engineering Techniques

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បណ្តាញកុំព្យូទ័រកំពុងប្រឈមនឹងការគំរាមកំហែងយ៉ាងធ្ងន់ធ្ងរពីការវាយប្រហារប្រភេទ zero-day ដែលប្រព័ន្ធសុវត្ថិភាពបែបប្រពៃណីផ្អែកលើទម្រង់ស្គាល់ស្រាប់ (Signature-based) មិនអាចការពារ ឬរកឃើញបានទាន់ពេលវេលា។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្ត្រវាយតម្លៃនិងរកឃើញការគំរាមកំហែងដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI) ដែលរួមបញ្ចូលបច្ចេកទេសសិក្សាស៊ីជម្រៅ និងការវិភាគទិន្នន័យអត្ថបទ។

ភ្នាក់ងារសិក្សាពង្រឹង (Reinforcement Learning) ដោយប្រើប្រាស់ក្បួនដោះស្រាយ Deep Q-network (DQN) ដើម្បីរៀនពីអាកប្បកិរិយានៃបណ្តាញ។
ការកែច្នៃភាសាធម្មជាតិ (Natural Language Processing - NLP) សម្រាប់ទាញយកព័ត៌មានគំរាមកំហែងពីរបាយការណ៍និងទិន្នន័យគ្មានទម្រង់ច្បាស់លាស់ផ្សេងៗ។
ការប្រើប្រាស់បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI - XAI) ដើម្បីបង្ហាញពីមូលហេតុនៃការសម្រេចចិត្តជូនដល់អ្នកវិភាគសុវត្ថិភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Reinforcement Learning ទទួលបានភាពត្រឹមត្រូវខ្ពស់ក្នុងការរកឃើញភាពងាយរងគ្រោះ ដោយមានដំណើរការល្អដាច់គេធៀបនឹងម៉ូដែលសិក្សាម៉ាស៊ីនបុរាណដូចជា Support Vector Machines (SVM) និង Random Forests។
ការរួមបញ្ចូលបច្ចេកទេស NLP ជួយឱ្យប្រព័ន្ធអាចព្យាករណ៍ពីលទ្ធភាពនៃការវាយប្រហារបានច្រើនថ្ងៃ ឬសប្តាហ៍មុនពេលព្រឹត្តិការណ៍វាយប្រហារជាក់ស្តែងកើតឡើង។
ការដាក់បញ្ចូលមុខងារ Explainable AI (XAI) បានជួយកាត់បន្ថយភាពនឿយហត់ចំពោះការជូនដំណឹងខុស (Alert fatigue) បង្កើនទំនុកចិត្តអ្នកប្រើប្រាស់ និងពន្លឿនការឆ្លើយតបទៅនឹងឧប្បត្តិហេតុ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Reinforcement Learning (RL) + NLP + XAI ម៉ូដែល AI ប្រើប្រាស់ភ្នាក់ងារសិក្សាពង្រឹង (Reinforcement Learning) រួមបញ្ចូលជាមួយបច្ចេកទេស NLP និង XAI	មានសមត្ថភាពសម្របខ្លួនជាប្រចាំទៅនឹងយុទ្ធសាស្ត្រវាយប្រហារថ្មីៗ អាចព្យាករណ៍ពីការវាយប្រហារ (Zero-day exploits) បានមុនច្រើនថ្ងៃឬសប្តាហ៍ និងអាចពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តបានច្បាស់លាស់ជួយកាត់បន្ថយការជូនដំណឹងខុស (Alert fatigue)។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់សម្រាប់ដំណើរការទិន្នន័យចរាចរណ៍បណ្តាញដ៏ធំ (High-throughput) និងអាចងាយរងគ្រោះដោយសារការវាយប្រហារបែបបំពុលទិន្នន័យ (Adversarial AI attacks) ទៅលើប្រព័ន្ធ AI ផ្ទាល់។	ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុត (Accuracy ៩២%) និងភាពសុក្រឹត (Precision ៨៧%) ដោយដំណើរការល្អដាច់គេធៀបនឹងម៉ូដែលសិក្សាម៉ាស៊ីនបុរាណ។
Support Vector Machine (SVM) ម៉ូដែលសិក្សាម៉ាស៊ីន Support Vector Machine (ម៉ូដែលគោល)	ជាវិធីសាស្ត្របុរាណដែលងាយស្រួលក្នុងការដាក់ឱ្យដំណើរការ និងមិនសូវទាមទារធនធានកុំព្យូទ័រធំដុំដូចវិធីសាស្ត្រ Deep Learning នោះទេ។	មិនមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកការវាយប្រហារប្រភេទថ្មីៗទាំងស្រុង (Zero-day) ឬកំណត់អត្តសញ្ញាណការគំរាមកំហែងដែលផ្លាស់ប្តូរទម្រង់លឿននោះទេ ដោយសារតែពឹងផ្អែកលើលក្ខណៈទិន្នន័យថេរ។	ទទួលបានអត្រាភាពត្រឹមត្រូវត្រឹមតែប្រមាណ ៨៤% ប៉ុណ្ណោះ ដែលទាបជាងម៉ូដែល AI ស្នើឡើងយ៉ាងខ្លាំង។
Random Forest ម៉ូដែលសិក្សាម៉ាស៊ីន Random Forest (ម៉ូដែលគោល)	មានភាពរឹងមាំក្នុងការចាត់ថ្នាក់ទិន្នន័យ និងអាចទប់ស្កាត់បញ្ហា Overfitting បានល្អលើសំណុំទិន្នន័យ ដែលមានលក្ខណៈច្រើន (High dimensionality)។	ខ្វះសមត្ថភាពក្នុងការសិក្សាជាបន្តបន្ទាប់ (Continuous learning) ពីបរិស្ថានជាក់ស្តែង ដែលធ្វើឱ្យពិបាកក្នុងការទប់ទល់នឹងយុទ្ធសាស្ត្រវាយប្រហារថ្មីៗប្រកបដោយប្រសិទ្ធភាព។	ទទួលបានអត្រាភាពត្រឹមត្រូវប្រមាណ ៨៦% និងភាពសុក្រឹតប្រមាណ ៨០% ដែលស្ថិតក្នុងកម្រិតមធ្យមនៅឡើយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់តួលេខនៃការចំណាយជាក់លាក់ទេ ប៉ុន្តែការដាក់ពង្រាយប្រព័ន្ធ AI ដែលប្រើប្រាស់ Reinforcement Learning និងទិន្នន័យពេលវេលាជាក់ស្តែង (Real-time) ទាមទារហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យា និងធនធានកម្រិតខ្ពស់។

Hardware: ត្រូវការម៉ាស៊ីនមេ (Servers) ឬ Cloud Infrastructure ដែលមានអង្គគណនា (GPUs) ខ្លាំង ដើម្បីដំណើរការក្បួនដោះស្រាយ Deep Q-network (DQN) និងវិភាគទិន្នន័យចរាចរណ៍បណ្តាញក្នុងទំហំធំ។
Dataset: ត្រូវការសំណុំទិន្នន័យចរាចរណ៍បណ្តាញ (Network flow data), កំណត់ហេតុប្រព័ន្ធ (Endpoint telemetry), និងទិន្នន័យអត្ថបទពីរបាយការណ៍គំរាមកំហែង និងវេទិកា Dark Web សម្រាប់បង្ហាត់ម៉ូដែល NLP។
Software: ទាមទារការធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធរៀបចំសន្តិសុខស្វ័យប្រវត្តិ SOAR (Security Orchestration, Automation, and Response) និងឧបករណ៍តាមដានបណ្តាញ។
Expertise: ត្រូវការអ្នកជំនាញផ្នែកសន្តិសុខសាយប័រ និងវិស្វករបញ្ញាសិប្បនិម្មិត ដែលមានបទពិសោធន៍ច្បាស់លាស់លើចំណេះដឹង Reinforcement Learning, NLP, និង Explainable AI (XAI)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ Benchmark ជាសាធារណៈ និងការក្លែងធ្វើសេណារីយ៉ូវាយប្រហារ (Synthetic attack scenarios) ដែលមិនបានឆ្លុះបញ្ចាំងពីលក្ខណៈបរិបទចរាចរណ៍បណ្តាញជាក់លាក់នៅក្នុងប្រទេសកម្ពុជានោះទេ។ សម្រាប់កម្ពុជា ការខ្វះខាតទិន្នន័យនៃការវាយប្រហារក្នុងស្រុក និងព័ត៌មានគំរាមកំហែងតាមតំបន់ (Local threat intelligence) អាចធ្វើឱ្យម៉ូដែលនេះមិនសូវមានប្រសិទ្ធភាពក្នុងការចាប់យកការគំរាមកំហែងដែលកំណត់គោលដៅជាក់លាក់មកលើស្ថាប័នកម្ពុជាពីសំណាក់ភ្នាក់ងារវាយប្រហាររដ្ឋ (State-sponsored actors) នោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទាមទារធនធានខ្ពស់ ប៉ុន្តែវិធីសាស្ត្រ AI នេះមានសក្តានុពលខ្លាំង និងភាពចាំបាច់បំផុតសម្រាប់ពង្រឹងសន្តិសុខសាយប័រនៅកម្ពុជា ជាពិសេសសម្រាប់ស្ថាប័នដែលគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យសំខាន់ៗ។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ឧទាហរណ៍៖ NBC, ធនាគារពាណិជ្ជធំៗដូចជា ACLEDA, ABA): អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីការពារទិន្នន័យហិរញ្ញវត្ថុរបស់អតិថិជនពីការវាយប្រហារ Zero-day ដែលជាការគំរាមកំហែងដ៏ធំបំផុតចំពោះប្រតិបត្តិការទូទាត់ប្រាក់ឌីជីថល (Digital Payments)។
ក្រសួង និងស្ថាប័នរដ្ឋាភិបាល (ឧទាហរណ៍៖ MPTC, មជ្ឈមណ្ឌលទិន្នន័យជាតិ): ជួយការពារហេដ្ឋារចនាសម្ព័ន្ធព័ត៌មានជាតិ និងកន្លែងផ្ទុកទិន្នន័យពលរដ្ឋពីការវាយប្រហារបែបចារកម្ម តាមរយៈការវិភាគរាល់សកម្មភាពបណ្តាញដែលមិនប្រក្រតីជាមុន។
ក្រុមហ៊ុនផ្តល់សេវាទូរគមនាគមន៍ (ISPs និង Telcos នៅកម្ពុជា): អាចធ្វើសមាហរណកម្មប្រព័ន្ធរកឃើញចំណុចខ្សោយ និងព្យាករណ៍នេះដើម្បីត្រួតពិនិត្យចរាចរណ៍ទិន្នន័យទ្រង់ទ្រាយធំ និងទប់ស្កាត់ការវាយប្រហារលក្ខណៈបណ្តាញពីខាងក្រៅមុនពេលវាឆ្លងចូលទៅដល់អ្នកប្រើប្រាស់ចុងក្រោយ។

ការអនុវត្តប្រព័ន្ធ AI-driven នេះនឹងជួយឱ្យកម្ពុជាផ្លាស់ប្តូរពីយុទ្ធសាស្ត្រការពារបែបអសកម្ម រង់ចាំមានបញ្ហាទើបដោះស្រាយ (Reactive) ទៅជាការគ្រប់គ្រងហានិភ័យបែបសកម្ម (Proactive) ដើម្បីធានាបាននូវសុវត្ថិភាពខ្ពស់សម្រាប់សេដ្ឋកិច្ចឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ Cybersecurity & Machine Learning: និស្សិតគួរសិក្សាពីទ្រឹស្តីសន្តិសុខបណ្តាញ និងក្បួនដោះស្រាយ ML ជាមូលដ្ឋាន តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬអនុវត្តផ្ទាល់លើ TryHackMe ដើម្បីយល់ច្បាស់ពីរបៀបដែលការវាយប្រហារប្រភេទ Zero-day ដំណើរការ។
ជំហានទី២៖ អនុវត្តការបង្កើតម៉ូដែល Reinforcement Learning: ចាប់ផ្តើមសរសេរកូដបង្កើតភ្នាក់ងារ RL ងាយៗដោយប្រើប្រាស់បណ្ណាល័យ OpenAI Gym និង PyTorch ឬ TensorFlow ដើម្បីស្វែងយល់ពីរបៀបនៃការរៀនតាមរយៈការផ្តល់រង្វាន់ និងការកែតម្រូវកំហុស (Reward-based learning)។
ជំហានទី៣៖ ហ្វឹកហាត់ជាមួយទិន្នន័យចរាចរណ៍បណ្តាញជាក់ស្តែង: ទាញយកសំណុំទិន្នន័យ Benchmark ស្តង់ដារដូចជា CICIDS2017 ឬ UNSW-NB15 យកមកបង្ហាត់ម៉ូដែល AI របស់អ្នក ដើម្បីសាកល្បងសមត្ថភាពក្នុងការវិភាគរកមើលភាពមិនប្រក្រតីនៅក្នុងចរាចរណ៍កញ្ចប់ទិន្នន័យ (Packet-level)។
ជំហានទី៤៖ រៀនពីបច្ចេកទេសប្រមូលនិងកែច្នៃទិន្នន័យគំរាមកំហែង (Threat Intelligence): សាកល្បងប្រមូលទិន្នន័យការគំរាមកំហែងពីប្រភពបើកចំហរដូចជា MITRE ATT&CK Framework ឬ CVE Databases រួចប្រើប្រាស់បច្ចេកទេស NLP (Hugging Face Transformers) ដើម្បីវិភាគអត្ថបទស្វែងរកសញ្ញាគំរាមកំហែងថ្មីៗ។
ជំហានទី៥៖ សិក្សា និងធ្វើសមាហរណកម្ម Explainable AI (XAI): បញ្ចូលឧបករណ៍វាយតម្លៃម៉ូដែលដូចជា SHAP (SHapley Additive exPlanations) ទៅក្នុងកូដរបស់អ្នក ដើម្បីអាចពន្យល់បានតាមបែបក្រាហ្វិកថាហេតុអ្វីបានជា AI របស់អ្នកចាត់ទុកសកម្មភាពបណ្តាញណាមួយថាជាការវាយប្រហារ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Zero-day vulnerability	ជាចំណុចខ្សោយផ្នែកសន្តិសុខនៅក្នុងកម្មវិធី ឬប្រព័ន្ធកុំព្យូទ័រ ដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង ឬមិនទាន់មានដំណោះស្រាយ (Patch) ការពារនៅឡើយ ដែលអនុញ្ញាតឱ្យអ្នកវាយប្រហារអាចកេងចំណេញពីវាបានភ្លាមៗ។	ដូចជាចោរលួចចូលផ្ទះតាមរយៈរន្ធប្រហោងមួយដែលម្ចាស់ផ្ទះខ្លួនឯងក៏មិនទាន់ដឹងថាមានរន្ធនោះដែរ ទើបមិនមានការប្រុងប្រយ័ត្នការពារ។
Reinforcement learning	ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារកុំព្យូទ័ររៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងខុសត្រូវនៅក្នុងបរិស្ថានមួយ ដោយទទួលបានរង្វាន់ពេលធ្វើត្រូវ និងទទួលការពិន័យពេលធ្វើខុស។	ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះស្តាប់បង្គាប់ដោយផ្តល់នំចំណីពេលវាធ្វើត្រូវ និងមិនឱ្យចំណីពេលវាធ្វើខុស។
Deep Q-network (DQN)	ជាក្បួនដោះស្រាយកម្រិតខ្ពស់នៃ Reinforcement Learning ដែលរួមបញ្ចូលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks) ដើម្បីជួយ AI អាចចងចាំ និងប៉ាន់ស្មានពីតម្លៃនៃជម្រើសសកម្មភាពនីមួយៗក្នុងការចាប់យកការវាយប្រហារបានយ៉ាងត្រឹមត្រូវ។	ដូចជាខួរក្បាលអ្នកលេងអុកដ៏ចំណានម្នាក់ដែលអាចគិតទុកជាមុនបានរាប់សិបជំហាន និងដឹងថាយុទ្ធសាស្ត្រមួយណានឹងនាំទៅរកជ័យជម្នះពិតប្រាកដ។
Natural language processing (NLP)	ជាបច្ចេកវិទ្យា AI ដែលអាចអាន យល់ និងទាញយកព័ត៌មានសំខាន់ៗពីទិន្នន័យអត្ថបទរបស់មនុស្ស (ដូចជារបាយការណ៍ ព័ត៌មាន ឬសារនៅលើវេទិកា Dark Web) ដើម្បីយកមកវិភាគរកការគំរាមកំហែងសន្តិសុខថ្មីៗ។	ដូចជាជំនួយការម្នាក់ដែលអាចអានសៀវភៅរាប់ពាន់ក្បាលក្នុងពេលមួយប៉ព្រិចភ្នែក ហើយសង្ខេបប្រាប់យើងពីចំណុចសំខាន់ៗ។
Explainable AI (XAI)	ជាសមត្ថភាពរបស់ប្រព័ន្ធ AI ក្នុងការបង្ហាញ និងពន្យល់ពីមូលហេតុច្បាស់លាស់នៅពីក្រោយការសម្រេចចិត្តរបស់វា (ឧទាហរណ៍៖ ហេតុអ្វីវាចាត់ទុកសកម្មភាពណាមួយថាជាមេរោគ) ដើម្បីឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបានដោយងាយស្រួល។	ដូចជាសិស្សគណិតវិទ្យាដែលមិនត្រឹមតែសរសេរចម្លើយត្រឹមត្រូវប៉ុណ្ណោះទេ ថែមទាំងបង្ហាញពីរបៀបគណនាគ្រប់ជំហានយ៉ាងច្បាស់លាស់ទៀតផង។
Threat intelligence	ជាការប្រមូលផ្តុំ និងវិភាគទិន្នន័យទាក់ទងនឹងយុទ្ធសាស្ត្រ បច្ចេកទេស និងគោលដៅរបស់អ្នកវាយប្រហារសាយប័រ ដើម្បីឱ្យស្ថាប័នអាចដឹងមុន និងត្រៀមលក្ខណៈទប់ទល់មុនពេលការវាយប្រហារជាក់ស្តែងកើតឡើង។	ដូចជាការបញ្ជូនអ្នកស៊ើបការណ៍សម្ងាត់ទៅតាមដានសត្រូវ ដើម្បីដឹងមុនពីផែនការវាយលុករបស់ពួកគេទើបយើងអាចរៀបចំទ័ពការពារទាន់ពេល។
Indicators of compromise (IOCs)	ជាភស្តុតាង ឬដានឌីជីថល (ដូចជាអាសយដ្ឋាន IP គួរឱ្យសង្ស័យ ឬឯកសារកូដចម្លែកៗ) ដែលបញ្ជាក់ថាប្រព័ន្ធកុំព្យូទ័រណាមួយត្រូវបានគេលួចចូលរួចរាល់ហើយ ឬកំពុងរងការវាយប្រហារ។	ដូចជាស្នាមម្រាមដៃ ឬស្នាមជើង ដែលចោរបន្សល់ទុកនៅកន្លែងកើតហេតុ បន្ទាប់ពីលួចទ្រព្យសម្បត្តិរួច។
Adversarial attacks	ជាប្រភេទនៃការវាយប្រហារដែលហេគឃ័រ (Hackers) ព្យាយាមប្រើប្រាស់ទិន្នន័យក្លែងក្លាយ ឬកែច្នៃលក្ខណៈទិន្នន័យតិចតួច ដើម្បីបញ្ឆោត ឬបំពុលប្រព័ន្ធ AI របស់ភាគីការពារឱ្យធ្វើការសម្រេចចិត្តខុស (ឧទាហរណ៍៖ មើលឃើញមេរោគ ថាជាឯកសារធម្មតា)។	ដូចជាការបន្លំពាក់ម៉ាស់មុខ ឬក្លែងបន្លំឯកសារ ដើម្បីបោកប្រាស់ឆ្មាំយាមច្រកទ្វារមិនឱ្យស្គាល់អត្តសញ្ញាណពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖