Original Title: Heterogeneous GNN with Express Edges for Intrusion Detection in Cyber-Physical Systems
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បណ្ដាញសរសៃប្រសាទក្រាហ្វចម្រុះជាមួយនឹង Express Edges សម្រាប់ការរកឃើញការឈ្លានពានក្នុងប្រព័ន្ធសាយប័រ-រូបវន្ត

ចំណងជើងដើម៖ Heterogeneous GNN with Express Edges for Intrusion Detection in Cyber-Physical Systems

អ្នកនិពន្ធ៖ Hongwei Li (Villanova University), Danai Chasaki (Villanova University)

ឆ្នាំបោះពុម្ព៖ 2024 International Conference on Computing, Networking and Communications (ICNC)

វិស័យសិក្សា៖ Cybersecurity and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការឈ្លានពានក្នុងប្រព័ន្ធសាយប័រ-រូបវន្ត (Cyber-Physical Systems) ដោយសារម៉ូដែលសិក្សាម៉ាស៊ីនពីមុនៗតែងតែមើលរំលងបរិបទនៃការវាយប្រហារបែបពហុលំហូរ (Multi-flow attacks) និងប្រឈមនឹងបញ្ហាលេចធ្លាយទិន្នន័យគោលដៅ (Target leakage) ក្នុងការវាយតម្លៃ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រគំរូទិន្នន័យក្រាហ្វចម្រុះថ្មីមួយដោយប្រើប្រាស់បច្ចេកទេស Express Edges និងយុទ្ធសាស្ត្របំបែកទិន្នន័យ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការរកឃើញការវាយប្រហារ។

ការបង្កើតគំរូទិន្នន័យក្រាហ្វចម្រុះ (Heterogeneous Graph Data Modeling) ដែលមាន Express Edges ដើម្បីភ្ជាប់ទំនាក់ទំនងផ្ទាល់រវាងឧបករណ៍ប្រភព និងគោលដៅ។
ការប្រើប្រាស់ក្បួនដោះស្រាយបណ្ដាញសរសៃប្រសាទក្រាហ្វ (HGNN variants) ដូចជា RGCN, RSAGE, RGAT, និង HAN។
ការអនុវត្តយុទ្ធសាស្ត្របំបែកទិន្នន័យតាមពេលវេលា (Modified Temporal Data Split) និងការធ្វើពិពិធកម្មអាសយដ្ឋាន IP ប្រភព ដើម្បីទប់ស្កាត់ការលេចធ្លាយទិន្នន័យគោលដៅ។
ការវាយតម្លៃសមត្ថភាពម៉ូដែលលើសំណុំទិន្នន័យ NIDS ធំៗចំនួន៤រួមមាន ToN-IoT, CIC-IDS2017, CIC-Darknet, និង NF-BoT-IoT។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល RSAGE ដែលប្រើប្រាស់ Express Edges ទទួលបានលទ្ធផលល្អបំផុតដោយសម្រេចបានពិន្ទុ F1 កម្រិត 0.9778 លើសំណុំទិន្នន័យ ToN-IoT ដែលខ្ពស់ជាងម៉ូដែលល្អបំផុតមុនៗដែលមានពិន្ទុត្រឹម 0.937។
ការប្រើប្រាស់ Express Edges ជួយពន្លឿនដំណើរការបញ្ជូនសាររបស់បណ្តាញ GNN និងផ្តល់លទ្ធផលប្រកបដោយប្រសិទ្ធភាពខ្ពស់ជាងបច្ចេកទេសបង្កើតក្រាហ្វឯកសណ្ឋានពីការសិក្សាមុនៗ។
យុទ្ធសាស្ត្របំបែកទិន្នន័យតាមពេលវេលាដែលបានស្នើឡើង ផ្តល់នូវការវាយតម្លៃលទ្ធផលម៉ូដែលកាន់តែមានភាពប្រាកដនិយម និងអាចដោះស្រាយបញ្ហាលេចធ្លាយទិន្នន័យដោយជោគជ័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
RSAGE with Express Edges បណ្ដាញ RSAGE ជាមួយនឹង Express Edges	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានប្រសិទ្ធភាពក្នុងការចាប់យកទំនាក់ទំនងរវាងឧបករណ៍ចម្រុះនៅក្នុងបណ្តាញ។	ត្រូវការពេលវេលាគណនាច្រើនជាងម៉ូដែល RGCN បន្តិច (ប្រហែល ១៤.៤ វិនាទីក្នុងមួយ Epoch)។	សម្រេចបានពិន្ទុ F1 ខ្ពស់បំផុតកម្រិត 0.9778 លើសំណុំទិន្នន័យ ToN-IoT។
RGCN with Express Edges បណ្ដាញ RGCN ជាមួយនឹង Express Edges	មានល្បឿនគណនាលឿនបំផុតក្នុងចំណោមម៉ូដែល HGNN ទាំងអស់ និងរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។	ពិន្ទុ F1 ទាបជាង RSAGE បន្តិចបន្តួច ប៉ុន្តែលឿនជាងជិតពាក់កណ្តាល។	ទទួលបានពិន្ទុ F1 កម្រិត 0.9735 និងចំណាយពេលត្រឹមតែ 8.4 វិនាទីក្នុងមួយ Epoch។
GNN with Residuals ម៉ូដែល GNN ដែលមាន Residuals (ការសិក្សាមុនៗ)	ជាម៉ូដែលដែលធ្លាប់ទទួលបានលទ្ធផលល្អ និងត្រូវបានទទួលស្គាល់ក្នុងការសិក្សាស្រាវជ្រាវកន្លងមក។	មិនអាចចាប់យកទំនាក់ទំនងស្មុគស្មាញនៃក្រាហ្វចម្រុះបានល្អដូចវិធីសាស្ត្រដែលប្រើ Express Edges នោះទេ។	ទទួលបានពិន្ទុ F1 ត្រឹមតែ 0.937 លើសំណុំទិន្នន័យ ToN-IoT ប៉ុណ្ណោះ។
XG-Boost ម៉ូដែល XG-Boost (ការរៀនម៉ាស៊ីនបែបប្រពៃណី)	ងាយស្រួលក្នុងការអនុវត្ត លឿន និងមានភាពពេញនិយមសម្រាប់ការប្រើប្រាស់ទូទៅ។	មិនមានសមត្ថភាពវិភាគទំនាក់ទំនងបរិបទបណ្តាញទាំងមូល ឬការវាយប្រហារបែបពហុលំហូរ (Multi-flow) បានទេ។	ទទួលបានពិន្ទុ F1 ទាបបំផុតត្រឹម 0.4807 ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ជាពិសេសកាតក្រាហ្វិក (GPU) សម្រាប់ការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទក្រាហ្វ (GNN) ឲ្យបានលឿន និងមានប្រសិទ្ធភាព។

Hardware: ត្រូវការ CPU Intel i7-11700 (16 cores), អង្គចងចាំ RAM 64 GB, និងកាតក្រាហ្វិក NVIDIA GeForce RTX3070 ដែលមាន 8GB Video Memory។
Software: ប្រើប្រាស់ភាសាសរសេរកូដ Python ជាមួយនឹងបណ្ណាល័យ PyTorch, DGL (Deep Graph Library), និង OpenHGNN។
Dataset: ទាមទារទិន្នន័យធំៗដូចជា ToN-IoT, CIC-IDS2017, CIC-Darknet, និង NF-BoT-IoT សម្រាប់ការអភិវឌ្ឍនិងវាយតម្លៃម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យត្រាប់តាម (Simulated datasets) ពីមន្ទីរពិសោធន៍ក្នុងប្រទេសអូស្ត្រាលី និងកាណាដា ដែលមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីទម្រង់ចរាចរណ៍បណ្តាញជាក់ស្តែងនៅកម្ពុជានោះទេ។ នៅកម្ពុជា ហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញជារឿយៗប្រើប្រាស់ឧបករណ៍ចម្រុះម៉ាកពីចិន (ដូចជា Huawei, ZTE) និងខ្វះស្តង់ដាររួម ដូច្នេះការអនុវត្តជាក់ស្តែងតម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីបង្វឹកម៉ូដែល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននៅកម្ពុជាដែលពឹងផ្អែកលើប្រព័ន្ធបច្ចេកវិទ្យាប្រតិបត្តិការ (OT) និងឧបករណ៍ IoT។

វិស័យថាមពល និងអគ្គិសនី (ឧទាហរណ៍៖ អគ្គិសនីកម្ពុជា EDC): អាចប្រើប្រាស់គំរូក្រាហ្វចម្រុះនេះ ដើម្បីការពារប្រព័ន្ធគ្រប់គ្រង SCADA និងឧបករណ៍បញ្ជា (MTU/RTU) ពីការវាយប្រហារតាមអ៊ីនធឺណិតដែលអាចធ្វើឱ្យរអាក់រអួលដល់ការផ្គត់ផ្គង់អគ្គិសនីជាតិ។
ក្រុមហ៊ុនផ្តល់សេវាទូរគមនាគមន៍ និងអ៊ីនធឺណិត (ISPs & Telecoms): ក្រុមហ៊ុនផ្តល់សេវាអាចយកម៉ូដែលនេះទៅវិភាគលំហូរទិន្នន័យបណ្តាញ ដើម្បីរកឲ្យឃើញនូវការវាយប្រហារប្រភេទ DDoS ដ៏ស្មុគស្មាញ និងទប់ស្កាត់ការឆ្លងរាលដាលនៃមេរោគទប់ទល់នឹងឧបករណ៍របស់អតិថិជន។
រោងចក្រផលិតកម្ម និងសួនឧស្សាហកម្មនៅកម្ពុជា: អាចជួយការពារឧបករណ៍ IoT និងប្រព័ន្ធស្វ័យប្រវត្តិកម្មក្នុងរោងចក្រពីការវាយប្រហារចូលប្លន់ទិន្នន័យ (Ransomware) ដែលអាចបង្អាក់ខ្សែសង្វាក់ផលិតកម្ម។

ការអនុវត្តបច្ចេកវិទ្យា GNNs ជាមួយ Express Edges នឹងជួយពង្រឹងការការពារហេដ្ឋារចនាសម្ព័ន្ធសំខាន់ៗនៅកម្ពុជាយ៉ាងមានប្រសិទ្ធភាព ប្រសិនបើមានការវិនិយោគលើទិន្នន័យក្នុងស្រុក និងធនធានកុំព្យូទ័របានត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Graph Neural Networks: និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃចង្កោមបណ្ដាញ GNNs តាមរយៈវគ្គសិក្សាតាមអ៊ីនធឺណិត និងអនុវត្តសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ PyTorch និង DGL (Deep Graph Library)។
រៀបចំ និងវិភាគសំណុំទិន្នន័យសុវត្ថិភាពបណ្តាញ: ទាញយក និងធ្វើការវិភាគលើសំណុំទិន្នន័យ ToN-IoT ឬ CIC-IDS2017 ដោយប្រើប្រាស់ Pandas និង NumPy ដើម្បីយល់ពីលក្ខណៈនៃចរាចរណ៍បណ្តាញធម្មតា និងការវាយប្រហារបែបពហុលំហូរ (Multi-flow)។
កសាងគំរូទិន្នន័យក្រាហ្វចម្រុះ (Heterogeneous Graph): អនុវត្តការបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជាទម្រង់ក្រាហ្វ ដោយប្រើឧបករណ៍ដូចជា NetworkX ដោយកំណត់ប្រភេទ Node (Source IP, Dest IP, Netflow) និងកំណត់ប្រភេទ Edge រវាងពួកវា។
អនុវត្តបច្ចេកទេស Express Edges និងបង្វឹកម៉ូដែល: ប្រើប្រាស់ក្របខ័ណ្ឌ OpenHGNN ដើម្បីបង្កើតម៉ូដែល RSAGE ឬ RGCN ហើយបន្ថែមមុខងារ Express Edges ដើម្បីភ្ជាប់ទំនាក់ទំនងផ្ទាល់រវាងឧបករណ៍ប្រភពនិងគោលដៅ ដូចដែលបានបង្ហាញក្នុងឯកសារស្រាវជ្រាវនេះ។
វាយតម្លៃ និងទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ (Target Leakage): វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយប្រើពិន្ទុ F1-Score និងត្រូវអនុវត្តយុទ្ធសាស្ត្របំបែកទិន្នន័យតាមពេលវេលា (Temporal Data Split) ជំនួសឱ្យការបំបែកដោយចៃដន្យ ដើម្បីទទួលបានលទ្ធផលសាកល្បងដែលពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Cyber-Physical Systems (CPS)	ជាប្រព័ន្ធដែលរួមបញ្ចូលកុំព្យូទ័រ បណ្តាញទំនាក់ទំនងបច្ចេកវិទ្យា (Cyber) និងដំណើរការរូបវន្តផ្ទាល់ (Physical ដូចជាម៉ាស៊ីនរោងចក្រ ទំនប់ទឹក ឬប្រព័ន្ធចែកចាយអគ្គិសនី) ដើម្បីតាមដាន និងគ្រប់គ្រងសកម្មភាពក្នុងពិភពពិត។	ដូចជាខួរក្បាលឆ្លាតវៃ (កុំព្យូទ័រ) ដែលភ្ជាប់ទៅនឹងដៃជើង (ម៉ាស៊ីន) ដើម្បីបញ្ជាកិច្ចការនានាដោយស្វ័យប្រវត្តិ។
Heterogeneous Graph	ជាប្រភេទគំរូទិន្នន័យក្រាហ្វដែលមានផ្ទុកនូវចំណុច (Nodes) និងខ្សែភ្ជាប់ (Edges) ច្រើនប្រភេទខុសៗគ្នា ដែលអនុញ្ញាតឱ្យតំណាងទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងឧបករណ៍បណ្តាញ និងលំហូរទិន្នន័យចម្រុះ។	ដូចជាផែនទីទីក្រុងដែលមានចំណុចតំណាងឲ្យសាលារៀន មន្ទីរពេទ្យ ផ្ទះ (Nodes ចម្រុះ) និងមានផ្លូវលំ ផ្លូវជាតិ (Edges ចម្រុះ) តភ្ជាប់គ្នា។
Express Edges	ជាបច្ចេកទេសបង្កើតថ្មីមួយក្នុងឯកសារនេះ ដែលបង្កើតខ្សែភ្ជាប់ដោយផ្ទាល់រវាងចំណុចប្រភព (Source IP) និងចំណុចគោលដៅ (Destination IP) ដើម្បីពន្លឿនការបញ្ជូនព័ត៌មាន និងបង្កើនភាពត្រឹមត្រូវនៃម៉ូដែល AI ។	ដូចជាការសាងសង់ស្ពានអាកាសឬផ្លូវកាត់ផ្ទាល់ពីចំណុច A ទៅចំណុច B ដើម្បីជៀសវាងការស្ទះចរាចរណ៍ និងចំណាយពេលលឿនជាងមុន។
Target Leakage	ជាបញ្ហាមួយក្នុងការបង្វឹកម៉ូដែល Machine Learning ដែលទិន្នន័យសម្រាប់ធ្វើតេស្ត (Test Data) ឬលក្ខណៈសម្បត្តិរបស់វា ត្រូវបានលេចធ្លាយចូលទៅក្នុងទិន្នន័យបង្វឹក (Training Data) ធ្វើឱ្យម៉ូដែលទទួលបានពិន្ទុខ្ពស់ហួសពីការពិត ប៉ុន្តែបរាជ័យក្នុងការអនុវត្តជាក់ស្តែង។	ដូចជាសិស្សដែលលួចមើលវិញ្ញាសាប្រឡងមុនពេលប្រឡង ធ្វើឲ្យបានពិន្ទុល្អ ប៉ុន្តែមិនមានចំណេះដឹងពិតប្រាកដក្នុងការដោះស្រាយបញ្ហា។
Multi-flow attacks	ជាប្រភេទការវាយប្រហារតាមប្រព័ន្ធសាយប័រដែលមិនពឹងផ្អែកលើការបញ្ជូនទិន្នន័យតែមួយដង ប៉ុន្តែវាបែងចែកសកម្មភាពវាយប្រហារទៅជាលំហូរទិន្នន័យតូចៗជាច្រើន និងខុសៗគ្នាតាមពេលវេលា ដើម្បីគេចវេសពីការចាប់បានពីប្រព័ន្ធការពារបណ្តាញប្រពៃណី។	ដូចជាចោរដែលមិនលួចឥវ៉ាន់ធំម្តងទាំងអស់ តែលួចម្តងបន្តិចៗជាច្រើនដង ដើម្បីកុំឲ្យម្ចាស់ផ្ទះសង្ស័យ។
Graph Neural Networks (GNN)	ជាប្រភេទនៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងទាញយកលំនាំពីទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ ដូចជាបណ្តាញសង្គម ឬបណ្តាញទំនាក់ទំនងកុំព្យូទ័រ ដែលផ្តោតលើទំនាក់ទំនងរវាងធាតុនីមួយៗ។	ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលមិនត្រឹមតែមើលប្រវត្តិរូបជនសង្ស័យប៉ុណ្ណោះទេ តែថែមទាំងពិនិត្យមើលទំនាក់ទំនងបណ្តាញមិត្តភក្តិរបស់គេទាំងអស់ដើម្បីរកការពិត។
Temporal Data Split	ជាយុទ្ធសាស្ត្រនៃការបែងចែកសំណុំទិន្នន័យសម្រាប់ការបង្វឹក និងការធ្វើតេស្តម៉ូដែល ដោយផ្អែកលើលំដាប់ពេលវេលា (ឧទាហរណ៍៖ យកទិន្នន័យចាស់ៗទៅបង្វឹក និងទិន្នន័យថ្មីៗបំផុតទៅធ្វើតេស្ត) ដើម្បីធានាថាការវាយតម្លៃមានភាពប្រាកដនិយម និងទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ។	ដូចជាការរៀនសូត្រពីបទពិសោធន៍ក្នុងអតីតកាល ដើម្បីត្រៀមខ្លួនដោះស្រាយបញ្ហាដែលនឹងកើតឡើងនៅថ្ងៃអនាគត។
Message Passing	ជាដំណើរការស្នូលនៅក្នុងប្រព័ន្ធ GNN ដែលចំណុចនីមួយៗ (Node) នៅក្នុងក្រាហ្វធ្វើការផ្លាស់ប្តូរ និងប្រមូលផ្តុំព័ត៌មានលក្ខណៈពិសេស (Features) ពីចំណុចជិតខាងរបស់វា ដើម្បីធ្វើបច្ចុប្បន្នភាពការយល់ដឹងរបស់វាអំពីបរិបទបណ្តាញទាំងមូល។	ដូចជាអ្នកជិតខាងជុំវិញផ្ទះប្រាប់ព័ត៌មានតៗគ្នាពីមួយទៅមួយ រហូតដល់គ្រប់គ្នាបានដឹងពីសាច់រឿងទាំងមូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖