Original Title: Heterogeneous GNN with Express Edges for Intrusion Detection in Cyber-Physical Systems
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បណ្ដាញសរសៃប្រសាទក្រាហ្វចម្រុះជាមួយនឹង Express Edges សម្រាប់ការរកឃើញការឈ្លានពានក្នុងប្រព័ន្ធសាយប័រ-រូបវន្ត

ចំណងជើងដើម៖ Heterogeneous GNN with Express Edges for Intrusion Detection in Cyber-Physical Systems

អ្នកនិពន្ធ៖ Hongwei Li (Villanova University), Danai Chasaki (Villanova University)

ឆ្នាំបោះពុម្ព៖ 2024 International Conference on Computing, Networking and Communications (ICNC)

វិស័យសិក្សា៖ Cybersecurity and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការឈ្លានពានក្នុងប្រព័ន្ធសាយប័រ-រូបវន្ត (Cyber-Physical Systems) ដោយសារម៉ូដែលសិក្សាម៉ាស៊ីនពីមុនៗតែងតែមើលរំលងបរិបទនៃការវាយប្រហារបែបពហុលំហូរ (Multi-flow attacks) និងប្រឈមនឹងបញ្ហាលេចធ្លាយទិន្នន័យគោលដៅ (Target leakage) ក្នុងការវាយតម្លៃ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រគំរូទិន្នន័យក្រាហ្វចម្រុះថ្មីមួយដោយប្រើប្រាស់បច្ចេកទេស Express Edges និងយុទ្ធសាស្ត្របំបែកទិន្នន័យ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការរកឃើញការវាយប្រហារ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
RSAGE with Express Edges
បណ្ដាញ RSAGE ជាមួយនឹង Express Edges
ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានប្រសិទ្ធភាពក្នុងការចាប់យកទំនាក់ទំនងរវាងឧបករណ៍ចម្រុះនៅក្នុងបណ្តាញ។ ត្រូវការពេលវេលាគណនាច្រើនជាងម៉ូដែល RGCN បន្តិច (ប្រហែល ១៤.៤ វិនាទីក្នុងមួយ Epoch)។ សម្រេចបានពិន្ទុ F1 ខ្ពស់បំផុតកម្រិត 0.9778 លើសំណុំទិន្នន័យ ToN-IoT។
RGCN with Express Edges
បណ្ដាញ RGCN ជាមួយនឹង Express Edges
មានល្បឿនគណនាលឿនបំផុតក្នុងចំណោមម៉ូដែល HGNN ទាំងអស់ និងរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។ ពិន្ទុ F1 ទាបជាង RSAGE បន្តិចបន្តួច ប៉ុន្តែលឿនជាងជិតពាក់កណ្តាល។ ទទួលបានពិន្ទុ F1 កម្រិត 0.9735 និងចំណាយពេលត្រឹមតែ 8.4 វិនាទីក្នុងមួយ Epoch។
GNN with Residuals
ម៉ូដែល GNN ដែលមាន Residuals (ការសិក្សាមុនៗ)
ជាម៉ូដែលដែលធ្លាប់ទទួលបានលទ្ធផលល្អ និងត្រូវបានទទួលស្គាល់ក្នុងការសិក្សាស្រាវជ្រាវកន្លងមក។ មិនអាចចាប់យកទំនាក់ទំនងស្មុគស្មាញនៃក្រាហ្វចម្រុះបានល្អដូចវិធីសាស្ត្រដែលប្រើ Express Edges នោះទេ។ ទទួលបានពិន្ទុ F1 ត្រឹមតែ 0.937 លើសំណុំទិន្នន័យ ToN-IoT ប៉ុណ្ណោះ។
XG-Boost
ម៉ូដែល XG-Boost (ការរៀនម៉ាស៊ីនបែបប្រពៃណី)
ងាយស្រួលក្នុងការអនុវត្ត លឿន និងមានភាពពេញនិយមសម្រាប់ការប្រើប្រាស់ទូទៅ។ មិនមានសមត្ថភាពវិភាគទំនាក់ទំនងបរិបទបណ្តាញទាំងមូល ឬការវាយប្រហារបែបពហុលំហូរ (Multi-flow) បានទេ។ ទទួលបានពិន្ទុ F1 ទាបបំផុតត្រឹម 0.4807 ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ជាពិសេសកាតក្រាហ្វិក (GPU) សម្រាប់ការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទក្រាហ្វ (GNN) ឲ្យបានលឿន និងមានប្រសិទ្ធភាព។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យត្រាប់តាម (Simulated datasets) ពីមន្ទីរពិសោធន៍ក្នុងប្រទេសអូស្ត្រាលី និងកាណាដា ដែលមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីទម្រង់ចរាចរណ៍បណ្តាញជាក់ស្តែងនៅកម្ពុជានោះទេ។ នៅកម្ពុជា ហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញជារឿយៗប្រើប្រាស់ឧបករណ៍ចម្រុះម៉ាកពីចិន (ដូចជា Huawei, ZTE) និងខ្វះស្តង់ដាររួម ដូច្នេះការអនុវត្តជាក់ស្តែងតម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីបង្វឹកម៉ូដែល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននៅកម្ពុជាដែលពឹងផ្អែកលើប្រព័ន្ធបច្ចេកវិទ្យាប្រតិបត្តិការ (OT) និងឧបករណ៍ IoT។

ការអនុវត្តបច្ចេកវិទ្យា GNNs ជាមួយ Express Edges នឹងជួយពង្រឹងការការពារហេដ្ឋារចនាសម្ព័ន្ធសំខាន់ៗនៅកម្ពុជាយ៉ាងមានប្រសិទ្ធភាព ប្រសិនបើមានការវិនិយោគលើទិន្នន័យក្នុងស្រុក និងធនធានកុំព្យូទ័របានត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Graph Neural Networks: និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃចង្កោមបណ្ដាញ GNNs តាមរយៈវគ្គសិក្សាតាមអ៊ីនធឺណិត និងអនុវត្តសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ PyTorch និង DGL (Deep Graph Library)។
  2. រៀបចំ និងវិភាគសំណុំទិន្នន័យសុវត្ថិភាពបណ្តាញ: ទាញយក និងធ្វើការវិភាគលើសំណុំទិន្នន័យ ToN-IoT ឬ CIC-IDS2017 ដោយប្រើប្រាស់ Pandas និង NumPy ដើម្បីយល់ពីលក្ខណៈនៃចរាចរណ៍បណ្តាញធម្មតា និងការវាយប្រហារបែបពហុលំហូរ (Multi-flow)។
  3. កសាងគំរូទិន្នន័យក្រាហ្វចម្រុះ (Heterogeneous Graph): អនុវត្តការបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជាទម្រង់ក្រាហ្វ ដោយប្រើឧបករណ៍ដូចជា NetworkX ដោយកំណត់ប្រភេទ Node (Source IP, Dest IP, Netflow) និងកំណត់ប្រភេទ Edge រវាងពួកវា។
  4. អនុវត្តបច្ចេកទេស Express Edges និងបង្វឹកម៉ូដែល: ប្រើប្រាស់ក្របខ័ណ្ឌ OpenHGNN ដើម្បីបង្កើតម៉ូដែល RSAGE ឬ RGCN ហើយបន្ថែមមុខងារ Express Edges ដើម្បីភ្ជាប់ទំនាក់ទំនងផ្ទាល់រវាងឧបករណ៍ប្រភពនិងគោលដៅ ដូចដែលបានបង្ហាញក្នុងឯកសារស្រាវជ្រាវនេះ។
  5. វាយតម្លៃ និងទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ (Target Leakage): វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយប្រើពិន្ទុ F1-Score និងត្រូវអនុវត្តយុទ្ធសាស្ត្របំបែកទិន្នន័យតាមពេលវេលា (Temporal Data Split) ជំនួសឱ្យការបំបែកដោយចៃដន្យ ដើម្បីទទួលបានលទ្ធផលសាកល្បងដែលពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Cyber-Physical Systems (CPS) ជាប្រព័ន្ធដែលរួមបញ្ចូលកុំព្យូទ័រ បណ្តាញទំនាក់ទំនងបច្ចេកវិទ្យា (Cyber) និងដំណើរការរូបវន្តផ្ទាល់ (Physical ដូចជាម៉ាស៊ីនរោងចក្រ ទំនប់ទឹក ឬប្រព័ន្ធចែកចាយអគ្គិសនី) ដើម្បីតាមដាន និងគ្រប់គ្រងសកម្មភាពក្នុងពិភពពិត។ ដូចជាខួរក្បាលឆ្លាតវៃ (កុំព្យូទ័រ) ដែលភ្ជាប់ទៅនឹងដៃជើង (ម៉ាស៊ីន) ដើម្បីបញ្ជាកិច្ចការនានាដោយស្វ័យប្រវត្តិ។
Heterogeneous Graph ជាប្រភេទគំរូទិន្នន័យក្រាហ្វដែលមានផ្ទុកនូវចំណុច (Nodes) និងខ្សែភ្ជាប់ (Edges) ច្រើនប្រភេទខុសៗគ្នា ដែលអនុញ្ញាតឱ្យតំណាងទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងឧបករណ៍បណ្តាញ និងលំហូរទិន្នន័យចម្រុះ។ ដូចជាផែនទីទីក្រុងដែលមានចំណុចតំណាងឲ្យសាលារៀន មន្ទីរពេទ្យ ផ្ទះ (Nodes ចម្រុះ) និងមានផ្លូវលំ ផ្លូវជាតិ (Edges ចម្រុះ) តភ្ជាប់គ្នា។
Express Edges ជាបច្ចេកទេសបង្កើតថ្មីមួយក្នុងឯកសារនេះ ដែលបង្កើតខ្សែភ្ជាប់ដោយផ្ទាល់រវាងចំណុចប្រភព (Source IP) និងចំណុចគោលដៅ (Destination IP) ដើម្បីពន្លឿនការបញ្ជូនព័ត៌មាន និងបង្កើនភាពត្រឹមត្រូវនៃម៉ូដែល AI ។ ដូចជាការសាងសង់ស្ពានអាកាសឬផ្លូវកាត់ផ្ទាល់ពីចំណុច A ទៅចំណុច B ដើម្បីជៀសវាងការស្ទះចរាចរណ៍ និងចំណាយពេលលឿនជាងមុន។
Target Leakage ជាបញ្ហាមួយក្នុងការបង្វឹកម៉ូដែល Machine Learning ដែលទិន្នន័យសម្រាប់ធ្វើតេស្ត (Test Data) ឬលក្ខណៈសម្បត្តិរបស់វា ត្រូវបានលេចធ្លាយចូលទៅក្នុងទិន្នន័យបង្វឹក (Training Data) ធ្វើឱ្យម៉ូដែលទទួលបានពិន្ទុខ្ពស់ហួសពីការពិត ប៉ុន្តែបរាជ័យក្នុងការអនុវត្តជាក់ស្តែង។ ដូចជាសិស្សដែលលួចមើលវិញ្ញាសាប្រឡងមុនពេលប្រឡង ធ្វើឲ្យបានពិន្ទុល្អ ប៉ុន្តែមិនមានចំណេះដឹងពិតប្រាកដក្នុងការដោះស្រាយបញ្ហា។
Multi-flow attacks ជាប្រភេទការវាយប្រហារតាមប្រព័ន្ធសាយប័រដែលមិនពឹងផ្អែកលើការបញ្ជូនទិន្នន័យតែមួយដង ប៉ុន្តែវាបែងចែកសកម្មភាពវាយប្រហារទៅជាលំហូរទិន្នន័យតូចៗជាច្រើន និងខុសៗគ្នាតាមពេលវេលា ដើម្បីគេចវេសពីការចាប់បានពីប្រព័ន្ធការពារបណ្តាញប្រពៃណី។ ដូចជាចោរដែលមិនលួចឥវ៉ាន់ធំម្តងទាំងអស់ តែលួចម្តងបន្តិចៗជាច្រើនដង ដើម្បីកុំឲ្យម្ចាស់ផ្ទះសង្ស័យ។
Graph Neural Networks (GNN) ជាប្រភេទនៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងទាញយកលំនាំពីទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ ដូចជាបណ្តាញសង្គម ឬបណ្តាញទំនាក់ទំនងកុំព្យូទ័រ ដែលផ្តោតលើទំនាក់ទំនងរវាងធាតុនីមួយៗ។ ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលមិនត្រឹមតែមើលប្រវត្តិរូបជនសង្ស័យប៉ុណ្ណោះទេ តែថែមទាំងពិនិត្យមើលទំនាក់ទំនងបណ្តាញមិត្តភក្តិរបស់គេទាំងអស់ដើម្បីរកការពិត។
Temporal Data Split ជាយុទ្ធសាស្ត្រនៃការបែងចែកសំណុំទិន្នន័យសម្រាប់ការបង្វឹក និងការធ្វើតេស្តម៉ូដែល ដោយផ្អែកលើលំដាប់ពេលវេលា (ឧទាហរណ៍៖ យកទិន្នន័យចាស់ៗទៅបង្វឹក និងទិន្នន័យថ្មីៗបំផុតទៅធ្វើតេស្ត) ដើម្បីធានាថាការវាយតម្លៃមានភាពប្រាកដនិយម និងទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ។ ដូចជាការរៀនសូត្រពីបទពិសោធន៍ក្នុងអតីតកាល ដើម្បីត្រៀមខ្លួនដោះស្រាយបញ្ហាដែលនឹងកើតឡើងនៅថ្ងៃអនាគត។
Message Passing ជាដំណើរការស្នូលនៅក្នុងប្រព័ន្ធ GNN ដែលចំណុចនីមួយៗ (Node) នៅក្នុងក្រាហ្វធ្វើការផ្លាស់ប្តូរ និងប្រមូលផ្តុំព័ត៌មានលក្ខណៈពិសេស (Features) ពីចំណុចជិតខាងរបស់វា ដើម្បីធ្វើបច្ចុប្បន្នភាពការយល់ដឹងរបស់វាអំពីបរិបទបណ្តាញទាំងមូល។ ដូចជាអ្នកជិតខាងជុំវិញផ្ទះប្រាប់ព័ត៌មានតៗគ្នាពីមួយទៅមួយ រហូតដល់គ្រប់គ្នាបានដឹងពីសាច់រឿងទាំងមូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖