បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការឈ្លានពានក្នុងប្រព័ន្ធសាយប័រ-រូបវន្ត (Cyber-Physical Systems) ដោយសារម៉ូដែលសិក្សាម៉ាស៊ីនពីមុនៗតែងតែមើលរំលងបរិបទនៃការវាយប្រហារបែបពហុលំហូរ (Multi-flow attacks) និងប្រឈមនឹងបញ្ហាលេចធ្លាយទិន្នន័យគោលដៅ (Target leakage) ក្នុងការវាយតម្លៃ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រគំរូទិន្នន័យក្រាហ្វចម្រុះថ្មីមួយដោយប្រើប្រាស់បច្ចេកទេស Express Edges និងយុទ្ធសាស្ត្របំបែកទិន្នន័យ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការរកឃើញការវាយប្រហារ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| RSAGE with Express Edges បណ្ដាញ RSAGE ជាមួយនឹង Express Edges |
ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានប្រសិទ្ធភាពក្នុងការចាប់យកទំនាក់ទំនងរវាងឧបករណ៍ចម្រុះនៅក្នុងបណ្តាញ។ | ត្រូវការពេលវេលាគណនាច្រើនជាងម៉ូដែល RGCN បន្តិច (ប្រហែល ១៤.៤ វិនាទីក្នុងមួយ Epoch)។ | សម្រេចបានពិន្ទុ F1 ខ្ពស់បំផុតកម្រិត 0.9778 លើសំណុំទិន្នន័យ ToN-IoT។ |
| RGCN with Express Edges បណ្ដាញ RGCN ជាមួយនឹង Express Edges |
មានល្បឿនគណនាលឿនបំផុតក្នុងចំណោមម៉ូដែល HGNN ទាំងអស់ និងរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។ | ពិន្ទុ F1 ទាបជាង RSAGE បន្តិចបន្តួច ប៉ុន្តែលឿនជាងជិតពាក់កណ្តាល។ | ទទួលបានពិន្ទុ F1 កម្រិត 0.9735 និងចំណាយពេលត្រឹមតែ 8.4 វិនាទីក្នុងមួយ Epoch។ |
| GNN with Residuals ម៉ូដែល GNN ដែលមាន Residuals (ការសិក្សាមុនៗ) |
ជាម៉ូដែលដែលធ្លាប់ទទួលបានលទ្ធផលល្អ និងត្រូវបានទទួលស្គាល់ក្នុងការសិក្សាស្រាវជ្រាវកន្លងមក។ | មិនអាចចាប់យកទំនាក់ទំនងស្មុគស្មាញនៃក្រាហ្វចម្រុះបានល្អដូចវិធីសាស្ត្រដែលប្រើ Express Edges នោះទេ។ | ទទួលបានពិន្ទុ F1 ត្រឹមតែ 0.937 លើសំណុំទិន្នន័យ ToN-IoT ប៉ុណ្ណោះ។ |
| XG-Boost ម៉ូដែល XG-Boost (ការរៀនម៉ាស៊ីនបែបប្រពៃណី) |
ងាយស្រួលក្នុងការអនុវត្ត លឿន និងមានភាពពេញនិយមសម្រាប់ការប្រើប្រាស់ទូទៅ។ | មិនមានសមត្ថភាពវិភាគទំនាក់ទំនងបរិបទបណ្តាញទាំងមូល ឬការវាយប្រហារបែបពហុលំហូរ (Multi-flow) បានទេ។ | ទទួលបានពិន្ទុ F1 ទាបបំផុតត្រឹម 0.4807 ប៉ុណ្ណោះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ជាពិសេសកាតក្រាហ្វិក (GPU) សម្រាប់ការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទក្រាហ្វ (GNN) ឲ្យបានលឿន និងមានប្រសិទ្ធភាព។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យត្រាប់តាម (Simulated datasets) ពីមន្ទីរពិសោធន៍ក្នុងប្រទេសអូស្ត្រាលី និងកាណាដា ដែលមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីទម្រង់ចរាចរណ៍បណ្តាញជាក់ស្តែងនៅកម្ពុជានោះទេ។ នៅកម្ពុជា ហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញជារឿយៗប្រើប្រាស់ឧបករណ៍ចម្រុះម៉ាកពីចិន (ដូចជា Huawei, ZTE) និងខ្វះស្តង់ដាររួម ដូច្នេះការអនុវត្តជាក់ស្តែងតម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីបង្វឹកម៉ូដែល។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននៅកម្ពុជាដែលពឹងផ្អែកលើប្រព័ន្ធបច្ចេកវិទ្យាប្រតិបត្តិការ (OT) និងឧបករណ៍ IoT។
ការអនុវត្តបច្ចេកវិទ្យា GNNs ជាមួយ Express Edges នឹងជួយពង្រឹងការការពារហេដ្ឋារចនាសម្ព័ន្ធសំខាន់ៗនៅកម្ពុជាយ៉ាងមានប្រសិទ្ធភាព ប្រសិនបើមានការវិនិយោគលើទិន្នន័យក្នុងស្រុក និងធនធានកុំព្យូទ័របានត្រឹមត្រូវ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Cyber-Physical Systems (CPS) | ជាប្រព័ន្ធដែលរួមបញ្ចូលកុំព្យូទ័រ បណ្តាញទំនាក់ទំនងបច្ចេកវិទ្យា (Cyber) និងដំណើរការរូបវន្តផ្ទាល់ (Physical ដូចជាម៉ាស៊ីនរោងចក្រ ទំនប់ទឹក ឬប្រព័ន្ធចែកចាយអគ្គិសនី) ដើម្បីតាមដាន និងគ្រប់គ្រងសកម្មភាពក្នុងពិភពពិត។ | ដូចជាខួរក្បាលឆ្លាតវៃ (កុំព្យូទ័រ) ដែលភ្ជាប់ទៅនឹងដៃជើង (ម៉ាស៊ីន) ដើម្បីបញ្ជាកិច្ចការនានាដោយស្វ័យប្រវត្តិ។ |
| Heterogeneous Graph | ជាប្រភេទគំរូទិន្នន័យក្រាហ្វដែលមានផ្ទុកនូវចំណុច (Nodes) និងខ្សែភ្ជាប់ (Edges) ច្រើនប្រភេទខុសៗគ្នា ដែលអនុញ្ញាតឱ្យតំណាងទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងឧបករណ៍បណ្តាញ និងលំហូរទិន្នន័យចម្រុះ។ | ដូចជាផែនទីទីក្រុងដែលមានចំណុចតំណាងឲ្យសាលារៀន មន្ទីរពេទ្យ ផ្ទះ (Nodes ចម្រុះ) និងមានផ្លូវលំ ផ្លូវជាតិ (Edges ចម្រុះ) តភ្ជាប់គ្នា។ |
| Express Edges | ជាបច្ចេកទេសបង្កើតថ្មីមួយក្នុងឯកសារនេះ ដែលបង្កើតខ្សែភ្ជាប់ដោយផ្ទាល់រវាងចំណុចប្រភព (Source IP) និងចំណុចគោលដៅ (Destination IP) ដើម្បីពន្លឿនការបញ្ជូនព័ត៌មាន និងបង្កើនភាពត្រឹមត្រូវនៃម៉ូដែល AI ។ | ដូចជាការសាងសង់ស្ពានអាកាសឬផ្លូវកាត់ផ្ទាល់ពីចំណុច A ទៅចំណុច B ដើម្បីជៀសវាងការស្ទះចរាចរណ៍ និងចំណាយពេលលឿនជាងមុន។ |
| Target Leakage | ជាបញ្ហាមួយក្នុងការបង្វឹកម៉ូដែល Machine Learning ដែលទិន្នន័យសម្រាប់ធ្វើតេស្ត (Test Data) ឬលក្ខណៈសម្បត្តិរបស់វា ត្រូវបានលេចធ្លាយចូលទៅក្នុងទិន្នន័យបង្វឹក (Training Data) ធ្វើឱ្យម៉ូដែលទទួលបានពិន្ទុខ្ពស់ហួសពីការពិត ប៉ុន្តែបរាជ័យក្នុងការអនុវត្តជាក់ស្តែង។ | ដូចជាសិស្សដែលលួចមើលវិញ្ញាសាប្រឡងមុនពេលប្រឡង ធ្វើឲ្យបានពិន្ទុល្អ ប៉ុន្តែមិនមានចំណេះដឹងពិតប្រាកដក្នុងការដោះស្រាយបញ្ហា។ |
| Multi-flow attacks | ជាប្រភេទការវាយប្រហារតាមប្រព័ន្ធសាយប័រដែលមិនពឹងផ្អែកលើការបញ្ជូនទិន្នន័យតែមួយដង ប៉ុន្តែវាបែងចែកសកម្មភាពវាយប្រហារទៅជាលំហូរទិន្នន័យតូចៗជាច្រើន និងខុសៗគ្នាតាមពេលវេលា ដើម្បីគេចវេសពីការចាប់បានពីប្រព័ន្ធការពារបណ្តាញប្រពៃណី។ | ដូចជាចោរដែលមិនលួចឥវ៉ាន់ធំម្តងទាំងអស់ តែលួចម្តងបន្តិចៗជាច្រើនដង ដើម្បីកុំឲ្យម្ចាស់ផ្ទះសង្ស័យ។ |
| Graph Neural Networks (GNN) | ជាប្រភេទនៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងទាញយកលំនាំពីទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ ដូចជាបណ្តាញសង្គម ឬបណ្តាញទំនាក់ទំនងកុំព្យូទ័រ ដែលផ្តោតលើទំនាក់ទំនងរវាងធាតុនីមួយៗ។ | ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលមិនត្រឹមតែមើលប្រវត្តិរូបជនសង្ស័យប៉ុណ្ណោះទេ តែថែមទាំងពិនិត្យមើលទំនាក់ទំនងបណ្តាញមិត្តភក្តិរបស់គេទាំងអស់ដើម្បីរកការពិត។ |
| Temporal Data Split | ជាយុទ្ធសាស្ត្រនៃការបែងចែកសំណុំទិន្នន័យសម្រាប់ការបង្វឹក និងការធ្វើតេស្តម៉ូដែល ដោយផ្អែកលើលំដាប់ពេលវេលា (ឧទាហរណ៍៖ យកទិន្នន័យចាស់ៗទៅបង្វឹក និងទិន្នន័យថ្មីៗបំផុតទៅធ្វើតេស្ត) ដើម្បីធានាថាការវាយតម្លៃមានភាពប្រាកដនិយម និងទប់ស្កាត់ការលេចធ្លាយទិន្នន័យ។ | ដូចជាការរៀនសូត្រពីបទពិសោធន៍ក្នុងអតីតកាល ដើម្បីត្រៀមខ្លួនដោះស្រាយបញ្ហាដែលនឹងកើតឡើងនៅថ្ងៃអនាគត។ |
| Message Passing | ជាដំណើរការស្នូលនៅក្នុងប្រព័ន្ធ GNN ដែលចំណុចនីមួយៗ (Node) នៅក្នុងក្រាហ្វធ្វើការផ្លាស់ប្តូរ និងប្រមូលផ្តុំព័ត៌មានលក្ខណៈពិសេស (Features) ពីចំណុចជិតខាងរបស់វា ដើម្បីធ្វើបច្ចុប្បន្នភាពការយល់ដឹងរបស់វាអំពីបរិបទបណ្តាញទាំងមូល។ | ដូចជាអ្នកជិតខាងជុំវិញផ្ទះប្រាប់ព័ត៌មានតៗគ្នាពីមួយទៅមួយ រហូតដល់គ្រប់គ្នាបានដឹងពីសាច់រឿងទាំងមូល។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖