Original Title: Topological Data Analysis-Based Replay Attack Detection for Water Networks
Source: doi.org/10.1016/j.ifacol.2024.07.199
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញការវាយប្រហារបញ្ជូនទិន្នន័យឡើងវិញ (Replay Attack) លើបណ្តាញទឹកដោយផ្អែកលើការវិភាគទិន្នន័យតូប៉ូឡូស៊ី

ចំណងជើងដើម៖ Topological Data Analysis-Based Replay Attack Detection for Water Networks

អ្នកនិពន្ធ៖ Bulut Kuskonmaz, Rafal Wisniewski, Carsten Skovmose Kallesøe

ឆ្នាំបោះពុម្ព៖ 2024 IFAC PapersOnLine

វិស័យសិក្សា៖ Cybersecurity / Control Systems

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវាយប្រហារតាមអ៊ីនធឺណិត ជាពិសេសការវាយប្រហារបញ្ជូនទិន្នន័យឡើងវិញ (Replay attacks) ដែលពិបាកក្នុងការរកឃើញ និងអាចបណ្តាលឱ្យមានការខូចខាតធ្ងន់ធ្ងរដល់ប្រព័ន្ធរូបវិទ្យាសាយប័រ (Cyber-physical systems) នៃបណ្តាញចែកចាយទឹក។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្ររកឃើញភាពមិនប្រក្រតីដោយប្រើប្រាស់ ការវិភាគទិន្នន័យតូប៉ូឡូស៊ី (Topological Data Analysis - TDA) ដើម្បីស្វែងយល់ពីលក្ខណៈនៃវដ្តទិន្នន័យរង្វាស់ឧបករណ៍សេនស័រ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Topological Data Analysis (TDA)
ការវិភាគទិន្នន័យតូប៉ូឡូស៊ី (TDA)
អាចចាប់យកព័ត៌មានអំពីរាងកោង (Roundness) នៃទិន្នន័យបានល្អ និងមិនងាយរងឥទ្ធិពលពីចំណុចដែលមិនអាចធ្វើឌីផេរ៉ង់ស្យែល (Non-differentiable parts) នៃអនុគមន៍ខួប។ ត្រូវការពេលវេលាគណនាខ្លះ (ជាង១នាទី) ដែលប្រហែលជាមិនស័ក្តិសមសម្រាប់ប្រព័ន្ធដែលត្រូវការការរកឃើញ ឬឆ្លើយតបលឿនភ្លាមៗ (Fast/Real-time detection) នោះទេ។ អាចរកឃើញការវាយប្រហារបញ្ជូនទិន្នន័យឡើងវិញ (Replay Attack) ទាំង ៤ សេណារីយ៉ូ ដោយកម្រិតវាយតម្លៃ Betti Curve Integral លើសពីកម្រិតកំណត់កិត (Threshold) 0.9731 ទាំងអស់ (មានតម្លៃចន្លោះពី 1.5955 ដល់ 2.4465)។
Fourier Analysis
ការវិភាគហ្វូរៀ (Fourier Analysis)
ជាវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពក្នុងការចាប់យកព័ត៌មានអំពីខួប (Periodicity) ឬហ្វ្រេកង់ស៍នៃសញ្ញាទិន្នន័យ។ ងាយរងឥទ្ធិពលពីចំណុចដែលមិនអាចធ្វើឌីផេរ៉ង់ស្យែលនៃសញ្ញា និងមិនអាចបញ្ជាក់ពីភាពកោងនៃទិន្នន័យបានល្អដូចការវិភាគតូប៉ូឡូស៊ី (TDA) ឡើយ។ មិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការបែងចែកភាពខុសគ្នារវាងសញ្ញាធម្មតា និងសញ្ញាដែលត្រូវបានវាយប្រហារ (ឧទាហរណ៍ដូចជាការប្រៀបធៀបសញ្ញាត្រីកោណ និងសញ្ញាធ្នូ) បើប្រៀបធៀបនឹងវិធីសាស្ត្រ TDA។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើកុំព្យូទ័រ (Computer simulation) និងប្រើប្រាស់កម្លាំងម៉ាស៊ីនកម្រិតមធ្យមដោយមិនទាមទារផ្នែករឹងកម្រិតខ្ពស់ ឬតម្លៃថ្លៃពេកនោះទេ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ត្រឹមតែទិន្នន័យដែលបង្កើតឡើងតាមរយៈការក្លែងធ្វើ (Simulation) នៃបណ្តាញចែកចាយទឹកដែលមានពីរតំបន់សម្ពាធ មិនមែនជាទិន្នន័យជាក់ស្តែងពីបណ្តាញទឹកណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តជាក់ស្តែងតម្រូវឱ្យមានការសាកល្បងជាមួយទិន្នន័យរង្វាស់ឧបករណ៍សេនស័រពិតប្រាកដក្នុងស្រុក ដែលវាអាចមានកម្រិតសម្លេងរំខាន (Noise) និងភាពស្មុគស្មាញច្រើនជាងទិន្នន័យក្លែងធ្វើ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រតាមដានភាពមិនប្រក្រតីដោយផ្អែកលើ TDA នេះ មានសក្តានុពលខ្ពស់សម្រាប់ពង្រឹងសន្តិសុខសាយប័រលើហេដ្ឋារចនាសម្ព័ន្ធសំខាន់ៗនៅកម្ពុជា។

ជារួម ការប្រើប្រាស់ TDA ជាវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាព និងចំណាយធនធានតិច ដែលស្ថាប័នគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធរូបវិទ្យាសាយប័រ (CPS) នៅកម្ពុជាអាចយកទៅស្រាវជ្រាវ និងអនុវត្តដើម្បីបង្ការការវាយប្រហារតាមអ៊ីនធឺណិតដ៏កាចសាហាវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃមេកានិច Topological Data Analysis: និស្សិត ឬអ្នកស្រាវជ្រាវគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីខ្សែកោង Betti Curves ដំណើរការ Persistence Homology ព្រមទាំងការបំប្លែងទិន្នន័យ Time Series ទៅជា Point Cloud តាមរយៈវិធីសាស្ត្រ Sliding Window
  2. ដំឡើងនិងអនុវត្តកូដដោយប្រើបណ្ណាល័យ GUDHI: សរសេរកូដសាកល្បងដោយប្រើភាសា PythonC++ ព្រមទាំងដំឡើងបណ្ណាល័យ GUDHI library រួចសាកល្បងទាញយកលក្ខណៈតូប៉ូឡូស៊ីពីសំណុំទិន្នន័យក្លែងក្លាយជាមុនសិន។
  3. ប្រមូលទិន្នន័យសេនស័រពីប្រព័ន្ធជាក់ស្តែង (IoT / SCADA Data): សហការជាមួយស្ថាប័នពាក់ព័ន្ធ (ឧទាហរណ៍ រដ្ឋាករទឹក ឬវិស័យឯកជនដែលមានប្រព័ន្ធស្វ័យប្រវត្តិកម្ម) ដើម្បីប្រមូលទិន្នន័យពីសេនស័រប្រចាំថ្ងៃ (ឧទាហរណ៍ ទិន្នន័យកម្រិតរង្វាស់ទឹក រៀងរាល់ ១៥នាទី) មកធ្វើជាទិន្នន័យគោល ឬប្រក្រតី (Nominal Data)។
  4. បង្កើតសេណារីយ៉ូវាយប្រហារក្លែងក្លាយ (Simulate Replay Attacks): ធ្វើការចម្លងផ្នែកណាមួយនៃទិន្នន័យដើម (ឧទាហរណ៍ យកទិន្នន័យពីម្សិលមិញ រយៈពេល២ម៉ោង ឬ ៦ម៉ោង) ហើយបញ្ចូលវាត្រួតលើទិន្នន័យបច្ចុប្បន្ន ដើម្បីធ្វើត្រាប់តាមការវាយប្រហារ Replay attack
  5. គណនាកម្រិត Threshold និងដាក់ប្រព័ន្ធ Alert ឱ្យដំណើរការ: គណនាផ្ទៃក្រឡារវាងខ្សែកោង Betti នៃទិន្នន័យដើម និងទិន្នន័យត្រួតពិនិត្យបច្ចុប្បន្ន។ ប្រសិនបើលទ្ធផលនៃភាពខុសគ្នា (Distance D) លើសពីកម្រិត Threshold ដែលបានកំណត់ នោះត្រូវសរសេរកូដឱ្យប្រព័ន្ធលោតសញ្ញាប្រកាសអាសន្ន (Alert) ភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Replay Attack ការវាយប្រហារតាមអ៊ីនធឺណិតដែលពួក Hacker ថតចម្លងទិន្នន័យចាស់ៗដែលត្រឹមត្រូវ (ដូចជាទិន្នន័យរង្វាស់សេនស័រ) ហើយបញ្ជូនវាត្រឡប់ទៅក្នុងប្រព័ន្ធវិញដើម្បីបិទបាំងសកម្មភាពខុសប្រក្រតី ឬធ្វើឱ្យប្រព័ន្ធបញ្ជាយល់ច្រឡំ។ ដូចជាចោរលួចថតវីដេអូកាមេរ៉ាសុវត្ថិភាពពេលអត់មានមនុស្ស ហើយចាក់បញ្ចាំងវីដេអូនោះសារឡើងវិញដើម្បីបន្លំភ្នែកសន្តិសុខពេលកំពុងចូលលួចរបស់។
Topological Data Analysis (TDA) វិធីសាស្ត្រគណិតវិទ្យាដែលប្រើប្រាស់ទ្រឹស្តីតូប៉ូឡូស៊ី ដើម្បីវិភាគនិងទាញយកលក្ខណៈពិសេសនៃរាងធរណីមាត្រ ឬរចនាសម្ព័ន្ធលាក់កំបាំងពីក្នុងសំណុំទិន្នន័យស្មុគស្មាញ (ជាពិសេសទិន្នន័យស៊េរីពេលវេលា)។ ដូចជាការមើលរូបភាពពពកពីចម្ងាយដើម្បីប្រាប់ថាវាជារាងរង្វង់ ឬរាងប្រហោង ជាជាងការទៅអង្គុយរាប់តំណក់ទឹកនីមួយៗ។
Persistence Homology ដំណើរការនៃការគណនារយៈពេល (អាយុកាល) នៃលក្ខណៈតូប៉ូឡូស៊ី (ដូចជារង្វង់ ឬរន្ធ) នៅក្នុងទិន្នន័យ នៅពេលដែលយើងបង្កើនទំហំតភ្ជាប់រវាងចំណុចទិន្នន័យនីមួយៗ ដើម្បីរកមើលថាតើលក្ខណៈណាដែលនៅស្ថិតស្ថេរយូរ និងមិនមែនជាទិន្នន័យរំខាន (Noise)។ ដូចជាការសង្កេតមើលពពុះទឹកសាប៊ូ ថាតើពពុះណារលត់លឿន (ចាត់ទុកជាសម្លេងរំខាន) និងពពុះណានៅគង់វង្សបានយូរ (ចាត់ទុកជាលក្ខណៈសំខាន់នៃទិន្នន័យ)។
Betti Curves ខ្សែកោងក្រាហ្វិកដែលតំណាងឱ្យបម្រែបម្រួលនៃលេខ Betti (ចំនួនរន្ធ ឬវដ្តនៅក្នុងទិន្នន័យ) ធៀបនឹងកម្រិតនៃការច្រោះ (Filtration) ដែលវាជួយប្រៀបធៀបភាពខុសគ្នារវាងទិន្នន័យធម្មតា និងទិន្នន័យដែលរងការវាយប្រហារ។ ដូចជាតារាងតាមដានចំនួនរន្ធនៅលើនំប៉័ងនៅពេលដែលយើងចិតវាពីស្តើងទៅក្រាស់ ដើម្បីធានាថានំប៉័ងពីរដុំមានទម្រង់ប្រហោងខាងក្នុងដូចគ្នា។
Sliding Window បច្ចេកទេសបំប្លែងទិន្នន័យស៊េរីពេលវេលា (Time Series) ដែលមានតែមួយវិមាត្រ ទៅជាទិន្នន័យដែលមានវិមាត្រច្រើនជាងមុន (Point Cloud) ដោយយកចន្លោះពេលមួយភាគតូចនៃទិន្នន័យមកវិភាគរំកិលបន្តបន្ទាប់គ្នា។ ដូចជាការប្រើប្រាស់កែវពង្រីកដែលរំកិលអានតាមខ្សែអក្សរម្តង៣ ទៅ ៤ពាក្យតៗគ្នា ដើម្បីងាយស្រួលយល់ន័យទាំងមូលជាជាងការអានអក្សរតែមួយតួ។
Point Cloud សំណុំនៃចំណុចទិន្នន័យជាច្រើនដែលឋិតនៅក្នុងលំហដែលមានវិមាត្រច្រើន (n-dimensional space) ដែលត្រូវបានបង្កើតឡើងបន្ទាប់ពីប្រើប្រាស់បច្ចេកទេស Sliding Window លើទិន្នន័យរង្វាស់ដើម។ ដូចជាហ្វូងសត្វល្អិតដែលហោះហើរផ្តុំគ្នានៅក្នុងខ្យល់ ដែលទម្រង់នៃការហោះហើរនោះអាចប្រាប់យើងពីរូបរាងនៃហ្វូងទាំងមូលជារាងស្វ៊ែរ ឬរាងកោន។
Simplicial Complex រចនាសម្ព័ន្ធគណិតវិទ្យា (ឧទាហរណ៍ Vietoris-Rips complex) ដែលបង្កើតឡើងដោយការភ្ជាប់ចំណុចទិន្នន័យដែលនៅជិតគ្នា (មានចម្ងាយតិចជាងតម្លៃកាំបាល់ដែលបានកំណត់) ដើម្បីបង្កើតជាបណ្តាញសម្រាប់វិភាគរាងតូប៉ូឡូស៊ី។ ដូចជាការលេងល្បែងគូសបន្ទាត់ភ្ជាប់ចំណុចទៅចំណុចដើម្បីបង្កើតជារូបភាពសត្វ ឬវត្ថុផ្សេងៗ នៅពេលដែលចំណុចទាំងនោះនៅជិតគ្នាគ្រប់គ្រាន់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖