Original Title: GRAMIAN ANGULAR FIELD TRANSFORMATION-BASED INTRUSION DETECTION
Source: doi.org/10.7494/csci.2022.23.4.4406
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញការលុកលុយដោយផ្អែកលើការបំប្លែង Gramian Angular Field

ចំណងជើងដើម៖ GRAMIAN ANGULAR FIELD TRANSFORMATION-BASED INTRUSION DETECTION

អ្នកនិពន្ធ៖ Duygu Sinanc Terzi (Amasya University)

ឆ្នាំបោះពុម្ព៖ 2022 (Computer Science Journal)

វិស័យសិក្សា៖ Computer Science, Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិតកំពុងកើនឡើងយ៉ាងខ្លាំង ដែលតម្រូវឱ្យមានប្រព័ន្ធរកឃើញការលុកលុយ (Intrusion Detection Systems) ដែលមានប្រសិទ្ធភាពជាងមុន ដើម្បីដោះស្រាយជាមួយទិន្នន័យចរាចរណ៍បណ្តាញដ៏ស្មុគស្មាញ និងកាត់បន្ថយការជូនដំណឹងក្លែងក្លាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រថ្មីដោយបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជារូបភាពតាមរយៈបច្ចេកទេស Gramian Angular Field (GAF) ហើយបន្ទាប់មកធ្វើចំណាត់ថ្នាក់ដោយប្រើបណ្តាញសរសៃប្រសាទ Convolutional Neural Network (CNN)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Proposed Approach (GAF-CNN)
ការប្រើប្រាស់ការបំប្លែង GAF ទៅជារូបភាព រួចវិភាគដោយ CNN
មិនតម្រូវឱ្យមានការដកស្រង់លក្ខណៈពិសេស (Feature Extraction) ស្មុគស្មាញ និងអាចចាប់យកទំនាក់ទំនងទិន្នន័យបានល្អតាមរយៈរូបភាព។ ការបំប្លែងទិន្នន័យទៅជារូបភាព (77x77 pixels) បង្កើនទំហំទិន្នន័យ ដែលអាចត្រូវការធនធានកុំព្យូទ័រខ្ពស់ជាងវិធីសាស្ត្រធម្មតា។ អត្រាភាពត្រឹមត្រូវ (Accuracy) ៩៩.៣៣% សម្រាប់ការចាត់ថ្នាក់បែប Binary និង ៩៨.៧៤% សម្រាប់ Multi-class។
k-Nearest Neighbor (kNN)
វិធីសាស្ត្រសិក្សាម៉ាស៊ីនបុរាណដែលផ្អែកលើភាពជិតគ្នានៃទិន្នន័យ
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពខ្ពស់គួរសមសម្រាប់ការចាត់ថ្នាក់មូលដ្ឋាន។ ដំណើរការយឺតនៅពេលទិន្នន័យមានទំហំធំ និងមិនសូវមានប្រសិទ្ធភាពក្នុងការចាត់ថ្នាក់ការវាយប្រហារស្មុគស្មាញមួយចំនួន។ អត្រាភាពត្រឹមត្រូវ ៩៩.០០% (Binary) ប៉ុន្តែទាបជាងវិធីសាស្ត្រស្នើឡើងនៅពេលវាយតម្លៃលើ F1-score។
Logistic Regression (LR)
វិធីសាស្ត្រស្ថិតិសម្រាប់ការចាត់ថ្នាក់ផ្អែកលើទំនាក់ទំនងលីនេអ៊ែរ
ចំណាយធនធានតិច និងដំណើរការលឿន។ មានអត្រាភាពត្រឹមត្រូវទាបបំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង ដោយសារមិនអាចចាប់យកទំនាក់ទំនងទិន្នន័យមិនលីនេអ៊ែរបានល្អ។ អត្រាភាពត្រឹមត្រូវ ៩៦.៦០% (Binary)។
Support Vector Machine (SVM)
វិធីសាស្ត្រស្វែងរកបន្ទាត់ព្រំដែនដ៏ល្អបំផុតដើម្បីបែងចែកថ្នាក់ទិន្នន័យ
មានប្រសិទ្ធភាពល្អចំពោះទិន្នន័យដែលមានវិមាត្រខ្ពស់។ ត្រូវការពេលវេលាបង្វឹក (Training time) យូរ និងមិនសូវមានប្រសិទ្ធភាពចំពោះសំណុំទិន្នន័យធំខ្លាំង។ អត្រាភាពត្រឹមត្រូវ ៩៦.៨៥% (Binary)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីធនធានជាក់លាក់ទេ ប៉ុន្តែដោយសារការប្រើប្រាស់ Deep Learning (CNN) និងការបំប្លែងរូបភាព តម្រូវការធនធានមានដូចខាងក្រោម៖

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ CIC-IDS 2017 ដែលបង្កើតឡើងដោយវិទ្យាស្ថានសន្តិសុខតាមអ៊ីនធឺណិតកាណាដា។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីឥរិយាបថបណ្តាញនៅលោកខាងលិច ដែលអាចមានលក្ខណៈខុសប្លែកពីលំនាំចរាចរណ៍បណ្តាញ (Network Traffic Patterns) នៅក្នុងប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការកាត់បន្ថយការពឹងផ្អែកលើអ្នកជំនាញក្នុងការកំណត់លក្ខណៈនៃការវាយប្រហារដោយដៃ (Manual Feature Engineering)។

ការផ្លាស់ប្តូរវិធីសាស្ត្រពីការវិភាគទិន្នន័យលេខ មកជាការវិភាគរូបភាព គឺជាគំនិតច្នៃប្រឌិតដែលអាចអនុវត្តបានភ្លាមៗនៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ (Data Centers) របស់កម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ GAF និង CNN: និស្សិតគួរចាប់ផ្តើមស្វែងយល់ពីរបៀបដែល Gramian Angular Field (GAF) ដំណើរការក្នុងការបំប្លែង Time-series ទៅជារូបភាព និងរៀនពីមូលដ្ឋាននៃ Convolutional Neural Network (CNN) ដោយប្រើ Python (Keras/TensorFlow)។
  2. ការរៀបចំទិន្នន័យ (Data Preprocessing): ទាញយកសំណុំទិន្នន័យ CIC-IDS 2017 និងអនុវត្តការសម្អាតទិន្នន័យ (Data Cleaning) រួចធ្វើការ Normalization (ទៅចន្លោះ [0,1] ឬ [-1,1]) មុននឹងបំប្លែងវាទៅជាកូអរដោនេប៉ូលែរ (Polar Coordinates)។
  3. ការអនុវត្តការបំប្លែងជារូបភាព: សរសេរកូដ Python ដើម្បីបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជាម៉ាទ្រីស GAF។ និស្សិតអាចប្រើបណ្ណាល័យដូចជា pyts (Python Time Series) ដើម្បីជួយសម្រួលការងារនេះ។
  4. ការកសាង និងបង្វឹកម៉ូដែល: បង្កើតគំរូ CNN ដូចដែលបានរៀបរាប់ក្នុងឯកសារ (3 Conv Layers, 4 Fully Connected Layers) និងបង្វឹកវាជាមួយរូបភាពដែលបានបង្កើត។ សាកល្បងកែសម្រួល Hyperparameters ដើម្បីមើលលទ្ធផល។
  5. ការសាកល្បងជាមួយទិន្នន័យក្នុងស្រុក: ប្រើប្រាស់កម្មវិធី Wireshark ដើម្បីចាប់យកទិន្នន័យចរាចរណ៍បណ្តាញជាក់ស្តែងពីបន្ទប់ពិសោធន៍សាកលវិទ្យាល័យ ហើយសាកល្បងម៉ូដែលដែលបានបង្វឹកថាតើវាអាចរកឃើញការលុកលុយបានដែរឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Gramian angular field ជាបច្ចេកទេសគណិតវិទ្យាដែលបំប្លែងទិន្នន័យស៊េរីពេលវេលា (Time-series data) ឱ្យទៅជារូបភាព ២វិមាត្រ ដើម្បីរក្សាទំនាក់ទំនងនៃទិន្នន័យតាមពេលវេលា និងអនុញ្ញាតឱ្យកុំព្យូទ័រវិភាគវាក្នុងទម្រង់ជារូបភាពបាន។ ប្រៀបដូចជាការបំប្លែងសំឡេងតន្ត្រីឱ្យទៅជាក្រាហ្វិក (Waveform) ដើម្បីឱ្យយើងអាច "មើលឃើញ" ចង្វាក់ភ្លេងជំនួសឱ្យការស្តាប់។
Convolutional neural network ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលមានសមត្ថភាពខ្ពស់ក្នុងការវិភាគរូបភាព ដោយវាធ្វើការស្កេនរកលក្ខណៈពិសេស (ដូចជា ខ្សែ ឬរូបរាង) ដោយស្វ័យប្រវត្តិ។ ដូចជាអ្នកស៊ើបអង្កេតដែលប្រើកែវយឹតពិនិត្យមើលរូបថតម្ដងមួយផ្នែកៗយ៉ាងលម្អិត ដើម្បីស្វែងរកភស្តុតាង។
Intrusion-detection system ជាកម្មវិធី ឬឧបករណ៍ដែលឃ្លាំមើលចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពដែលគួរឱ្យសង្ស័យ ឬការវាយប្រហារពី Hacker ហើយផ្តល់ដំណឹងដល់អ្នកគ្រប់គ្រង។ ដូចជាកាមេរ៉ាសុវត្ថិភាពដែលមានប្រព័ន្ធរោទិ៍ (Alarm) នៅពេលដែលវាឃើញចោរចូលផ្ទះ។
Feature engineering ជាដំណើរការដែលអ្នកជំនាញត្រូវជ្រើសរើស និងកែច្នៃទិន្នន័យដោយដៃ ដើម្បីឱ្យកុំព្យូទ័រអាចរៀនពីវាបាន។ នៅក្នុងការសិក្សានេះ គេព្យាយាមលុបបំបាត់ដំណាក់កាលនេះដោយប្រើ Deep Learning។ ដូចជាចុងភៅដែលត្រូវចិតបន្លែ និងប្រឡាក់សាច់យ៉ាងល្អិតល្អន់មុនពេលចម្អិន ដើម្បីឱ្យម្ហូបមានរសជាតិឆ្ងាញ់ (ជំនួសឱ្យការដាក់បន្លែទាំងមូលចូលឆ្នាំង)។
Zero-day attacks ជាការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មី ដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង ឬមិនទាន់មានដំណោះស្រាយ (Patch) នៅឡើយ។ ប្រៀបដូចជាចោរដែលរកឃើញផ្លូវសម្ងាត់ចូលធនាគារ ដែលសូម្បីតែម្ចាស់ធនាគារក៏មិនដឹងថាមានផ្លូវនោះដែរ។
Time-series ជាប្រភេទទិន្នន័យដែលត្រូវបានកត់ត្រាជាបន្តបន្ទាប់តាមលំដាប់ពេលវេលា ដូចជាទិន្នន័យចរាចរណ៍បណ្តាញដែលហូរចូលនិងចេញរាល់វិនាទី។ ដូចជាកំណត់ហេតុដែលកត់ត្រាសីតុណ្ហភាពរៀងរាល់មួយម៉ោងម្តងៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖