Original Title: GRAMIAN ANGULAR FIELD TRANSFORMATION-BASED INTRUSION DETECTION
Source: doi.org/10.7494/csci.2022.23.4.4406
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញការលុកលុយដោយផ្អែកលើការបំប្លែង Gramian Angular Field

ចំណងជើងដើម៖ GRAMIAN ANGULAR FIELD TRANSFORMATION-BASED INTRUSION DETECTION

អ្នកនិពន្ធ៖ Duygu Sinanc Terzi (Amasya University)

ឆ្នាំបោះពុម្ព៖ 2022 (Computer Science Journal)

វិស័យសិក្សា៖ Computer Science, Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិតកំពុងកើនឡើងយ៉ាងខ្លាំង ដែលតម្រូវឱ្យមានប្រព័ន្ធរកឃើញការលុកលុយ (Intrusion Detection Systems) ដែលមានប្រសិទ្ធភាពជាងមុន ដើម្បីដោះស្រាយជាមួយទិន្នន័យចរាចរណ៍បណ្តាញដ៏ស្មុគស្មាញ និងកាត់បន្ថយការជូនដំណឹងក្លែងក្លាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រថ្មីដោយបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជារូបភាពតាមរយៈបច្ចេកទេស Gramian Angular Field (GAF) ហើយបន្ទាប់មកធ្វើចំណាត់ថ្នាក់ដោយប្រើបណ្តាញសរសៃប្រសាទ Convolutional Neural Network (CNN)។

ការប្រើប្រាស់សំណុំទិន្នន័យ CIC-IDS 2017 (CIC-IDS 2017 Dataset)
ការបំប្លែងទិន្នន័យស៊េរីពេលវេលាទៅជារូបភាពដោយប្រើ Gramian Angular Field (GAF)
ការធ្វើចំណាត់ថ្នាក់រូបភាពដោយប្រើបណ្តាញសរសៃប្រសាទ Convolutional Neural Network (CNN)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ទទួលបានអត្រាជោគជ័យក្នុងការចាត់ថ្នាក់បែបគោលពីរ (Binary classification) រហូតដល់ ៩៩.៣៣%
ទទួលបានអត្រាជោគជ័យក្នុងការចាត់ថ្នាក់បែបពហុថ្នាក់ (Multi-class classification) រហូតដល់ ៩៨.៧៤%
វិធីសាស្ត្រនេះមានប្រសិទ្ធភាពខ្ពស់ជាងវិធីសាស្ត្ររៀនម៉ាស៊ីន (Machine Learning) បែបបុរាណ និងសាមញ្ញជាងវិធីសាស្ត្រ Deep Learning ដ៏ស្មុគស្មាញដទៃទៀត ដោយមិនត្រូវការការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) នោះទេ

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Proposed Approach (GAF-CNN) ការប្រើប្រាស់ការបំប្លែង GAF ទៅជារូបភាព រួចវិភាគដោយ CNN	មិនតម្រូវឱ្យមានការដកស្រង់លក្ខណៈពិសេស (Feature Extraction) ស្មុគស្មាញ និងអាចចាប់យកទំនាក់ទំនងទិន្នន័យបានល្អតាមរយៈរូបភាព។	ការបំប្លែងទិន្នន័យទៅជារូបភាព (77x77 pixels) បង្កើនទំហំទិន្នន័យ ដែលអាចត្រូវការធនធានកុំព្យូទ័រខ្ពស់ជាងវិធីសាស្ត្រធម្មតា។	អត្រាភាពត្រឹមត្រូវ (Accuracy) ៩៩.៣៣% សម្រាប់ការចាត់ថ្នាក់បែប Binary និង ៩៨.៧៤% សម្រាប់ Multi-class។
k-Nearest Neighbor (kNN) វិធីសាស្ត្រសិក្សាម៉ាស៊ីនបុរាណដែលផ្អែកលើភាពជិតគ្នានៃទិន្នន័យ	ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពខ្ពស់គួរសមសម្រាប់ការចាត់ថ្នាក់មូលដ្ឋាន។	ដំណើរការយឺតនៅពេលទិន្នន័យមានទំហំធំ និងមិនសូវមានប្រសិទ្ធភាពក្នុងការចាត់ថ្នាក់ការវាយប្រហារស្មុគស្មាញមួយចំនួន។	អត្រាភាពត្រឹមត្រូវ ៩៩.០០% (Binary) ប៉ុន្តែទាបជាងវិធីសាស្ត្រស្នើឡើងនៅពេលវាយតម្លៃលើ F1-score។
Logistic Regression (LR) វិធីសាស្ត្រស្ថិតិសម្រាប់ការចាត់ថ្នាក់ផ្អែកលើទំនាក់ទំនងលីនេអ៊ែរ	ចំណាយធនធានតិច និងដំណើរការលឿន។	មានអត្រាភាពត្រឹមត្រូវទាបបំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង ដោយសារមិនអាចចាប់យកទំនាក់ទំនងទិន្នន័យមិនលីនេអ៊ែរបានល្អ។	អត្រាភាពត្រឹមត្រូវ ៩៦.៦០% (Binary)។
Support Vector Machine (SVM) វិធីសាស្ត្រស្វែងរកបន្ទាត់ព្រំដែនដ៏ល្អបំផុតដើម្បីបែងចែកថ្នាក់ទិន្នន័យ	មានប្រសិទ្ធភាពល្អចំពោះទិន្នន័យដែលមានវិមាត្រខ្ពស់។	ត្រូវការពេលវេលាបង្វឹក (Training time) យូរ និងមិនសូវមានប្រសិទ្ធភាពចំពោះសំណុំទិន្នន័យធំខ្លាំង។	អត្រាភាពត្រឹមត្រូវ ៩៦.៨៥% (Binary)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីធនធានជាក់លាក់ទេ ប៉ុន្តែដោយសារការប្រើប្រាស់ Deep Learning (CNN) និងការបំប្លែងរូបភាព តម្រូវការធនធានមានដូចខាងក្រោម៖

Hardware: កុំព្យូទ័រដែលមាន GPU (ដូចជា NVIDIA) ដើម្បីពន្លឿនការបង្វឹកបណ្តាញ CNN លើរូបភាពដែលបានបំប្លែង។
Software: Python និងបណ្ណាល័យ Deep Learning ដូចជា TensorFlow ឬ PyTorch និង Scikit-learn សម្រាប់វិធីសាស្ត្រប្រៀបធៀប។
Dataset: សំណុំទិន្នន័យ CIC-IDS 2017 ដែលជាទិន្នន័យចរាចរណ៍បណ្តាញសាធារណៈ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ CIC-IDS 2017 ដែលបង្កើតឡើងដោយវិទ្យាស្ថានសន្តិសុខតាមអ៊ីនធឺណិតកាណាដា។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីឥរិយាបថបណ្តាញនៅលោកខាងលិច ដែលអាចមានលក្ខណៈខុសប្លែកពីលំនាំចរាចរណ៍បណ្តាញ (Network Traffic Patterns) នៅក្នុងប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការកាត់បន្ថយការពឹងផ្អែកលើអ្នកជំនាញក្នុងការកំណត់លក្ខណៈនៃការវាយប្រហារដោយដៃ (Manual Feature Engineering)។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): អាចប្រើប្រាស់ដើម្បីការពារប្រព័ន្ធធនាគារចល័ត (Mobile Banking) ដូចជា ACLEDA ឬ ABA ពីការវាយប្រហារ DDoS ឬការលុកលុយផ្សេងៗ ដោយបំប្លែង Log ទិន្នន័យទៅជារូបភាពដើម្បីវិភាគ។
ហេដ្ឋារចនាសម្ព័ន្ធអ៊ីនធឺណិត (ISP & Telecom): ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិតនៅកម្ពុជាអាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីត្រួតពិនិត្យចរាចរណ៍បណ្តាញខ្នាតធំ និងរកឃើញភាពមិនប្រក្រតីបានយ៉ាងឆាប់រហ័ស។
វិស័យរដ្ឋាភិបាលអេឡិចត្រូនិក (E-Government): ជួយពង្រឹងសុវត្ថិភាពនៃប្រព័ន្ធទិន្នន័យជាតិ ដោយមិនចាំបាច់មានក្រុមអ្នកជំនាញសន្តិសុខច្រើននាក់ក្នុងការវិភាគ Log នីមួយៗ។

ការផ្លាស់ប្តូរវិធីសាស្ត្រពីការវិភាគទិន្នន័យលេខ មកជាការវិភាគរូបភាព គឺជាគំនិតច្នៃប្រឌិតដែលអាចអនុវត្តបានភ្លាមៗនៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ (Data Centers) របស់កម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ GAF និង CNN: និស្សិតគួរចាប់ផ្តើមស្វែងយល់ពីរបៀបដែល Gramian Angular Field (GAF) ដំណើរការក្នុងការបំប្លែង Time-series ទៅជារូបភាព និងរៀនពីមូលដ្ឋាននៃ Convolutional Neural Network (CNN) ដោយប្រើ Python (Keras/TensorFlow)។
ការរៀបចំទិន្នន័យ (Data Preprocessing): ទាញយកសំណុំទិន្នន័យ CIC-IDS 2017 និងអនុវត្តការសម្អាតទិន្នន័យ (Data Cleaning) រួចធ្វើការ Normalization (ទៅចន្លោះ [0,1] ឬ [-1,1]) មុននឹងបំប្លែងវាទៅជាកូអរដោនេប៉ូលែរ (Polar Coordinates)។
ការអនុវត្តការបំប្លែងជារូបភាព: សរសេរកូដ Python ដើម្បីបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជាម៉ាទ្រីស GAF។ និស្សិតអាចប្រើបណ្ណាល័យដូចជា pyts (Python Time Series) ដើម្បីជួយសម្រួលការងារនេះ។
ការកសាង និងបង្វឹកម៉ូដែល: បង្កើតគំរូ CNN ដូចដែលបានរៀបរាប់ក្នុងឯកសារ (3 Conv Layers, 4 Fully Connected Layers) និងបង្វឹកវាជាមួយរូបភាពដែលបានបង្កើត។ សាកល្បងកែសម្រួល Hyperparameters ដើម្បីមើលលទ្ធផល។
ការសាកល្បងជាមួយទិន្នន័យក្នុងស្រុក: ប្រើប្រាស់កម្មវិធី Wireshark ដើម្បីចាប់យកទិន្នន័យចរាចរណ៍បណ្តាញជាក់ស្តែងពីបន្ទប់ពិសោធន៍សាកលវិទ្យាល័យ ហើយសាកល្បងម៉ូដែលដែលបានបង្វឹកថាតើវាអាចរកឃើញការលុកលុយបានដែរឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Gramian angular field	ជាបច្ចេកទេសគណិតវិទ្យាដែលបំប្លែងទិន្នន័យស៊េរីពេលវេលា (Time-series data) ឱ្យទៅជារូបភាព ២វិមាត្រ ដើម្បីរក្សាទំនាក់ទំនងនៃទិន្នន័យតាមពេលវេលា និងអនុញ្ញាតឱ្យកុំព្យូទ័រវិភាគវាក្នុងទម្រង់ជារូបភាពបាន។	ប្រៀបដូចជាការបំប្លែងសំឡេងតន្ត្រីឱ្យទៅជាក្រាហ្វិក (Waveform) ដើម្បីឱ្យយើងអាច "មើលឃើញ" ចង្វាក់ភ្លេងជំនួសឱ្យការស្តាប់។
Convolutional neural network	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលមានសមត្ថភាពខ្ពស់ក្នុងការវិភាគរូបភាព ដោយវាធ្វើការស្កេនរកលក្ខណៈពិសេស (ដូចជា ខ្សែ ឬរូបរាង) ដោយស្វ័យប្រវត្តិ។	ដូចជាអ្នកស៊ើបអង្កេតដែលប្រើកែវយឹតពិនិត្យមើលរូបថតម្ដងមួយផ្នែកៗយ៉ាងលម្អិត ដើម្បីស្វែងរកភស្តុតាង។
Intrusion-detection system	ជាកម្មវិធី ឬឧបករណ៍ដែលឃ្លាំមើលចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពដែលគួរឱ្យសង្ស័យ ឬការវាយប្រហារពី Hacker ហើយផ្តល់ដំណឹងដល់អ្នកគ្រប់គ្រង។	ដូចជាកាមេរ៉ាសុវត្ថិភាពដែលមានប្រព័ន្ធរោទិ៍ (Alarm) នៅពេលដែលវាឃើញចោរចូលផ្ទះ។
Feature engineering	ជាដំណើរការដែលអ្នកជំនាញត្រូវជ្រើសរើស និងកែច្នៃទិន្នន័យដោយដៃ ដើម្បីឱ្យកុំព្យូទ័រអាចរៀនពីវាបាន។ នៅក្នុងការសិក្សានេះ គេព្យាយាមលុបបំបាត់ដំណាក់កាលនេះដោយប្រើ Deep Learning។	ដូចជាចុងភៅដែលត្រូវចិតបន្លែ និងប្រឡាក់សាច់យ៉ាងល្អិតល្អន់មុនពេលចម្អិន ដើម្បីឱ្យម្ហូបមានរសជាតិឆ្ងាញ់ (ជំនួសឱ្យការដាក់បន្លែទាំងមូលចូលឆ្នាំង)។
Zero-day attacks	ជាការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មី ដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង ឬមិនទាន់មានដំណោះស្រាយ (Patch) នៅឡើយ។	ប្រៀបដូចជាចោរដែលរកឃើញផ្លូវសម្ងាត់ចូលធនាគារ ដែលសូម្បីតែម្ចាស់ធនាគារក៏មិនដឹងថាមានផ្លូវនោះដែរ។
Time-series	ជាប្រភេទទិន្នន័យដែលត្រូវបានកត់ត្រាជាបន្តបន្ទាប់តាមលំដាប់ពេលវេលា ដូចជាទិន្នន័យចរាចរណ៍បណ្តាញដែលហូរចូលនិងចេញរាល់វិនាទី។	ដូចជាកំណត់ហេតុដែលកត់ត្រាសីតុណ្ហភាពរៀងរាល់មួយម៉ោងម្តងៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖