បញ្ហា (The Problem)៖ ការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិតកំពុងកើនឡើងយ៉ាងខ្លាំង ដែលតម្រូវឱ្យមានប្រព័ន្ធរកឃើញការលុកលុយ (Intrusion Detection Systems) ដែលមានប្រសិទ្ធភាពជាងមុន ដើម្បីដោះស្រាយជាមួយទិន្នន័យចរាចរណ៍បណ្តាញដ៏ស្មុគស្មាញ និងកាត់បន្ថយការជូនដំណឹងក្លែងក្លាយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រថ្មីដោយបំប្លែងទិន្នន័យចរាចរណ៍បណ្តាញទៅជារូបភាពតាមរយៈបច្ចេកទេស Gramian Angular Field (GAF) ហើយបន្ទាប់មកធ្វើចំណាត់ថ្នាក់ដោយប្រើបណ្តាញសរសៃប្រសាទ Convolutional Neural Network (CNN)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Proposed Approach (GAF-CNN) ការប្រើប្រាស់ការបំប្លែង GAF ទៅជារូបភាព រួចវិភាគដោយ CNN |
មិនតម្រូវឱ្យមានការដកស្រង់លក្ខណៈពិសេស (Feature Extraction) ស្មុគស្មាញ និងអាចចាប់យកទំនាក់ទំនងទិន្នន័យបានល្អតាមរយៈរូបភាព។ | ការបំប្លែងទិន្នន័យទៅជារូបភាព (77x77 pixels) បង្កើនទំហំទិន្នន័យ ដែលអាចត្រូវការធនធានកុំព្យូទ័រខ្ពស់ជាងវិធីសាស្ត្រធម្មតា។ | អត្រាភាពត្រឹមត្រូវ (Accuracy) ៩៩.៣៣% សម្រាប់ការចាត់ថ្នាក់បែប Binary និង ៩៨.៧៤% សម្រាប់ Multi-class។ |
| k-Nearest Neighbor (kNN) វិធីសាស្ត្រសិក្សាម៉ាស៊ីនបុរាណដែលផ្អែកលើភាពជិតគ្នានៃទិន្នន័យ |
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពខ្ពស់គួរសមសម្រាប់ការចាត់ថ្នាក់មូលដ្ឋាន។ | ដំណើរការយឺតនៅពេលទិន្នន័យមានទំហំធំ និងមិនសូវមានប្រសិទ្ធភាពក្នុងការចាត់ថ្នាក់ការវាយប្រហារស្មុគស្មាញមួយចំនួន។ | អត្រាភាពត្រឹមត្រូវ ៩៩.០០% (Binary) ប៉ុន្តែទាបជាងវិធីសាស្ត្រស្នើឡើងនៅពេលវាយតម្លៃលើ F1-score។ |
| Logistic Regression (LR) វិធីសាស្ត្រស្ថិតិសម្រាប់ការចាត់ថ្នាក់ផ្អែកលើទំនាក់ទំនងលីនេអ៊ែរ |
ចំណាយធនធានតិច និងដំណើរការលឿន។ | មានអត្រាភាពត្រឹមត្រូវទាបបំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង ដោយសារមិនអាចចាប់យកទំនាក់ទំនងទិន្នន័យមិនលីនេអ៊ែរបានល្អ។ | អត្រាភាពត្រឹមត្រូវ ៩៦.៦០% (Binary)។ |
| Support Vector Machine (SVM) វិធីសាស្ត្រស្វែងរកបន្ទាត់ព្រំដែនដ៏ល្អបំផុតដើម្បីបែងចែកថ្នាក់ទិន្នន័យ |
មានប្រសិទ្ធភាពល្អចំពោះទិន្នន័យដែលមានវិមាត្រខ្ពស់។ | ត្រូវការពេលវេលាបង្វឹក (Training time) យូរ និងមិនសូវមានប្រសិទ្ធភាពចំពោះសំណុំទិន្នន័យធំខ្លាំង។ | អត្រាភាពត្រឹមត្រូវ ៩៦.៨៥% (Binary)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីធនធានជាក់លាក់ទេ ប៉ុន្តែដោយសារការប្រើប្រាស់ Deep Learning (CNN) និងការបំប្លែងរូបភាព តម្រូវការធនធានមានដូចខាងក្រោម៖
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ CIC-IDS 2017 ដែលបង្កើតឡើងដោយវិទ្យាស្ថានសន្តិសុខតាមអ៊ីនធឺណិតកាណាដា។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីឥរិយាបថបណ្តាញនៅលោកខាងលិច ដែលអាចមានលក្ខណៈខុសប្លែកពីលំនាំចរាចរណ៍បណ្តាញ (Network Traffic Patterns) នៅក្នុងប្រទេសកម្ពុជា។
វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការកាត់បន្ថយការពឹងផ្អែកលើអ្នកជំនាញក្នុងការកំណត់លក្ខណៈនៃការវាយប្រហារដោយដៃ (Manual Feature Engineering)។
ការផ្លាស់ប្តូរវិធីសាស្ត្រពីការវិភាគទិន្នន័យលេខ មកជាការវិភាគរូបភាព គឺជាគំនិតច្នៃប្រឌិតដែលអាចអនុវត្តបានភ្លាមៗនៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ (Data Centers) របស់កម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Gramian angular field | ជាបច្ចេកទេសគណិតវិទ្យាដែលបំប្លែងទិន្នន័យស៊េរីពេលវេលា (Time-series data) ឱ្យទៅជារូបភាព ២វិមាត្រ ដើម្បីរក្សាទំនាក់ទំនងនៃទិន្នន័យតាមពេលវេលា និងអនុញ្ញាតឱ្យកុំព្យូទ័រវិភាគវាក្នុងទម្រង់ជារូបភាពបាន។ | ប្រៀបដូចជាការបំប្លែងសំឡេងតន្ត្រីឱ្យទៅជាក្រាហ្វិក (Waveform) ដើម្បីឱ្យយើងអាច "មើលឃើញ" ចង្វាក់ភ្លេងជំនួសឱ្យការស្តាប់។ |
| Convolutional neural network | ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលមានសមត្ថភាពខ្ពស់ក្នុងការវិភាគរូបភាព ដោយវាធ្វើការស្កេនរកលក្ខណៈពិសេស (ដូចជា ខ្សែ ឬរូបរាង) ដោយស្វ័យប្រវត្តិ។ | ដូចជាអ្នកស៊ើបអង្កេតដែលប្រើកែវយឹតពិនិត្យមើលរូបថតម្ដងមួយផ្នែកៗយ៉ាងលម្អិត ដើម្បីស្វែងរកភស្តុតាង។ |
| Intrusion-detection system | ជាកម្មវិធី ឬឧបករណ៍ដែលឃ្លាំមើលចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពដែលគួរឱ្យសង្ស័យ ឬការវាយប្រហារពី Hacker ហើយផ្តល់ដំណឹងដល់អ្នកគ្រប់គ្រង។ | ដូចជាកាមេរ៉ាសុវត្ថិភាពដែលមានប្រព័ន្ធរោទិ៍ (Alarm) នៅពេលដែលវាឃើញចោរចូលផ្ទះ។ |
| Feature engineering | ជាដំណើរការដែលអ្នកជំនាញត្រូវជ្រើសរើស និងកែច្នៃទិន្នន័យដោយដៃ ដើម្បីឱ្យកុំព្យូទ័រអាចរៀនពីវាបាន។ នៅក្នុងការសិក្សានេះ គេព្យាយាមលុបបំបាត់ដំណាក់កាលនេះដោយប្រើ Deep Learning។ | ដូចជាចុងភៅដែលត្រូវចិតបន្លែ និងប្រឡាក់សាច់យ៉ាងល្អិតល្អន់មុនពេលចម្អិន ដើម្បីឱ្យម្ហូបមានរសជាតិឆ្ងាញ់ (ជំនួសឱ្យការដាក់បន្លែទាំងមូលចូលឆ្នាំង)។ |
| Zero-day attacks | ជាការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មី ដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង ឬមិនទាន់មានដំណោះស្រាយ (Patch) នៅឡើយ។ | ប្រៀបដូចជាចោរដែលរកឃើញផ្លូវសម្ងាត់ចូលធនាគារ ដែលសូម្បីតែម្ចាស់ធនាគារក៏មិនដឹងថាមានផ្លូវនោះដែរ។ |
| Time-series | ជាប្រភេទទិន្នន័យដែលត្រូវបានកត់ត្រាជាបន្តបន្ទាប់តាមលំដាប់ពេលវេលា ដូចជាទិន្នន័យចរាចរណ៍បណ្តាញដែលហូរចូលនិងចេញរាល់វិនាទី។ | ដូចជាកំណត់ហេតុដែលកត់ត្រាសីតុណ្ហភាពរៀងរាល់មួយម៉ោងម្តងៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖