បញ្ហា (The Problem)៖ ការកើនឡើងនូវភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមអ៊ីនធឺណិតបានធ្វើឱ្យការវាយប្រហារ Zero-Day (ZDAs) ក្លាយជាបញ្ហាប្រឈមដ៏ធំមួយ ដោយសារប្រព័ន្ធការពារប្រពៃណីមិនអាចទប់ទល់បាន ដែលទាមទារឱ្យមានប្រព័ន្ធរកឃើញភាពមិនប្រក្រតីដែលកាន់តែមានប្រសិទ្ធភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យចរាចរណ៍បណ្តាញ (Network traffic data) ដើម្បីវាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាពនៃវិធីសាស្ត្ររៀនម៉ាស៊ីនផ្សេងៗគ្នាក្នុងការរកឃើញការវាយប្រហារ ZDAs។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Supervised Learning (Support Vector Machine - SVM) ការរៀនមានការត្រួតពិនិត្យ (ម៉ូដែល SVM) |
អាចសម្រេចបានភាពត្រឹមត្រូវខ្ពស់នៅពេលមានទិន្នន័យត្រូវបានដាក់ស្លាកច្បាស់លាស់ និងអាចរកឃើញទិន្នន័យមិនប្រក្រតីក្នុងពេលវេលាជាក់ស្តែង (real-time)។ | ត្រូវការទិន្នន័យដែលបានដាក់ស្លាកក្នុងបរិមាណច្រើន ងាយរងគ្រោះដោយសារការផ្លាស់ប្តូរនិន្នាការទិន្នន័យ (concept drift) និងងាយប្រតិកម្មនឹងទិន្នន័យរំខាន (noise/outliers)។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩២,១% និងពិន្ទុ F1 (F1-score) ៩២,៣%។ |
| Unsupervised Learning (K-means Clustering) ការរៀនគ្មានការត្រួតពិនិត្យ (K-means Clustering) |
អាចរកឃើញភាពមិនប្រក្រតីថ្មីៗ (Novel anomalies) ដោយមិនត្រូវការទិន្នន័យដែលបានដាក់ស្លាកជាមុន។ | តម្រូវឱ្យមានការជ្រើសរើសលក្ខណៈពិសេស (features) និងចំនួនចង្កោម (clusters) យ៉ាងប្រុងប្រយ័ត្ន ហើយមានហានិភ័យក្នុងការចាត់ទុកទិន្នន័យរំខានថាជាការវាយប្រហារពិតប្រាកដ។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៨,៥% និងពិន្ទុ F1 (F1-score) ៨៨,៦%។ |
| Hybrid Approach (SVM + K-means with weighted voting) វិធីសាស្ត្រកូនកាត់ (រួមបញ្ចូល SVM និង K-means ដោយប្រើការបោះឆ្នោតតាមទម្ងន់) |
រួមបញ្ចូលចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ មានភាពធន់នឹងទិន្នន័យរំខាន (noise) និងអាចសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរទិន្នន័យដើម្បីរកឃើញការវាយប្រហារ ZDA ថ្មីៗ។ | ទាមទារការជ្រើសរើសប៉ារ៉ាម៉ែត្រ (hyperparameters) យ៉ាងប្រុងប្រយ័ត្ន និងតម្រូវឱ្យមានការធ្វើបច្ចុប្បន្នភាពជាបន្តបន្ទាប់ដើម្បីរក្សាភាពត្រឹមត្រូវនៃម៉ូដែល។ | ទទួលបានលទ្ធផលល្អបំផុតដោយមានភាពត្រឹមត្រូវ (Accuracy) ៩៥,២% និងពិន្ទុ F1 (F1-score) ៩៥,៣%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាការសិក្សានេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានជាក់លាក់ក្ដី ប៉ុន្តែវាបានសង្កត់ធ្ងន់យ៉ាងខ្លាំងលើតម្រូវការគុណភាពទិន្នន័យ និងអ្នកជំនាញដើម្បីធ្វើបច្ចុប្បន្នភាពប្រព័ន្ធ។
ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យចរាចរណ៍បណ្តាញក្នុងពិភពពិត ប៉ុន្តែមិនបានបញ្ជាក់ពីបរិបទភូមិសាស្ត្រ ឬប្រភេទស្ថាប័នជាក់លាក់នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងសំខាន់ដែលត្រូវពិចារណា ពីព្រោះទម្រង់នៃចរាចរណ៍បណ្តាញក្នុងស្រុក និងការវាយប្រហារតាមអ៊ីនធឺណិតអាចមានលក្ខណៈខុសប្លែកពីបណ្តាប្រទេសអភិវឌ្ឍន៍ ដោយសារការប្រើប្រាស់បច្ចេកវិទ្យាហេដ្ឋារចនាសម្ព័ន្ធខុសគ្នា។
វិធីសាស្ត្ររកឃើញភាពមិនប្រក្រតីបែបកូនកាត់ (Hybrid Anomaly Detection) នេះមានសក្ដានុពលខ្លាំង និងមានភាពចាំបាច់សម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធឌីជីថលដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័សនៅប្រទេសកម្ពុជា។
ជារួម ការអនុវត្តប្រព័ន្ធ Hybrid Anomaly Detection នឹងជួយលើកកម្ពស់ទំនុកចិត្តលើសុវត្ថិភាពទិន្នន័យនៅកម្ពុជា និងកាត់បន្ថយហានិភ័យនៃការខូចខាតកេរ្តិ៍ឈ្មោះ ឬការបាត់បង់ផ្នែកហិរញ្ញវត្ថុដោយសារឧក្រិដ្ឋកម្មអ៊ីនធឺណិតថ្មីៗ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Zero-Day Attack (ZDA) | ការវាយប្រហារតាមអ៊ីនធឺណិតដែលទាញយកអត្ថប្រយោជន៍ពីភាពងាយរងគ្រោះនៃប្រព័ន្ធ (vulnerabilities) ដែលមិនធ្លាប់ត្រូវបានគេដឹងពីមុនមក ហើយអ្នកអភិវឌ្ឍន៍ប្រព័ន្ធមិនទាន់មានវិធីការពារ ឬជួសជុលនៅឡើយ។ | ដូចជាចោរដែលរកឃើញទ្វារសម្ងាត់ចូលផ្ទះអ្នក ដែលសូម្បីតែអ្នកផ្ទាល់ក៏មិនដឹងថាមានទ្វារនោះដែរ។ |
| Anomaly Detection | ដំណើរការនៃការស្វែងរកទិន្នន័យ ឬសកម្មភាពដែលមិនប្រក្រតី ឬខុសប្លែកពីលំនាំធម្មតានៅក្នុងចរាចរណ៍បណ្តាញ ដែលអាចបញ្ជាក់ពីការជ្រៀតចូល ឬការវាយប្រហារ។ | ដូចជាឆ្មាំយាមច្រកទ្វារដែលកត់សម្គាល់ឃើញមនុស្សម្នាក់ស្លៀកពាក់ប្លែកពីគេ ហើយមានសកម្មភាពគួរឱ្យសង្ស័យក្នុងចំណោមហ្វូងមនុស្សធម្មតា។ |
| Supervised Learning | វិធីសាស្ត្ររៀនម៉ាស៊ីនដែលទាមទារទិន្នន័យដែលត្រូវបានដាក់ស្លាក (labeled data) ច្បាស់លាស់ ដើម្បីបង្វឹកម៉ូដែលឱ្យចេះបែងចែករវាងទិន្នន័យធម្មតា និងទិន្នន័យមិនប្រក្រតី។ | ដូចជាការបង្រៀនក្មេងឱ្យស្គាល់រូបសត្វ ដោយចង្អុលបង្ហាញរូបនីមួយៗប្រាប់គេថា នេះជាឆ្កែ នេះជាឆ្មា រហូតដល់គេអាចចំណាំបានដោយខ្លួនឯង។ |
| Unsupervised Learning | វិធីសាស្ត្ររៀនម៉ាស៊ីនដែលមិនត្រូវការទិន្នន័យដែលបានដាក់ស្លាកឡើយ ដោយវាព្យាយាមស្វែងរកលំនាំ និងរៀបចំទិន្នន័យជាក្រុមដោយផ្អែកលើលក្ខណៈស្រដៀងគ្នាដោយស្វ័យប្រវត្តិ។ | ដូចជាការឱ្យក្មេងម្នាក់រៀបចំគំនរផ្លែឈើចម្រុះជាក្រុមៗ ដោយគេចេះបំបែកវាទៅតាមទំហំ ឬពណ៌ ទោះបីជាគេមិនស្គាល់ឈ្មោះផ្លែឈើទាំងនោះក៏ដោយ។ |
| Support Vector Machine (SVM) | ក្បួនដោះស្រាយរៀនម៉ាស៊ីនមានការត្រួតពិនិត្យ (supervised learning algorithm) ដែលប្រើសម្រាប់បែងចែកទិន្នន័យជាក្រុមៗ ដោយស្វែងរកបន្ទាត់ ឬព្រំដែនដ៏ល្អបំផុត (hyperplane) ដើម្បីញែកប្រភេទអថេរពីគ្នា។ | ដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីខណ្ឌចែករវាងកាក់១០០រៀល និងកាក់៥០០រៀលឱ្យដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។ |
| K-means clustering | ក្បួនដោះស្រាយរៀនម៉ាស៊ីនគ្មានការត្រួតពិនិត្យ ដែលបែងចែកទិន្នន័យទៅជាចង្កោម (clusters) ចំនួន K ដោយផ្គុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាឱ្យនៅជិតចំណុចកណ្តាលនៃចង្កោមនីមួយៗ។ | ដូចជាការប្រមូលផ្តុំសិស្សក្នុងសាលាទៅជាក្រុមៗតាមចំណូលចិត្តកីឡារបស់ពួកគេ (ឧ. ក្រុមបាល់ទាត់ ក្រុមបាល់បោះ)។ |
| Concept Drift | បាតុភូតដែលលក្ខណៈ ឬទម្រង់នៃទិន្នន័យផ្លាស់ប្តូរតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលរៀនម៉ាស៊ីនដែលធ្លាប់តែមានភាពត្រឹមត្រូវ ក្លាយជាលែងសូវមានប្រសិទ្ធភាព និងត្រូវការបង្វឹកសារជាថ្មី។ | ដូចជាសម្លៀកបំពាក់ដែលធ្លាប់តែពេញនិយមនៅឆ្នាំមុន លែងមានអ្នកស្លៀកពាក់នៅឆ្នាំនេះ ដែលទាមទារឱ្យអ្នកលក់ត្រូវផ្លាស់ប្តូរម៉ូដទំនិញថ្មី។ |
| Transfer Learning | បច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត ដែលយកចំណេះដឹងពីម៉ូដែលដែលត្រូវបានបង្វឹករួចហើយ (pre-trained model) លើកិច្ចការមួយ មកប្រើប្រាស់ជាមូលដ្ឋានសម្រាប់ដោះស្រាយកិច្ចការថ្មីមួយទៀតដែលពាក់ព័ន្ធ ដើម្បីចំណេញពេលវេលា។ | ដូចជាអ្នកដែលចេះជិះកង់រួចហើយ អាចរៀនជិះម៉ូតូបានយ៉ាងលឿនជាងមុន ព្រោះពួកគេមានមូលដ្ឋានទប់លំនឹងរួចជាស្រេច។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖