បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាការគំរាមកំហែងដែលកំពុងកើនឡើងនៃមេរោគកុំព្យូទ័រ (Malware) កម្រិតខ្ពស់ និងភាពមានកម្រិតនៃប្រព័ន្ធចាប់យកការវាយប្រហារ (IDS) បែបប្រពៃណីក្នុងការការពារទិន្នន័យ និងបណ្តាញកុំព្យូទ័រ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការត្រួតពិនិត្យឯកសារស្រាវជ្រាវជាប្រព័ន្ធ ដោយវិភាគទៅលើបច្ចេកទេសចាប់យកមេរោគកុំព្យូទ័រទំនើបៗ រួមមានការរៀនដោយម៉ាស៊ីន (Machine Learning) និងការវិភាគអាកប្បកិរិយា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Deep Autoencoder (with Fuzzy c-means) ម៉ូដែលរៀនស៊ីជម្រៅ Autoencoder រួមជាមួយក្បួនដោះស្រាយ Fuzzy c-means |
អាចទាញយកលក្ខណៈពិសេសដោយស្វ័យប្រវត្តិ និងដកចេញនូវទិន្នន័យដែលមានបញ្ហាដូចជាបាត់បង់លក្ខណៈសម្បត្តិ និងមានព័ត៌មានជាន់គ្នា។ | មិនមានប្រសិទ្ធភាពគ្រប់គ្រាន់ក្នុងការប្រឆាំងនឹងទិន្នន័យរំខាន (Noise) និងជួបបញ្ហានៅពេលមានទិន្នន័យជាន់គ្នាដែលមានឈ្មោះថ្នាក់ (Class) ខុសគ្នា។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតរហូតដល់ ៩៧,៩% និងអត្រា Recall ៩៨,០% ក្នុងការកំណត់អត្តសញ្ញាណ។ |
| IDSGAN (Intrusion Detection System Generative Adversarial Network) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតសម្រាប់ការសាកល្បងវាយប្រហារ (IDSGAN) |
មានសមត្ថភាពបង្កើតចរាចរណ៍បណ្តាញមេរោគក្លែងក្លាយ (Adversarial attacks) ដែលមានលក្ខណៈដូចទិន្នន័យពិត ដើម្បីសាកល្បងភាពរឹងមាំរបស់ប្រព័ន្ធការពារ។ | ទាមទារការយល់ដឹងខ្ពស់ពីការរៀបចំទិន្នន័យ និងអាចធ្វើឱ្យប្រព័ន្ធបាត់បង់សមត្ថភាពចាប់យកមេរោគប្រសិនបើហ្វឹកហាត់មិនបានត្រឹមត្រូវ។ | អាចវាយលុកគេចផុតពីប្រព័ន្ធ IDS ដោយធ្វើឱ្យអត្រាចាប់យក (Detection rate) របស់ម៉ូដែលមួយចំនួនធ្លាក់ចុះជិតដល់ ០។ |
| RNNs and CNNs (Deep Learning for IDS) បណ្តាញសរសៃប្រសាទ RNNs និង CNNs សម្រាប់ការចាប់យកការវាយប្រហារ |
CNNs មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគមេរោគដោយផ្ទាល់ពីកូដ (Dalvik bytecode) របស់ Android ចំណែក RNNs ពូកែខាងវិភាគលំនាំទិន្នន័យតាមពេលវេលា។ | ទាមទារការពន្លឿនដោយប្រើប្រាស់ GPU និងថាមពលគណនាដ៏ធំ (Massive computational power) ដើម្បីហ្វឹកហាត់ម៉ូដែល។ | RNN សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់ទិន្នន័យ CICIDS2018 រីឯ CNN ទទួលបានលទ្ធផលល្អបំផុតសម្រាប់សំណុំទិន្នន័យ Bot-IoT។ |
| Traditional Static & Dynamic Analysis (Heuristics & Sandboxing) ការវិភាគបែបស្តាទិច និងឌីណាមិកប្រពៃណី (Heuristics និង Sandboxing) |
អាចរកឃើញហានិភ័យថ្មីៗតាមរយៈការវិភាគអាកប្បកិរិយាធៀបនឹងសកម្មភាពធម្មតា ហើយ Sandboxing អនុញ្ញាតឱ្យសាកល្បងកូដក្នុងបរិស្ថានឯកោប្រកបដោយសុវត្ថិភាព។ | ចំណាយពេលយូរ បង្កឱ្យមានការថយចុះដំណើរការប្រព័ន្ធ (Performance issues) និងអាចត្រូវចាញ់បោកមេរោគទំនើបដែលដឹងថាវាកំពុងស្ថិតក្នុងប្រអប់ខ្សាច់ (Sandbox-aware malware)។ | មិនគ្រប់គ្រាន់ក្នុងការការពារមេរោគកម្រិតខ្ពស់ទំនើបៗទេ លុះត្រាតែត្រូវប្រើរួមផ្សំជាមួយដំណោះស្រាយ AI/ML (NGAV)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាប្រព័ន្ធចាប់យកការវាយប្រហារ និងមេរោគទំនើបៗទាមទារថាមពលកុំព្យូទ័រ (Computational Power) យ៉ាងធំធេង ជាពិសេសសម្រាប់ការហ្វឹកហាត់ម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលចាំបាច់ត្រូវមានការជួយជ្រោមជ្រែងពីហាដវែរកម្រិតខ្ពស់។
ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យអន្តរជាតិស្តង់ដារ (ដូចជា CICIDS2018, Bot-IoT និងទិន្នន័យពីបរិស្ថាន Cloud របស់លោកខាងលិច) សម្រាប់ការហ្វឹកហាត់។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យមេរោគក្នុងស្រុក និងកង្វះការកត់ត្រាលក្ខណៈនៃការវាយប្រហារជាក់លាក់លើបណ្តាញតំបន់ អាចធ្វើឱ្យម៉ូដែលផ្អែកលើ AI ទាំងនេះមិនមានភាពច្បាស់លាស់ពេញលេញ (False Positives ច្រើន) នៅពេលយកមកអនុវត្តផ្ទាល់លើហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាក្នុងប្រទេស។
បច្ចេកទេសរៀនស៊ីជម្រៅ និងប្រព័ន្ធចាប់យកមេរោគផ្អែកលើការវិភាគអាកប្បកិរិយាដែលបានលើកឡើងក្នុងឯកសារនេះ ពិតជាមានសក្តានុពល និងសារៈសំខាន់ខ្លាំងសម្រាប់ពង្រឹងសន្តិសុខសាយប័រនៅកម្ពុជា។
ទោះបីជាបច្ចេកវិទ្យា AI ក្នុងការចាប់យកមេរោគមានភាពជឿនលឿនកម្រិតណាក្តី ការអនុវត្តនៅកម្ពុជាចាំបាច់ត្រូវចាប់ផ្តើមពីការកសាងហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័ររឹងមាំ (Cloud/GPU) និងការបណ្តុះបណ្តាលធនធានមនុស្សលើវិទ្យាសាស្ត្រទិន្នន័យជាមុនសិន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Generative Adversarial Networks (GAN) | បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលផ្សំឡើងពីម៉ូដែលពីរ (Generator និង Discriminator) ដែលប្រកួតប្រជែងគ្នា។ ម៉ូដែលមួយព្យាយាមបង្កើតទិន្នន័យក្លែងក្លាយឱ្យដូចពិត ចំណែកមួយទៀតព្យាយាមចាប់កំហុសវា។ ក្នុងបរិបទនេះ វាត្រូវបានប្រើដើម្បីបង្កើតចរាចរណ៍មេរោគក្លែងក្លាយដើម្បីសាកល្បងភាពរឹងមាំរបស់ប្រព័ន្ធការពារ។ | ដូចជាការលេងល្បែងប្រកួតប្រជែងរវាងអ្នកក្លែងបន្លំលុយ (Generator) និងប៉ូលីសត្រួតពិនិត្យលុយពិត (Discriminator) រហូតដល់អ្នកក្លែងបន្លំអាចធ្វើបានយ៉ាងស្ទាត់ជំនាញ។ |
| Intrusion Detection System (IDS) | ប្រព័ន្ធសន្តិសុខដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញកុំព្យូទ័រជាប់ជាប្រចាំ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការបំពានគោលការណ៍សន្តិសុខនានា រួចផ្តល់សញ្ញាព្រមានដល់អ្នកគ្រប់គ្រងប្រព័ន្ធដើម្បីចាត់វិធានការបន្ត។ | ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរោទិ៍នៅក្នុងផ្ទះ ដែលបន្លឺសំឡេងព្រមាននៅពេលមានមនុស្សចម្លែកលួចចូល។ |
| Static Analysis | វិធីសាស្ត្រវិភាគកូដ ឬរចនាសម្ព័ន្ធរបស់កម្មវិធីកុំព្យូទ័រដើម្បីរកមើលមេរោគ ដោយមិនចាំបាច់ដំណើរការ (Execute) កម្មវិធីនោះឡើយ។ វាផ្តោតលើការពិនិត្យមើលពាក្យបញ្ជា (Syntax) និងហត្ថលេខា (Signatures) របស់ឯកសារ។ | ដូចជាការអានសៀវភៅរូបមន្តធ្វើម្ហូបដើម្បីដឹងថាវាមានជាតិពុលឬអត់ ដោយមិនបាច់ចម្អិន ឬភ្លក់ម្ហូបនោះដោយផ្ទាល់។ |
| Dynamic Analysis | ការតាមដាន និងវិភាគអាកប្បកិរិយារបស់កម្មវិធីកុំព្យូទ័រ ឬមេរោគ នៅពេលដែលវាកំពុងត្រូវបានអនុញ្ញាតឱ្យដំណើរការជាក់ស្តែង ដើម្បីមើលថាតើវាធ្វើសកម្មភាពអ្វីខ្លះទៅលើប្រព័ន្ធ (ឧ. ការផ្លាស់ប្តូរឯកសារ ឬការភ្ជាប់បណ្តាញ)។ | ដូចជាការបើកបររថយន្តថ្មីមួយនៅលើទីលានសាកល្បង ដើម្បីវាយតម្លៃពីដំណើរការ និងម៉ាស៊ីនជាក់ស្តែងរបស់វា។ |
| Sandboxing | បច្ចេកទេសសន្តិសុខដែលដាក់កម្មវិធីគួរឱ្យសង្ស័យឱ្យដំណើរការនៅក្នុងបរិស្ថានឯកោ (Isolated Environment) និងមានការគ្រប់គ្រងតឹងរ៉ឹង ដើម្បីតាមដានសកម្មភាពរបស់វាដោយមិនឱ្យប៉ះពាល់ដល់ទិន្នន័យពិតប្រាកដ ឬប្រព័ន្ធប្រតិបត្តិការចម្បង។ | ដូចជាការដាក់សត្វមានពិសចូលក្នុងប្រអប់កញ្ចក់បិទជិត ដើម្បីសិក្សាពីវាដោយមិនខ្លាចវាខាំ ឬរត់ចេញមកក្រៅបាន។ |
| Endpoint Detection and Response (EDR) | ដំណោះស្រាយសន្តិសុខដែលបន្តត្រួតពិនិត្យ ប្រមូលទិន្នន័យ និងវិភាគសកម្មភាពពីឧបករណ៍ចុងក្រោយ (Endpoints ដូចជាកុំព្យូទ័រ ឬទូរស័ព្ទអ្នកប្រើប្រាស់) ដើម្បីរកមើល និងឆ្លើយតបទៅនឹងការគំរាមកំហែងសន្តិសុខដោយស្វ័យប្រវត្តិ។ | ដូចជាការដាក់ឆ្មាំយាមប្រចាំការនៅគ្រប់ច្រកទ្វារចេញចូលនៃអគារនីមួយៗ ដើម្បីកត់ត្រា និងទប់ស្កាត់ជនសង្ស័យភ្លាមៗនៅនឹងកន្លែង។ |
| Heuristic Analysis | បច្ចេកទេសវិភាគដែលមិនពឹងផ្អែកលើការស្គាល់ហត្ថលេខាមេរោគចាស់ៗ តែប្រើប្រាស់ការកំណត់អត្តសញ្ញាណតាមរយៈការវិភាគអាកប្បកិរិយា ឬលក្ខណៈខុសប្រក្រតីធៀបនឹងសកម្មភាពធម្មតារបស់ប្រព័ន្ធ ដើម្បីរកឱ្យឃើញមេរោគថ្មីៗដែលមិនធ្លាប់ស្គាល់ពីមុនមក (Zero-day threats)។ | ដូចជាការសង្ស័យលើនរណាម្នាក់ថាជាចោរ ដោយផ្អែកលើសកម្មភាពលួចលាក់របស់គេ ទោះបីជាគេមិនធ្លាប់មានប្រវត្តិឧក្រិដ្ឋកម្មពីមុនមកក៏ដោយ។ |
| Deep Autoencoder | ប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលប្រើសម្រាប់បង្រួមទិន្នន័យទៅជាលក្ខណៈពិសេសតូចៗ (Encoding) រួចព្យាយាមបំប្លែងវាត្រឡប់មកដូចដើមវិញ (Decoding) ដើម្បីរៀនពីលំនាំទិន្នន័យ និងដកចេញនូវទិន្នន័យដែលជារំខាន (Noise)។ | ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយឱ្យនៅត្រឹមមួយទំព័រ រួចព្យាយាមសរសេរសៀវភៅនោះឡើងវិញដោយផ្អែកលើក្រដាសសង្ខេបនោះ ដើម្បីទាញយកតែអត្ថន័យសំខាន់ៗបំផុត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖