បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវទំហំ និងភាពស្មុគស្មាញនៃការវាយប្រហារតាមអ៊ីនធឺណិត (Cyber-attacks) ដោយផ្តោតលើការកាត់បន្ថយទិន្នន័យដែលគ្មានប្រយោជន៍ ដើម្បីបង្កើនប្រសិទ្ធភាពប្រព័ន្ធរកឃើញការឈ្លានពាន (IDS)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស និងការកាត់បន្ថយវិមាត្រ ដោយប្រើប្រាស់សំណុំទិន្នន័យ KDDCUP99 និងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅជាឧបករណ៍ចាត់ថ្នាក់កម្រិតខ្ពស់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Filtering Methods (MI, Correlation, MSE) វិធីសាស្ត្រចម្រោះ (Mutual Information, Correlation, Mean Squared Error) |
ដំណើរការលឿន ប្រើប្រាស់ធនធានគណនាតិច និងឯករាជ្យពីម៉ូដែលចំណាត់ថ្នាក់។ វាស័ក្តិសមសម្រាប់ប្រព័ន្ធដែលទាមទារល្បឿនជាចម្បង។ | មិនមានអន្តរកម្មជាមួយម៉ូដែលចំណាត់ថ្នាក់ (Classifier) ដែលធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិតទាបជាងវិធីសាស្ត្រផ្សេងទៀត។ | ភាពត្រឹមត្រូវទាបបំផុតគឺវិធីសាស្ត្រ Correlation (៧៩%) ប៉ុន្តែវិធីសាស្ត្រ MI និង MSE អាចទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៩% នៅពេលប្រើជាមួយ SVM។ |
| Wrapper Methods (SFS, SBS) វិធីសាស្ត្ររុំ (Sequential Forward/Backward Search) |
មានអន្តរកម្មជាមួយម៉ូដែលចំណាត់ថ្នាក់ និងកត់ត្រាការពឹងផ្អែកនៃលក្ខណៈពិសេស ដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងវិធីសាស្ត្រចម្រោះ។ | ចំណាយធនធានគណនាច្រើន ចំណាយពេលយូរក្នុងការរត់ (ជាពិសេស SBS) និងងាយប្រឈមនឹងបញ្ហា Overfitting។ | អាចជ្រើសរើសលក្ខណៈពិសេសល្អបំផុតចំនួន ៣ ដោយទទួលបានភាពត្រឹមត្រូវប្រមាណ ៩៩% ប៉ុន្តែប្រើពេលវេលាគណនាយូរ។ |
| Embedded Methods (Random Forest + MI) វិធីសាស្ត្របង្កប់ (Random Forest បញ្ចូលគ្នាជាមួយ Mutual Information) |
ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលអន្តរកម្មជាមួយ Classifier និងមានការចំណាយធនធានគណនាតិចជាងវិធីសាស្ត្រ Wrapper ។ | វាពឹងផ្អែកខ្លាំងទៅលើប្រភេទ Classifier ដែលត្រូវបានប្រើប្រាស់ក្នុងការកំណត់លក្ខណៈពិសេស។ | ទទួលបានលទ្ធផលល្អដាច់គេ ជាមួយនឹងភាពត្រឹមត្រូវ (Accuracy), Precision, Recall, និង F1-Score ដល់ទៅ ៩៩.៩%។ |
| Linear Discriminant Analysis (LDA) ការវិភាគការរើសអើងលីនេអ៊ែរ (កាត់បន្ថយវិមាត្រ) |
ដំណើរការលឿន និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងគេក្នុងចំណោមវិធីសាស្ត្រកាត់បន្ថយវិមាត្រ។ | ទាមទារទិន្នន័យដែលមានស្លាកសញ្ញា (Labeled data) ជាមុន និងមិនសូវល្អសម្រាប់ទិន្នន័យដែលគ្មានទំនាក់ទំនងលីនេអ៊ែរ។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៧៦% ជាមួយនឹងការប្រើប្រាស់ Deep Neural Network (DNN)។ |
| t-distributed Stochastic Neighbor Embedding (t-SNE) ការបង្កប់អ្នកជិតខាងដោយចៃដន្យដែលចែកចាយតាម t (កាត់បន្ថយវិមាត្រ) |
អាចទាញយកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear) និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលមានវិមាត្រខ្ពស់ខ្លាំង។ | ប្រើប្រាស់ពេលគណនាយូរខ្លាំង (យឺតបំផុត) និងមិនសូវផ្តល់លទ្ធផលល្អលើសំណុំទិន្នន័យនេះបើធៀបនឹង LDA ឡើយ។ | ទទួលបានភាពត្រឹមត្រូវទាបបំផុត (ប្រហែល ៦៩.១៧% សម្រាប់ការរត់ 1000 iter) និងចំណាយពេលយូរ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ ជាពិសេសត្រូវការក្រាហ្វិកកាត (GPU) ដើម្បីបង្វឹកម៉ូដែល Deep Neural Network ឱ្យបានលឿន និងទប់ទល់នឹងទំហំទិន្នន័យជាង ១លានកំណត់ត្រា។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យបណ្តាញ KDDCUP99 ដែលជាទិន្នន័យកែច្នៃតាំងពីឆ្នាំ ១៩៩៩។ ទោះបីជាវាជាទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវ ប៉ុន្តែវាមិនឆ្លុះបញ្ចាំងពីទម្រង់នៃការវាយប្រហារតាមអ៊ីនធឺណិតថ្មីៗ និងស្មុគស្មាញ (ដូចជា Zero-day attacks) នាពេលបច្ចុប្បន្ននោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យចាស់នេះពេកអាចធ្វើឱ្យប្រព័ន្ធការពារជាក់ស្តែងមិនអាចទប់ទល់នឹងការវាយប្រហារប្រភេទថ្មីបានល្អឡើយ។
ទោះបីជាទិន្នន័យសាកល្បងជាទិន្នន័យចាស់ ប៉ុន្តែវិធីសាស្ត្រវិស្វកម្មលក្ខណៈពិសេស (Feature Engineering) និងតក្កវិទ្យានៅពីក្រោយប្រព័ន្ធនេះ អាចត្រូវបានយកមកអនុវត្តប្រកបដោយប្រសិទ្ធភាពសម្រាប់ការពារហេដ្ឋារចនាសម្ព័ន្ធឌីជីថលនៅកម្ពុជា។
ការបំពាក់ប្រព័ន្ធរកឃើញការឈ្លានពានដែលត្រូវបានធ្វើឱ្យប្រសើរឡើងដោយបច្ចេកវិទ្យា AI នឹងជួយពង្រឹងកម្រិតសន្តិសុខសាយប័ររបស់កម្ពុជាឱ្យកាន់តែរឹងមាំ និងឆ្លើយតបបានទាន់ពេលវេលា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Feature Engineering | ដំណើរការនៃការជ្រើសរើស កែច្នៃ និងទាញយកលក្ខណៈសម្បត្តិ ឬទិន្នន័យសំខាន់ៗពីសំណុំទិន្នន័យដើម ដើម្បីជួយឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) អាចរៀនសូត្រ និងធ្វើការទស្សន៍ទាយបានកាន់តែច្បាស់លាស់ និងមានល្បឿនលឿនជាងមុន។ | ដូចជាការចម្រាញ់រ៉ែមាសចេញពីដីខ្សាច់ មុននឹងយកទៅកែច្នៃជារបស់របរប្រើប្រាស់ ដើម្បីចំណេញពេល និងទទួលបានតែរបស់មានតម្លៃពិតប្រាកដ។ |
| Intrusion Detection System | ប្រព័ន្ធសន្តិសុខដែលតាមដាន និងវិភាគចរាចរណ៍បណ្តាញកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារដែលបំពានច្បាប់សុវត្ថិភាពទិន្នន័យ។ | ប្រៀបដូចជាកាមេរ៉ាសុវត្ថិភាព និងសន្តិសុខដែលឈរយាមនៅច្រកទ្វារក្រុមហ៊ុន ដើម្បីពិនិត្យមើលអ្នកចេញចូល និងរារាំងចោរ។ |
| Dimensions Reduction | បច្ចេកទេសកាត់បន្ថយចំនួនអថេរ ឬលក្ខណៈ (Features) នៃទិន្នន័យដែលមានភាពស្មុគស្មាញខ្ពស់ មកនៅត្រឹមទិន្នន័យតូចជាងមុន ដោយមិនបាត់បង់ព័ត៌មាន ឬទំនាក់ទំនងសំខាន់ៗនៃទិន្នន័យដើមឡើយ។ | ដូចជាការបង្រួញសៀវភៅក្រាស់មួយក្បាល មកត្រឹមសេចក្តីសង្ខេបមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យដើមទាំងស្រុង។ |
| Feature Selection | ការជ្រើសរើសយកតែលក្ខណៈទិន្នន័យណាដែលពាក់ព័ន្ធ និងមានប្រយោជន៍បំផុតសម្រាប់ការបង្វឹកម៉ូដែល Machine Learning ដោយលុបចោលទិន្នន័យដែលគ្មានប្រយោជន៍ ឬស្ទួនគ្នា ដើម្បីកាត់បន្ថយការចំណាយធនធានកុំព្យូទ័រ។ | ដូចជាការរើសយកតែផ្លែឈើល្អៗដាក់ក្នុងកន្ត្រក និងបោះចោលផ្លែឈើដែលរលួយ ឬមិនទាន់ទុំ។ |
| Deep Neural Network | ប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់ (Layers) កែច្នៃទិន្នន័យច្រើនជាន់ ដែលមានសមត្ថភាពអាចរៀនពីទិន្នន័យស្មុគស្មាញ និងធ្វើការសម្រេចចិត្ត ឬចំណាត់ថ្នាក់បានយ៉ាងសុក្រឹត។ | ប្រៀបដូចជាខួរក្បាលរបស់មនុស្សដែលមានកោសិកាជាច្រើនតភ្ជាប់គ្នា ដើម្បីរៀនសូត្រ និងចងចាំបទពិសោធន៍ថ្មីៗ។ |
| Filter Methods | វិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសដោយផ្អែកលើលក្ខណៈស្ថិតិរបស់ទិន្នន័យ (ដូចជាកម្រិតនៃទំនាក់ទំនងគ្នា - Correlation) ដោយមិនពឹងផ្អែកលើម៉ូដែល Machine Learning ឡើយ ដែលធ្វើឱ្យវាដំណើរការបានលឿន។ | ដូចជាការប្រើកន្ត្រងត្រងយកគ្រាប់ខ្សាច់ធំៗចេញពីខ្សាច់ម៉ត់ ដោយមិនចាំបាច់យកវាទៅពិសោធន៍អ្វីបន្តទៀត។ |
| Wrapper Methods | វិធីសាស្ត្រដែលសាកល្បងបន្សំនៃលក្ខណៈពិសេសផ្សេងៗគ្នា ដោយប្រើប្រាស់ម៉ូដែល Machine Learning ជាក់ស្តែងដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាព ដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់តែត្រូវចំណាយពេលយូរក្នុងការគណនា។ | ដូចជាការសាកល្បងស្លៀកសម្លៀកបំពាក់ច្រើនឈុតម្តងមួយៗ ដើម្បីមើលថាតើឈុតមួយណាស័ក្តិសមជាមួយអ្នកជាងគេ។ |
| Linear Discriminant Analysis | ក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យដោយមានការត្រួតពិនិត្យ (Supervised Learning) ដែលព្យាយាមរកបន្ទាត់ ឬប្លង់ដែលពង្រីកគម្លាតរវាងក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យនៅឆ្ងាយពីគ្នាបំផុត។ | ដូចជាការរៀបចំសិស្សក្នុងថ្នាក់ឱ្យអង្គុយជាក្រុមតាមចំណង់ចំណូលចិត្តរៀងៗខ្លួន ដើម្បីឱ្យគ្រូងាយស្រួលបែងចែក និងគ្រប់គ្រង។ |
| Overfitting | បញ្ហាដែលម៉ូដែល Machine Learning រៀនទន្ទេញចាំទិន្នន័យបង្វឹក (Training Data) និងទិន្នន័យរំខាន (Noise) ច្បាស់ពេក រហូតដល់មិនអាចធ្វើការទស្សន៍ទាយទិន្នន័យថ្មីៗដែលវាមិនធ្លាប់ជួបបានត្រឹមត្រូវ។ | ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗយ៉ាងស្ទាត់ ប៉ុន្តែប្រឡងធ្លាក់នៅពេលគ្រូចេញលំហាត់ថ្មីដែលគ្រាន់តែប្តូរលេខ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖