បញ្ហា (The Problem)៖ អត្ថបទនេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវទំហំ និងភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិត (Cyber threats) ដែលទាមទារឱ្យមានយន្តការការពារកម្រិតខ្ពស់ហួសពីប្រព័ន្ធការពារធម្មតា។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគប្រៀបធៀប (Comparative analysis) ដោយធ្វើការពិនិត្យលើអត្ថបទស្រាវជ្រាវចំនួន ៥៨ ទាក់ទងនឹងការអនុវត្តយន្តការរៀនដោយម៉ាស៊ីនក្នុងវិស័យសន្តិសុខអ៊ីនធឺណិត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Supervised Learning ការរៀនមានការគ្រប់គ្រង (Supervised Learning) |
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការរកឃើញការវាយប្រហារដែលស្គាល់ស្រាប់បានយ៉ាងច្បាស់លាស់ និងផ្តល់លទ្ធផលចំណាត់ថ្នាក់បានល្អសម្រាប់ការវាយប្រហារទម្រង់ចាស់ៗ។ | ទាមទារទិន្នន័យដែលបានបិទស្លាក (labeled data) ច្រើន ដែលត្រូវចំណាយពេលវេលានិងថវិកាខ្ពស់ ហើយមិនសូវមានប្រសិទ្ធភាពក្នុងការរកឃើញការវាយប្រហារថ្មីៗ (Zero-day)។ | ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់ (Accuracy) និងភាពជាក់លាក់ខ្ពស់ (Precision) លើការវាយតម្លៃសំណុំទិន្នន័យដូចជា Spam Collection និង KDD99។ |
| Unsupervised Learning ការរៀនគ្មានការគ្រប់គ្រង (Unsupervised Learning) |
មិនត្រូវការទិន្នន័យដែលបានបិទស្លាក និងមានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរ និងរកឃើញលំនាំវាយប្រហារថ្មីៗ (Zero-day attacks)។ | អាចបង្កើតការព្រមានខុស (false alarms) ច្រើនជាង និងតម្រូវឱ្យមានការកំណត់កម្រិតភាពត្រឹមត្រូវនៃចង្កោម (cluster validity) ដើម្បីចៀសវាងការចាប់យកចំណុចទិន្នន័យខុស។ | អាចចង្កោមទិន្នន័យប្រកបដោយប្រសិទ្ធភាពដោយមិនបាច់ដឹងព័ត៌មានពីមុន ប៉ុន្តែអត្រា Precision អាចទាបជាងប្រសិនបើមិនមានការកំណត់ទំហំចង្កោមបានល្អដោយប្រើ Silhouette Score។ |
| Semi-Supervised Learning ការរៀនពាក់កណ្តាលមានការគ្រប់គ្រង (Semi-Supervised Learning) |
ដោះស្រាយបញ្ហាកង្វះខាតទិន្នន័យបិទស្លាក ដោយអនុញ្ញាតឱ្យប្រើទិន្នន័យបិទស្លាកតិចតួចរួមបញ្ចូលជាមួយទិន្នន័យមិនបិទស្លាកក្នុងចំនួនច្រើន។ | ប្រសិនបើការសន្មត់លក្ខណៈស្រដៀងគ្នានៃទិន្នន័យមានកំហុស វាអាចនឹងបណ្តាលឱ្យម៉ូដែលយល់ច្រឡំ និងកាត់បន្ថយភាពត្រឹមត្រូវក្នុងការវាយតម្លៃ។ | ជួយបង្កើនភាពជាក់លាក់ក្នុងការធ្វើទូទៅកម្ម (generalization) នៃបញ្ហាសន្តិសុខបណ្តាញលើសពីទិន្នន័យដែលបានបិទស្លាក។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធការពារតាមរយៈ Machine Learning ទាមទារការវិនិយោគខ្ពស់លើការរៀបចំទិន្នន័យ និងកម្លាំងគណនាកុំព្យូទ័រ ដើម្បីធានាបាននូវប្រសិទ្ធភាពនៃម៉ូដែល។
ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិចាស់ៗ (ដូចជា KDD99, Enron, Twitter) ដែលភាគច្រើនប្រមូលបានពីបរិបទប្រទេសលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមមួយ ពីព្រោះទម្រង់នៃការវាយប្រហារ ទម្លាប់ប្រើប្រាស់បណ្តាញ និងសារបោកប្រាស់តាមទូរស័ព្ទ (Phishing) ជាភាសាខ្មែរ មានលក្ខណៈខុសប្លែកពីទិន្នន័យទាំងនេះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកផ្ទាល់ដើម្បីហ្វឹកហាត់ម៉ូដែលឱ្យមានប្រសិទ្ធភាព។
ការអនុវត្តបច្ចេកទេស Machine Learning សម្រាប់ Cyber Defense គឺពិតជាមានភាពចាំបាច់ និងអាចឆ្លើយតបទៅនឹងការវិវឌ្ឍផ្នែកឌីជីថលនៅកម្ពុជា។
ការបោះជំហានទៅរកការប្រើប្រាស់ Machine Learning នឹងជួយផ្លាស់ប្តូរយុទ្ធសាស្ត្រការពារសន្តិសុខអ៊ីនធឺណិតនៅកម្ពុជា ពីការទប់ស្កាត់បែបប្រពៃណី ទៅជាការការពារដោយស្វ័យប្រវត្តិ និងឆ្លាតវៃជាងមុន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Supervised Learning | ជាវិធីសាស្ត្របង្រៀនម៉ាស៊ីនដោយប្រើសំណុំទិន្នន័យដែលបានបិទស្លាក (Labeled Data) ជាមុនរួចរាល់ ដើម្បីប្រាប់ម៉ាស៊ីនឱ្យដឹងថាតើទិន្នន័យណាជាចរាចរណ៍ធម្មតា និងទិន្នន័យណាជាការវាយប្រហារ។ | ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបថតសត្វឆ្កែជាច្រើនសន្លឹក រួចប្រាប់គេបញ្ជាក់ថា "នេះគឺសត្វឆ្កែ"។ |
| Unsupervised Learning | ជាវិធីសាស្ត្ររៀនដោយម៉ាស៊ីនដែលមិនត្រូវការទិន្នន័យបិទស្លាកជាមុនទេ ដោយវាព្យាយាមស្វែងរកលំនាំ (Patterns) ឬការចង្កោម (Clustering) នៃទិន្នន័យដោយខ្លួនឯង ដើម្បីរកមើលភាពមិនប្រក្រតីដែលមិនធ្លាប់ស្គាល់។ | ដូចជាការឱ្យក្មេងម្នាក់រៀបចំប្រដាប់ប្រដាក្មេងលេងទៅតាមពណ៌ ឬរូបរាងដោយខ្លួនឯង ដោយគ្មាននរណាប្រាប់មុន។ |
| zero-day attack | ជាការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលទាញយកអត្ថប្រយោជន៍ពីចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាង ដែលសូម្បីតែអ្នកបង្កើតកម្មវិធី ឬប្រព័ន្ធការពារក៏មិនទាន់បានដឹង ឬមិនទាន់មានវិធីជួសជុលការពារនៅឡើយ។ | ដូចជាចោរដែលរកឃើញវិធីថ្មីដើម្បីបើកសោផ្ទះរបស់អ្នក ដែលសូម្បីតែជាងធ្វើសោក៏មិនធ្លាប់ដឹងពីវិធីនោះពីមុនមកដែរ។ |
| Intrusion Detection System (IDS) | ជាប្រព័ន្ធ ឬកម្មវិធីដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញ (Network Traffic) ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការបំពានគោលការណ៍សុវត្ថិភាព ហើយផ្តល់ការព្រមានដល់អ្នកគ្រប់គ្រងប្រព័ន្ធ។ | ដូចជាកាមេរ៉ាសុវត្ថិភាព និងសំឡេងរោទិ៍នៅក្នុងធនាគារ ដែលនឹងបន្លឺឡើងនៅពេលមាននរណាម្នាក់ព្យាយាមលួចចូលក្នុងតំបន់ហាមឃាត់។ |
| Support Vector Machine (SVM) | ជាក្បួនដោះស្រាយ (Algorithm) ដ៏ពេញនិយមក្នុង Supervised Learning ដែលវាប្រើប្រាស់គណិតវិទ្យាដើម្បីគូសបន្ទាត់ ឬប្លង់ (Hyperplane) ខណ្ឌចែកប្រភេទនៃទិន្នន័យឱ្យដាច់ពីគ្នា ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចំណាត់ថ្នាក់ទិន្នន័យ។ | ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ច្បាស់លាស់មួយនៅលើដី ដើម្បីបែងចែកតំបន់មានសុវត្ថិភាព និងតំបន់គ្រោះថ្នាក់ឱ្យដាច់ពីគ្នា។ |
| Anomaly Detection | ជាដំណើរការនៃការកំណត់អត្តសញ្ញាណទិន្នន័យ ព្រឹត្តិការណ៍ ឬការសង្កេតកត់សម្គាល់ ដែលមិនស្របទៅនឹងលំនាំធម្មតាដែលរំពឹងទុក ដែលភាគច្រើនចង្អុលបង្ហាញពីបញ្ហា ឬការវាយប្រហារ (Cyber threats)។ | ដូចជាគ្រូបង្រៀនដែលឆាប់ចាប់អារម្មណ៍ដឹងថាសិស្សម្នាក់កំពុងលួចចម្លងគេ ព្រោះសកម្មភាពរបស់សិស្សនោះខុសប្លែកពីទម្លាប់ធម្មតារបស់គាត់។ |
| Clustering Algorithms | ជាក្បួនដោះស្រាយគណិតវិទ្យាក្នុង Unsupervised Learning ដែលមានតួនាទីប្រមូលផ្តុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាទៅជាក្រុម (Clusters) តែមួយ ដើម្បីងាយស្រួលវិភាគ និងរកមើលភាពខុសប្រក្រតីដោយស្វ័យប្រវត្តិ។ | ដូចជាការតម្រៀបសិស្សក្នុងសាលាទៅតាមចំណង់ចំណូលចិត្ត ឬកម្រិតសមត្ថភាពរបស់ពួកគេដោយស្វ័យប្រវត្តិដើម្បីងាយស្រួលគ្រប់គ្រង។ |
| Data Labeling | ជាដំណើរការនៃការកំណត់អត្តសញ្ញាណ និងបិទស្លាកទិន្នន័យឆៅ (Raw Data) ដើម្បីបញ្ជាក់ប្រាប់ម៉ូដែល Machine Learning ថាតើទិន្នន័យនោះតំណាងឱ្យអ្វី (ឧទាហរណ៍៖ កំណត់ថាជាចរាចរណ៍ធម្មតា ឬមេរោគ) ដែលវាទាមទារការចំណាយធនធានច្រើន។ | ដូចជាការសរសេរឈ្មោះបិទលើប្រអប់គ្រឿងទេសនីមួយៗក្នុងឃ្លាំង ដើម្បីងាយស្រួលយកមកប្រើប្រាស់នៅពេលក្រោយដោយមិនច្រឡំ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖