Original Title: Machine Learning for Cyber Defense: A Comparative Analysis of Supervised and Unsupervised Learning Approaches
Source: jrtdd.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនដោយម៉ាស៊ីនសម្រាប់ការការពារតាមប្រព័ន្ធអ៊ីនធឺណិត៖ ការវិភាគប្រៀបធៀបនៃវិធីសាស្រ្តរៀនមានការគ្រប់គ្រង និងគ្មានការគ្រប់គ្រង

ចំណងជើងដើម៖ Machine Learning for Cyber Defense: A Comparative Analysis of Supervised and Unsupervised Learning Approaches

អ្នកនិពន្ធ៖ Gangadhar Sadaram, KishanKumar Routhu, Vasu Velaga, Suneel Babu Boppana, Niharika Katnapally, Manikanth Sakuru

ឆ្នាំបោះពុម្ព៖ 2023 Journal for Re Attach Therapy and Developmental Diversities

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទនេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវទំហំ និងភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិត (Cyber threats) ដែលទាមទារឱ្យមានយន្តការការពារកម្រិតខ្ពស់ហួសពីប្រព័ន្ធការពារធម្មតា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគប្រៀបធៀប (Comparative analysis) ដោយធ្វើការពិនិត្យលើអត្ថបទស្រាវជ្រាវចំនួន ៥៨ ទាក់ទងនឹងការអនុវត្តយន្តការរៀនដោយម៉ាស៊ីនក្នុងវិស័យសន្តិសុខអ៊ីនធឺណិត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Supervised Learning
ការរៀនមានការគ្រប់គ្រង (Supervised Learning)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការរកឃើញការវាយប្រហារដែលស្គាល់ស្រាប់បានយ៉ាងច្បាស់លាស់ និងផ្តល់លទ្ធផលចំណាត់ថ្នាក់បានល្អសម្រាប់ការវាយប្រហារទម្រង់ចាស់ៗ។ ទាមទារទិន្នន័យដែលបានបិទស្លាក (labeled data) ច្រើន ដែលត្រូវចំណាយពេលវេលានិងថវិកាខ្ពស់ ហើយមិនសូវមានប្រសិទ្ធភាពក្នុងការរកឃើញការវាយប្រហារថ្មីៗ (Zero-day)។ ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់ (Accuracy) និងភាពជាក់លាក់ខ្ពស់ (Precision) លើការវាយតម្លៃសំណុំទិន្នន័យដូចជា Spam Collection និង KDD99។
Unsupervised Learning
ការរៀនគ្មានការគ្រប់គ្រង (Unsupervised Learning)
មិនត្រូវការទិន្នន័យដែលបានបិទស្លាក និងមានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរ និងរកឃើញលំនាំវាយប្រហារថ្មីៗ (Zero-day attacks)។ អាចបង្កើតការព្រមានខុស (false alarms) ច្រើនជាង និងតម្រូវឱ្យមានការកំណត់កម្រិតភាពត្រឹមត្រូវនៃចង្កោម (cluster validity) ដើម្បីចៀសវាងការចាប់យកចំណុចទិន្នន័យខុស។ អាចចង្កោមទិន្នន័យប្រកបដោយប្រសិទ្ធភាពដោយមិនបាច់ដឹងព័ត៌មានពីមុន ប៉ុន្តែអត្រា Precision អាចទាបជាងប្រសិនបើមិនមានការកំណត់ទំហំចង្កោមបានល្អដោយប្រើ Silhouette Score។
Semi-Supervised Learning
ការរៀនពាក់កណ្តាលមានការគ្រប់គ្រង (Semi-Supervised Learning)
ដោះស្រាយបញ្ហាកង្វះខាតទិន្នន័យបិទស្លាក ដោយអនុញ្ញាតឱ្យប្រើទិន្នន័យបិទស្លាកតិចតួចរួមបញ្ចូលជាមួយទិន្នន័យមិនបិទស្លាកក្នុងចំនួនច្រើន។ ប្រសិនបើការសន្មត់លក្ខណៈស្រដៀងគ្នានៃទិន្នន័យមានកំហុស វាអាចនឹងបណ្តាលឱ្យម៉ូដែលយល់ច្រឡំ និងកាត់បន្ថយភាពត្រឹមត្រូវក្នុងការវាយតម្លៃ។ ជួយបង្កើនភាពជាក់លាក់ក្នុងការធ្វើទូទៅកម្ម (generalization) នៃបញ្ហាសន្តិសុខបណ្តាញលើសពីទិន្នន័យដែលបានបិទស្លាក។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធការពារតាមរយៈ Machine Learning ទាមទារការវិនិយោគខ្ពស់លើការរៀបចំទិន្នន័យ និងកម្លាំងគណនាកុំព្យូទ័រ ដើម្បីធានាបាននូវប្រសិទ្ធភាពនៃម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិចាស់ៗ (ដូចជា KDD99, Enron, Twitter) ដែលភាគច្រើនប្រមូលបានពីបរិបទប្រទេសលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមមួយ ពីព្រោះទម្រង់នៃការវាយប្រហារ ទម្លាប់ប្រើប្រាស់បណ្តាញ និងសារបោកប្រាស់តាមទូរស័ព្ទ (Phishing) ជាភាសាខ្មែរ មានលក្ខណៈខុសប្លែកពីទិន្នន័យទាំងនេះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកផ្ទាល់ដើម្បីហ្វឹកហាត់ម៉ូដែលឱ្យមានប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ការអនុវត្តបច្ចេកទេស Machine Learning សម្រាប់ Cyber Defense គឺពិតជាមានភាពចាំបាច់ និងអាចឆ្លើយតបទៅនឹងការវិវឌ្ឍផ្នែកឌីជីថលនៅកម្ពុជា។

ការបោះជំហានទៅរកការប្រើប្រាស់ Machine Learning នឹងជួយផ្លាស់ប្តូរយុទ្ធសាស្ត្រការពារសន្តិសុខអ៊ីនធឺណិតនៅកម្ពុជា ពីការទប់ស្កាត់បែបប្រពៃណី ទៅជាការការពារដោយស្វ័យប្រវត្តិ និងឆ្លាតវៃជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះសន្តិសុខបណ្តាញ និង ML: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការវាយប្រហារបណ្តាញ (Network attacks) និងក្បួនដោះស្រាយចំណាត់ថ្នាក់ (Classification Algorithms) ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ជាមួយភាសា Python
  2. អនុវត្តលើសំណុំទិន្នន័យគំរូ (Benchmark Datasets): ទាញយកសំណុំទិន្នន័យស្តង់ដារដូចជា KDD99NSL-KDD ពី Kaggle ដើម្បីហ្វឹកហាត់ម៉ូដែល Decision Tree និង Support Vector Machine ក្នុងការបែងចែកចរាចរណ៍បណ្តាញធម្មតា និងការវាយប្រហារ។
  3. សាកល្បងជាមួយវិធីសាស្ត្រការរៀនគ្មានការគ្រប់គ្រង (Unsupervised Learning): ប្រើប្រាស់ក្បួនដោះស្រាយ K-Means Clustering និង PCA លើទិន្នន័យដែលមិនបានបិទស្លាក ដើម្បីរៀនពីរបៀបស្វែងរកភាពមិនប្រក្រតី និងវាយតម្លៃដោយប្រើ Silhouette Score
  4. អភិវឌ្ឍប្រព័ន្ធរកឃើញការឈ្លានពាន (Intrusion Detection System): បង្កើតគម្រោងដោយប្រើ TensorFlowPyTorch ដើម្បីបង្កើតម៉ូដែល Deep Learning សម្រាប់វិភាគ Log files ពិតប្រាកដក្នុងពេលវេលាជាក់ស្តែង (Real-time tracking)។
  5. ប្រមូល និងបន្សាំទិន្នន័យបរិបទកម្ពុជា: សហការជាមួយសាកលវិទ្យាល័យ ឬស្ថាប័ននានាដើម្បីប្រមូលទិន្នន័យទាក់ទងនឹងចរាចរណ៍អ៊ីនធឺណិតក្នុងស្រុក ឬសារ Phishing SMS ជាភាសាខ្មែរ ហើយប្រើប្រាស់បច្ចេកទេស Semi-Supervised Learning ដើម្បីបង្កើនប្រសិទ្ធភាពម៉ូដែល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Supervised Learning ជាវិធីសាស្ត្របង្រៀនម៉ាស៊ីនដោយប្រើសំណុំទិន្នន័យដែលបានបិទស្លាក (Labeled Data) ជាមុនរួចរាល់ ដើម្បីប្រាប់ម៉ាស៊ីនឱ្យដឹងថាតើទិន្នន័យណាជាចរាចរណ៍ធម្មតា និងទិន្នន័យណាជាការវាយប្រហារ។ ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបថតសត្វឆ្កែជាច្រើនសន្លឹក រួចប្រាប់គេបញ្ជាក់ថា "នេះគឺសត្វឆ្កែ"។
Unsupervised Learning ជាវិធីសាស្ត្ររៀនដោយម៉ាស៊ីនដែលមិនត្រូវការទិន្នន័យបិទស្លាកជាមុនទេ ដោយវាព្យាយាមស្វែងរកលំនាំ (Patterns) ឬការចង្កោម (Clustering) នៃទិន្នន័យដោយខ្លួនឯង ដើម្បីរកមើលភាពមិនប្រក្រតីដែលមិនធ្លាប់ស្គាល់។ ដូចជាការឱ្យក្មេងម្នាក់រៀបចំប្រដាប់ប្រដាក្មេងលេងទៅតាមពណ៌ ឬរូបរាងដោយខ្លួនឯង ដោយគ្មាននរណាប្រាប់មុន។
zero-day attack ជាការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលទាញយកអត្ថប្រយោជន៍ពីចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាង ដែលសូម្បីតែអ្នកបង្កើតកម្មវិធី ឬប្រព័ន្ធការពារក៏មិនទាន់បានដឹង ឬមិនទាន់មានវិធីជួសជុលការពារនៅឡើយ។ ដូចជាចោរដែលរកឃើញវិធីថ្មីដើម្បីបើកសោផ្ទះរបស់អ្នក ដែលសូម្បីតែជាងធ្វើសោក៏មិនធ្លាប់ដឹងពីវិធីនោះពីមុនមកដែរ។
Intrusion Detection System (IDS) ជាប្រព័ន្ធ ឬកម្មវិធីដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញ (Network Traffic) ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការបំពានគោលការណ៍សុវត្ថិភាព ហើយផ្តល់ការព្រមានដល់អ្នកគ្រប់គ្រងប្រព័ន្ធ។ ដូចជាកាមេរ៉ាសុវត្ថិភាព និងសំឡេងរោទិ៍នៅក្នុងធនាគារ ដែលនឹងបន្លឺឡើងនៅពេលមាននរណាម្នាក់ព្យាយាមលួចចូលក្នុងតំបន់ហាមឃាត់។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយ (Algorithm) ដ៏ពេញនិយមក្នុង Supervised Learning ដែលវាប្រើប្រាស់គណិតវិទ្យាដើម្បីគូសបន្ទាត់ ឬប្លង់ (Hyperplane) ខណ្ឌចែកប្រភេទនៃទិន្នន័យឱ្យដាច់ពីគ្នា ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចំណាត់ថ្នាក់ទិន្នន័យ។ ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ច្បាស់លាស់មួយនៅលើដី ដើម្បីបែងចែកតំបន់មានសុវត្ថិភាព និងតំបន់គ្រោះថ្នាក់ឱ្យដាច់ពីគ្នា។
Anomaly Detection ជាដំណើរការនៃការកំណត់អត្តសញ្ញាណទិន្នន័យ ព្រឹត្តិការណ៍ ឬការសង្កេតកត់សម្គាល់ ដែលមិនស្របទៅនឹងលំនាំធម្មតាដែលរំពឹងទុក ដែលភាគច្រើនចង្អុលបង្ហាញពីបញ្ហា ឬការវាយប្រហារ (Cyber threats)។ ដូចជាគ្រូបង្រៀនដែលឆាប់ចាប់អារម្មណ៍ដឹងថាសិស្សម្នាក់កំពុងលួចចម្លងគេ ព្រោះសកម្មភាពរបស់សិស្សនោះខុសប្លែកពីទម្លាប់ធម្មតារបស់គាត់។
Clustering Algorithms ជាក្បួនដោះស្រាយគណិតវិទ្យាក្នុង Unsupervised Learning ដែលមានតួនាទីប្រមូលផ្តុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាទៅជាក្រុម (Clusters) តែមួយ ដើម្បីងាយស្រួលវិភាគ និងរកមើលភាពខុសប្រក្រតីដោយស្វ័យប្រវត្តិ។ ដូចជាការតម្រៀបសិស្សក្នុងសាលាទៅតាមចំណង់ចំណូលចិត្ត ឬកម្រិតសមត្ថភាពរបស់ពួកគេដោយស្វ័យប្រវត្តិដើម្បីងាយស្រួលគ្រប់គ្រង។
Data Labeling ជាដំណើរការនៃការកំណត់អត្តសញ្ញាណ និងបិទស្លាកទិន្នន័យឆៅ (Raw Data) ដើម្បីបញ្ជាក់ប្រាប់ម៉ូដែល Machine Learning ថាតើទិន្នន័យនោះតំណាងឱ្យអ្វី (ឧទាហរណ៍៖ កំណត់ថាជាចរាចរណ៍ធម្មតា ឬមេរោគ) ដែលវាទាមទារការចំណាយធនធានច្រើន។ ដូចជាការសរសេរឈ្មោះបិទលើប្រអប់គ្រឿងទេសនីមួយៗក្នុងឃ្លាំង ដើម្បីងាយស្រួលយកមកប្រើប្រាស់នៅពេលក្រោយដោយមិនច្រឡំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖