Original Title: Machine Learning for Cyber Defense: A Comparative Analysis of Supervised and Unsupervised Learning Approaches
Source: jrtdd.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនដោយម៉ាស៊ីនសម្រាប់ការការពារតាមប្រព័ន្ធអ៊ីនធឺណិត៖ ការវិភាគប្រៀបធៀបនៃវិធីសាស្រ្តរៀនមានការគ្រប់គ្រង និងគ្មានការគ្រប់គ្រង

ចំណងជើងដើម៖ Machine Learning for Cyber Defense: A Comparative Analysis of Supervised and Unsupervised Learning Approaches

អ្នកនិពន្ធ៖ Gangadhar Sadaram, KishanKumar Routhu, Vasu Velaga, Suneel Babu Boppana, Niharika Katnapally, Manikanth Sakuru

ឆ្នាំបោះពុម្ព៖ 2023 Journal for Re Attach Therapy and Developmental Diversities

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទនេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវទំហំ និងភាពស្មុគស្មាញនៃការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិត (Cyber threats) ដែលទាមទារឱ្យមានយន្តការការពារកម្រិតខ្ពស់ហួសពីប្រព័ន្ធការពារធម្មតា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគប្រៀបធៀប (Comparative analysis) ដោយធ្វើការពិនិត្យលើអត្ថបទស្រាវជ្រាវចំនួន ៥៨ ទាក់ទងនឹងការអនុវត្តយន្តការរៀនដោយម៉ាស៊ីនក្នុងវិស័យសន្តិសុខអ៊ីនធឺណិត។

ការរៀនមានការគ្រប់គ្រង (Supervised Learning) ដូចជា SVM និង Decision Trees
ការរៀនគ្មានការគ្រប់គ្រង (Unsupervised Learning) ដូចជា Clustering និង K-means
ការវាយតម្លៃរង្វាស់ (Evaluation Metrics) រួមមាន ភាពត្រឹមត្រូវ (Accuracy), Precision, Recall និង F1-score

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយមានការគ្រប់គ្រង (Supervised algorithms) មានប្រសិទ្ធភាពខ្ពស់ និងងាយស្រួលកំណត់រចនាសម្ព័ន្ធក្នុងការរកឃើញការវាយប្រហារលើទិន្នន័យដែលស្គាល់មុន (Labeled data)។
ការរៀនគ្មានការគ្រប់គ្រង (Unsupervised learning) កំពុងមានសន្ទុះកើនឡើងខ្លាំង ព្រោះវាមានសមត្ថភាពខ្ពស់ក្នុងការរកឃើញលំនាំថ្មីៗ និងការវាយប្រហារប្រភេទមិនធ្លាប់មានពីមុនមក (Zero-day attacks) ដោយមិនត្រូវការបិទស្លាកទិន្នន័យ។
ការការពារតាមប្រព័ន្ធអ៊ីនធឺណិតនាពេលអនាគតត្រូវពឹងផ្អែកកាន់តែខ្លាំងលើវិធីសាស្ត្ររៀនរួមបញ្ចូលគ្នា ឬពាក់កណ្តាលមានការគ្រប់គ្រង (Semi-supervised) ដើម្បីសម្របខ្លួនទៅនឹងការវិវឌ្ឍនៃបច្ចេកវិទ្យា និងទម្រង់នៃការវាយប្រហារដ៏ស្មុគស្មាញ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Supervised Learning ការរៀនមានការគ្រប់គ្រង (Supervised Learning)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការរកឃើញការវាយប្រហារដែលស្គាល់ស្រាប់បានយ៉ាងច្បាស់លាស់ និងផ្តល់លទ្ធផលចំណាត់ថ្នាក់បានល្អសម្រាប់ការវាយប្រហារទម្រង់ចាស់ៗ។	ទាមទារទិន្នន័យដែលបានបិទស្លាក (labeled data) ច្រើន ដែលត្រូវចំណាយពេលវេលានិងថវិកាខ្ពស់ ហើយមិនសូវមានប្រសិទ្ធភាពក្នុងការរកឃើញការវាយប្រហារថ្មីៗ (Zero-day)។	ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់ (Accuracy) និងភាពជាក់លាក់ខ្ពស់ (Precision) លើការវាយតម្លៃសំណុំទិន្នន័យដូចជា Spam Collection និង KDD99។
Unsupervised Learning ការរៀនគ្មានការគ្រប់គ្រង (Unsupervised Learning)	មិនត្រូវការទិន្នន័យដែលបានបិទស្លាក និងមានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរ និងរកឃើញលំនាំវាយប្រហារថ្មីៗ (Zero-day attacks)។	អាចបង្កើតការព្រមានខុស (false alarms) ច្រើនជាង និងតម្រូវឱ្យមានការកំណត់កម្រិតភាពត្រឹមត្រូវនៃចង្កោម (cluster validity) ដើម្បីចៀសវាងការចាប់យកចំណុចទិន្នន័យខុស។	អាចចង្កោមទិន្នន័យប្រកបដោយប្រសិទ្ធភាពដោយមិនបាច់ដឹងព័ត៌មានពីមុន ប៉ុន្តែអត្រា Precision អាចទាបជាងប្រសិនបើមិនមានការកំណត់ទំហំចង្កោមបានល្អដោយប្រើ Silhouette Score។
Semi-Supervised Learning ការរៀនពាក់កណ្តាលមានការគ្រប់គ្រង (Semi-Supervised Learning)	ដោះស្រាយបញ្ហាកង្វះខាតទិន្នន័យបិទស្លាក ដោយអនុញ្ញាតឱ្យប្រើទិន្នន័យបិទស្លាកតិចតួចរួមបញ្ចូលជាមួយទិន្នន័យមិនបិទស្លាកក្នុងចំនួនច្រើន។	ប្រសិនបើការសន្មត់លក្ខណៈស្រដៀងគ្នានៃទិន្នន័យមានកំហុស វាអាចនឹងបណ្តាលឱ្យម៉ូដែលយល់ច្រឡំ និងកាត់បន្ថយភាពត្រឹមត្រូវក្នុងការវាយតម្លៃ។	ជួយបង្កើនភាពជាក់លាក់ក្នុងការធ្វើទូទៅកម្ម (generalization) នៃបញ្ហាសន្តិសុខបណ្តាញលើសពីទិន្នន័យដែលបានបិទស្លាក។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធការពារតាមរយៈ Machine Learning ទាមទារការវិនិយោគខ្ពស់លើការរៀបចំទិន្នន័យ និងកម្លាំងគណនាកុំព្យូទ័រ ដើម្បីធានាបាននូវប្រសិទ្ធភាពនៃម៉ូដែល។

Data Labeling: ការចំណាយពេលវេលា និងកម្លាំងពលកម្មខ្ពស់ក្នុងការបិទស្លាកទិន្នន័យ (Data Labeling) ដែលជាឧបសគ្គធំបំផុតសម្រាប់វិស័យ Cyber Defense។
Hardware & Infrastructure: ត្រូវការប្រព័ន្ធកុំព្យូទ័រមានសមត្ថភាពខ្ពស់ (Cloud computing/IoT resources) និង GPU សម្រាប់ដំណើរការបណ្តាញ Deep Learning អោយបានលឿន។
Datasets: ការពឹងផ្អែកលើសំណុំទិន្នន័យខ្នាតធំ (Big Data) និងសំណុំទិន្នន័យស្តង់ដារដូចជា DARPA 2000 (KDD99), Enron និង Twitter Dataset។
Expertise: ទាមទារអ្នកជំនាញផ្នែកសន្តិសុខអ៊ីនធឺណិត និងអ្នកវិភាគទិន្នន័យ ដើម្បីកំណត់ Hyperparameters និងជ្រើសរើស Evaluation Metrics អោយបានត្រឹមត្រូវ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិចាស់ៗ (ដូចជា KDD99, Enron, Twitter) ដែលភាគច្រើនប្រមូលបានពីបរិបទប្រទេសលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមមួយ ពីព្រោះទម្រង់នៃការវាយប្រហារ ទម្លាប់ប្រើប្រាស់បណ្តាញ និងសារបោកប្រាស់តាមទូរស័ព្ទ (Phishing) ជាភាសាខ្មែរ មានលក្ខណៈខុសប្លែកពីទិន្នន័យទាំងនេះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកផ្ទាល់ដើម្បីហ្វឹកហាត់ម៉ូដែលឱ្យមានប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ការអនុវត្តបច្ចេកទេស Machine Learning សម្រាប់ Cyber Defense គឺពិតជាមានភាពចាំបាច់ និងអាចឆ្លើយតបទៅនឹងការវិវឌ្ឍផ្នែកឌីជីថលនៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance Sector): ធនាគារក្នុងស្រុក (ឧទាហរណ៍ ធនាគារអេស៊ីលីដា, ABA) អាចប្រើប្រាស់ Unsupervised Learning សម្រាប់ការរកឃើញប្រតិបត្តិការខុសប្រក្រតី (Anomaly Detection) ដើម្បីទប់ស្កាត់ការក្លែងបន្លំ និងការលួចគណនីធនាគារ។
វិស័យទូរគមនាគមន៍ (Telecommunications Sector): ក្រុមហ៊ុនផ្តល់សេវាទូរស័ព្ទ (ដូចជា Smart, Cellcard) អាចប្រើប្រាស់ Supervised Learning ដើម្បីត្រងសារបោកប្រាស់ (SMS Spam) និងការពារអតិថិជនពីតំណភ្ជាប់គ្រោះថ្នាក់។
ហេដ្ឋារចនាសម្ព័ន្ធរដ្ឋាភិបាល (Government Infrastructure): ក្រសួង និងស្ថាប័នរដ្ឋអាចអនុវត្ត Intrusion Detection Systems (IDS) ផ្អែកលើ AI ដើម្បីការពារមជ្ឈមណ្ឌលទិន្នន័យជាតិ (National Data Centers) ពីការវាយប្រហារតាមអ៊ីនធឺណិត។

ការបោះជំហានទៅរកការប្រើប្រាស់ Machine Learning នឹងជួយផ្លាស់ប្តូរយុទ្ធសាស្ត្រការពារសន្តិសុខអ៊ីនធឺណិតនៅកម្ពុជា ពីការទប់ស្កាត់បែបប្រពៃណី ទៅជាការការពារដោយស្វ័យប្រវត្តិ និងឆ្លាតវៃជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះសន្តិសុខបណ្តាញ និង ML: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការវាយប្រហារបណ្តាញ (Network attacks) និងក្បួនដោះស្រាយចំណាត់ថ្នាក់ (Classification Algorithms) ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ជាមួយភាសា Python។
អនុវត្តលើសំណុំទិន្នន័យគំរូ (Benchmark Datasets): ទាញយកសំណុំទិន្នន័យស្តង់ដារដូចជា KDD99 ឬ NSL-KDD ពី Kaggle ដើម្បីហ្វឹកហាត់ម៉ូដែល Decision Tree និង Support Vector Machine ក្នុងការបែងចែកចរាចរណ៍បណ្តាញធម្មតា និងការវាយប្រហារ។
សាកល្បងជាមួយវិធីសាស្ត្រការរៀនគ្មានការគ្រប់គ្រង (Unsupervised Learning): ប្រើប្រាស់ក្បួនដោះស្រាយ K-Means Clustering និង PCA លើទិន្នន័យដែលមិនបានបិទស្លាក ដើម្បីរៀនពីរបៀបស្វែងរកភាពមិនប្រក្រតី និងវាយតម្លៃដោយប្រើ Silhouette Score។
អភិវឌ្ឍប្រព័ន្ធរកឃើញការឈ្លានពាន (Intrusion Detection System): បង្កើតគម្រោងដោយប្រើ TensorFlow ឬ PyTorch ដើម្បីបង្កើតម៉ូដែល Deep Learning សម្រាប់វិភាគ Log files ពិតប្រាកដក្នុងពេលវេលាជាក់ស្តែង (Real-time tracking)។
ប្រមូល និងបន្សាំទិន្នន័យបរិបទកម្ពុជា: សហការជាមួយសាកលវិទ្យាល័យ ឬស្ថាប័ននានាដើម្បីប្រមូលទិន្នន័យទាក់ទងនឹងចរាចរណ៍អ៊ីនធឺណិតក្នុងស្រុក ឬសារ Phishing SMS ជាភាសាខ្មែរ ហើយប្រើប្រាស់បច្ចេកទេស Semi-Supervised Learning ដើម្បីបង្កើនប្រសិទ្ធភាពម៉ូដែល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Supervised Learning	ជាវិធីសាស្ត្របង្រៀនម៉ាស៊ីនដោយប្រើសំណុំទិន្នន័យដែលបានបិទស្លាក (Labeled Data) ជាមុនរួចរាល់ ដើម្បីប្រាប់ម៉ាស៊ីនឱ្យដឹងថាតើទិន្នន័យណាជាចរាចរណ៍ធម្មតា និងទិន្នន័យណាជាការវាយប្រហារ។	ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបថតសត្វឆ្កែជាច្រើនសន្លឹក រួចប្រាប់គេបញ្ជាក់ថា "នេះគឺសត្វឆ្កែ"។
Unsupervised Learning	ជាវិធីសាស្ត្ររៀនដោយម៉ាស៊ីនដែលមិនត្រូវការទិន្នន័យបិទស្លាកជាមុនទេ ដោយវាព្យាយាមស្វែងរកលំនាំ (Patterns) ឬការចង្កោម (Clustering) នៃទិន្នន័យដោយខ្លួនឯង ដើម្បីរកមើលភាពមិនប្រក្រតីដែលមិនធ្លាប់ស្គាល់។	ដូចជាការឱ្យក្មេងម្នាក់រៀបចំប្រដាប់ប្រដាក្មេងលេងទៅតាមពណ៌ ឬរូបរាងដោយខ្លួនឯង ដោយគ្មាននរណាប្រាប់មុន។
zero-day attack	ជាការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដែលទាញយកអត្ថប្រយោជន៍ពីចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាង ដែលសូម្បីតែអ្នកបង្កើតកម្មវិធី ឬប្រព័ន្ធការពារក៏មិនទាន់បានដឹង ឬមិនទាន់មានវិធីជួសជុលការពារនៅឡើយ។	ដូចជាចោរដែលរកឃើញវិធីថ្មីដើម្បីបើកសោផ្ទះរបស់អ្នក ដែលសូម្បីតែជាងធ្វើសោក៏មិនធ្លាប់ដឹងពីវិធីនោះពីមុនមកដែរ។
Intrusion Detection System (IDS)	ជាប្រព័ន្ធ ឬកម្មវិធីដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញ (Network Traffic) ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការបំពានគោលការណ៍សុវត្ថិភាព ហើយផ្តល់ការព្រមានដល់អ្នកគ្រប់គ្រងប្រព័ន្ធ។	ដូចជាកាមេរ៉ាសុវត្ថិភាព និងសំឡេងរោទិ៍នៅក្នុងធនាគារ ដែលនឹងបន្លឺឡើងនៅពេលមាននរណាម្នាក់ព្យាយាមលួចចូលក្នុងតំបន់ហាមឃាត់។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយ (Algorithm) ដ៏ពេញនិយមក្នុង Supervised Learning ដែលវាប្រើប្រាស់គណិតវិទ្យាដើម្បីគូសបន្ទាត់ ឬប្លង់ (Hyperplane) ខណ្ឌចែកប្រភេទនៃទិន្នន័យឱ្យដាច់ពីគ្នា ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចំណាត់ថ្នាក់ទិន្នន័យ។	ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ច្បាស់លាស់មួយនៅលើដី ដើម្បីបែងចែកតំបន់មានសុវត្ថិភាព និងតំបន់គ្រោះថ្នាក់ឱ្យដាច់ពីគ្នា។
Anomaly Detection	ជាដំណើរការនៃការកំណត់អត្តសញ្ញាណទិន្នន័យ ព្រឹត្តិការណ៍ ឬការសង្កេតកត់សម្គាល់ ដែលមិនស្របទៅនឹងលំនាំធម្មតាដែលរំពឹងទុក ដែលភាគច្រើនចង្អុលបង្ហាញពីបញ្ហា ឬការវាយប្រហារ (Cyber threats)។	ដូចជាគ្រូបង្រៀនដែលឆាប់ចាប់អារម្មណ៍ដឹងថាសិស្សម្នាក់កំពុងលួចចម្លងគេ ព្រោះសកម្មភាពរបស់សិស្សនោះខុសប្លែកពីទម្លាប់ធម្មតារបស់គាត់។
Clustering Algorithms	ជាក្បួនដោះស្រាយគណិតវិទ្យាក្នុង Unsupervised Learning ដែលមានតួនាទីប្រមូលផ្តុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាទៅជាក្រុម (Clusters) តែមួយ ដើម្បីងាយស្រួលវិភាគ និងរកមើលភាពខុសប្រក្រតីដោយស្វ័យប្រវត្តិ។	ដូចជាការតម្រៀបសិស្សក្នុងសាលាទៅតាមចំណង់ចំណូលចិត្ត ឬកម្រិតសមត្ថភាពរបស់ពួកគេដោយស្វ័យប្រវត្តិដើម្បីងាយស្រួលគ្រប់គ្រង។
Data Labeling	ជាដំណើរការនៃការកំណត់អត្តសញ្ញាណ និងបិទស្លាកទិន្នន័យឆៅ (Raw Data) ដើម្បីបញ្ជាក់ប្រាប់ម៉ូដែល Machine Learning ថាតើទិន្នន័យនោះតំណាងឱ្យអ្វី (ឧទាហរណ៍៖ កំណត់ថាជាចរាចរណ៍ធម្មតា ឬមេរោគ) ដែលវាទាមទារការចំណាយធនធានច្រើន។	ដូចជាការសរសេរឈ្មោះបិទលើប្រអប់គ្រឿងទេសនីមួយៗក្នុងឃ្លាំង ដើម្បីងាយស្រួលយកមកប្រើប្រាស់នៅពេលក្រោយដោយមិនច្រឡំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖