Original Title: Employing Incremental Learning for the Detection of Multiclass New Malware Variants
Source: doi.org/10.17485/IJST/v17i10.2862
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់ការរៀនបន្ថែម (Incremental Learning) ដើម្បីស្វែងរកវ៉ារ្យង់មេរោគថ្មីៗដែលមានច្រើនប្រភេទ

ចំណងជើងដើម៖ Employing Incremental Learning for the Detection of Multiclass New Malware Variants

អ្នកនិពន្ធ៖ Mohammad Eid Alzahrani (Department of Computer Science, Faculty of Computing & Information, Al-Baha University, Saudi Arabia)

ឆ្នាំបោះពុម្ព៖ 2024 (Indian Journal of Science and Technology)

វិស័យសិក្សា៖ Computer Science / Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការវិវត្តយ៉ាងឆាប់រហ័សរបស់មេរោគកុំព្យូទ័រ (Malware variants) ដែលធ្វើឱ្យកម្មវិធីកម្ចាត់មេរោគតាមបែបប្រពៃណីពិបាកក្នុងការរកឃើញ និងទាមទារការបង្វឹកគំរូឡើងវិញទាំងស្រុងដែលចំណាយពេលនិងធនធានច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្រការរៀនបន្ថែម (Incremental Learning) ដែលអនុញ្ញាតឱ្យប្រព័ន្ធរក្សាចំណេះដឹងដែលមានស្រាប់ និងបន្តរៀនពីទិន្នន័យថ្មីៗដើម្បីសម្របខ្លួនទៅនឹងការគំរាមកំហែងដែលផ្លាស់ប្តូរ។

ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks) និង Convolutional Neural Networks (CNNs) សម្រាប់ការរៀនបន្ថែម។
ការវិភាគសមាសធាតុសំខាន់ (PCA) សម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យនិងជ្រើសរើសលក្ខណៈពិសេស។
ការពិសោធន៍លើសំណុំទិន្នន័យចំនួន ៦ ផ្សេងគ្នា (ដូចជា VirusShare និង Kaggle) ដែលមានសំណាកសរុប ១៥៨,១០១។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូដែលបានស្នើឡើងទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៩.៣៤% ក្នុងការរកឃើញការវាយប្រហារ។
ប្រព័ន្ធនេះមានសមត្ថភាពក្នុងការកំណត់អត្តសញ្ញាណប្រភេទមេរោគចំនួន ១៥ ប្រភេទផ្សេងៗគ្នា និងអាចបែងចែកវ៉ារ្យង់ថ្មីៗបានយ៉ាងមានប្រសិទ្ធភាព។
វិធីសាស្ត្រនេះបង្ហាញពីភាពល្អប្រសើរជាងវិធីសាស្ត្ររៀនម៉ាស៊ីនប្រពៃណី ដោយសារវាអាចធ្វើបច្ចុប្បន្នភាពចំណេះដឹងជាបន្តបន្ទាប់ដោយមិនចាំបាច់បង្វឹកគំរូឡើងវិញពីចំណុចចាប់ផ្តើម។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Proposed Incremental Learning Model គំរូការរៀនបន្ថែមដែលបានស្នើឡើង (ដោយប្រើ CNN និង PCA)	មានសមត្ថភាពធ្វើបច្ចុប្បន្នភាពចំណេះដឹងជាបន្តបន្ទាប់ដោយមិនចាំបាច់បង្វឹកគំរូឡើងវិញពីដើម និងអាចរកឃើញប្រភេទមេរោគថ្មីៗបានយ៉ាងមានប្រសិទ្ធភាព។	ទាមទារការរចនាប្រព័ន្ធដ៏ស្មុគស្មាញដើម្បីថ្លឹងថ្លែងរវាងការរក្សាចំណេះដឹងចាស់ និងការទទួលយកចំណេះដឹងថ្មី (Stability-Plasticity Dilemma)។	សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៩.៣៤% និង F1-Score ៩៩.២១% លើទិន្នន័យចម្រុះ។
Traditional Machine Learning ការរៀនម៉ាស៊ីនបែបប្រពៃណី (Static Learning)	ងាយស្រួលក្នុងការអនុវត្តដំបូង និងមានប្រសិទ្ធភាពខ្ពស់លើទិន្នន័យដែលមានលក្ខណៈថេរ។	មិនអាចសម្របខ្លួនទៅនឹងមេរោគបំប្លែងថ្មីបានល្អ និងតម្រូវឱ្យបង្វឹកគំរូឡើងវិញទាំងស្រុងដែលចំណាយពេលនិងធនធានច្រើន។	មានការលំបាកក្នុងការរកឃើញប្រភេទមេរោគថ្មី (Zero-day attacks) បើប្រៀបធៀបនឹងវិធីសាស្ត្រ Incremental។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថាគំរូនេះអាចដំណើរការបានយ៉ាងល្អលើកុំព្យូទ័រដែលមានកម្លាំងមធ្យម មិនចាំបាច់ត្រូវការម៉ាស៊ីនមេ (Server) ខ្នាតធំពេកទេ។

Hardware: កុំព្យូទ័រ Intel Core i7-7500 CPU @ 3.0 GHz និង RAM 8 GB (កម្រិតកុំព្យូទ័រយួរដៃទូទៅ)។
Software: ភាសា Python និងបណ្ណាល័យ PyTorch សម្រាប់បង្កើតគំរូ Deep Learning។
Dataset: ទិន្នន័យចំនួន ១៥៨,១០១ ឯកសារ (Benign និង Malicious) ដែលបានមកពី VirusShare, Kaggle និង Malware Capture Facility Project។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យអន្តរជាតិ (VirusShare, Kaggle) ដែលមានលក្ខណៈទូទៅ។ សម្រាប់បរិបទកម្ពុជា វាអាចខ្វះទិន្នន័យអំពីមេរោគដែលបង្កើតឡើងជាក់លាក់ដើម្បីវាយប្រហារធនាគារ ឬស្ថាប័នក្នុងស្រុក ប៉ុន្តែលក្ខណៈបច្ចេកទេសនៃមេរោគគឺមានលក្ខណៈសកល ដូច្នេះនៅតែអាចអនុវត្តបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ដោយសារស្ថាប័នភាគច្រើនមិនទាន់មានធនធានកុំព្យូទ័រខ្នាតធំដើម្បីបង្វឹក AI ជារៀងរាល់ថ្ងៃ។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Banking & MFI): អាចជួយប្រព័ន្ធសុវត្ថិភាពរបស់ធនាគារ (ដូចជា ACLEDA ឬ ABA) ក្នុងការចាប់យកមេរោគថ្មីៗដែលព្យាយាមលួចទិន្នន័យហិរញ្ញវត្ថុដោយមិនចាំបាច់បិទប្រព័ន្ធដើម្បីបង្វឹក AI ឡើងវិញ។
ការផ្តល់សេវាអ៊ីនធឺណិត (ISPs): ក្រុមហ៊ុនអ៊ីនធឺណិតនៅកម្ពុជាអាចប្រើប្រាស់វាដើម្បីវិភាគចរាចរណ៍បណ្តាញ (Network Traffic) និងទប់ស្កាត់ការវាយប្រហារ DDoS ពី Botnet ថ្មីៗ។
សន្តិសុខជាតិ (National Cybersecurity): ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ អាចប្រើបច្ចេកវិទ្យានេះដើម្បីតាមដានការគំរាមកំហែងតាមប្រព័ន្ធអ៊ីនធឺណិតដែលវិវត្តជាប្រចាំ។

បច្ចេកវិទ្យានេះផ្តល់នូវដំណោះស្រាយដែលមានប្រសិទ្ធភាពខ្ពស់ និងសន្សំសំចៃធនធាន ដែលស័ក្តិសមសម្រាប់បរិបទនៃប្រទេសកំពុងអភិវឌ្ឍន៍ដូចកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ និងឧបករណ៍: និស្សិតគួរចាប់ផ្តើមដោយសិក្សាភាសា Python និងបណ្ណាល័យ PyTorch ព្រមទាំងស្វែងយល់ពីគោលការណ៍នៃ Incremental Learning និង Convolutional Neural Networks (CNN)។
ការប្រមូល និងរៀបចំទិន្នន័យ: ទាញយកសំណុំទិន្នន័យពី Kaggle (Malware Dataset) និងអនុវត្តបច្ចេកទេស Principal Component Analysis (PCA) ដើម្បីកាត់បន្ថយចំនួន Features ដូចដែលបានណែនាំក្នុងអត្ថបទ។
ការបង្កើតគំរូពិសោធន៍: សរសេរកូដដើម្បីបង្កើតគំរូ CNN ដែលមានសមត្ថភាពធ្វើបច្ចុប្បន្នភាពទម្ងន់ (Weights) នៃស្រទាប់ចុងក្រោយ (Softmax Layer) នៅពេលមានទិន្នន័យថ្មីចូលមក ដោយមិនបាត់បង់ចំណេះដឹងចាស់។
ការវាយតម្លៃ និងការកែសម្រួល: ធ្វើតេស្តគំរូដោយបញ្ចូលទិន្នន័យជាបន្តបន្ទាប់ (Stream of data) និងវាស់វែងប្រសិទ្ធភាពដោយប្រើ F1-Score ដើម្បីធានាថាគំរូនៅតែរក្សាភាពត្រឹមត្រូវខ្ពស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Incremental Learning	គឺជាវិធីសាស្ត្រនៃ Machine Learning ដែលអនុញ្ញាតឱ្យប្រព័ន្ធបន្តរៀនពីទិន្នន័យថ្មីៗជាបន្តបន្ទាប់ ដោយរក្សាចំណេះដឹងចាស់ទុក និងមិនចាំបាច់បង្ហាត់គំរូ (Model) ឡើងវិញតាំងពីដើមនោះទេ។	ដូចជាគ្រូពេទ្យម្នាក់ដែលបន្តរៀនអំពីជំងឺថ្មីៗបន្ថែមទៀតនៅក្នុងអាជីពរបស់គាត់ ដោយមិនចាំបាច់ត្រឡប់ទៅរៀននៅសាលាពេទ្យឡើងវិញពីដំបូងឡើយ។
Stochastic Gradient Descent (SGD)	គឺជាបច្ចេកទេសគណិតវិទ្យាដែលប្រើដើម្បីកែតម្រូវប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែលបន្តិចម្តងៗ ដើម្បីកាត់បន្ថយកំហុសក្នុងការទស្សន៍ទាយ ដោយធ្វើការគណនាលើផ្នែកតូចៗនៃទិន្នន័យជាជាងទិន្នន័យទាំងអស់។	ដូចជាការដើរចុះពីលើភ្នំនៅពេលមានអ័ព្ទ ដោយឈានជើងមួយជំហានម្តងៗទៅតាមជម្រាលដីដែលនៅពីមុខ ដើម្បីចុះទៅដល់ដីរាបស្មើ។
Softmax function	គឺជាអនុគមន៍គណិតវិទ្យាដែលបំប្លែងពិន្ទុឆៅ (Raw scores) ពីបណ្តាញសរសៃប្រសាទ (Neural Network) ទៅជាភាគរយនៃប្រូបាប៊ីលីតេ ដើម្បីកំណត់ថាតើទិន្នន័យនោះស្ថិតក្នុងក្រុមមួយណា (ឧទាហរណ៍៖ ជាមេរោគ ឬមិនមែន)។	ដូចជាការបំប្លែងចំនួនសន្លឹកឆ្នោតទៅជាភាគរយ ដើម្បីមើលថាបេក្ខជនមួយណាមានសង្ឃឹមឈ្នះច្រើនជាងគេ។
Principal Component Analysis (PCA)	គឺជាវិធីសាស្ត្រកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ ដោយជ្រើសរើសយកតែលក្ខណៈសំខាន់ៗបំផុត និងលុបបំបាត់ព័ត៌មានដែលមិនចាំបាច់ ឬស្ទួនគ្នា ដើម្បីឱ្យកុំព្យូទ័រដំណើរការលឿន។	ដូចជាការសង្ខេបសៀវភៅដ៏ក្រាស់មួយក្បាល មកនៅត្រឹមប៉ុន្មានទំព័រដែលមានតែចំណុចសំខាន់ៗបំផុត។
Convolutional Neural Network (CNN)	គឺជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (AI) ដែលមានសមត្ថភាពខ្ពស់ក្នុងការវិភាគរូបភាព ឬទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រឡា ដើម្បីស្វែងរកលក្ខណៈពិសេសដោយស្វ័យប្រវត្តិ។	ដូចជាការប្រើកែវយឹតដើម្បីពិនិត្យមើលរូបភាពមួយផ្នែកម្តងៗ ដើម្បីស្វែងរកលក្ខណៈពិសេសដូចជា គែម ឬរូបរាងរបស់វត្ថុ។
Transfer Learning	គឺជាបច្ចេកទេសដែលយកចំណេះដឹងពីម៉ូដែល AI ដែលបានបង្ហាត់រួចរាល់លើការងារមួយ (ដែលមានទិន្នន័យច្រើន) មកប្រើប្រាស់ដើម្បីដោះស្រាយបញ្ហាថ្មីមួយទៀតដែលស្រដៀងគ្នា ដើម្បីកុំឱ្យខាតពេលបង្ហាត់ថ្មី។	ដូចជាអ្នកចេះលេងហ្គីតាស្រាប់ អាចយកជំនាញនោះទៅរៀនលេងឧបករណ៍តន្ត្រី អ៊ុយគូលេឡេ (Ukulele) បានលឿនជាងអ្នកមិនចេះសោះ។
Fine-tuning	គឺជាដំណើរការកែតម្រូវបន្តិចបន្តួចទៅលើម៉ូដែល AI ដែលមានស្រាប់ (Pre-trained model) ដើម្បីឱ្យវាធ្វើការកាន់តែច្បាស់លាស់ជាមួយទិន្នន័យថ្មី ឬកិច្ចការជាក់លាក់ណាមួយ។	ដូចជាការបង្វិលប៊ូតុងវិទ្យុតិចៗ ដើម្បីឱ្យសំឡេងកាន់តែច្បាស់ បន្ទាប់ពីបានរកឃើញប៉ុស្តិ៍ដែលចង់ស្តាប់ឃើញហើយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖