Original Title: Identification and Monitoring of Malware with Several Detection System – A Systematic Review
Source: www.journaleca.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកំណត់អត្តសញ្ញាណ និងការត្រួតពិនិត្យមេរោគកុំព្យូទ័រដោយប្រើប្រាស់ប្រព័ន្ធចាប់យកជាច្រើន – ការត្រួតពិនិត្យជាប្រព័ន្ធ

ចំណងជើងដើម៖ Identification and Monitoring of Malware with Several Detection System – A Systematic Review

អ្នកនិពន្ធ៖ Rounakkumar Vasani, Harshal A. Sanghvi, Ankur Agarwal, Viral Parmar, Aviral Srivastava, Abhijit S. Pandya

ឆ្នាំបោះពុម្ព៖ 2022 Journal of Engineering, Computing & Architecture

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាការគំរាមកំហែងដែលកំពុងកើនឡើងនៃមេរោគកុំព្យូទ័រ (Malware) កម្រិតខ្ពស់ និងភាពមានកម្រិតនៃប្រព័ន្ធចាប់យកការវាយប្រហារ (IDS) បែបប្រពៃណីក្នុងការការពារទិន្នន័យ និងបណ្តាញកុំព្យូទ័រ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការត្រួតពិនិត្យឯកសារស្រាវជ្រាវជាប្រព័ន្ធ ដោយវិភាគទៅលើបច្ចេកទេសចាប់យកមេរោគកុំព្យូទ័រទំនើបៗ រួមមានការរៀនដោយម៉ាស៊ីន (Machine Learning) និងការវិភាគអាកប្បកិរិយា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Deep Autoencoder (with Fuzzy c-means)
ម៉ូដែលរៀនស៊ីជម្រៅ Autoencoder រួមជាមួយក្បួនដោះស្រាយ Fuzzy c-means
អាចទាញយកលក្ខណៈពិសេសដោយស្វ័យប្រវត្តិ និងដកចេញនូវទិន្នន័យដែលមានបញ្ហាដូចជាបាត់បង់លក្ខណៈសម្បត្តិ និងមានព័ត៌មានជាន់គ្នា។ មិនមានប្រសិទ្ធភាពគ្រប់គ្រាន់ក្នុងការប្រឆាំងនឹងទិន្នន័យរំខាន (Noise) និងជួបបញ្ហានៅពេលមានទិន្នន័យជាន់គ្នាដែលមានឈ្មោះថ្នាក់ (Class) ខុសគ្នា។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតរហូតដល់ ៩៧,៩% និងអត្រា Recall ៩៨,០% ក្នុងការកំណត់អត្តសញ្ញាណ។
IDSGAN (Intrusion Detection System Generative Adversarial Network)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតសម្រាប់ការសាកល្បងវាយប្រហារ (IDSGAN)
មានសមត្ថភាពបង្កើតចរាចរណ៍បណ្តាញមេរោគក្លែងក្លាយ (Adversarial attacks) ដែលមានលក្ខណៈដូចទិន្នន័យពិត ដើម្បីសាកល្បងភាពរឹងមាំរបស់ប្រព័ន្ធការពារ។ ទាមទារការយល់ដឹងខ្ពស់ពីការរៀបចំទិន្នន័យ និងអាចធ្វើឱ្យប្រព័ន្ធបាត់បង់សមត្ថភាពចាប់យកមេរោគប្រសិនបើហ្វឹកហាត់មិនបានត្រឹមត្រូវ។ អាចវាយលុកគេចផុតពីប្រព័ន្ធ IDS ដោយធ្វើឱ្យអត្រាចាប់យក (Detection rate) របស់ម៉ូដែលមួយចំនួនធ្លាក់ចុះជិតដល់ ០។
RNNs and CNNs (Deep Learning for IDS)
បណ្តាញសរសៃប្រសាទ RNNs និង CNNs សម្រាប់ការចាប់យកការវាយប្រហារ
CNNs មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគមេរោគដោយផ្ទាល់ពីកូដ (Dalvik bytecode) របស់ Android ចំណែក RNNs ពូកែខាងវិភាគលំនាំទិន្នន័យតាមពេលវេលា។ ទាមទារការពន្លឿនដោយប្រើប្រាស់ GPU និងថាមពលគណនាដ៏ធំ (Massive computational power) ដើម្បីហ្វឹកហាត់ម៉ូដែល។ RNN សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់ទិន្នន័យ CICIDS2018 រីឯ CNN ទទួលបានលទ្ធផលល្អបំផុតសម្រាប់សំណុំទិន្នន័យ Bot-IoT។
Traditional Static & Dynamic Analysis (Heuristics & Sandboxing)
ការវិភាគបែបស្តាទិច និងឌីណាមិកប្រពៃណី (Heuristics និង Sandboxing)
អាចរកឃើញហានិភ័យថ្មីៗតាមរយៈការវិភាគអាកប្បកិរិយាធៀបនឹងសកម្មភាពធម្មតា ហើយ Sandboxing អនុញ្ញាតឱ្យសាកល្បងកូដក្នុងបរិស្ថានឯកោប្រកបដោយសុវត្ថិភាព។ ចំណាយពេលយូរ បង្កឱ្យមានការថយចុះដំណើរការប្រព័ន្ធ (Performance issues) និងអាចត្រូវចាញ់បោកមេរោគទំនើបដែលដឹងថាវាកំពុងស្ថិតក្នុងប្រអប់ខ្សាច់ (Sandbox-aware malware)។ មិនគ្រប់គ្រាន់ក្នុងការការពារមេរោគកម្រិតខ្ពស់ទំនើបៗទេ លុះត្រាតែត្រូវប្រើរួមផ្សំជាមួយដំណោះស្រាយ AI/ML (NGAV)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាប្រព័ន្ធចាប់យកការវាយប្រហារ និងមេរោគទំនើបៗទាមទារថាមពលកុំព្យូទ័រ (Computational Power) យ៉ាងធំធេង ជាពិសេសសម្រាប់ការហ្វឹកហាត់ម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលចាំបាច់ត្រូវមានការជួយជ្រោមជ្រែងពីហាដវែរកម្រិតខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យអន្តរជាតិស្តង់ដារ (ដូចជា CICIDS2018, Bot-IoT និងទិន្នន័យពីបរិស្ថាន Cloud របស់លោកខាងលិច) សម្រាប់ការហ្វឹកហាត់។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យមេរោគក្នុងស្រុក និងកង្វះការកត់ត្រាលក្ខណៈនៃការវាយប្រហារជាក់លាក់លើបណ្តាញតំបន់ អាចធ្វើឱ្យម៉ូដែលផ្អែកលើ AI ទាំងនេះមិនមានភាពច្បាស់លាស់ពេញលេញ (False Positives ច្រើន) នៅពេលយកមកអនុវត្តផ្ទាល់លើហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាក្នុងប្រទេស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសរៀនស៊ីជម្រៅ និងប្រព័ន្ធចាប់យកមេរោគផ្អែកលើការវិភាគអាកប្បកិរិយាដែលបានលើកឡើងក្នុងឯកសារនេះ ពិតជាមានសក្តានុពល និងសារៈសំខាន់ខ្លាំងសម្រាប់ពង្រឹងសន្តិសុខសាយប័រនៅកម្ពុជា។

ទោះបីជាបច្ចេកវិទ្យា AI ក្នុងការចាប់យកមេរោគមានភាពជឿនលឿនកម្រិតណាក្តី ការអនុវត្តនៅកម្ពុជាចាំបាច់ត្រូវចាប់ផ្តើមពីការកសាងហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័ររឹងមាំ (Cloud/GPU) និងការបណ្តុះបណ្តាលធនធានមនុស្សលើវិទ្យាសាស្ត្រទិន្នន័យជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះសន្តិសុខបណ្តាញ និងការវិភាគមេរោគ: និស្សិតគួរសិក្សាស្វែងយល់ពីទម្រង់នៃការវិភាគមេរោគ (Malware Analysis) ទាំងបែបវិភាគស្តាទិច និងការវិភាគឌីណាមិក (Dynamic Analysis) ដោយប្រើប្រាស់ឧបករណ៍សាកល្បងដោយសុវត្ថិភាពដូចជា Cuckoo Sandbox ដើម្បីមើលពីអាកប្បកិរិយារបស់កូដមេរោគ។
  2. រៀនសរសេរកូដ និងប្រើប្រាស់បណ្ណាល័យ Machine Learning: ផ្តើមការសរសេរកូដជាមួយនឹង Python រួចប្រើប្រាស់បណ្ណាល័យ AI ដូចជា TensorFlow ដើម្បីសាកល្បងបង្កើតម៉ូដែល Autoencoder សម្រាប់ការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីទិន្នន័យ។
  3. អនុវត្តការវិភាគជាមួយសំណុំទិន្នន័យសន្តិសុខសាយប័រស្តង់ដារ: ទាញយកសំណុំទិន្នន័យដែលបើកចំហរដូចជា CICIDS2018Bot-IoT យកមកសម្អាត (Data Preprocessing) រួចធ្វើការសាកល្បងហ្វឹកហាត់ម៉ូដែល CNN វាយតម្លៃរកអត្រាភាពត្រឹមត្រូវ (Accuracy) របស់វា។
  4. យល់ដឹងពីការវាយប្រហារបោកប្រាស់ប្រព័ន្ធ AI (Adversarial Attacks): សិក្សាស្រាវជ្រាវអំពីដំណើរការរបស់ Generative Adversarial Networks (GANs) និងការអនុវត្តដូចជាបច្ចេកទេស IDSGAN ដើម្បីយល់ដឹងពីរបៀបដែលមេរោគអាចបង្កើតទិន្នន័យក្លែងក្លាយបោកបញ្ឆោតប្រព័ន្ធការពារសន្តិសុខ។
  5. សាកល្បងពង្រាយប្រព័ន្ធ Endpoint Protection ចុះក្នុងម៉ាស៊ីនពិត: ដំឡើងប្រព័ន្ធ Wazuh EDR ឬប្រព័ន្ធ Elastic Security នៅក្នុងបរិស្ថាន Cloud Server ផ្ទាល់ខ្លួន ដើម្បីអនុវត្តការចាប់យកភាពមិនប្រក្រតី (Anomaly Detection) និងឆ្លើយតបទៅនឹងការគំរាមកំហែងជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Generative Adversarial Networks (GAN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលផ្សំឡើងពីម៉ូដែលពីរ (Generator និង Discriminator) ដែលប្រកួតប្រជែងគ្នា។ ម៉ូដែលមួយព្យាយាមបង្កើតទិន្នន័យក្លែងក្លាយឱ្យដូចពិត ចំណែកមួយទៀតព្យាយាមចាប់កំហុសវា។ ក្នុងបរិបទនេះ វាត្រូវបានប្រើដើម្បីបង្កើតចរាចរណ៍មេរោគក្លែងក្លាយដើម្បីសាកល្បងភាពរឹងមាំរបស់ប្រព័ន្ធការពារ។ ដូចជាការលេងល្បែងប្រកួតប្រជែងរវាងអ្នកក្លែងបន្លំលុយ (Generator) និងប៉ូលីសត្រួតពិនិត្យលុយពិត (Discriminator) រហូតដល់អ្នកក្លែងបន្លំអាចធ្វើបានយ៉ាងស្ទាត់ជំនាញ។
Intrusion Detection System (IDS) ប្រព័ន្ធសន្តិសុខដែលត្រួតពិនិត្យចរាចរណ៍បណ្តាញកុំព្យូទ័រជាប់ជាប្រចាំ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការបំពានគោលការណ៍សន្តិសុខនានា រួចផ្តល់សញ្ញាព្រមានដល់អ្នកគ្រប់គ្រងប្រព័ន្ធដើម្បីចាត់វិធានការបន្ត។ ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធរោទិ៍នៅក្នុងផ្ទះ ដែលបន្លឺសំឡេងព្រមាននៅពេលមានមនុស្សចម្លែកលួចចូល។
Static Analysis វិធីសាស្ត្រវិភាគកូដ ឬរចនាសម្ព័ន្ធរបស់កម្មវិធីកុំព្យូទ័រដើម្បីរកមើលមេរោគ ដោយមិនចាំបាច់ដំណើរការ (Execute) កម្មវិធីនោះឡើយ។ វាផ្តោតលើការពិនិត្យមើលពាក្យបញ្ជា (Syntax) និងហត្ថលេខា (Signatures) របស់ឯកសារ។ ដូចជាការអានសៀវភៅរូបមន្តធ្វើម្ហូបដើម្បីដឹងថាវាមានជាតិពុលឬអត់ ដោយមិនបាច់ចម្អិន ឬភ្លក់ម្ហូបនោះដោយផ្ទាល់។
Dynamic Analysis ការតាមដាន និងវិភាគអាកប្បកិរិយារបស់កម្មវិធីកុំព្យូទ័រ ឬមេរោគ នៅពេលដែលវាកំពុងត្រូវបានអនុញ្ញាតឱ្យដំណើរការជាក់ស្តែង ដើម្បីមើលថាតើវាធ្វើសកម្មភាពអ្វីខ្លះទៅលើប្រព័ន្ធ (ឧ. ការផ្លាស់ប្តូរឯកសារ ឬការភ្ជាប់បណ្តាញ)។ ដូចជាការបើកបររថយន្តថ្មីមួយនៅលើទីលានសាកល្បង ដើម្បីវាយតម្លៃពីដំណើរការ និងម៉ាស៊ីនជាក់ស្តែងរបស់វា។
Sandboxing បច្ចេកទេសសន្តិសុខដែលដាក់កម្មវិធីគួរឱ្យសង្ស័យឱ្យដំណើរការនៅក្នុងបរិស្ថានឯកោ (Isolated Environment) និងមានការគ្រប់គ្រងតឹងរ៉ឹង ដើម្បីតាមដានសកម្មភាពរបស់វាដោយមិនឱ្យប៉ះពាល់ដល់ទិន្នន័យពិតប្រាកដ ឬប្រព័ន្ធប្រតិបត្តិការចម្បង។ ដូចជាការដាក់សត្វមានពិសចូលក្នុងប្រអប់កញ្ចក់បិទជិត ដើម្បីសិក្សាពីវាដោយមិនខ្លាចវាខាំ ឬរត់ចេញមកក្រៅបាន។
Endpoint Detection and Response (EDR) ដំណោះស្រាយសន្តិសុខដែលបន្តត្រួតពិនិត្យ ប្រមូលទិន្នន័យ និងវិភាគសកម្មភាពពីឧបករណ៍ចុងក្រោយ (Endpoints ដូចជាកុំព្យូទ័រ ឬទូរស័ព្ទអ្នកប្រើប្រាស់) ដើម្បីរកមើល និងឆ្លើយតបទៅនឹងការគំរាមកំហែងសន្តិសុខដោយស្វ័យប្រវត្តិ។ ដូចជាការដាក់ឆ្មាំយាមប្រចាំការនៅគ្រប់ច្រកទ្វារចេញចូលនៃអគារនីមួយៗ ដើម្បីកត់ត្រា និងទប់ស្កាត់ជនសង្ស័យភ្លាមៗនៅនឹងកន្លែង។
Heuristic Analysis បច្ចេកទេសវិភាគដែលមិនពឹងផ្អែកលើការស្គាល់ហត្ថលេខាមេរោគចាស់ៗ តែប្រើប្រាស់ការកំណត់អត្តសញ្ញាណតាមរយៈការវិភាគអាកប្បកិរិយា ឬលក្ខណៈខុសប្រក្រតីធៀបនឹងសកម្មភាពធម្មតារបស់ប្រព័ន្ធ ដើម្បីរកឱ្យឃើញមេរោគថ្មីៗដែលមិនធ្លាប់ស្គាល់ពីមុនមក (Zero-day threats)។ ដូចជាការសង្ស័យលើនរណាម្នាក់ថាជាចោរ ដោយផ្អែកលើសកម្មភាពលួចលាក់របស់គេ ទោះបីជាគេមិនធ្លាប់មានប្រវត្តិឧក្រិដ្ឋកម្មពីមុនមកក៏ដោយ។
Deep Autoencoder ប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលប្រើសម្រាប់បង្រួមទិន្នន័យទៅជាលក្ខណៈពិសេសតូចៗ (Encoding) រួចព្យាយាមបំប្លែងវាត្រឡប់មកដូចដើមវិញ (Decoding) ដើម្បីរៀនពីលំនាំទិន្នន័យ និងដកចេញនូវទិន្នន័យដែលជារំខាន (Noise)។ ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយឱ្យនៅត្រឹមមួយទំព័រ រួចព្យាយាមសរសេរសៀវភៅនោះឡើងវិញដោយផ្អែកលើក្រដាសសង្ខេបនោះ ដើម្បីទាញយកតែអត្ថន័យសំខាន់ៗបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖