Original Title: Trust and Transparency in AI-Based Intrusion Detection Systems
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ទំនុកចិត្ត និងតម្លាភាពនៅក្នុងប្រព័ន្ធស្វែងរកការជ្រៀតចូលដោយប្រើបញ្ញាសិប្បនិម្មិត (AI)

ចំណងជើងដើម៖ Trust and Transparency in AI-Based Intrusion Detection Systems

អ្នកនិពន្ធ៖ Charles James

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ធម្មជាតិជាប្រអប់ខ្មៅ (black-box) នៃប្រព័ន្ធស្វែងរកការជ្រៀតចូលដោយប្រើ AI (IDS) បង្កើតឱ្យមានកង្វះខាតការបកស្រាយ ដែលរារាំងដល់ទំនុកចិត្តរបស់អ្នកប្រើប្រាស់ និងបង្កជាក្តីបារម្ភផ្នែកក្រមសីលធម៌លើការប្រើប្រាស់ទិន្នន័យនៅក្នុងសន្តិសុខអ៊ីនធឺណិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះ ដោយរួមបញ្ចូលការវិភាគទ្រឹស្តី ការសិក្សាករណីក្នុងវិស័យសំខាន់ៗ និងការវាយតម្លៃជាក់ស្តែង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional IDS (Signature-based or heuristic)
ប្រព័ន្ធស្វែងរកការជ្រៀតចូលបែបប្រពៃណី (ផ្អែកលើហត្ថលេខា ឬ Heuristic)
មានប្រសិទ្ធភាពក្នុងកម្រិតជាក់លាក់សម្រាប់ការគំរាមកំហែង និងការវាយប្រហារដែលគេស្គាល់ទម្រង់រួចហើយ។ ជួបការលំបាកក្នុងការសម្របខ្លួន និងស្វែងរកការគំរាមកំហែងថ្មីៗដែលកំពុងវិវឌ្ឍ (Zero-day attacks)។ មិនអាចទប់ទល់នឹងការគំរាមកំហែងកម្រិតខ្ពស់បានល្អ និងមិនមានភាពបត់បែនគ្រប់គ្រាន់។
Black-box AI-based IDS (ML and DL)
ប្រព័ន្ធស្វែងរកការជ្រៀតចូលដោយប្រើ AI បែបប្រអប់ខ្មៅ (ML និង DL)
មានភាពសុក្រឹតខ្ពស់ អាចវិភាគទិន្នន័យក្នុងបរិមាណដ៏ធំ និងអាចទស្សន៍ទាយការគំរាមកំហែងបានយ៉ាងល្អ។ ខ្វះតម្លាភាព និងពិបាកបកស្រាយអំពីដំណើរការនៃការសម្រេចចិត្ត (Black-box) ដែលធ្វើឱ្យអ្នកប្រើប្រាស់ខ្វះទំនុកចិត្ត។ ផ្តល់នូវភាពសុក្រឹតខ្ពស់ក្នុងការរកឃើញ (Detection accuracy) ប៉ុន្តែបង្កក្តីបារម្ភផ្នែកក្រមសីលធម៌ និងទំនុកចិត្ត។
XAI-integrated IDS
ប្រព័ន្ធស្វែងរកការជ្រៀតចូលរួមបញ្ចូលជាមួយ XAI (បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន)
ផ្តល់ការពន្យល់ដែលអាចអានបានដោយមនុស្ស បង្កើនទំនុកចិត្ត និងជួយសម្រួលដល់ការស្វែងរកកំហុស (Troubleshooting)។ បង្កើនបន្ទុកដល់ដំណើរការកុំព្យូទ័រ (Computational overhead) និងប្រឈមនឹងការថយចុះនៃភាពសុក្រឹតនៅពេលប្រៀបធៀបជាមួយម៉ូដែល DL ស្មុគស្មាញ។ បង្កើនទំនុកចិត្តយ៉ាងខ្លាំងពីសំណាក់បុគ្គលិកព័ត៌មានវិទ្យា (IT staff) តាមរយៈការធ្វើឱ្យការសម្រេចចិត្តមានតម្លាភាព។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារឱ្យមានការវិនិយោគលើធនធានកុំព្យូទ័រ ក៏ដូចជាធនធានមនុស្សដែលមានជំនាញច្បាស់លាស់ដើម្បីធានាបាននូវតម្លាភាព និងប្រសិទ្ធភាពខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ការវិភាគលើករណីសិក្សានៅក្នុងវិស័យហិរញ្ញវត្ថុ ថែទាំសុខភាព និងរដ្ឋាភិបាល ដោយមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រ ឬលក្ខណៈប្រជាសាស្ត្រច្បាស់លាស់នៃទិន្នន័យនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា សំណុំទិន្នន័យនៃការវាយប្រហារតាមអ៊ីនធឺណិត (Cyberattack datasets) ក្នុងស្រុកនៅមានកម្រិតនៅឡើយ ដែលបញ្ហានេះអាចបណ្តាលឱ្យ AI ដែលហ្វឹកហាត់ពីទិន្នន័យបរទេស មានភាពលម្អៀង ឬមិនសូវសុក្រឹតនៅពេលជួបការគំរាមកំហែងជាក់ស្តែងក្នុងតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យា និងក្របខណ្ឌ XAI ដែលបានស្នើឡើងនៅក្នុងឯកសារនេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានសម្រាប់ស្ថាប័ននៅកម្ពុជាដែលកំពុងធ្វើបរិវត្តកម្មឌីជីថល និងជួបប្រទះការវាយប្រហារតាមអ៊ីនធឺណិត។

ការរួមបញ្ចូលគ្នារវាងបច្ចេកវិទ្យា XAI និងការអនុវត្តប្រកបដោយក្រមសីលធម៌ នឹងជួយកម្ពុជាក្នុងការកសាងហេដ្ឋារចនាសម្ព័ន្ធសន្តិសុខអ៊ីនធឺណិតដែលរឹងមាំ និងបង្កើនទំនុកចិត្តខ្ពស់សម្រាប់ការអភិវឌ្ឍសេដ្ឋកិច្ចឌីជីថលប្រកបដោយចីរភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ AI និង XAI: និស្សិតគួរសិក្សាពីទ្រឹស្តី Machine Learning និង Deep Learning ដោយផ្តោតសំខាន់លើបច្ចេកទេសបកស្រាយម៉ូដែល (Model Interpretability)។ គួរអនុវត្តការសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ XAI ដូចជា SHAP (SHapley Additive exPlanations) និង LIME នៅក្នុងភាសា Python ដើម្បីស្វែងយល់ពីរបៀបបកស្រាយការសម្រេចចិត្តរបស់ AI។
  2. ស្វែងយល់ និងសាកល្បងប្រព័ន្ធ IDS ប្រពៃណី: សិក្សាពីស្ថាបត្យកម្មបណ្តាញ (Network Architecture) និងរបៀបដែលប្រព័ន្ធ IDS ប្រពៃណីដំណើរការ។ និស្សិតគួរសាកល្បងដំឡើង និងប្រើប្រាស់កម្មវិធី IDS ដែលជាកូដចំហរ (Open-source) ដូចជា SnortSuricata ដើម្បីស្វែងយល់ពីការវិភាគចរាចរណ៍បណ្តាញ (Network Traffic) ជាមូលដ្ឋាន។
  3. អភិវឌ្ឍម៉ូដែល AI សម្រាប់ការរកឃើញការគំរាមកំហែង: ចាប់ផ្តើមបង្កើតម៉ូដែល AI ស្វែងរកភាពមិនប្រក្រតី (Anomaly detection model) ដោយប្រើប្រាស់សំណុំទិន្នន័យសន្តិសុខអ៊ីនធឺណិតស្តង់ដារ ដូចជាសំណុំទិន្នន័យ NSL-KDDCICIDS2017។ ប្រើប្រាស់ Scikit-learnTensorFlow ដើម្បីហ្វឹកហាត់ម៉ូដែលឱ្យចេះបែងចែករវាងចរាចរណ៍ធម្មតា និងការវាយប្រហារ។
  4. អនុវត្តបច្ចេកទេស XAI លើម៉ូដែល IDS: បញ្ចូលបណ្ណាល័យ XAI (ដូចជា SHAP) ទៅក្នុងម៉ូដែលដែលបានបង្កើត ដើម្បីវិភាគពីមូលហេតុ (Feature attribution) ដែលនាំឱ្យម៉ូដែលសម្រេចចិត្តថាចរាចរណ៍ណាមួយជាការវាយប្រហារ។ ត្រូវធ្វើការកត់ត្រា និងវាយតម្លៃពីផលប៉ះពាល់ទៅលើល្បឿនដំណើរការប្រព័ន្ធ (Computational overhead)។
  5. រៀបចំឧបករណ៍រាយការណ៍ និងក្របខណ្ឌក្រមសីលធម៌: អភិវឌ្ឍផ្ទាំងគ្រប់គ្រង (Dashboard) ឬឧបករណ៍រាយការណ៍ដោយស្វ័យប្រវត្តិ ឧទាហរណ៍ដោយប្រើ StreamlitGradio ដែលអាចបំប្លែងលទ្ធផល XAI ទៅជាភាសាងាយយល់សម្រាប់អ្នកមិនមានជំនាញបច្ចេកទេស ព្រមទាំងតាក់តែងឯកសារណែនាំស្តីពីឯកជនភាពទិន្នន័យ និងតម្លាភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Intrusion Detection Systems (IDS) ប្រព័ន្ធសុវត្ថិភាពបណ្តាញដែលតាមដាននិងវិភាគចរាចរណ៍ទិន្នន័យជាប្រចាំ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការប៉ុនប៉ងជ្រៀតចូលដោយខុសច្បាប់ពីសំណាក់ហេគឃ័រ (Hackers) មកក្នុងប្រព័ន្ធកុំព្យូទ័រ។ វាប្រៀបដូចជាសន្តិសុខយាមច្រកទ្វារអគារ ដែលតែងតែពិនិត្យមើលរាល់អ្នកចេញចូលទាំងអស់ ដើម្បីចាប់មុខអ្នកដែលមានបំណងអាក្រក់។
black-box models ប្រព័ន្ធ ឬម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលទទួលទិន្នន័យនិងផ្តល់លទ្ធផលយ៉ាងសុក្រឹត ប៉ុន្តែមិនបានបង្ហាញ ឬមានភាពស្មុគស្មាញពេកក្នុងការបកស្រាយពីដំណើរការខាងក្នុងថាតើវាគិតនិងសម្រេចចិត្តដោយរបៀបណានោះទេ។ ដូចជាម៉ាស៊ីនទាយអនាគតមួយ ដែលប្រាប់អ្នកពីអ្វីដែលនឹងកើតឡើងយ៉ាងត្រឹមត្រូវ ប៉ុន្តែវាមិនព្រមប្រាប់ពីមូលហេតុ ឬរបៀបដែលវាដឹងរឿងនោះឡើយ។
Explainable AI (XAI) បច្ចេកទេស ឬវិធីសាស្ត្រដែលត្រូវបានបន្ថែមទៅលើម៉ូដែល AI ដើម្បីធ្វើឱ្យម៉ូដែលនោះអាចបង្ហាញពីហេតុផលនៅពីក្រោយការសម្រេចចិត្តរបស់វា ក្នុងទម្រង់ដែលមនុស្សអាចអាន យល់ និងជឿទុកចិត្តបាន។ ប្រៀបដូចជាគ្រូបង្រៀនគណិតវិទ្យាដែលតម្រូវឱ្យសិស្សបង្ហាញពី "របៀបគណនា" មួយជំហានម្តងៗ ជាជាងការសរសេរតែចម្លើយចុងក្រោយ។
zero-day attacks ការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដោយប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាង ដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង និងមិនទាន់មានដំណោះស្រាយការពារ (Patch) នៅឡើយ។ ដូចជាចោរដែលរកឃើញផ្លូវសម្ងាត់ចូលផ្ទះអ្នក ដែលសូម្បីតែអ្នកជាម្ចាស់ផ្ទះ និងជាងសាងសង់ផ្ទះក៏មិនធ្លាប់ដឹងថាមានផ្លូវនោះដែរ។
advanced persistent threats ការវាយប្រហារតាមអ៊ីនធឺណិតដ៏ស្មុគស្មាញ និងមានរយៈពេលយូរ ដែលហេគឃ័រលួចជ្រៀតចូលក្នុងប្រព័ន្ធគោលដៅដោយជោគជ័យ ហើយសម្ងំលាក់ខ្លួនដើម្បីលួចទិន្នន័យបន្តបន្ទាប់ដោយមិនឱ្យគេដឹងខ្លួន។ ដូចជាចារកម្មដែលលួចបន្លំខ្លួនចូលធ្វើការក្នុងក្រុមហ៊ុនរបស់អ្នក ហើយលួចចម្លងឯកសារសំខាន់ៗរាប់ខែឆ្នាំដោយគ្មាននរណាចាប់អារម្មណ៍សង្ស័យ។
feature attribution វិធីសាស្ត្រវិភាគក្នុង XAI ដែលវាស់ស្ទង់ និងបង្ហាញថា លក្ខណៈពិសេស (Features) នៃទិន្នន័យមួយណាដែលមានឥទ្ធិពលខ្លាំងជាងគេ ក្នុងការជំរុញឱ្យម៉ូដែល AI សម្រេចចិត្តបែបនោះ។ ដូចជាការសួរគ្រូពេទ្យថា តើរោគសញ្ញាមួយណា (ក្តៅខ្លួន ឬក្អក) ដែលធ្វើឱ្យគាត់សន្និដ្ឋានច្បាស់ថាអ្នកមានជំងឺផ្តាសាយធំ។
saliency maps បច្ចេកទេសបង្ហាញរូបភាពក្នុង AI ដែលប្រើពណ៌ ឬពន្លឺដើម្បីរំលេចផ្នែកសំខាន់ៗនៃទិន្នន័យ ដែលម៉ូដែល Deep Learning ផ្តោតការយកចិត្តទុកដាក់ខ្លាំងបំផុតនៅពេលវាធ្វើការទស្សន៍ទាយ។ ដូចជាការប្រើប៊ិចហ្វឺតពណ៌ (Highlighter) គូសបញ្ជាក់ពាក្យគន្លឹះសំខាន់ៗនៅក្នុងសៀវភៅ ដើម្បីដឹងថាចំណុចណាជាការសន្និដ្ឋាន។
algorithmic bias ភាពលម្អៀង ឬអយុត្តិធម៌ជាប្រព័ន្ធដែលកើតឡើងនៅពេលម៉ូដែល AI ត្រូវបានហ្វឹកហាត់លើទិន្នន័យដែលមិនមានតុល្យភាព ឬមានការរើសអើងពីអតីតកាល ដែលនាំឱ្យការសម្រេចចិត្តរបស់វាមានភាពលម្អៀង។ ដូចជាក្មេងដែលរៀនទម្លាប់ និងពាក្យអាក្រក់ៗពីមនុស្សជុំវិញខ្លួន ហើយយកមកអនុវត្តតាមដោយមិនដឹងខ្លួនថាវាខុស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖