Original Title: Interpreting Machine Learning-Based Intrusion Detection in IoT using Explainable AI: A Case Study with Explainable Boosting Machine
Source: www.ccsc.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបកស្រាយការរកឃើញការគំរាមកំហែងចូលក្នុងប្រព័ន្ធ IoT ផ្អែកលើការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដោយប្រើ AI ដែលអាចពន្យល់បាន៖ ការសិក្សាស្រាវជ្រាវជាមួយ Explainable Boosting Machine

ចំណងជើងដើម៖ Interpreting Machine Learning-Based Intrusion Detection in IoT using Explainable AI: A Case Study with Explainable Boosting Machine

អ្នកនិពន្ធ៖ Yizhou Xu, Whitman College, Parteek Kumar, Whitman College

ឆ្នាំបោះពុម្ព៖ 2023 The Journal of Computing Sciences in Colleges

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធរកឃើញការវាយប្រហារ (Intrusion Detection Systems) សម្រាប់ Internet of Things (IoT) ដែលប្រើប្រាស់ការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ច្រើនតែខ្វះសមត្ថភាពក្នុងការពន្យល់ពីដំណើរការសម្រេចចិត្តរបស់វា ដែលធ្វើឱ្យមានការព្រួយបារម្ភអំពីភាពជឿជាក់ក្នុងការអនុវត្តជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់អភិក្រមបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI) ដើម្បីវាយតម្លៃ និងបកស្រាយដំណើរការសម្រេចចិត្តរបស់ម៉ូដែល Machine Learning ដែលរកឃើញការគំរាមកំហែង។

ការប្រើប្រាស់ម៉ូដែល Explainable Boosting Machine (EBM) សម្រាប់ធ្វើចំណាត់ថ្នាក់ប្រភេទការវាយប្រហារ
ការវិភាគលើទិន្នន័យចរាចរណ៍បណ្តាញ IoT ចំនួន ២,៨៨ លានករណី (2.88 Million IoT Traffic Instances)
ការវាយតម្លៃសារៈសំខាន់នៃលក្ខណៈពិសេស (Feature Importance Analysis) ដូចជា Inter-Arrival Times, កម្រិត R-squared, និង TCP Flags

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល EBM សម្រេចបានអត្រាភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ ៩៩,៤% និងពិន្ទុ F1-score ចំនួន ៩២,៨% ក្នុងការបែងចែកប្រភេទការវាយប្រហារចំនួន ៦ ប្រភេទ។
ការវិភាគទៅលើកត្តាសម្រេចចិត្តរបស់ម៉ូដែលបង្ហាញថា កត្តាភាគច្រើនគឺស្របទៅនឹងគោលការណ៍សុវត្ថិភាពសាយប័រ (Cybersecurity Principles) ជាមូលដ្ឋាន។
ទោះជាយ៉ាងណាក៏ដោយ ម៉ូដែលនេះត្រូវបានគេរកឃើញថាពឹងផ្អែកខ្លាំងពេកទៅលើលក្ខណៈជាក់លាក់នៃទិន្នន័យដែលបានបង្ហាត់ ដែលបង្ហាញពីដែនកំណត់នៃភាពអាចជឿជាក់បាននៅពេលយកទៅប្រើប្រាស់ក្នុងការរកឃើញការវាយប្រហារក្នុងពិភពពិត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Explainable Boosting Machine (EBM) ម៉ូដែល EBM ដែលផ្តោតលើសមត្ថភាពអាចពន្យល់បាន	មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តរបស់ម៉ូដែលបានយ៉ាងច្បាស់លាស់។	ពឹងផ្អែកខ្លាំងពេកទៅលើលក្ខណៈជាក់លាក់នៃទិន្នន័យដែលបានបង្ហាត់ ដែលអាចធ្វើឱ្យវាខកខានក្នុងការរកឃើញការវាយប្រហារទម្រង់ថ្មីៗ។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩៩,៤% និងពិន្ទុ F1 ៩២,៨%។
Traditional Black-Box Machine Learning (e.g., SVM, Deep Learning) ម៉ូដែលរៀនម៉ាស៊ីនទូទៅ និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត	មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគទិន្នន័យចម្រុះ និងស្មុគស្មាញ ដើម្បីរកឃើញការវាយប្រហារ។	មិនអាចពន្យល់ពីដំណើរការខាងក្នុងនៃការសម្រេចចិត្តរបស់វាបានទេ ដែលធ្វើឱ្យមានការពិបាកក្នុងការជឿទុកចិត្ត និងយកទៅប្រើប្រាស់ក្នុងពិភពពិត។	ត្រូវបានលើកឡើងជាបញ្ហាចម្បងដែលរារាំងការយកទៅអនុវត្តជាក់ស្តែងក្នុងប្រព័ន្ធ IoT ដោយសារកង្វះតម្លាភាព។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រមធ្យមសម្រាប់ដំណើរការទិន្នន័យធំ និងទាមទារចំណេះដឹងស៊ីជម្រៅផ្នែកសុវត្ថិភាពបណ្តាញដើម្បីបកស្រាយលទ្ធផល។

Dataset: ទិន្នន័យចរាចរណ៍បណ្តាញ IoT ចំនួន ២,៨៨ លានករណី (ប្រមូលពីឧបករណ៍ IoT ជាក់ស្តែងចំនួន ១០៥) ដែលមានទាំងទិន្នន័យវាយប្រហារ និងធម្មតា។
Software: ភាសា Python រួមជាមួយបណ្ណាល័យ Scikit-learn (សម្រាប់ថ្លឹងថ្លែងទិន្នន័យ) និងបណ្ណាល័យដែលអាចរត់ម៉ូដែល EBM ដូចជា InterpretML។
Hardware: កុំព្យូទ័រដែលមានកម្លាំង CPU និង RAM គ្រប់គ្រាន់សម្រាប់បង្ហាត់ម៉ូដែលលើទិន្នន័យរាប់លានជួរ។
Expertise: ទាមទារចំណេះដឹងផ្នែក Cybersecurity ជាពិសេសលើកម្រិត Network Protocols (TCP Flags, Inter-Arrival Times) និងការយល់ដឹងពីការរៀនរបស់ម៉ាស៊ីន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីឧបករណ៍ IoT ចំនួន ១០៥ ដែលមានអតុល្យភាពទិន្នន័យខ្លាំង (ឧ. ការវាយប្រហារ ICMP Flood មានដល់ទៅ ៧ លានករណី ឯ HTTP Flood មានត្រឹម ២៩ ពាន់ករណី)។ សម្រាប់ប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ណាស់ ព្រោះប្រព័ន្ធ IoT ក្នុងស្រុកអាចប្រឈមនឹងទម្រង់នៃការវាយប្រហារផ្សេងៗពីនេះ ហើយម៉ូដែលអាចនឹងមិនស្គាល់ការវាយប្រហារប្រភេទថ្មីៗឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ម៉ូដែល EBM នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដើម្បីកសាងប្រព័ន្ធសុវត្ថិភាពសាយប័រដែលមានតម្លាភាព និងងាយស្រួលតាមដានកំហុស។

ក្រុមហ៊ុនផ្តល់សេវាទូរគមនាគមន៍ (Telecom/ISPs): អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីរកឃើញការវាយប្រហារទម្រង់ DDoS ឬ DoS ទៅលើបណ្តាញអតិថិជន ព្រមទាំងមានសមត្ថភាពអាចពន្យល់ពីមូលហេតុច្បាស់លាស់ក្នុងការទប់ស្កាត់ IP ណាមួយ។
គម្រោងទីក្រុងឆ្លាតវៃ (Smart City Initiatives): ប្រើសម្រាប់ការពារឧបករណ៍ IoT សាធារណៈ (ដូចជាកាមេរ៉ាសុវត្ថិភាព និងប្រព័ន្ធភ្លើងស្តុបឆ្លាតវៃ) ពីការគ្រប់គ្រងដោយ Mirai Botnet ដែលធ្លាប់ជួបប្រទះជាញឹកញាប់។
ស្ថាប័នធនាគារ និងហិរញ្ញវត្ថុ: ពង្រឹងប្រព័ន្ធតាមដានសុវត្ថិភាពបណ្តាញ (Intrusion Detection System) ដោយប្រើ AI ដែលអាចពន្យល់បាន ដើម្បីងាយស្រួលក្នុងការធ្វើសវនកម្ម (Audit) និងគោរពតាមបទដ្ឋានបទប្បញ្ញត្តិ។

សរុបមក អភិក្រម AI ដែលអាចពន្យល់បាននេះ (EBM) គឺជាជម្រើសដ៏ប្រសើរមួយសម្រាប់អ្នកជំនាញសុវត្ថិភាពនៅកម្ពុជា ព្រោះវាផ្តល់នូវតុល្យភាពរវាងភាពត្រឹមត្រូវខ្ពស់ និងការជឿទុកចិត្តបានក្នុងការអនុវត្តជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃបណ្តាញ និងសុវត្ថិភាព: ចាប់ផ្តើមដោយការសិក្សាពី TCP/IP Protocols, ការវាយប្រហារទម្រង់ DDoS, និងចរាចរណ៍ទិន្នន័យរបស់ឧបករណ៍ IoT ដើម្បីមានមូលដ្ឋានរឹងមាំក្នុងការវិភាគ។
ប្រមូល និងរៀបចំទិន្នន័យចរាចរណ៍បណ្តាញ (Data Preprocessing): ប្រើប្រាស់ឧបករណ៍ដូចជា Wireshark ដើម្បីចាប់យកចរាចរណ៍បណ្តាញ ឬទាញយកទិន្នន័យស្រាវជ្រាវ (ឧ. CICIoT2023) យកមកសម្អាត និងថ្លឹងថ្លែងទិន្នន័យ (Data Balancing) ដោយប្រើ Scikit-learn។
អភិវឌ្ឍម៉ូដែល Explainable Boosting Machine: ប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ InterpretML ដើម្បីសរសេរកូដបង្កើត និងបង្ហាត់ម៉ូដែល EBM ក្នុងការធ្វើចំណាត់ថ្នាក់ប្រភេទនៃការវាយប្រហារផ្សេងៗ។
វិភាគ និងបកស្រាយលទ្ធផល (Feature Analysis): ប្រើប្រាស់មុខងារ Visualization របស់ EBM ដើម្បីទាញយកក្រាហ្វិក និងស្វែងយល់ពីឥទ្ធិពលនៃកត្តាសំខាន់ៗដូចជា Inter-Arrival Times (IATs) និង TCP Flags ទៅលើការសម្រេចចិត្តរបស់ម៉ូដែល។
ធ្វើតេស្ត និងដាក់ពង្រាយជាប្រព័ន្ធ IDS ជាក់ស្តែង: សាកល្បងម៉ូដែលជាមួយទិន្នន័យប្រភេទនៃការវាយប្រហារថ្មីៗ និងធ្វើការដាក់ពង្រាយ (Deploy) វាទៅក្នុងប្រព័ន្ធ Intrusion Detection System (IDS) ដើម្បីតាមដានសុវត្ថិភាពបណ្តាញក្នុងពេលជាក់ស្តែង (Real-time)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Explainable Boosting Machine	ជាប្រភេទម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning) មួយដែលមិនត្រឹមតែអាចទស្សន៍ទាយ ឬរកកំហុសបានច្បាស់លាស់ទេ ថែមទាំងអាចបង្ហាញប្រាប់ពីមូលហេតុច្បាស់លាស់ដែលវាកាត់ក្តីបែបនេះ ដើម្បីឱ្យមនុស្សងាយស្រួលយល់ និងជឿទុកចិត្តបាន។	ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់ថាអ្នកមានជំងឺអ្វីនោះទេ តែថែមទាំងពន្យល់ច្បាស់ពីមូលហេតុ និងរោគសញ្ញាដែលនាំឱ្យគាត់ធ្វើរោគវិនិច្ឆ័យចេញជាលទ្ធផលបែបនេះ។
Intrusion Detection System	ជាប្រព័ន្ធសុវត្ថិភាពបណ្តាញកុំព្យូទ័រដែលតាមដានចរាចរណ៍ទិន្នន័យជានិច្ច ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការវាយប្រហារណាមួយដែលលួចចូលមកក្នុងប្រព័ន្ធ ហើយផ្តល់ដំណឹងដល់អ្នកគ្រប់គ្រងដើម្បីទប់ស្កាត់។	ដូចជាសន្តិសុខយាមច្រកទ្វារក្រុមហ៊ុន ដែលចាំពិនិត្យមើលអ្នកចេញចូលគ្រប់គ្នា ហើយរាយការណ៍ភ្លាមៗបើឃើញជនសង្ស័យប៉ុនប៉ងលួចចូល។
Inter-Arrival Times	ជារង្វាស់ពេលវេលាដែលខុសគ្នារវាងការមកដល់នៃកញ្ចប់ទិន្នន័យ (Packets) ពីរជាប់ៗគ្នាក្នុងបណ្តាញកុំព្យូទ័រ។ ក្នុងសុវត្ថិភាពសាយប័រ ការដែលទិន្នន័យមកដល់លឿនខុសប្រក្រតី (ពេលខ្លី) អាចបញ្ជាក់ពីការវាយប្រហារប្រភេទកកស្ទះ (DoS ឬ DDoS)។	ដូចជាចន្លោះពេលដែលរថយន្តនីមួយៗបើកកាត់ផ្លូវទូទាត់ប្រាក់ បើឡានមកដល់លឿនផ្ទួនៗគ្នាខុសធម្មតា វាអាចជាសញ្ញាបញ្ជាក់ថាមានការប៉ុនប៉ងធ្វើឱ្យស្ទះចរាចរណ៍ដោយចេតនា។
TCP Flags	ជាសញ្ញាសម្គាល់នៅក្នុងកញ្ចប់ទិន្នន័យបណ្តាញ ដែលប្រើសម្រាប់ចាប់ផ្តើម (SYN) ឬបញ្ជាក់ការទទួលបានទិន្នន័យ (ACK) ក្នុងការធ្វើទំនាក់ទំនងគ្នារវាងកុំព្យូទ័រ។ ហេកឃ័រតែងតែប្រើប្រាស់វាខុសគោលដៅដើម្បីបោកបញ្ឆោតប្រព័ន្ធឱ្យជាប់គាំង។	ដូចជាការប្រើប្រាស់ភ្លើងស៊ីញ៉ូឡាន ហេកឃ័រអាចនឹងបើកភ្លើងស៊ីញ៉ូបត់ឆ្វេង (SYN) រហូត តែមិនព្រមបត់ ដើម្បីធ្វើឱ្យឡានក្រោយៗមានការភ័ន្តច្រឡំនិងគាំងផ្លូវ។
Mirai Botnet	ជាប្រភេទមេរោគកុំព្យូទ័រដ៏សាហាវមួយដែលចូលទៅគ្រប់គ្រងឧបករណ៍ IoT ផ្សេងៗ (ដូចជាកាមេរ៉ាសុវត្ថិភាព ឬរ៉ោតទ័រ) រាប់ម៉ឺនគ្រឿង រួចបញ្ជាពួកវាឱ្យព្រួតគ្នាវាយប្រហារដោយបញ្ជូនទិន្នន័យទៅកាន់ប្រព័ន្ធគោលដៅតែមួយដើម្បីឱ្យគាំង។	ដូចជាមេក្លោងដែលចូលទៅបញ្ជាហ្វូងខ្មោចឆៅ (Zombies) រាប់ពាន់ក្បាលឱ្យសម្រុកទៅវាយលុកបន្ទាយតែមួយក្នុងពេលដំណាលគ្នា។
Feature Importance	ជាការវាយតម្លៃរបស់ប្រព័ន្ធ AI ទៅលើចំណុចលម្អិតនៃទិន្នន័យនីមួយៗ ថាតើចំណុចណាខ្លះដែលមានឥទ្ធិពលខ្លាំងជាងគេក្នុងការជួយឱ្យម៉ូដែលសម្រេចចិត្តទស្សន៍ទាយកំហុសឆ្គង ឬការវាយប្រហារបានត្រឹមត្រូវ។	ដូចជាការវាយតម្លៃរបស់អ្នកស៊ើបអង្កេត ដែលចាត់ទុកថាស្នាមម្រាមដៃនៅលើកាំភ្លើង គឺជាភស្តុតាងដែលមានទម្ងន់ធ្ងន់ជាងគេបំផុតក្នុងការកាត់ក្តីរកឃាតក។
Black-Box Model	ជាប្រព័ន្ធរៀនម៉ាស៊ីនមានភាពស្មុគស្មាញខ្លាំង ដែលវាអាចផ្តល់លទ្ធផលត្រឹមត្រូវ ប៉ុន្តែដំណើរការខាងក្នុងនៃការគិតរបស់វាគឺលាក់កំបាំង ដែលធ្វើឱ្យអ្នកជំនាញពិបាកក្នុងការពន្យល់ពីរបៀបដែលវាទាញបានលទ្ធផលនោះ។	ដូចជាម៉ាស៊ីនផលិតទឹកក្រឡុក ដែលយើងដឹងថាយើងដាក់ផ្លែឈើចូលទៅ វាចេញមកជាទឹកក្រឡុកដ៏ឆ្ងាញ់ តែយើងមើលមិនឃើញសោះថានៅខាងក្នុងម៉ាស៊ីននោះវាកិនកាត់យ៉ាងម៉េចខ្លះទើបចេញលទ្ធផលបែបនេះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖