Original Title: BotSward: Centrality Measures for Graph-Based Bot Detection Using Machine Learning
Source: doi.org/10.32604/cmc.2023.031641
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

BotSward៖ រង្វាស់មជ្ឈិមភាពសម្រាប់ការរកឃើញ Botnets ដោយផ្អែកលើក្រាហ្វ ដោយប្រើប្រាស់ការរៀនរបស់ម៉ាស៊ីន

ចំណងជើងដើម៖ BotSward: Centrality Measures for Graph-Based Bot Detection Using Machine Learning

អ្នកនិពន្ធ៖ Khlood Shinan (Umm Al-Qura University / King Abdulaziz University), Khalid Alsubhi (King Abdulaziz University), M. Usman Ashraf (GC Women University Sialkot)

ឆ្នាំបោះពុម្ព៖ 2023, Computers, Materials & Continua

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញបណ្តាញ Botnet ដែលវិធីសាស្រ្តផ្អែកលើលំហូរទិន្នន័យ (Flow-based) បច្ចុប្បន្នមានការចំណាយពេលវេលាគណនាខ្ពស់ ហើយមិនអាចចាប់យកលំនាំនៃការទំនាក់ទំនងបណ្តាញបានពេញលេញនោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើប្រព័ន្ធ BotSward ដែលជាប្រព័ន្ធរកឃើញ Botnet ផ្អែកលើក្រាហ្វ (Graph-based) ដោយប្រើប្រាស់ក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) និងរង្វាស់មជ្ឈិមភាពដែលមានប្រសិទ្ធភាពខ្ពស់។

ការទាញយកលក្ខណៈពិសេសផ្អែកលើក្រាហ្វ (Graph-based Feature Extraction)
ការប្រើប្រាស់រង្វាស់មជ្ឈិមភាព (Centrality Measures) រួមមាន Closeness Centrality (CC), Degree Centrality (DC) និង PageRank (PR)
ការវាយតម្លៃនិងធ្វើតេស្តលើសំណុំទិន្នន័យពិតប្រាកដ CTU-13 (CTU-13 Dataset Evaluation)
ការប្រៀបធៀបម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine Learning Models Comparison) ដូចជា Random Forest, GBC, SVM និង KNN ជាដើម

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធ BotSward ទទួលបានភាពត្រឹមត្រូវ 99% ក្នុងការរកឃើញការវាយប្រហារបណ្តាញ botnet ជាមួយនឹងអត្រាវិជ្ជមានមិនពិត (False Positive Rate) ទាបបំផុតត្រឹមតែ 0.0001% ប៉ុណ្ណោះ។
ការដកចេញនូវរង្វាស់ Betweenness Centrality (BC) និងជំនួសដោយ Closeness Centrality (CC) បានជួយកាត់បន្ថយពេលវេលាគណនាបានរហូតដល់ 69.5% ដោយនៅតែរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់ដដែល។
ម៉ូដែល Gradient Boosting Classifier (GBC) និង Random Forest (RF) បង្ហាញលទ្ធផលល្អជាងគេបំផុត (99%) បើប្រៀបធៀបជាមួយក្បួនដោះស្រាយផ្សេងទៀត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
BotSward (Proposed Graph-Based Method) វិធីសាស្ត្រ BotSward (ផ្អែកលើក្រាហ្វដោយមិនប្រើប្រាស់រង្វាស់ BC)	មានភាពត្រឹមត្រូវខ្ពស់ខ្លាំង និងមានប្រសិទ្ធភាពផ្នែកពេលវេលា ដោយកាត់បន្ថយពេលវេលាគណនាបានរហូតដល់ 69.5%។ វាអាចទប់ទល់នឹងការវាយប្រហារថ្មីៗ (Zero-day attacks) បានយ៉ាងល្អ។	ទាមទារការព្យាបាលទិន្នន័យបឋម (Preprocessing) ដើម្បីបំប្លែងទិន្នន័យលំហូរបណ្តាញទៅជាទម្រង់ក្រាហ្វ មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល។	ទទួលបានភាពត្រឹមត្រូវ 99% និងអត្រាវិជ្ជមានមិនពិត (False Positive Rate) ត្រឹមតែ 0.0001% ជាមួយនឹងម៉ូដែល Random Forest និង GBC។
BotChase (State-of-the-Art Graph-Based) វិធីសាស្ត្រ BotChase (ផ្អែកលើក្រាហ្វដោយប្រើប្រាស់រង្វាស់ BC)	អាចចាប់យកទំនាក់ទំនងដ៏ស្មុគស្មាញរបស់ Botnet តាមរយៈការវិភាគក្រាហ្វបានយ៉ាងល្អិតល្អន់ ដោយប្រើវិធីសាស្ត្រស្រទាប់ពីរ (Two-layer detection)។	ប្រើប្រាស់ធនធានកុំព្យូទ័រ និងចំណាយពេលគណនាខ្ពស់ខ្លាំង ដោយសារការប្រើប្រាស់រង្វាស់ Betweenness Centrality (BC) លើក្រាហ្វធំៗ។	ទទួលបានភាពត្រឹមត្រូវចន្លោះពី 84% ទៅ 99% អាស្រ័យលើប្រភេទសេណារីយ៉ូនៃការវាយប្រហារ។
Conversation-based Flow Detection វិធីសាស្ត្ររកឃើញផ្អែកលើលំហូរទិន្នន័យសន្ទនា (Flow-based)	មិនតម្រូវឱ្យមានការគណនាស្មុគស្មាញក្នុងការបំប្លែងរចនាសម្ព័ន្ធបណ្តាញទាំងមូលទៅជាក្រាហ្វនោះទេ ដែលជួយសន្សំសំចៃធនធានអង្គចងចាំ។	ងាយរងគ្រោះពីការវាយប្រហារបន្លំ ឬការផ្លាស់ប្តូរទម្រង់កញ្ចប់ទិន្នន័យ (Packet structure) ពីសំណាក់ Hacker ហើយមិនអាចមើលឃើញរូបភាពរួមនៃបណ្តាញ botnet នោះទេ។	ទទួលបានភាពត្រឹមត្រូវប្រមាណ 93.6% (តាមការសិក្សារបស់ Chen et al.) ដែលនៅទាបជាងវិធីសាស្ត្រក្រាហ្វ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ សម្រាប់ការគណនារង្វាស់ក្រាហ្វធំៗ និងការហ្វឹកហាត់ម៉ូដែលរៀនរបស់ម៉ាស៊ីន។

Hardware: កុំព្យូទ័រដែលមាន CPU Intel Core i9-8950HK (2.90 GHz) និង RAM ទំហំ 32 GB ឬការប្រើប្រាស់ GPU/TPU តាមរយៈ Google Colab សម្រាប់ការហ្វឹកហាត់ម៉ូដែលធំៗ។
Software: ប្រើប្រាស់ភាសា Python 3.6 ជាមួយនឹងបណ្ណាល័យសំខាន់ៗដូចជា NetworkX (សម្រាប់បង្កើតក្រាហ្វ), Scikit-learn, Keras, TensorFlow, និង Pandas រួមជាមួយកម្មវិធី Jupyter Notebook។
Dataset: សំណុំទិន្នន័យ CTU-13 ដែលមានទំហំធំ និងមានលក្ខណៈអតុល្យភាព (Imbalanced) ដែលទាមទារការប្រើប្រាស់បច្ចេកទេស Tomek links ដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាព។
Expertise: ចំណេះដឹងផ្នែកទ្រឹស្តីក្រាហ្វ (Graph Theory) រង្វាស់មជ្ឈិមភាព (Centrality Measures) និងការកែសម្រួលប៉ារ៉ាម៉ែត្រម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Hyperparameter tuning ដូចជា Grid Search)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ CTU-13 ដែលត្រូវបានបង្កើតឡើងតាំងពីឆ្នាំ 2011 ដោយសាកលវិទ្យាល័យបច្ចេកទេសឆេក (Czech Republic)។ ទោះបីជាវាជាទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវក៏ដោយ ក៏លំនាំនៃការវាយប្រហាររបស់ botnet នាពេលបច្ចុប្បន្ន (ដូចជា IoT botnets) មានការវិវឌ្ឍច្រើន។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកតែលើទិន្នន័យចាស់ពីតំបន់អឺរ៉ុបនេះ អាចនឹងមិនឆ្លុះបញ្ចាំងពេញលេញពីទម្រង់នៃការវាយប្រហារជាក់ស្តែងតាមរលកសញ្ញាអ៊ីនធឺណិតនៅក្នុងតំបន់អាស៊ីអាគ្នេយ៍នោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រផ្អែកលើក្រាហ្វដោយកាត់បន្ថយពេលវេលាគណនានេះ មានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការយកមកអនុវត្តជាក់ស្តែងនៅកម្ពុជា ជាពិសេសសម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញខ្នាតធំ។

អ្នកផ្តល់សេវាអ៊ីនធឺណិត (ISPs ដូចជា Ezecom, SINET): ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិតអាចប្រើប្រាស់ម៉ូដែលនេះ ដើម្បីត្រួតពិនិត្យចរាចរណ៍បណ្តាញរបស់អតិថិជន និងទប់ស្កាត់ការវាយប្រហារ DDoS ក្នុងទ្រង់ទ្រាយធំដែលបង្កឡើងដោយ Botnet ដោយមិនប៉ះពាល់ដល់ល្បឿនអ៊ីនធឺណិត។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ឧ. ធនាគារជាតិ, ABA): ធនាគារអាចអនុវត្តប្រព័ន្ធផ្អែកលើក្រាហ្វនេះ ដើម្បីតាមដានរាល់ទំនាក់ទំនងខុសប្រក្រតីនៅក្នុង Server របស់ខ្លួន ការពារការលួចទិន្នន័យផ្ទៃក្នុងបញ្ជូនទៅកាន់ម៉ាស៊ីនមេបញ្ជា (C&C Server) របស់ Hacker។
ហេដ្ឋារចនាសម្ព័ន្ធរដ្ឋាភិបាល e-Government (MPTC): ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ អាចទាញយកប្រយោជន៍ពីប្រព័ន្ធនេះដើម្បីការពារបណ្តាញទិន្នន័យជាតិ (National Data Center) ពីមេរោគបំបាំងកាយ (Zero-day attacks) ដែលវិធីសាស្ត្រធម្មតាមិនអាចចាប់បាន។

សរុបមក ការប្រើប្រាស់បច្ចេកទេសក្រាហ្វដែលដកចេញនូវរង្វាស់ស្មុគស្មាញ (BC) គឺជាជម្រើសដ៏វៃឆ្លាតនិងសន្សំសំចៃ ដែលស្ថាប័នកម្ពុជាអាចទទួលយកបានដើម្បីពង្រឹងសន្តិសុខសាយប័រប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ រៀបចំទិន្នន័យ និងដោះស្រាយទិន្នន័យអតុល្យភាព: ទាញយកសំណុំទិន្នន័យបណ្តាញដូចជា CTU-13 រួចប្រើប្រាស់ Pandas ដើម្បីសម្អាតទិន្នន័យទទេ (Null values) និងអនុវត្តបច្ចេកទេស Tomek links ឬ SMOTE ពីបណ្ណាល័យ Imbalanced-learn ដើម្បីធ្វើឱ្យទិន្នន័យថ្នាក់ធម្មតា និងថ្នាក់ Botnet មានតុល្យភាព។
ជំហានទី២៖ បំប្លែងទិន្នន័យលំហូរទៅជាទ្រង់ទ្រាយក្រាហ្វ: ប្រើប្រាស់បណ្ណាល័យ NetworkX ក្នុង Python ដើម្បីបង្កើត Nodes តំណាងឱ្យ Source IP និង Destination IP ហើយបង្កើត Edges ដែលតំណាងឱ្យចរាចរណ៍ទិន្នន័យ (ទំនាក់ទំនងរវាង IP ទាំងពីរ)។
ជំហានទី៣៖ ទាញយកលក្ខណៈពិសេសផ្អែកលើមជ្ឈិមភាព (Centrality Features): គណនារង្វាស់សំខាន់ៗលើក្រាហ្វដូចជា Closeness Centrality (CC), PageRank (PR), និង Degree Centrality (DC) សម្រាប់គ្រប់ Nodes ទាំងអស់ ដោយជៀសវាងការប្រើ Betweenness Centrality ដើម្បីសន្សំពេលវេលា។
ជំហានទី៤៖ ហ្វឹកហាត់ម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine Learning Models): បញ្ចូលលក្ខណៈពិសេសដែលទទួលបានទៅក្នុងបណ្ណាល័យ Scikit-learn រួចសាកល្បងហ្វឹកហាត់ម៉ូដែល Random Forest (RF) និង Gradient Boosting Classifier (GBC) ព្រមទាំងប្រើ GridSearchCV ដើម្បីរកប៉ារ៉ាម៉ែត្រល្អបំផុត។
ជំហានទី៥៖ វាយតម្លៃម៉ូដែលជាមួយសេណារីយ៉ូផ្សេងៗ: វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកដោយប្រើប្រាស់ Confusion Matrix ដើម្បីវិភាគរក Accuracy, Precision, Recall, F-measure និងជាពិសេសតាមដានលើអត្រា False Positive Rate ដើម្បីធានាថាប្រព័ន្ធមិនផ្តល់សញ្ញាព្រមានខុសច្រើន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Command-and-control (C&C)	ម៉ាស៊ីនមេបញ្ជាដែលត្រូវបានប្រើប្រាស់ដោយអ្នកវាយប្រហារ (Hacker) ដើម្បីផ្ញើការណែនាំ និងគ្រប់គ្រងម៉ាស៊ីនកុំព្យូទ័ររងគ្រោះ (Bots) ដែលបានឆ្លងមេរោគរួចហើយ ឱ្យធ្វើសកម្មភាពផ្សេងៗ ដូចជាការវាយប្រហារបណ្តាញ ឬលួចទិន្នន័យជាដើម។	ដូចជាមេបញ្ជាការកងទ័ពដែលអង្គុយនៅទីបញ្ជាការ ហើយបញ្ជាទាហាន (កុំព្យូទ័ររងគ្រោះ) ជាច្រើននាក់ឱ្យធ្វើការវាយប្រហារព្រមៗគ្នាទៅលើគោលដៅតែមួយ។
Centrality Measures	ជារង្វាស់គណិតវិទ្យានៅក្នុងទ្រឹស្តីក្រាហ្វ (Graph Theory) ដែលត្រូវបានប្រើដើម្បីកំណត់ថាតើចំណុច (Node/កុំព្យូទ័រ) ណាមួយមានសារៈសំខាន់បំផុត ឬមានឥទ្ធិពលជាងគេនៅក្នុងបណ្តាញទំនាក់ទំនង។	ដូចជាការចុះស្ទង់មតិដើម្បីស្វែងរកបុគ្គលដែលមានឥទ្ធិពលបំផុត ឬមានអ្នកស្គាល់ច្រើនជាងគេនៅក្នុងបណ្តាញទំនាក់ទំនងសង្គមណាមួយ។
Closeness Centrality (CC)	វិធីសាស្ត្រគណនារង្វាស់មជ្ឈិមភាពនៃក្រាហ្វ ដោយវាស់ស្ទង់ចម្ងាយមធ្យមពីចំណុចមួយ (Node) ទៅកាន់ចំណុចផ្សេងទៀតទាំងអស់។ ចំណុចដែលមានពិន្ទុ CC ខ្ពស់ អាចបញ្ជូនព័ត៌មានទៅកាន់គ្រប់ចំណុចផ្សេងទៀតបានលឿនបំផុត។	ដូចជាទីតាំងផ្ទះមួយដែលស្ថិតនៅចំកណ្តាលទីក្រុង ដែលងាយស្រួលធ្វើដំណើរទៅកាន់គ្រប់ទីកន្លែងក្នុងក្រុងបានលឿនជាងគេបំផុតដោយចំណាយពេលតិច។
Betweenness Centrality (BC)	រង្វាស់ដែលកំណត់ភាពសំខាន់របស់ចំណុចមួយ ដោយផ្អែកលើចំនួនដងដែលចំណុចនោះស្ថិតនៅលើគន្លងផ្លូវខ្លីបំផុត (Shortest paths) សម្រាប់តភ្ជាប់រវាងចំណុចពីរផ្សេងទៀត។ នៅក្នុងការសិក្សានេះ វាត្រូវបានអ្នកស្រាវជ្រាវដកចេញព្រោះវាស៊ីពេលគណនាខ្លាំងពេក។	ដូចជាស្ពានកាត់ទន្លេតែមួយគត់ដែលតភ្ជាប់ខេត្តពីរ ដែលអ្នកដំណើរភាគច្រើនត្រូវតែឆ្លងកាត់ស្ពាននោះជាដាច់ខាតដើម្បីធ្វើដំណើរទៅម្ខាងទៀត។
Flow-based detection	បច្ចេកទេសរកឃើញមេរោគដោយផ្អែកលើការត្រួតពិនិត្យចរាចរណ៍ទិន្នន័យបណ្តាញ (ដូចជា IP ដើម, IP គោលដៅ, និងចំនួនកញ្ចប់ទិន្នន័យ) ជាជាងការពិនិត្យមើលខ្លឹមសារលម្អិតនៃទិន្នន័យទាំងនោះ។	ដូចជាប៉ូលីសចរាចរណ៍ដែលត្រួតពិនិត្យមើលតែស្លាកលេខឡាន ទិសដៅធ្វើដំណើរ និងល្បឿន ជាជាងការឆែកឆេរមើលអីវ៉ាន់លម្អិតនៅក្នុងឡាន។
Deep Packet Inspection (DPI)	បច្ចេកទេសត្រួតពិនិត្យយ៉ាងស៊ីជម្រៅទៅលើខ្លឹមសារទាំងស្រុងនៃកញ្ចប់ទិន្នន័យ (Data packets) ដែលឆ្លងកាត់បណ្តាញ ដើម្បីរកមើលមេរោគ។ វាមានប្រសិទ្ធភាពខ្ពស់ តែប្រើប្រាស់ធនធានកុំព្យូទ័រច្រើន និងពិបាកទប់ទល់នឹងទិន្នន័យដែលបានបំប្លែងកូដសម្ងាត់ (Encrypted data)។	ដូចជាមន្ត្រីគយដែលបើកកេសទំនិញគ្រប់ប្រអប់ ដើម្បីត្រួតពិនិត្យមើលយ៉ាងលម្អិតថាតើមានទំនិញខុសច្បាប់លាក់នៅខាងក្នុងឬអត់។
Zero-day attacks	ការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដោយប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាង ដែលមិនទាន់មាននរណាធ្លាប់ដឹង ឬមិនទាន់មានក្រុមហ៊ុនផលិតកម្មវិធីណាបង្កើតដំណោះស្រាយការពារពីមុនមក។	ដូចជាចោរដែលរកឃើញវិធីថ្មីដើម្បីគាស់សោទ្វារផ្ទះប្រភេទថ្មី ដែលម្ចាស់ផ្ទះនិងជាងសោខ្លួនឯងផ្ទាល់ក៏មិនទាន់ដឹងពីរបៀបការពារការគាស់នោះដែរ។
Synthetic minority oversampling technique (SMOTE)	បច្ចេកទេសសម្រាប់ដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Imbalanced Data) ក្នុងការរៀនរបស់ម៉ាស៊ីន ដោយការបង្កើតទិន្នន័យក្លែងក្លាយថ្មីៗសម្រាប់ក្រុមដែលមានចំនួនតិច (Minority class) ដើម្បីឱ្យមានបរិមាណស្មើនឹងក្រុមដែលមានចំនួនច្រើន (Majority class)។	ដូចជាការយកឯកសារដែលមានតិចតួចទៅថតចម្លង (Copy) បន្ថែម ដើម្បីឱ្យមានចំនួនច្រើនស្មើនឹងឯកសារមួយក្រុមទៀតដែលមានច្រើនស្រាប់ មុននឹងយកទៅចែកឱ្យសិស្ស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖