Original Title: BotSward: Centrality Measures for Graph-Based Bot Detection Using Machine Learning
Source: doi.org/10.32604/cmc.2023.031641
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

BotSward៖ រង្វាស់មជ្ឈិមភាពសម្រាប់ការរកឃើញ Botnets ដោយផ្អែកលើក្រាហ្វ ដោយប្រើប្រាស់ការរៀនរបស់ម៉ាស៊ីន

ចំណងជើងដើម៖ BotSward: Centrality Measures for Graph-Based Bot Detection Using Machine Learning

អ្នកនិពន្ធ៖ Khlood Shinan (Umm Al-Qura University / King Abdulaziz University), Khalid Alsubhi (King Abdulaziz University), M. Usman Ashraf (GC Women University Sialkot)

ឆ្នាំបោះពុម្ព៖ 2023, Computers, Materials & Continua

វិស័យសិក្សា៖ Cybersecurity / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញបណ្តាញ Botnet ដែលវិធីសាស្រ្តផ្អែកលើលំហូរទិន្នន័យ (Flow-based) បច្ចុប្បន្នមានការចំណាយពេលវេលាគណនាខ្ពស់ ហើយមិនអាចចាប់យកលំនាំនៃការទំនាក់ទំនងបណ្តាញបានពេញលេញនោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើប្រព័ន្ធ BotSward ដែលជាប្រព័ន្ធរកឃើញ Botnet ផ្អែកលើក្រាហ្វ (Graph-based) ដោយប្រើប្រាស់ក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) និងរង្វាស់មជ្ឈិមភាពដែលមានប្រសិទ្ធភាពខ្ពស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
BotSward (Proposed Graph-Based Method)
វិធីសាស្ត្រ BotSward (ផ្អែកលើក្រាហ្វដោយមិនប្រើប្រាស់រង្វាស់ BC)
មានភាពត្រឹមត្រូវខ្ពស់ខ្លាំង និងមានប្រសិទ្ធភាពផ្នែកពេលវេលា ដោយកាត់បន្ថយពេលវេលាគណនាបានរហូតដល់ 69.5%។ វាអាចទប់ទល់នឹងការវាយប្រហារថ្មីៗ (Zero-day attacks) បានយ៉ាងល្អ។ ទាមទារការព្យាបាលទិន្នន័យបឋម (Preprocessing) ដើម្បីបំប្លែងទិន្នន័យលំហូរបណ្តាញទៅជាទម្រង់ក្រាហ្វ មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល។ ទទួលបានភាពត្រឹមត្រូវ 99% និងអត្រាវិជ្ជមានមិនពិត (False Positive Rate) ត្រឹមតែ 0.0001% ជាមួយនឹងម៉ូដែល Random Forest និង GBC។
BotChase (State-of-the-Art Graph-Based)
វិធីសាស្ត្រ BotChase (ផ្អែកលើក្រាហ្វដោយប្រើប្រាស់រង្វាស់ BC)
អាចចាប់យកទំនាក់ទំនងដ៏ស្មុគស្មាញរបស់ Botnet តាមរយៈការវិភាគក្រាហ្វបានយ៉ាងល្អិតល្អន់ ដោយប្រើវិធីសាស្ត្រស្រទាប់ពីរ (Two-layer detection)។ ប្រើប្រាស់ធនធានកុំព្យូទ័រ និងចំណាយពេលគណនាខ្ពស់ខ្លាំង ដោយសារការប្រើប្រាស់រង្វាស់ Betweenness Centrality (BC) លើក្រាហ្វធំៗ។ ទទួលបានភាពត្រឹមត្រូវចន្លោះពី 84% ទៅ 99% អាស្រ័យលើប្រភេទសេណារីយ៉ូនៃការវាយប្រហារ។
Conversation-based Flow Detection
វិធីសាស្ត្ររកឃើញផ្អែកលើលំហូរទិន្នន័យសន្ទនា (Flow-based)
មិនតម្រូវឱ្យមានការគណនាស្មុគស្មាញក្នុងការបំប្លែងរចនាសម្ព័ន្ធបណ្តាញទាំងមូលទៅជាក្រាហ្វនោះទេ ដែលជួយសន្សំសំចៃធនធានអង្គចងចាំ។ ងាយរងគ្រោះពីការវាយប្រហារបន្លំ ឬការផ្លាស់ប្តូរទម្រង់កញ្ចប់ទិន្នន័យ (Packet structure) ពីសំណាក់ Hacker ហើយមិនអាចមើលឃើញរូបភាពរួមនៃបណ្តាញ botnet នោះទេ។ ទទួលបានភាពត្រឹមត្រូវប្រមាណ 93.6% (តាមការសិក្សារបស់ Chen et al.) ដែលនៅទាបជាងវិធីសាស្ត្រក្រាហ្វ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ សម្រាប់ការគណនារង្វាស់ក្រាហ្វធំៗ និងការហ្វឹកហាត់ម៉ូដែលរៀនរបស់ម៉ាស៊ីន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ CTU-13 ដែលត្រូវបានបង្កើតឡើងតាំងពីឆ្នាំ 2011 ដោយសាកលវិទ្យាល័យបច្ចេកទេសឆេក (Czech Republic)។ ទោះបីជាវាជាទិន្នន័យស្តង់ដារសម្រាប់ស្រាវជ្រាវក៏ដោយ ក៏លំនាំនៃការវាយប្រហាររបស់ botnet នាពេលបច្ចុប្បន្ន (ដូចជា IoT botnets) មានការវិវឌ្ឍច្រើន។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកតែលើទិន្នន័យចាស់ពីតំបន់អឺរ៉ុបនេះ អាចនឹងមិនឆ្លុះបញ្ចាំងពេញលេញពីទម្រង់នៃការវាយប្រហារជាក់ស្តែងតាមរលកសញ្ញាអ៊ីនធឺណិតនៅក្នុងតំបន់អាស៊ីអាគ្នេយ៍នោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រផ្អែកលើក្រាហ្វដោយកាត់បន្ថយពេលវេលាគណនានេះ មានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការយកមកអនុវត្តជាក់ស្តែងនៅកម្ពុជា ជាពិសេសសម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញខ្នាតធំ។

សរុបមក ការប្រើប្រាស់បច្ចេកទេសក្រាហ្វដែលដកចេញនូវរង្វាស់ស្មុគស្មាញ (BC) គឺជាជម្រើសដ៏វៃឆ្លាតនិងសន្សំសំចៃ ដែលស្ថាប័នកម្ពុជាអាចទទួលយកបានដើម្បីពង្រឹងសន្តិសុខសាយប័រប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ រៀបចំទិន្នន័យ និងដោះស្រាយទិន្នន័យអតុល្យភាព: ទាញយកសំណុំទិន្នន័យបណ្តាញដូចជា CTU-13 រួចប្រើប្រាស់ Pandas ដើម្បីសម្អាតទិន្នន័យទទេ (Null values) និងអនុវត្តបច្ចេកទេស Tomek linksSMOTE ពីបណ្ណាល័យ Imbalanced-learn ដើម្បីធ្វើឱ្យទិន្នន័យថ្នាក់ធម្មតា និងថ្នាក់ Botnet មានតុល្យភាព។
  2. ជំហានទី២៖ បំប្លែងទិន្នន័យលំហូរទៅជាទ្រង់ទ្រាយក្រាហ្វ: ប្រើប្រាស់បណ្ណាល័យ NetworkX ក្នុង Python ដើម្បីបង្កើត Nodes តំណាងឱ្យ Source IP និង Destination IP ហើយបង្កើត Edges ដែលតំណាងឱ្យចរាចរណ៍ទិន្នន័យ (ទំនាក់ទំនងរវាង IP ទាំងពីរ)។
  3. ជំហានទី៣៖ ទាញយកលក្ខណៈពិសេសផ្អែកលើមជ្ឈិមភាព (Centrality Features): គណនារង្វាស់សំខាន់ៗលើក្រាហ្វដូចជា Closeness Centrality (CC), PageRank (PR), និង Degree Centrality (DC) សម្រាប់គ្រប់ Nodes ទាំងអស់ ដោយជៀសវាងការប្រើ Betweenness Centrality ដើម្បីសន្សំពេលវេលា។
  4. ជំហានទី៤៖ ហ្វឹកហាត់ម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine Learning Models): បញ្ចូលលក្ខណៈពិសេសដែលទទួលបានទៅក្នុងបណ្ណាល័យ Scikit-learn រួចសាកល្បងហ្វឹកហាត់ម៉ូដែល Random Forest (RF) និង Gradient Boosting Classifier (GBC) ព្រមទាំងប្រើ GridSearchCV ដើម្បីរកប៉ារ៉ាម៉ែត្រល្អបំផុត។
  5. ជំហានទី៥៖ វាយតម្លៃម៉ូដែលជាមួយសេណារីយ៉ូផ្សេងៗ: វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកដោយប្រើប្រាស់ Confusion Matrix ដើម្បីវិភាគរក Accuracy, Precision, Recall, F-measure និងជាពិសេសតាមដានលើអត្រា False Positive Rate ដើម្បីធានាថាប្រព័ន្ធមិនផ្តល់សញ្ញាព្រមានខុសច្រើន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Command-and-control (C&C) ម៉ាស៊ីនមេបញ្ជាដែលត្រូវបានប្រើប្រាស់ដោយអ្នកវាយប្រហារ (Hacker) ដើម្បីផ្ញើការណែនាំ និងគ្រប់គ្រងម៉ាស៊ីនកុំព្យូទ័ររងគ្រោះ (Bots) ដែលបានឆ្លងមេរោគរួចហើយ ឱ្យធ្វើសកម្មភាពផ្សេងៗ ដូចជាការវាយប្រហារបណ្តាញ ឬលួចទិន្នន័យជាដើម។ ដូចជាមេបញ្ជាការកងទ័ពដែលអង្គុយនៅទីបញ្ជាការ ហើយបញ្ជាទាហាន (កុំព្យូទ័ររងគ្រោះ) ជាច្រើននាក់ឱ្យធ្វើការវាយប្រហារព្រមៗគ្នាទៅលើគោលដៅតែមួយ។
Centrality Measures ជារង្វាស់គណិតវិទ្យានៅក្នុងទ្រឹស្តីក្រាហ្វ (Graph Theory) ដែលត្រូវបានប្រើដើម្បីកំណត់ថាតើចំណុច (Node/កុំព្យូទ័រ) ណាមួយមានសារៈសំខាន់បំផុត ឬមានឥទ្ធិពលជាងគេនៅក្នុងបណ្តាញទំនាក់ទំនង។ ដូចជាការចុះស្ទង់មតិដើម្បីស្វែងរកបុគ្គលដែលមានឥទ្ធិពលបំផុត ឬមានអ្នកស្គាល់ច្រើនជាងគេនៅក្នុងបណ្តាញទំនាក់ទំនងសង្គមណាមួយ។
Closeness Centrality (CC) វិធីសាស្ត្រគណនារង្វាស់មជ្ឈិមភាពនៃក្រាហ្វ ដោយវាស់ស្ទង់ចម្ងាយមធ្យមពីចំណុចមួយ (Node) ទៅកាន់ចំណុចផ្សេងទៀតទាំងអស់។ ចំណុចដែលមានពិន្ទុ CC ខ្ពស់ អាចបញ្ជូនព័ត៌មានទៅកាន់គ្រប់ចំណុចផ្សេងទៀតបានលឿនបំផុត។ ដូចជាទីតាំងផ្ទះមួយដែលស្ថិតនៅចំកណ្តាលទីក្រុង ដែលងាយស្រួលធ្វើដំណើរទៅកាន់គ្រប់ទីកន្លែងក្នុងក្រុងបានលឿនជាងគេបំផុតដោយចំណាយពេលតិច។
Betweenness Centrality (BC) រង្វាស់ដែលកំណត់ភាពសំខាន់របស់ចំណុចមួយ ដោយផ្អែកលើចំនួនដងដែលចំណុចនោះស្ថិតនៅលើគន្លងផ្លូវខ្លីបំផុត (Shortest paths) សម្រាប់តភ្ជាប់រវាងចំណុចពីរផ្សេងទៀត។ នៅក្នុងការសិក្សានេះ វាត្រូវបានអ្នកស្រាវជ្រាវដកចេញព្រោះវាស៊ីពេលគណនាខ្លាំងពេក។ ដូចជាស្ពានកាត់ទន្លេតែមួយគត់ដែលតភ្ជាប់ខេត្តពីរ ដែលអ្នកដំណើរភាគច្រើនត្រូវតែឆ្លងកាត់ស្ពាននោះជាដាច់ខាតដើម្បីធ្វើដំណើរទៅម្ខាងទៀត។
Flow-based detection បច្ចេកទេសរកឃើញមេរោគដោយផ្អែកលើការត្រួតពិនិត្យចរាចរណ៍ទិន្នន័យបណ្តាញ (ដូចជា IP ដើម, IP គោលដៅ, និងចំនួនកញ្ចប់ទិន្នន័យ) ជាជាងការពិនិត្យមើលខ្លឹមសារលម្អិតនៃទិន្នន័យទាំងនោះ។ ដូចជាប៉ូលីសចរាចរណ៍ដែលត្រួតពិនិត្យមើលតែស្លាកលេខឡាន ទិសដៅធ្វើដំណើរ និងល្បឿន ជាជាងការឆែកឆេរមើលអីវ៉ាន់លម្អិតនៅក្នុងឡាន។
Deep Packet Inspection (DPI) បច្ចេកទេសត្រួតពិនិត្យយ៉ាងស៊ីជម្រៅទៅលើខ្លឹមសារទាំងស្រុងនៃកញ្ចប់ទិន្នន័យ (Data packets) ដែលឆ្លងកាត់បណ្តាញ ដើម្បីរកមើលមេរោគ។ វាមានប្រសិទ្ធភាពខ្ពស់ តែប្រើប្រាស់ធនធានកុំព្យូទ័រច្រើន និងពិបាកទប់ទល់នឹងទិន្នន័យដែលបានបំប្លែងកូដសម្ងាត់ (Encrypted data)។ ដូចជាមន្ត្រីគយដែលបើកកេសទំនិញគ្រប់ប្រអប់ ដើម្បីត្រួតពិនិត្យមើលយ៉ាងលម្អិតថាតើមានទំនិញខុសច្បាប់លាក់នៅខាងក្នុងឬអត់។
Zero-day attacks ការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិតដោយប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពថ្មីសន្លាង ដែលមិនទាន់មាននរណាធ្លាប់ដឹង ឬមិនទាន់មានក្រុមហ៊ុនផលិតកម្មវិធីណាបង្កើតដំណោះស្រាយការពារពីមុនមក។ ដូចជាចោរដែលរកឃើញវិធីថ្មីដើម្បីគាស់សោទ្វារផ្ទះប្រភេទថ្មី ដែលម្ចាស់ផ្ទះនិងជាងសោខ្លួនឯងផ្ទាល់ក៏មិនទាន់ដឹងពីរបៀបការពារការគាស់នោះដែរ។
Synthetic minority oversampling technique (SMOTE) បច្ចេកទេសសម្រាប់ដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Imbalanced Data) ក្នុងការរៀនរបស់ម៉ាស៊ីន ដោយការបង្កើតទិន្នន័យក្លែងក្លាយថ្មីៗសម្រាប់ក្រុមដែលមានចំនួនតិច (Minority class) ដើម្បីឱ្យមានបរិមាណស្មើនឹងក្រុមដែលមានចំនួនច្រើន (Majority class)។ ដូចជាការយកឯកសារដែលមានតិចតួចទៅថតចម្លង (Copy) បន្ថែម ដើម្បីឱ្យមានចំនួនច្រើនស្មើនឹងឯកសារមួយក្រុមទៀតដែលមានច្រើនស្រាប់ មុននឹងយកទៅចែកឱ្យសិស្ស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖