Original Title: Intrusion detection in the IoT data streams using concept drift localization
Source: doi.org/10.3934/math.2024076
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញការគំរាមកំហែងនៅក្នុងលំហូរទិន្នន័យ IoT ដោយប្រើប្រាស់ការកំណត់ទីតាំងបម្រែបម្រួលទម្រង់ទិន្នន័យ (Concept Drift Localization)

ចំណងជើងដើម៖ Intrusion detection in the IoT data streams using concept drift localization

អ្នកនិពន្ធ៖ Renjie Chu (Guilin University of Technology), Peiyuan Jin, Hanli Qiao, Quanxi Feng

ឆ្នាំបោះពុម្ព៖ 2023 AIMS Mathematics

វិស័យសិក្សា៖ Cybersecurity and Data Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធអ៊ីនធឺណិតនៃវត្ថុ (IoT) បង្កើតលំហូរទិន្នន័យនៅក្នុងបរិស្ថានដែលតែងតែមានការប្រែប្រួល និងមិនថេរ ដែលធ្វើឱ្យវាងាយរងនូវបញ្ហាបម្រែបម្រួលទម្រង់ទិន្នន័យ (Concept Drift) ដែលបណ្តាលឱ្យប្រព័ន្ធរកឃើញការគំរាមកំហែង (Intrusion Detection Systems) បែបប្រពៃណីធ្លាក់ចុះប្រសិទ្ធភាពក្នុងការទប់ស្កាត់ការវាយប្រហារ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្ត្រថ្មីចម្រុះសម្រាប់ការរកឃើញបម្រែបម្រួលទម្រង់ទិន្នន័យ និងការសម្របខ្លួនទៅនឹងទិន្នន័យថ្មី ដោយរួមបញ្ចូលនូវការធ្វើតេស្តស្ថិតិ និងម៉ូដែលសិក្សារបស់ម៉ាស៊ីន (Machine Learning) ដែលមានសមត្ថភាពខ្ពស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
EMNCD + WOA-XGBoost
ការប្រើប្រាស់បណ្តុំឧបករណ៍កំណត់ទីតាំងបម្រែបម្រួល (EMNCD) រួមជាមួយម៉ូដែលសម្របខ្លួន WOA-XGBoost
អាចកំណត់ទីតាំងនៃការប្រែប្រួលបានយ៉ាងច្បាស់លាស់ មានភាពយឺតយ៉ាវទាប (Low delay) និងអាចបន្សាំខ្លួនទៅនឹងទិន្នន័យថ្មីបានលឿន។ វាអាចដោះស្រាយទិន្នន័យ IoT ដែលមានភាពស្មុគស្មាញដោយមិនចាំបាច់ដឹងពីទម្រង់របាយទិន្នន័យ (Data Distribution) ជាមុន។ ការប្រើប្រាស់ក្បួនដោះស្រាយ WOA សម្រាប់ស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុត (Hyperparameter tuning) អាចទាមទារពេលវេលាគណនា និងធនធានបន្ថែមក្នុងដំណាក់កាលធ្វើបច្ចុប្បន្នភាពម៉ូដែល។ ទទួលបានភាពត្រឹមត្រូវមធ្យម (Average Accuracy) ៩៣.៩៣% និងពិន្ទុ F1 ៩៥.៦៦% លើទិន្នន័យ Edge-IIoTset ព្រមទាំងរកឃើញចំណុចប្រែប្រួលបានល្អបំផុតដោយគ្មានសញ្ញាព្រមានខុស (False Positives) លើទិន្នន័យ Sea។
Standard Drift Detection (DDM, Page-Hinkley, HCDTs, DRPM)
វិធីសាស្ត្ររកឃើញការប្រែប្រួលបែបប្រពៃណី (ឧទាហរណ៍៖ DDM, Page-Hinkley)
ជាវិធីសាស្ត្រដែលមានស្តង់ដារ សាមញ្ញ និងងាយស្រួលក្នុងការអនុវត្តសម្រាប់លំហូរទិន្នន័យ (Data streams) ជាបាច់ ឬជាបន្តបន្ទាប់។ ជួបការលំបាកក្នុងការចាប់យកលំនាំប្រែប្រួលដែលស្មុគស្មាញ (Complex concept drift patterns) ជាពិសេសនៅពេលមានការប្រែប្រួលបែបមិនលីនេអ៊ែរ ដែលបណ្តាលឱ្យមានសញ្ញាព្រមានខុសច្រើន។ មានអត្រាផ្តល់សញ្ញាព្រមានខុស (False Positives) និងការខកខានមិនបានរកឃើញ (False Negatives) ខ្ពស់ជាង EMNCD ជាពិសេសលើទិន្នន័យ Stagger និង Rotating Hyperplane។
Single Non-parametric Tests (K-S, Wilcoxon, Mann-Kendall)
ការតេស្តស្ថិតិមិនប៉ារ៉ាម៉ែត្រទោល (K-S, Wilcoxon, M-K)
មិនតម្រូវឱ្យមានការសន្មតលើរបាយទិន្នន័យ (No distribution assumption) ងាយស្រួលប្រើប្រាស់សម្រាប់ការប្រៀបធៀបរបាយទិន្នន័យពីរ។ ខ្វះភាពសុក្រឹត និងមិនសូវមានស្ថិរភាពនៅពេលប្រើប្រាស់តែឯង ដែលងាយនឹងរងឥទ្ធិពលពីទិន្នន័យរំខាន (Noise) នៅក្នុងបរិស្ថាន IoT។ មានភាពយឺតយ៉ាវ (Average delay) ខ្ពស់ជាងការប្រើប្រាស់បែបចម្រុះ (Ensemble) ឧទាហរណ៍ ៤៩២៩៨ ទល់នឹង ៤៣០៧៤ លើទិន្នន័យសាកល្បងមួយចំនួន។
XGBoost without concept drift analysis
ម៉ូដែលចំណាត់ថ្នាក់ XGBoost ដែលមិនមានការវិភាគបម្រែបម្រួលទម្រង់ទិន្នន័យ
សាមញ្ញ និងមានល្បឿនលឿនក្នុងការហ្វឹកហាត់លើទិន្នន័យដំបូង ដោយស៊ីធនធានតិចជាងព្រោះមិនមានការធ្វើបច្ចុប្បន្នភាពម៉ូដែលជាបន្តបន្ទាប់។ ម៉ូដែលធ្លាក់ចុះសមត្ថភាពយ៉ាងខ្លាំង និងមិនអាចប្រើការបាន នៅពេលដែលទិន្នន័យមានការប្រែប្រួលទម្រង់ថ្មីៗ (Concept Drift) តាមពេលវេលា។ ភាពត្រឹមត្រូវមធ្យម (Average Accuracy) ធ្លាក់ចុះមកត្រឹម ៦៤.២៨% ពោលគឺទាបជាងម៉ូដែលដែលមានការបន្សាំ (WOA-XGBoost) ដល់ទៅជិត ៣០%។

ការចំណាយលើធនធាន (Resource Cost)៖ អត្ថបទនេះបានបញ្ជាក់ពីកម្រិតសាំញ៉ាំនៃពេលវេលាគណនា (Time Complexity) សម្រាប់ក្បួនដោះស្រាយនីមួយៗ ដែលបង្ហាញពីភាពចាំបាច់នៃធនធាន CPU ដែលមានសមត្ថភាពគណនាស្របគ្នា (Parallel Processing)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសិប្បនិម្មិត (Sea, Stagger) និងទិន្នន័យ Edge-IIoTset ដែលប្រមូលពីមជ្ឈមណ្ឌលសាកល្បងស្តង់ដារអន្តរជាតិ រួមមានបច្ចេកវិទ្យា Cloud និង Blockchain។ សម្រាប់ប្រទេសកម្ពុជា ទម្រង់នៃការវាយប្រហារ និងចរាចរណ៍ទិន្នន័យអាចមានភាពខុសគ្នា ដោយសារហេដ្ឋារចនាសម្ព័ន្ធ IoT នៅមានកម្រិត និងកំពុងអភិវឌ្ឍ ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះជាមួយទិន្នន័យក្នុងស្រុកបន្ថែមទៀត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងអាចអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាទំនើបនៅកម្ពុជា។

ការអនុវត្តប្រព័ន្ធរកឃើញការវាយប្រហារដែលអាចសម្របខ្លួនបាននេះ (Adaptive IDS) នឹងចូលរួមចំណែកយ៉ាងសំខាន់ក្នុងការកសាងទំនុកចិត្តលើសុវត្ថិភាពទិន្នន័យ ជំរុញដល់ការអភិវឌ្ឍសេដ្ឋកិច្ចឌីជីថលរបស់កម្ពុជាប្រកបដោយចីរភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះស្ថិតិ និងម៉ាស៊ីនរៀន: និស្សិតត្រូវស្វែងយល់ពីរបៀបធ្វើតេស្តស្ថិតិមិនប៉ារ៉ាម៉ែត្រ (Non-parametric tests) ដូចជា K-S test និង Wilcoxon test ព្រមទាំងក្បួនដោះស្រាយចំណាត់ថ្នាក់ ដោយអនុវត្តផ្ទាល់តាមរយៈបណ្ណាល័យ Scipy និង Scikit-learn នៅក្នុង Python
  2. ការអនុវត្តការរកឃើញទិន្នន័យមិនប្រក្រតី (Outlier Detection): សរសេរកូដដើម្បីស្រូបយកលំហូរទិន្នន័យជាបន្តបន្ទាប់ (Streaming data) និងប្រើប្រាស់ក្បួនដោះស្រាយ Isolation Forest (iForest) ដើម្បីកាត់ចេញនូវទិន្នន័យដែលខុសប្រក្រតី (Global និង Local outliers) ។
  3. ការកសាងម៉ូដែល និងកំណត់ទីតាំង Concept Drift: បង្កើតយន្តការវិនដូរអិល (Sliding Window Mechanism) និងរៀបចំក្បួនដោះស្រាយ EMNCD ដើម្បីប្រៀបធៀបរបាយទិន្នន័យរវាង Window ចាស់ និងថ្មី សំដៅចាប់យកចំណុចប្រែប្រួលនៃទិន្នន័យ (Drift points)។
  4. អនុវត្តការបន្សាំម៉ូដែលជាមួយហ្វូងទិន្នន័យ IoT: ទាញយកទិន្នន័យ Edge-IIoTset មកសាកល្បងហ្វឹកហាត់ម៉ូដែល XGBoost។ បន្ទាប់មក ប្រើប្រាស់ Whale Optimization Algorithm (WOA) ដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុត (Hyperparameters) សម្រាប់ការហ្វឹកហាត់ឡើងវិញ (Retraining) នៅពេលប្រព័ន្ធប្រកាសថាមាន Concept Drift កើតឡើង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Concept drift បាតុភូតដែលទម្រង់ អត្ថន័យ ឬលក្ខណៈនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែល AI ឬប្រព័ន្ធកុំព្យូទ័រដែលធ្លាប់បានរៀនសូត្រពីទិន្នន័យចាស់ លែងមានភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយទិន្នន័យថ្មី និងតម្រូវឱ្យមានការរៀនសាជាថ្មី។ ដូចជាការផ្លាស់ប្តូរនិន្នាការម៉ូដសម្លៀកបំពាក់ពីមួយឆ្នាំទៅមួយឆ្នាំ ដែលធ្វើឱ្យជាងកាត់ដេរត្រូវរៀនកាត់ម៉ូដថ្មីជានិច្ចដើម្បីតម្រូវចិត្តអតិថិជន។
Non-parametric statistical methods វិធីសាស្ត្រគណនាស្ថិតិដែលមិនទាមទារឱ្យយើងដឹងជាមុនពីទម្រង់ដើម ឬរបាយនៃទិន្នន័យ (Data distribution) នោះទេ ដែលវាស័ក្តិសមបំផុតសម្រាប់ប្រើវិភាគលំហូរទិន្នន័យបណ្តាញ IoT ដែលមានភាពរញ៉េរញ៉ៃ និងមិនអាចទាយទុកជាមុនបាន។ ដូចជាការវាស់ស្ទង់សមត្ថភាពសិស្សដោយការឱ្យពួកគេប្រកួតប្រជែងជាក់ស្តែង ជំនួសឱ្យការវាយតម្លៃដោយផ្អែកលើពិន្ទុប្រឡងប្រចាំខែដែលគ្រូបានកំណត់ទុកជាមុន។
Isolation forest (iForest) ក្បួនដោះស្រាយសម្រាប់ស្វែងរកទិន្នន័យមិនប្រក្រតី (Outliers/Anomalies) ដោយវាធ្វើការបំបែកលក្ខណៈទិន្នន័យជាចំណែកតូចៗ។ ទិន្នន័យណាដែលងាយនឹងត្រូវគេបំបែកចេញពីគេឯងបំផុត ត្រូវបានចាត់ទុកថាជាការវាយប្រហារ ឬទិន្នន័យខុសប្រក្រតី។ ដូចជាការស្វែងរកមនុស្សដែលពាក់អាវពណ៌ក្រហមក្នុងចំណោមហ្វូងមនុស្សរាប់ពាន់នាក់ដែលពាក់អាវពណ៌ស ដោយគ្រាន់តែក្រឡេកមើលភាពលេចធ្លោជាងគេ។
Whale optimization algorithm (WOA) ក្បួនដោះស្រាយដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រ (Hyperparameters) ដែលល្អបំផុតសម្រាប់ម៉ូដែល AI ដោយវាធ្វើត្រាប់តាមយុទ្ធសាស្ត្រនៃការបរបាញ់ចំណីរបស់ហ្វូងត្រីបាឡែន ដើម្បីកែលម្អភាពត្រឹមត្រូវរបស់ប្រព័ន្ធឱ្យបានលឿន និងចៀសវាងការជាប់គាំងកម្រិតប្រសិទ្ធភាព។ ដូចជាក្រុមអ្នកនេសាទដែលសហការគ្នារឹតបន្តឹងសំណាញ់បន្តិចម្តងៗជុំវិញហ្វូងត្រី ដើម្បីទទួលបានទិន្នផលខ្ពស់បំផុតក្នុងពេលដ៏ខ្លី។
Extreme gradient boosting (XGBoost) ម៉ូដែលសិក្សារបស់ម៉ាស៊ីន (Machine Learning) ដ៏មានឥទ្ធិពលដែលបង្កើតមែកធាងសម្រេចចិត្ត (Decision Trees) ជាច្រើនបន្តបន្ទាប់គ្នា ដោយមែកធាងក្រោយៗព្យាយាមកែតម្រូវកំហុសរបស់មែកធាងមុនៗ ដើម្បីទទួលបានលទ្ធផលនៃការទស្សន៍ទាយច្បាស់លាស់បំផុត។ ដូចជាការធ្វើការងារជាក្រុម ដែលសមាជិកម្នាក់ៗជួយកែតម្រូវកំហុសរបស់អ្នកធ្វើមុន រហូតទាល់តែលទ្ធផលការងារនោះចេញមកល្អឥតខ្ចោះ។
Sliding window បច្ចេកទេសសម្រាប់ដោះស្រាយទិន្នន័យដែលហូរមកជាបន្តបន្ទាប់ ដោយកាត់យកទិន្នន័យមួយដុំៗតាមទំហំដែលបានកំណត់ (ឧទាហរណ៍៖ ទិន្នន័យ ១០០០ ចុងក្រោយ) មកវិភាគ រួចរំកិលទៅមុខបន្តិចម្តងៗ ដើម្បីចាប់យកការប្រែប្រួលទិន្នន័យឱ្យបានទាន់ពេលវេលា។ ដូចជាការប្រើប្រាស់កែវពង្រីកស่องមើលអក្សរលើក្រដាសរមូរដ៏វែង ដោយរំកិលកែវនោះពីឆ្វេងទៅស្តាំបន្តិចម្តងៗដើម្បីបន្តអាន។
Ensemble learning វិធីសាស្ត្រនៃការរួមបញ្ចូលលទ្ធផលពីម៉ូដែល ឬឧបករណ៍វាស់ស្ទង់ជាច្រើនចូលគ្នា (ឧទាហរណ៍ការរួមបញ្ចូល K-S, Wilcoxon, និង M-K test ក្នុង EMNCD) ដើម្បីបង្កើតជាការសម្រេចចិត្តចុងក្រោយមួយដែលមានភាពត្រឹមត្រូវ និងទុកចិត្តបានជាងការប្រើប្រាស់ឧបករណ៍តែមួយ។ ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញ ៣នាក់ផ្សេងគ្នា ដើម្បីបញ្ជាក់រោគវិនិច្ឆ័យជំងឺមួយឱ្យបានច្បាស់លាស់ មុននឹងសម្រេចចិត្តផ្តល់ថ្នាំព្យាបាល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖