បញ្ហា (The Problem)៖ ប្រព័ន្ធអ៊ីនធឺណិតនៃវត្ថុ (IoT) បង្កើតលំហូរទិន្នន័យនៅក្នុងបរិស្ថានដែលតែងតែមានការប្រែប្រួល និងមិនថេរ ដែលធ្វើឱ្យវាងាយរងនូវបញ្ហាបម្រែបម្រួលទម្រង់ទិន្នន័យ (Concept Drift) ដែលបណ្តាលឱ្យប្រព័ន្ធរកឃើញការគំរាមកំហែង (Intrusion Detection Systems) បែបប្រពៃណីធ្លាក់ចុះប្រសិទ្ធភាពក្នុងការទប់ស្កាត់ការវាយប្រហារ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្ត្រថ្មីចម្រុះសម្រាប់ការរកឃើញបម្រែបម្រួលទម្រង់ទិន្នន័យ និងការសម្របខ្លួនទៅនឹងទិន្នន័យថ្មី ដោយរួមបញ្ចូលនូវការធ្វើតេស្តស្ថិតិ និងម៉ូដែលសិក្សារបស់ម៉ាស៊ីន (Machine Learning) ដែលមានសមត្ថភាពខ្ពស់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| EMNCD + WOA-XGBoost ការប្រើប្រាស់បណ្តុំឧបករណ៍កំណត់ទីតាំងបម្រែបម្រួល (EMNCD) រួមជាមួយម៉ូដែលសម្របខ្លួន WOA-XGBoost |
អាចកំណត់ទីតាំងនៃការប្រែប្រួលបានយ៉ាងច្បាស់លាស់ មានភាពយឺតយ៉ាវទាប (Low delay) និងអាចបន្សាំខ្លួនទៅនឹងទិន្នន័យថ្មីបានលឿន។ វាអាចដោះស្រាយទិន្នន័យ IoT ដែលមានភាពស្មុគស្មាញដោយមិនចាំបាច់ដឹងពីទម្រង់របាយទិន្នន័យ (Data Distribution) ជាមុន។ | ការប្រើប្រាស់ក្បួនដោះស្រាយ WOA សម្រាប់ស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុត (Hyperparameter tuning) អាចទាមទារពេលវេលាគណនា និងធនធានបន្ថែមក្នុងដំណាក់កាលធ្វើបច្ចុប្បន្នភាពម៉ូដែល។ | ទទួលបានភាពត្រឹមត្រូវមធ្យម (Average Accuracy) ៩៣.៩៣% និងពិន្ទុ F1 ៩៥.៦៦% លើទិន្នន័យ Edge-IIoTset ព្រមទាំងរកឃើញចំណុចប្រែប្រួលបានល្អបំផុតដោយគ្មានសញ្ញាព្រមានខុស (False Positives) លើទិន្នន័យ Sea។ |
| Standard Drift Detection (DDM, Page-Hinkley, HCDTs, DRPM) វិធីសាស្ត្ររកឃើញការប្រែប្រួលបែបប្រពៃណី (ឧទាហរណ៍៖ DDM, Page-Hinkley) |
ជាវិធីសាស្ត្រដែលមានស្តង់ដារ សាមញ្ញ និងងាយស្រួលក្នុងការអនុវត្តសម្រាប់លំហូរទិន្នន័យ (Data streams) ជាបាច់ ឬជាបន្តបន្ទាប់។ | ជួបការលំបាកក្នុងការចាប់យកលំនាំប្រែប្រួលដែលស្មុគស្មាញ (Complex concept drift patterns) ជាពិសេសនៅពេលមានការប្រែប្រួលបែបមិនលីនេអ៊ែរ ដែលបណ្តាលឱ្យមានសញ្ញាព្រមានខុសច្រើន។ | មានអត្រាផ្តល់សញ្ញាព្រមានខុស (False Positives) និងការខកខានមិនបានរកឃើញ (False Negatives) ខ្ពស់ជាង EMNCD ជាពិសេសលើទិន្នន័យ Stagger និង Rotating Hyperplane។ |
| Single Non-parametric Tests (K-S, Wilcoxon, Mann-Kendall) ការតេស្តស្ថិតិមិនប៉ារ៉ាម៉ែត្រទោល (K-S, Wilcoxon, M-K) |
មិនតម្រូវឱ្យមានការសន្មតលើរបាយទិន្នន័យ (No distribution assumption) ងាយស្រួលប្រើប្រាស់សម្រាប់ការប្រៀបធៀបរបាយទិន្នន័យពីរ។ | ខ្វះភាពសុក្រឹត និងមិនសូវមានស្ថិរភាពនៅពេលប្រើប្រាស់តែឯង ដែលងាយនឹងរងឥទ្ធិពលពីទិន្នន័យរំខាន (Noise) នៅក្នុងបរិស្ថាន IoT។ | មានភាពយឺតយ៉ាវ (Average delay) ខ្ពស់ជាងការប្រើប្រាស់បែបចម្រុះ (Ensemble) ឧទាហរណ៍ ៤៩២៩៨ ទល់នឹង ៤៣០៧៤ លើទិន្នន័យសាកល្បងមួយចំនួន។ |
| XGBoost without concept drift analysis ម៉ូដែលចំណាត់ថ្នាក់ XGBoost ដែលមិនមានការវិភាគបម្រែបម្រួលទម្រង់ទិន្នន័យ |
សាមញ្ញ និងមានល្បឿនលឿនក្នុងការហ្វឹកហាត់លើទិន្នន័យដំបូង ដោយស៊ីធនធានតិចជាងព្រោះមិនមានការធ្វើបច្ចុប្បន្នភាពម៉ូដែលជាបន្តបន្ទាប់។ | ម៉ូដែលធ្លាក់ចុះសមត្ថភាពយ៉ាងខ្លាំង និងមិនអាចប្រើការបាន នៅពេលដែលទិន្នន័យមានការប្រែប្រួលទម្រង់ថ្មីៗ (Concept Drift) តាមពេលវេលា។ | ភាពត្រឹមត្រូវមធ្យម (Average Accuracy) ធ្លាក់ចុះមកត្រឹម ៦៤.២៨% ពោលគឺទាបជាងម៉ូដែលដែលមានការបន្សាំ (WOA-XGBoost) ដល់ទៅជិត ៣០%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ អត្ថបទនេះបានបញ្ជាក់ពីកម្រិតសាំញ៉ាំនៃពេលវេលាគណនា (Time Complexity) សម្រាប់ក្បួនដោះស្រាយនីមួយៗ ដែលបង្ហាញពីភាពចាំបាច់នៃធនធាន CPU ដែលមានសមត្ថភាពគណនាស្របគ្នា (Parallel Processing)។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសិប្បនិម្មិត (Sea, Stagger) និងទិន្នន័យ Edge-IIoTset ដែលប្រមូលពីមជ្ឈមណ្ឌលសាកល្បងស្តង់ដារអន្តរជាតិ រួមមានបច្ចេកវិទ្យា Cloud និង Blockchain។ សម្រាប់ប្រទេសកម្ពុជា ទម្រង់នៃការវាយប្រហារ និងចរាចរណ៍ទិន្នន័យអាចមានភាពខុសគ្នា ដោយសារហេដ្ឋារចនាសម្ព័ន្ធ IoT នៅមានកម្រិត និងកំពុងអភិវឌ្ឍ ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះជាមួយទិន្នន័យក្នុងស្រុកបន្ថែមទៀត។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងអាចអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ការការពារហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាទំនើបនៅកម្ពុជា។
ការអនុវត្តប្រព័ន្ធរកឃើញការវាយប្រហារដែលអាចសម្របខ្លួនបាននេះ (Adaptive IDS) នឹងចូលរួមចំណែកយ៉ាងសំខាន់ក្នុងការកសាងទំនុកចិត្តលើសុវត្ថិភាពទិន្នន័យ ជំរុញដល់ការអភិវឌ្ឍសេដ្ឋកិច្ចឌីជីថលរបស់កម្ពុជាប្រកបដោយចីរភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Concept drift | បាតុភូតដែលទម្រង់ អត្ថន័យ ឬលក្ខណៈនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែល AI ឬប្រព័ន្ធកុំព្យូទ័រដែលធ្លាប់បានរៀនសូត្រពីទិន្នន័យចាស់ លែងមានភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយទិន្នន័យថ្មី និងតម្រូវឱ្យមានការរៀនសាជាថ្មី។ | ដូចជាការផ្លាស់ប្តូរនិន្នាការម៉ូដសម្លៀកបំពាក់ពីមួយឆ្នាំទៅមួយឆ្នាំ ដែលធ្វើឱ្យជាងកាត់ដេរត្រូវរៀនកាត់ម៉ូដថ្មីជានិច្ចដើម្បីតម្រូវចិត្តអតិថិជន។ |
| Non-parametric statistical methods | វិធីសាស្ត្រគណនាស្ថិតិដែលមិនទាមទារឱ្យយើងដឹងជាមុនពីទម្រង់ដើម ឬរបាយនៃទិន្នន័យ (Data distribution) នោះទេ ដែលវាស័ក្តិសមបំផុតសម្រាប់ប្រើវិភាគលំហូរទិន្នន័យបណ្តាញ IoT ដែលមានភាពរញ៉េរញ៉ៃ និងមិនអាចទាយទុកជាមុនបាន។ | ដូចជាការវាស់ស្ទង់សមត្ថភាពសិស្សដោយការឱ្យពួកគេប្រកួតប្រជែងជាក់ស្តែង ជំនួសឱ្យការវាយតម្លៃដោយផ្អែកលើពិន្ទុប្រឡងប្រចាំខែដែលគ្រូបានកំណត់ទុកជាមុន។ |
| Isolation forest (iForest) | ក្បួនដោះស្រាយសម្រាប់ស្វែងរកទិន្នន័យមិនប្រក្រតី (Outliers/Anomalies) ដោយវាធ្វើការបំបែកលក្ខណៈទិន្នន័យជាចំណែកតូចៗ។ ទិន្នន័យណាដែលងាយនឹងត្រូវគេបំបែកចេញពីគេឯងបំផុត ត្រូវបានចាត់ទុកថាជាការវាយប្រហារ ឬទិន្នន័យខុសប្រក្រតី។ | ដូចជាការស្វែងរកមនុស្សដែលពាក់អាវពណ៌ក្រហមក្នុងចំណោមហ្វូងមនុស្សរាប់ពាន់នាក់ដែលពាក់អាវពណ៌ស ដោយគ្រាន់តែក្រឡេកមើលភាពលេចធ្លោជាងគេ។ |
| Whale optimization algorithm (WOA) | ក្បួនដោះស្រាយដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រ (Hyperparameters) ដែលល្អបំផុតសម្រាប់ម៉ូដែល AI ដោយវាធ្វើត្រាប់តាមយុទ្ធសាស្ត្រនៃការបរបាញ់ចំណីរបស់ហ្វូងត្រីបាឡែន ដើម្បីកែលម្អភាពត្រឹមត្រូវរបស់ប្រព័ន្ធឱ្យបានលឿន និងចៀសវាងការជាប់គាំងកម្រិតប្រសិទ្ធភាព។ | ដូចជាក្រុមអ្នកនេសាទដែលសហការគ្នារឹតបន្តឹងសំណាញ់បន្តិចម្តងៗជុំវិញហ្វូងត្រី ដើម្បីទទួលបានទិន្នផលខ្ពស់បំផុតក្នុងពេលដ៏ខ្លី។ |
| Extreme gradient boosting (XGBoost) | ម៉ូដែលសិក្សារបស់ម៉ាស៊ីន (Machine Learning) ដ៏មានឥទ្ធិពលដែលបង្កើតមែកធាងសម្រេចចិត្ត (Decision Trees) ជាច្រើនបន្តបន្ទាប់គ្នា ដោយមែកធាងក្រោយៗព្យាយាមកែតម្រូវកំហុសរបស់មែកធាងមុនៗ ដើម្បីទទួលបានលទ្ធផលនៃការទស្សន៍ទាយច្បាស់លាស់បំផុត។ | ដូចជាការធ្វើការងារជាក្រុម ដែលសមាជិកម្នាក់ៗជួយកែតម្រូវកំហុសរបស់អ្នកធ្វើមុន រហូតទាល់តែលទ្ធផលការងារនោះចេញមកល្អឥតខ្ចោះ។ |
| Sliding window | បច្ចេកទេសសម្រាប់ដោះស្រាយទិន្នន័យដែលហូរមកជាបន្តបន្ទាប់ ដោយកាត់យកទិន្នន័យមួយដុំៗតាមទំហំដែលបានកំណត់ (ឧទាហរណ៍៖ ទិន្នន័យ ១០០០ ចុងក្រោយ) មកវិភាគ រួចរំកិលទៅមុខបន្តិចម្តងៗ ដើម្បីចាប់យកការប្រែប្រួលទិន្នន័យឱ្យបានទាន់ពេលវេលា។ | ដូចជាការប្រើប្រាស់កែវពង្រីកស่องមើលអក្សរលើក្រដាសរមូរដ៏វែង ដោយរំកិលកែវនោះពីឆ្វេងទៅស្តាំបន្តិចម្តងៗដើម្បីបន្តអាន។ |
| Ensemble learning | វិធីសាស្ត្រនៃការរួមបញ្ចូលលទ្ធផលពីម៉ូដែល ឬឧបករណ៍វាស់ស្ទង់ជាច្រើនចូលគ្នា (ឧទាហរណ៍ការរួមបញ្ចូល K-S, Wilcoxon, និង M-K test ក្នុង EMNCD) ដើម្បីបង្កើតជាការសម្រេចចិត្តចុងក្រោយមួយដែលមានភាពត្រឹមត្រូវ និងទុកចិត្តបានជាងការប្រើប្រាស់ឧបករណ៍តែមួយ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញ ៣នាក់ផ្សេងគ្នា ដើម្បីបញ្ជាក់រោគវិនិច្ឆ័យជំងឺមួយឱ្យបានច្បាស់លាស់ មុននឹងសម្រេចចិត្តផ្តល់ថ្នាំព្យាបាល។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖