Original Title: A Concept Drift Stream Generator for Intrusion Detection Systems
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឧបករណ៍បង្កើតលំហូរទិន្នន័យផ្លាស់ប្តូរបរិបទសម្រាប់ប្រព័ន្ធស្វែងរកការឈ្លានពាន

ចំណងជើងដើម៖ A Concept Drift Stream Generator for Intrusion Detection Systems

អ្នកនិពន្ធ៖ Gabriele Nicolò Costa (University of Palermo), Alessandra De Paola (University of Palermo), Salvatore Drago (IMT School for Advanced Studies Lucca), Pierluca Ferraro (University of Palermo), Giuseppe Lo Re (University of Palermo)

ឆ្នាំបោះពុម្ព៖ 2025 (Ital-IA 2025: 5th National Conference on Artificial Intelligence)

វិស័យសិក្សា៖ Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធស្វែងរកការឈ្លានពាន (IDSs) ដែលប្រើប្រាស់បច្ចេកវិទ្យា AI ជួបប្រទះការថយចុះប្រសិទ្ធភាពតាមពេលវេលា ដោយសារការផ្លាស់ប្តូរទម្រង់ចរាចរណ៍បណ្តាញ ឬហៅថា Concept Drift ហើយបច្ចុប្បន្នខ្វះខាតទិន្នន័យជាក់ស្តែងដែលមានកំណត់ចំណាំត្រឹមត្រូវសម្រាប់ការធ្វើតេស្តបញ្ហានេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអភិវឌ្ឍឧបករណ៍ឈ្មោះ RD-ConceptDriftGenerator ដើម្បីបង្កើតលំហូរទិន្នន័យដែលមានការផ្លាស់ប្តូរបរិបទ ដោយផ្អែកលើការកែច្នៃទិន្នន័យបណ្តាញជាក់ស្តែងជំនួសឱ្យការប្រើទិន្នន័យសិប្បនិម្មិតទាំងស្រុង។

ការប្រើប្រាស់ទិន្នន័យបណ្តាញជាក់ស្តែង CIC-IDS2017 (Real Network Dataset)
ការប្រើប្រាស់ក្បួនដោះស្រាយ Clustering (Clustering Algorithms) ដើម្បីបែងចែកប្រភេទចរាចរណ៍ជាក្រុមតូចៗ (Micro-clusters)
ការប្រើប្រាស់ម៉ូដែល Random Forest ដើម្បីវាយតម្លៃផលប៉ះពាល់នៃការផ្លាស់ប្តូរទិន្នន័យ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ឧបករណ៍នេះអាចបង្កើតទិន្នន័យដែលមាន Concept Drift ប្រភេទ Sudden និង Recurrent បានយ៉ាងមានប្រសិទ្ធភាព ដោយរក្សាភាពស្មុគស្មាញនៃទិន្នន័យដើម។
លទ្ធផលពិសោធន៍បង្ហាញថាពិន្ទុ F1-score នៃប្រព័ន្ធស្វែងរកការឈ្លានពានបានធ្លាក់ចុះយ៉ាងខ្លាំង (ពីជិត 1.0 មកនៅត្រឹមប្រហែល 0.4-0.5) នៅពេលជួបប្រទះការផ្លាស់ប្តូរដែលបានបង្កើត។
ការសិក្សានេះផ្តល់នូវឧបករណ៍ដ៏សំខាន់សម្រាប់អ្នកស្រាវជ្រាវក្នុងការវាយតម្លៃសមត្ថភាពបន្សាំខ្លួន (Adaptation) របស់ប្រព័ន្ធសុវត្ថិភាពបណ្តាញក្រោមលក្ខខណ្ឌផ្លាស់ប្តូរជាក់ស្តែង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Static Testing (Baseline) ការតេស្តបែប statique (មូលដ្ឋាន)	ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុតនៅពេលដែលទិន្នន័យមិនមានការប្រែប្រួល ល្អសម្រាប់វាស់វែងសមត្ថភាពដើមនៃប្រព័ន្ធ។	មិនអាចឆ្លុះបញ្ចាំងពីស្ថានភាពពិតជាក់ស្តែងដែលទិន្នន័យតែងតែផ្លាស់ប្តូរតាមពេលវេលា (Concept Drift)។	ពិន្ទុ F1-score រក្សាបានខ្ពស់ជាង 0.9 ឬជិត 1.0 មុនពេលមានការប្រែប្រួល។
Stream with Sudden Drift ការតេស្តជាមួយលំហូរទិន្នន័យបម្រែបម្រួលភ្លាមៗ (Sudden Drift)	បង្ហាញយ៉ាងច្បាស់ពីផលប៉ះពាល់នៃការផ្លាស់ប្តូរទម្រង់នៃការវាយប្រហារមកលើប្រព័ន្ធការពារ។	តម្រូវឱ្យមានការកំណត់ប៉ារ៉ាម៉ែត្រច្បាស់លាស់ (start, end, intensity) ដើម្បីបង្កើតការផ្លាស់ប្តូរដែលសមស្រប។	ពិន្ទុ F1-score ធ្លាក់ចុះយ៉ាងគំហុកមកនៅត្រឹមប្រហែល 0.5 បន្ទាប់ពីការផ្លាស់ប្តូរបានកើតឡើង។
Stream with Recurrent Drift ការតេស្តជាមួយលំហូរទិន្នន័យបម្រែបម្រួលវិលជុំ (Recurrent Drift)	អាចធ្វើត្រាប់តាមការវាយប្រហារដែលកើតឡើងម្តងហើយម្តងទៀត ឬតាមរដូវកាល។	មានភាពស្មុគស្មាញក្នុងការគ្រប់គ្រងការវិលត្រឡប់នៃទិន្នន័យចាស់។	ពិន្ទុ F1-score ធ្លាក់ចុះមកនៅចន្លោះ 0.37 ទៅ 0.4 ហើយត្រឡប់ទៅរកភាពល្អប្រសើរវិញនៅពេល Drift បញ្ចប់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ម៉ូដែល Machine Learning ស្តង់ដារ ប៉ុន្តែតម្រូវឱ្យមានធនធានសម្រាប់ការកែច្នៃទិន្នន័យធំ (Data Preprocessing)។

Dataset: ប្រើប្រាស់ទិន្នន័យ CIC-IDS2017 ដែលមានទំហំធំគួរសម និងត្រូវការការសម្អាត (Cleaning)។
Software: ត្រូវការ Python និងបណ្ណាល័យសម្រាប់ Machine Learning ដូចជា Scikit-learn និងឧបករណ៍សម្រាប់បង្កើត Data Streams។
Hardware: កុំព្យូទ័រដែលមាន RAM ខ្ពស់ (យ៉ាងតិច 16GB ឬ 32GB) ត្រូវបានណែនាំសម្រាប់ការធ្វើ Clustering លើទិន្នន័យបណ្តាញ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ dataset ឈ្មោះ CIC-IDS2017 ដែលត្រូវបានបង្កើតឡើងដោយវិទ្យាស្ថានសុវត្ថិភាពសាយប័រនៃប្រទេសកាណាដា។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីចរាចរណ៍បណ្តាញក្នុងបរិបទប្រទេសលោកខាងលិចកាលពីឆ្នាំ ២០១៧ ដែលអាចមានភាពខុសគ្នាខ្លះពីទម្រង់នៃការវាយប្រហារ ឬការប្រើប្រាស់អ៊ីនធឺណិតបច្ចុប្បន្ននៅក្នុងប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ក្នុងការត្រៀមខ្លួនការពារប្រព័ន្ធឌីជីថលពីការវាយប្រហារថ្មីៗដែលមិនធ្លាប់ស្គាល់។

គ្រឹះស្ថានធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Banking Sector): អាចប្រើប្រាស់ដើម្បីធ្វើតេស្តប្រព័ន្ធសុវត្ថិភាពរបស់ខ្លួន ថាតើអាចទប់ទល់នឹងការវាយប្រហារថ្មីៗ (Zero-day attacks) បានកម្រិតណា។
ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិត (ISPs): ជួយក្នុងការវាយតម្លៃប្រសិទ្ធភាពនៃ Firewalls និង IDSs ក្នុងការចាប់យកការផ្លាស់ប្តូរចរាចរណ៍ខុសប្រក្រតីដែលកើតឡើងភ្លាមៗ។
វិស័យអប់រំ និងស្រាវជ្រាវ (Universities): ជាឧបករណ៍ដ៏ល្អសម្រាប់និស្សិតផ្នែក Cybersecurity ក្នុងការបង្កើត Scenario នៃការវាយប្រហារ ដើម្បីសិក្សាពីលក្ខណៈនៃ Malware។

ឧបករណ៍នេះផ្តល់លទ្ធភាពឱ្យអ្នកជំនាញនៅកម្ពុជាអាចបង្កើតការពិសោធន៍ដែលមានលក្ខណៈប្រាកដនិយមជាងមុន ដោយមិនពឹងផ្អែកតែលើទិន្នន័យបរទេសដែលហួសសម័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាពីមូលដ្ឋានទិន្នន័យ: ស្វែងយល់ពី CIC-IDS2017 dataset និងរៀនពីរបៀបបែងចែកលក្ខណៈ (Features) នៃចរាចរណ៍ធម្មតា និងចរាចរណ៍វាយប្រហារ ដោយប្រើ Python (Pandas/Numpy)។
ការអនុវត្ត Clustering: សាកល្បងបែងចែកក្រុមទិន្នន័យដោយប្រើក្បួន Clustering (ដូចជា K-Means ឬ DBSCAN) ដើម្បីបង្កើតជា Micro-clusters ដូចដែលបានរៀបរាប់ក្នុងឯកសារ។
ការបង្កើតលំហូរទិន្នន័យ (Data Stream): សរសេរកូដដើម្បីបង្កើតលំហូរទិន្នន័យដែលលាយបញ្ចូលគ្នារវាងទិន្នន័យធម្មតា និងទិន្នន័យវាយប្រហារ ដោយកំណត់ចំណុច Drift (ប្រើ Scikit-multiflow ឬ River library សម្រាប់ជំនួយ)។
ការវាយតម្លៃម៉ូដែល: បង្ហាត់ម៉ូដែល Random Forest លើទិន្នន័យដំបូង រួចធ្វើតេស្តលើទិន្នន័យដែលបានបង្កើត (Stream) ដើម្បីពិនិត្យមើលការធ្លាក់ចុះនៃពិន្ទុ F1-score។
ការពិសោធន៍ជាមួយទិន្នន័យក្នុងស្រុក: ប្រសិនបើអាច គួរព្យាយាមប្រមូលទិន្នន័យចរាចរណ៍បណ្តាញពីបន្ទប់ពិសោធន៍សាកលវិទ្យាល័យ (Local Traffic) ហើយអនុវត្តវិធីសាស្ត្រនេះដើម្បីមើលពីប្រសិទ្ធភាពក្នុងបរិបទជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Concept Drift	ជាបាតុភូតដែលលក្ខណៈនៃទិន្នន័យ (ដូចជាលំនាំនៃការវាយប្រហារតាមអ៊ីនធឺណិត) មានការផ្លាស់ប្តូរតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែល AI ដែលធ្លាប់តែមានប្រសិទ្ធភាពពីមុន ប្រែជាលែងសូវច្បាស់លាស់។	ដូចជាការប្រឡងដែលវិញ្ញាសាចេះតែផ្លាស់ប្តូររាល់ឆ្នាំ បើអ្នករៀនតែមេរៀនចាស់ៗ អ្នកនឹងប្រឡងធ្លាក់។
Intrusion Detection Systems (IDSs)	ប្រព័ន្ធសុវត្ថិភាពដែលតាមដានចរាចរណ៍បណ្តាញ ឬប្រព័ន្ធកុំព្យូទ័រ ដើម្បីស្វែងរកសកម្មភាពគួរឱ្យសង្ស័យ ឬការរំលោភបំពានពីពួក Hacker។	ប្រៀបដូចជាកាមេរ៉ាសុវត្ថិភាព ឬសន្តិសុខដែលយាមនៅមុខផ្ទះ ដើម្បីមើលថាតើមានចោរចូលឬអត់។
Clustering Algorithms	វិធីសាស្ត្រក្នុង Machine Learning ដែលប្រើដើម្បីប្រមូលផ្តុំទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាឱ្យនៅជាមួយគ្នា ដោយមិនចាំបាច់មានការបង្រៀនជាមុន (Unsupervised Learning)។	ដូចជាការបែងចែកផ្លែឈើក្នុងកន្ត្រកមួយឱ្យទៅជាគំនរតាមប្រភេទ (ប៉ោមនៅជាមួយប៉ោម ក្រូចនៅជាមួយក្រូច) ដោយមិនបាច់ស្គាល់ឈ្មោះផ្លែឈើនោះ។
F1-score	ជាខ្នាតរង្វាស់មួយសម្រាប់វាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល AI ដោយវាគិតបញ្ចូលទាំងភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញ (Recall) ដើម្បីឱ្យដឹងថាប្រព័ន្ធដំណើរការបានល្អកម្រិតណា។	ដូចជាពិន្ទុនៃការប្រឡងដែលបង្ហាញថាអ្នកធ្វើត្រូវប៉ុន្មាន និងចេះឆ្លើយគ្រប់សំណួរឬអត់ រួមបញ្ចូលគ្នា។
Online Machine Learning	វិធីសាស្ត្របង្រៀនម៉ូដែល AI ដែលទិន្នន័យត្រូវបានបញ្ចូលជាបន្តបន្ទាប់ (តាមលំដាប់លំដោយ) ហើយម៉ូដែលអាចរៀន និងកែប្រែខ្លួនឯងភ្លាមៗនៅពេលមានទិន្នន័យថ្មីមកដល់។	ដូចជាការរៀនបើកបរដែលអ្នករៀនពីបទពិសោធន៍ថ្មីៗរាល់ថ្ងៃតាមដងផ្លូវ មិនមែនរៀនតែក្នុងសាលាតែម្តងចប់នោះទេ។
Zero-day Attacks	ការវាយប្រហារតាមអ៊ីនធឺណិតដែលប្រើប្រាស់ចន្លោះប្រហោងសុវត្ថិភាពដែលអ្នកបង្កើតកម្មវិធីមិនទាន់បានដឹង ឬមិនទាន់មានដំណោះស្រាយការពារនៅឡើយ។	ដូចជាចោរចូលផ្ទះតាមផ្លូវសម្ងាត់មួយដែលម្ចាស់ផ្ទះមិនធ្លាប់ដឹងថាមាន។
Adversarial Learning	បច្ចេកទេសដែលពួក Hacker ប្រើដើម្បីបញ្ឆោតប្រព័ន្ធ AI ដោយការកែប្រែទិន្នន័យបន្តិចបន្តួច ធ្វើឱ្យប្រព័ន្ធយល់ច្រឡំថាទិន្នន័យអាក្រក់ជាទិន្នន័យល្អ។	ដូចជាចោរដែលពាក់អាវប៉ូលិស ដើម្បីឱ្យអ្នកយាមច្រកទ្វារអនុញ្ញាតឱ្យចូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖