Original Title: AN INCREMENTAL LEARNING SYSTEM FOR ON LINE KNN CLASSIFICATION: Application To Network Intrusion Detection
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធសិក្សាបន្ថែមសម្រាប់ការធ្វើចំណាត់ថ្នាក់ KNN តាមអនឡាញ៖ ការអនុវត្តចំពោះការរកឃើញការលុកលុយបណ្តាញ

ចំណងជើងដើម៖ AN INCREMENTAL LEARNING SYSTEM FOR ON LINE KNN CLASSIFICATION: Application To Network Intrusion Detection

អ្នកនិពន្ធ៖ Ahmed Riadh Baba-ali (University of Science and Technology of Algiers, Algeria)

ឆ្នាំបោះពុម្ព៖ 2013

វិស័យសិក្សា៖ Computer Science / Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធរកឃើញការលុកលុយបណ្តាញ (NIDS) ប្រឈមមុខនឹងបញ្ហានៃការផ្លាស់ប្តូរបរិយាកាសឥតឈប់ឈរដែលបណ្តាលឱ្យមានការវាយប្រហារប្រភេទថ្មីៗ (Concept Drift) ហើយការប្រើប្រាស់វិធីសាស្ត្រ KNN បែបបុរាណមានដំណើរការយឺត និងមិនអាចសម្របខ្លួនបានទាន់ពេលវេលា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវប្រព័ន្ធសិក្សាបន្ថែម (Incremental Learning) ដែលរួមបញ្ចូលការធ្វើចំណាត់ថ្នាក់ KNN ជាមួយការជ្រើសរើសទិន្នន័យគំរូ ដើម្បីកាត់បន្ថយទំហំទិន្នន័យ និងធ្វើបច្ចុប្បន្នភាពចំណេះដឹងជាបន្តបន្ទាប់។

ការប្រើប្រាស់ម៉ូឌុលធ្វើចំណាត់ថ្នាក់ (KNN Classification Module) ដើម្បីវិភាគចរាចរណ៍បណ្តាញ។
ការជ្រើសរើសទិន្នន័យគំរូ (Instance Selection) ដោយប្រើក្បួនដោះស្រាយសេនេទិច (Genetic Algorithm) ដើម្បីកាត់បន្ថយទំហំទិន្នន័យបណ្តុះបណ្តាល។
ការអនុវត្តក្បួនដោះស្រាយ CNN (Condensed Nearest Neighbor) សម្រាប់ការធ្វើបច្ចុប្បន្នភាពចំណេះដឹងតាមពេលវេលាជាក់ស្តែង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការជ្រើសរើសទិន្នន័យគំរូអាចកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យបណ្តុះបណ្តាលបានរហូតដល់ ៩៩% ដែលជួយបង្កើនល្បឿននៃការធ្វើចំណាត់ថ្នាក់បានយ៉ាងលឿន។
អត្រានៃការខុស (Error rate) ត្រូវបានកាត់បន្ថយយ៉ាងខ្លាំងពីប្រហែល ១០% មកនៅត្រឹម ២.៣៣% ដោយសារដំណើរការសិក្សាបន្ថែម (Incremental Learning)។
ប្រព័ន្ធនេះកាត់បន្ថយអត្រានៃការមិនបានរកឃើញការវាយប្រហារ (False Negative) ដែលធ្វើឱ្យប្រសិទ្ធភាពនៃការការពារបណ្តាញមានភាពល្អប្រសើរជាងមុន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Classical KNN (Offline Learning) ការធ្វើចំណាត់ថ្នាក់ KNN បែបបុរាណ (រៀនតែម្តងនៅពេលចាប់ផ្តើម)	មានភាពសាមញ្ញក្នុងការអនុវត្ត និងមិនពឹងផ្អែកលើម៉ូដែលស្មុគស្មាញ (Non-parametric)។	មានល្បឿនយឺតខ្លាំងនៅពេលទិន្នន័យមានទំហំធំ និងមិនអាចចាប់យកការវាយប្រហារប្រភេទថ្មីៗបានទេ (Static knowledge)។	អត្រាមានកំហុសមធ្យម (Mean Error Rate) ខ្ពស់ប្រហែល ១៣.៧៥% (នៅពេល K=1)។
Incremental KNN with Instance Selection ប្រព័ន្ធ KNN បែបសិក្សាបន្ថែម ជាមួយការជ្រើសរើសទិន្នន័យគំរូ (វិធីសាស្ត្រដែលស្នើឡើង)	មានល្បឿនលឿនដោយសារការកាត់បន្ថយទំហំទិន្នន័យ និងអាចធ្វើបច្ចុប្បន្នភាពចំណេះដឹងដើម្បីស្គាល់ការវាយប្រហារថ្មីៗ (Concept Drift Adaptation)។	ប្រសិទ្ធភាពអាចអាស្រ័យលើលំដាប់នៃព្រឹត្តិការណ៍ដែលចូលមក (Sensitive to order of events) ប៉ុន្តែអ្នកនិពន្ធចាត់ទុកថានេះជាគុណសម្បត្តិសម្រាប់ការសិក្សាតាមពេលវេលា។	កាត់បន្ថយអត្រាមានកំហុសមកត្រឹម ២.៥៦% (នៅពេល K=1) និងកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យបណ្តុះបណ្តាលបាន ៩៩%។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រនេះត្រូវបានរចនាឡើងដើម្បីដំណើរការលើប្រព័ន្ធដែលមានធនធានកំណត់ ដោយសារវាមានសមត្ថភាពកាត់បន្ថយទិន្នន័យបានយ៉ាងច្រើន ធ្វើឱ្យមិនត្រូវការកុំព្យូទ័រដែលមានកម្លាំងខ្លាំងពេកនោះទេ។

Computational Power: កុំព្យូទ័រធម្មតាអាចដំណើរការបាន ដោយសារក្បួនដោះស្រាយ Genetic Algorithm និង CNN ជួយកាត់បន្ថយការគណនាបានច្រើន។
Dataset: ទិន្នន័យចរាចរណ៍បណ្តាញជាក់ស្តែង (Real Network Traffic) ដែលមានលក្ខណៈសម្បត្តិ TCP connection (ដូចជា KDD Cup 99 ឬទិន្នន័យផ្ទាល់ពី Wireshark)។
Algorithm Implementation: តម្រូវឱ្យមានការសរសេរកូដសម្រាប់ Genetic Algorithm (សម្រាប់ការជ្រើសរើសទិន្នន័យ) និង Condensed Nearest Neighbor (CNN) Rule។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យដែលប្រមូលបានពីបណ្តាញជាក់ស្តែងក្នុងរយៈពេលខ្លី (ប្រហែលមួយសប្តាហ៍)។ នេះជាចំណុចខ្វះខាតមួយព្រោះទម្រង់នៃការវាយប្រហារក្នុងប្រទេសកម្ពុជាអាចខុសគ្នាពីបរិបទនៃការសិក្សានេះ ហើយរយៈពេលខ្លីអាចមិនឆ្លុះបញ្ចាំងពីការប្រែប្រួលតាមរដូវកាល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់វិស័យសន្តិសុខតាមអ៊ីនធឺណិតនៅកម្ពុជា ជាពិសេសសម្រាប់ការការពារប្រព័ន្ធបណ្តាញដែលមានការផ្លាស់ប្តូរលឿន។

សេវាផ្តល់អ៊ីនធឺណិត (ISPs): ក្រុមហ៊ុនដូចជា Ezecom ឬ SINET អាចប្រើប្រព័ន្ធនេះដើម្បីការពារបណ្តាញស្នូលរបស់ពួកគេពីការវាយប្រហារថ្មីៗដោយមិនចាំបាច់បិទប្រព័ន្ធដើម្បីបណ្តុះបណ្តាលសារជាថ្មី។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ: ធនាគារនៅកម្ពុជាអាចប្រើវាដើម្បីចាប់យកសកម្មភាពមិនប្រក្រតី (Anomalies) ក្នុងប្រតិបត្តិការ ដោយប្រព័ន្ធអាចរៀនពីការប៉ុនប៉ងឆបោកថ្មីៗភ្លាមៗ។

វាផ្តល់នូវដំណោះស្រាយដែលមានប្រសិទ្ធភាពខ្ពស់ និងចំណាយតិចសម្រាប់ការការពារបណ្តាញកុំព្យូទ័រ ដែលសាកសមនឹងស្ថាប័ននៅកម្ពុជាដែលចង់ពង្រឹងសុវត្ថិភាពទិន្នន័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ: និស្សិតគួរចាប់ផ្តើមដោយការយល់ដឹងអំពីដំណើរការនៃម៉ូដែល KNN និងបញ្ហា Concept Drift នៅក្នុងប្រព័ន្ធ Network Intrusion Detection (NIDS)។
ការរៀបចំទិន្នន័យពិសោធន៍: ប្រើប្រាស់ឧបករណ៍ដូចជា Wireshark ដើម្បីចាប់យកកញ្ចប់ទិន្នន័យ (Packets) ឬប្រើប្រាស់ទិន្នន័យស្តង់ដារដូចជា NSL-KDD ដើម្បីធ្វើការសាកល្បង។
ការអនុវត្តក្បួនដោះស្រាយ Genetic Algorithm: សរសេរកម្មវិធី (អាចប្រើ Python) ដើម្បីអនុវត្ត Genetic Algorithm ក្នុងគោលបំណងជ្រើសរើសទិន្នន័យដែលសំខាន់បំផុត (Feature Selection / Instance Selection) ដើម្បីកាត់បន្ថយទំហំទិន្នន័យ។
ការបង្កើតប្រព័ន្ធសិក្សាបន្ថែម (Incremental Module): បញ្ចូលក្បួនដោះស្រាយ Condensed Nearest Neighbor (CNN) ដើម្បីឱ្យប្រព័ន្ធអាចរៀនពីកំហុស (Misclassification) និងធ្វើបច្ចុប្បន្នភាពមូលដ្ឋានទិន្នន័យដោយស្វ័យប្រវត្តិ។
ការវាយតម្លៃលទ្ធផល: ធ្វើការប្រៀបធៀបអត្រា False Negative និងល្បឿននៃការវិភាគ រវាងប្រព័ន្ធដែលបានបង្កើត និងប្រព័ន្ធ KNN ធម្មតា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Incremental Learning	ជាវិធីសាស្ត្រនៃការបណ្តុះបណ្តាលម៉ូដែលដែលអនុញ្ញាតឱ្យប្រព័ន្ធរៀនចំណេះដឹងថ្មីៗជាបន្តបន្ទាប់នៅពេលមានទិន្នន័យថ្មីចូលមក ដោយមិនចាំបាច់លុបចោលចំណេះដឹងចាស់ ឬចាប់ផ្តើមរៀនពីដំបូងឡើយ។	ដូចសិស្សដែលរៀនមេរៀនថ្មីបន្ថែមជារៀងរាល់ថ្ងៃ ដោយមិនចាំបាច់រៀនមេរៀនទាំងអស់ឡើងវិញតាំងពីថ្នាក់ទីមួយ។
Concept Drift	ជាបាតុភូតដែលលក្ខណៈនៃទិន្នន័យ ឬទម្រង់នៃការវាយប្រហារមានការផ្លាស់ប្តូរតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលដែលបានបណ្តុះបណ្តាលពីមុនលែងមានប្រសិទ្ធភាព ឬមានភាពសុក្រឹតតិចជាងមុន។	ដូចជាការផ្លាស់ប្តូរម៉ូដសម្លៀកបំពាក់តាមសម័យកាល អ្វីដែលពេញនិយមពីមុនអាចនឹងលែងត្រូវនឹងចំណង់ចំណូលចិត្តបច្ចុប្បន្ន។
Instance Selection (IS)	ជាដំណើរការនៃការជ្រើសរើសយកតែសំណុំទិន្នន័យតំណាងសំខាន់ៗបំផុតចេញពីទិន្នន័យដើមដ៏ច្រើន ដើម្បីកាត់បន្ថយទំហំផ្ទុក និងបង្កើនល្បឿននៃការគណនា ដោយរក្សានូវភាពត្រឹមត្រូវដដែល។	ប្រៀបដូចជាការសង្ខេបសៀវភៅមួយក្បាល ដោយដកស្រង់យកតែប្រយោគសំខាន់ៗមកសិក្សា ដើម្បីចំណេញពេលវេលា។
Condensed Nearest Neighbor (CNN)	ជាក្បួនដោះស្រាយមួយសម្រាប់កាត់បន្ថយទំហំទិន្នន័យបណ្តុះបណ្តាល ដោយរក្សាទុកតែទិន្នន័យណាដែលចាំបាច់ដើម្បីកំណត់ព្រំដែននៃការធ្វើចំណាត់ថ្នាក់ឱ្យបានត្រឹមត្រូវ និងលុបចោលទិន្នន័យដែលលែងត្រូវការ។	ដូចជាការរក្សាទុកតែលំហាត់គំរូដែលពិបាកៗដើម្បីរៀន និងបោះចោលលំហាត់ងាយៗដែលស្រដៀងគ្នាខ្លាំងពេក។
False Negative (FN)	ជាកំហុសនៃការវិភាគដែលប្រព័ន្ធសុវត្ថិភាពសន្និដ្ឋានថា 'គ្មានការវាយប្រហារ' (Normal) ទាំងដែលការពិតកំពុងមានការវាយប្រហារកើតឡើង។ នេះជាកំហុសដ៏គ្រោះថ្នាក់បំផុតសម្រាប់ប្រព័ន្ធសុវត្ថិភាព។	ដូចជាឧបករណ៍រាវរកផ្សែងដែលមិនបន្លឺសំឡេងព្រមាន នៅពេលមានអគ្គិភ័យកើតឡើងជាក់ស្តែង។
K-Nearest Neighbor (KNN)	ជាក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យថ្មី ដោយផ្អែកលើភាពស្រដៀងគ្នារបស់វាទៅនឹងទិន្នន័យចាស់ចំនួន K ដែលនៅជិតបំផុតនៅក្នុងមូលដ្ឋានទិន្នន័យ។	ដូចពាក្យស្លោកថា 'មើលមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គេ ដើម្បីដឹងថាគេជាមនុស្សបែបណា'។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖