Original Title: An Ensemble Self-Structuring Neural Network Approach to Solving Classification Problems with Virtual Concept Drift and its Application to Phishing Websites
Source: eprints.hud.ac.uk
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯងជាបណ្តុំ (Ensemble) សម្រាប់ការដោះស្រាយបញ្ហាចំណាត់ថ្នាក់ជាមួយនឹងការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) និងការអនុវត្តរបស់វាទៅលើគេហទំព័របោកបញ្ឆោត

ចំណងជើងដើម៖ An Ensemble Self-Structuring Neural Network Approach to Solving Classification Problems with Virtual Concept Drift and its Application to Phishing Websites

អ្នកនិពន្ធ៖ Rami Mustafa A Mohammad (University of Huddersfield)

ឆ្នាំបោះពុម្ព៖ 2016

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) នៅក្នុងការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ជាពិសេសទៅលើគេហទំព័របោកបញ្ឆោត (Phishing Websites) ដែលតែងតែផ្លាស់ប្តូរលក្ខណៈសម្បត្តិដើម្បីគេចពីការតាមដាន។ ប្រព័ន្ធចាត់ថ្នាក់បែបប្រពៃណីភាគច្រើនបរាជ័យដោយសារវាជួបប្រទះបញ្ហាបាត់បង់ចំណេះដឹងចាស់នៅពេលទទួលបានទិន្នន័យថ្មី (Catastrophic Forgetting)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតនូវក្របខ័ណ្ឌចំណាត់ថ្នាក់ថ្មីមួយដោយប្រើបច្ចេកទេសរៀនសូត្រជាបណ្តុំ (Ensemble Learning) រួមបញ្ចូលជាមួយក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទដែលរៀបចំរចនាសម្ព័ន្ធដោយខ្លួនឯង។

ការទាញយកលក្ខណៈពិសេសរបស់គេហទំព័រ (Website Feature Extraction) ចំនួន ៣០ ទាក់ទងនឹង URL, កូដ HTML/JavaScript និងលក្ខណៈនៃដែន (Domain Features)។
ការប្រើប្រាស់ក្បួនដោះស្រាយការរៀបចំរចនាសម្ព័ន្ធដោយខ្លួនឯង (Self-Structuring Neural Network - SSNN) ដើម្បីស្ថាបនាឧបករណ៍ចាត់ថ្នាក់ (Classifiers) ដោយស្វ័យប្រវត្តិ។
ការបង្កើតវិធីសាស្ត្រចាត់ថ្នាក់ជាបណ្តុំ (Ensemble Framework - ESSNN) ដើម្បីរក្សាសមតុល្យរវាងស្ថិរភាពនៃការចងចាំទិន្នន័យចាស់ និងភាពបត់បែនក្នុងការរៀនទិន្នន័យថ្មី។
ការវាយតម្លៃនិងប្រៀបធៀបម៉ូដែលជាមួយក្បួនដោះស្រាយផ្សេងទៀតដូចជា C4.5, SVM និង Logistic Regression លើសំណុំទិន្នន័យពីអង្គការ PhishTank និង UCI។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្របខ័ណ្ឌ ESSNN អាចដោះស្រាយបញ្ហានៃការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) បានយ៉ាងមានប្រសិទ្ធភាពដោយមិនមានការបាត់បង់ចំណេះដឹងពីមុន (Catastrophic Forgetting) ឡើយ។
ម៉ូដែល ESSNN បានបង្ហាញពីដំណើរការល្អជាងក្បួនដោះស្រាយក្រៅបណ្ដាញ (Offline Data Mining Algorithms) ផ្សេងទៀត ដោយសម្រេចបានពិន្ទុ F1-score ខ្ពស់ជាងពី ៥,០៥% ទៅ ៧,២៦% នៅលើសំណុំទិន្នន័យទីពីរ។
ការប្រើប្រាស់វិធីសាស្ត្រ Information Gain សម្រាប់ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) រួមបញ្ចូលជាមួយម៉ូដែល ESSNN បានផ្តល់លទ្ធផលល្អបំផុតជាមួយនឹងភាពត្រឹមត្រូវជាមធ្យមរហូតដល់ ៩៣,០៦%។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Ensemble Self-Structuring Neural Network (ESSNN) ក្របខ័ណ្ឌបណ្តុំបណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯង	ដោះស្រាយការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) បានល្អ និងរក្សាទុកចំណេះដឹងចាស់ដោយមិនលុបបំបាត់ចោល (Catastrophic Forgetting)។	ទាមទារពេលវេលាយូរក្នុងការគណនា និងបណ្តុះបណ្តាលដោយសារតែវាមានសមាសភាពឧបករណ៍ចាត់ថ្នាក់ច្រើន (Multiple Classifiers)។	សម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៩៥,៦១% ខ្ពស់ជាងឧបករណ៍ចាត់ថ្នាក់អនឡាញនិងក្រៅបណ្ដាញផ្សេងទៀតនៅពេលជួបប្រទះការផ្លាស់ប្តូរទិន្នន័យជុំថ្មី។
Self-Structuring Neural Network (SSNN) ក្បួនដោះស្រាយបណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯង	បង្កើតរចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទ (NN Structure) ដោយស្វ័យប្រវត្តិ ជួយសន្សំសំចៃពេលក្នុងការកំណត់រចនាសម្ព័ន្ធដោយដៃ។	ត្រូវការពេលវេលាដំណើរការយូរជាងបណ្តាញសរសៃប្រសាទធម្មតា (FFNN) ដោយចំណាយពេលមធ្យម ៥,៩៦ វិនាទីក្នុងការបង្កើតម៉ូដែល។	មានអត្រាកំហុសមធ្យមទាបបំផុតត្រឹម ១១,០៤% (នៅពេលកំណត់ 500 epochs) លើសំណុំទិន្នន័យ UCI ល្អជាងក្បួន C4.5 និង BN ដាច់។
Single Classifier Stream Mining (VFDT & HAT) ឧបករណ៍ចាត់ថ្នាក់ទិន្នន័យហូរចូលជាបន្តបន្ទាប់ (តាមរយៈ Window)	ដំណើរការបានរហ័ស និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យធំៗដែលហូរចូលមិនដាច់ដោយប្រើបច្ចេកទេស Hoeffding Bound។	ជួបប្រទះបញ្ហាបាត់បង់ចំណេះដឹងចាស់ (Catastrophic Forgetting) នៅពេលលក្ខណៈសម្បត្តិចាស់ៗវិលត្រឡប់មកវិញ (Cyclical Concept Drift)។	ទទួលបានភាពត្រឹមត្រូវមធ្យម ៩១,៤៣% សម្រាប់ HAT និង ៩០,២៥% សម្រាប់ VFDT ដែលនៅទាបជាង ESSNN ក្នុងការរកឃើញការបោកបញ្ឆោត។
Offline Data Mining (C4.5, BN, SVM, LR) ក្បួនដោះស្រាយក្រៅបណ្ដាញប្រពៃណី	ងាយស្រួលក្នុងការអនុវត្ត និងមានល្បឿនលឿនក្នុងការចាត់ថ្នាក់ទិន្នន័យនៅពេលមានសំណុំទិន្នន័យឋិតិវន្ត (Static Data)។	មិនអាចសម្របខ្លួនទៅនឹងយុទ្ធសាស្ត្រវាយប្រហារថ្មីៗបានឡើយ ហើយការទស្សន៍ទាយនឹងធ្លាក់ចុះនៅពេលលក្ខណៈពិសេសរបស់គេហទំព័រផ្លាស់ប្តូរ។	ដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលយកមកវាយតម្លៃលើសំណុំទិន្នន័យទី២ និងទី៣ ដោយមិនអាចទប់ទល់នឹង Virtual Concept Drift បាន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាម៉ូដែលមិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង (Supercomputers) នោះទេ ប៉ុន្តែទាមទារនូវកម្មវិធីនិងការប្រមូលសំណុំទិន្នន័យដែលបានធ្វើបច្ចុប្បន្នភាពជាប្រចាំ។

Hardware: កុំព្យូទ័រធម្មតា (CPU Core i5, RAM 4GB) គឺមានលទ្ធភាពគ្រប់គ្រាន់សម្រាប់ដំណើរការវាយតម្លៃ និងបណ្តុះបណ្តាលម៉ូដែល។
Software: ប្រើប្រាស់ភាសា Java ដោយរួមបញ្ចូលជាមួយវេទិកា WEKA សម្រាប់ម៉ូដែលក្រៅបណ្តាញ និង MOA សម្រាប់សាកល្បងទិន្នន័យស្ទ្រីម (Data Stream)។
Dataset: ទាមទារសំណុំទិន្នន័យគេហទំព័រពិត (ពី DMOZ, Alexa) និងគេហទំព័របោកបញ្ឆោត (ពី PhishTank ឬប្រភពស្រដៀងគ្នា) ដែលមានលក្ខណៈពិសេសច្បាស់លាស់។
Expertise: ចំណេះដឹងផ្នែករៀនសូត្រម៉ាស៊ីន (Machine Learning) ការស្រង់ចេញលក្ខណៈពិសេស (Feature Extraction) នៃកូដ HTML/JS និងចំណេះដឹងផ្នែកសន្តិសុខបណ្តាញ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យអន្តរជាតិ (PhishTank, MillerSmiles) ដែលភាគច្រើនជាគេហទំព័រភាសាអង់គ្លេស និងការបន្លំក្រុមហ៊ុនអន្តរជាតិដូចជា PayPal ជាដើម។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការវាយប្រហារអាចមានទម្រង់ផ្សេង ដូចជាការប្រើប្រាស់ភាសាខ្មែរ ការក្លែងបន្លំធនាគារក្នុងស្រុក ឬការចែកចាយតំណភ្ជាប់ (Links) តាមរយៈ Telegram។ ហេតុនេះ ម៉ូដែលចាំបាច់ត្រូវបណ្តុះបណ្តាលឡើងវិញជាមួយទិន្នន័យភូមិសាស្ត្រក្នុងស្រុកទើបមានប្រសិទ្ធភាពខ្ពស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពល និងសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ពង្រឹងសុវត្ថិភាពប្រព័ន្ធអ៊ីនធឺណិតនៅប្រទេសកម្ពុជា ដែលកំពុងមានកំណើននៃឧក្រិដ្ឋកម្មបច្ចេកវិទ្យា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): ធនាគារក្នុងស្រុកដូចជា ABA, ACLEDA អាចប្រើប្រាស់យន្តការនៃការបន្សាំរបស់ម៉ូដែលនេះ (ESSNN) ដើម្បីចាប់យកគេហទំព័រក្លែងបន្លំថ្មីៗ ដែលព្យាយាមលួចគណនីអ្នកប្រើប្រាស់ មុនពេលមានការខាតបង់ថវិកា។
ពាណិជ្ជកម្មអេឡិចត្រូនិក (E-commerce): វេទិកាដូចជា Khmer24 ក៏ដូចជា App ទិញទំនិញផ្សេងៗ អាចអភិវឌ្ឍប្រព័ន្ធស្រដៀងគ្នានេះដើម្បីការពារអតិថិជនពីតំណភ្ជាប់ (Links) បោកបញ្ឆោតដែលក្លែងបន្លំជាអ្នកលក់ ឬប្រព័ន្ធទូទាត់ប្រាក់ (Payment Gateways)។
ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ (MoPTC / MPTC): អង្គភាពឆ្លើយតបបញ្ហាបន្ទាន់នៃកុំព្យូទ័រ (CamCERT) អាចប្រើប្រាស់ក្របខ័ណ្ឌនេះដើម្បីបង្កើតជាឧបករណ៍វិភាគសុវត្ថិភាពថ្នាក់ជាតិ ឬច្រកទ្វារត្រងចម្រោះ (Gateway Filter) ទប់ស្កាត់ការវាយប្រហារលើប្រជាពលរដ្ឋកម្ពុជា។

ការអនុវត្តក្របខ័ណ្ឌស្វ័យបន្សាំ (Adaptive Framework) នេះ នឹងជួយស្ថាប័នកម្ពុជាឱ្យដើរទាន់យុទ្ធសាស្ត្របោកបញ្ឆោតតាមអ៊ីនធឺណិត (Phishing) ដែលមានការវិវត្តផ្លាស់ប្តូររៀងរាល់ថ្ងៃ ដោយមិនពឹងផ្អែកតែលើការបញ្ចូលទិន្នន័យទប់ស្កាត់ដោយដៃ (Manual Blacklisting) ទៀតនោះទេ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីឧបករណ៍វិភាគទិន្នន័យ (Data Mining Tools): និស្សិតគួរចាប់ផ្តើមពីការរៀនប្រើប្រាស់កម្មវិធី WEKA សម្រាប់ម៉ូដែល Machine Learning ស្តង់ដារ និង MOA (Massive Online Analysis) សម្រាប់ស្វែងយល់ពីរបៀបចាត់ថ្នាក់ទិន្នន័យហូរចូលជាបន្តបន្ទាប់ (Stream Mining) ដោយប្រើកូដ Java ជាមូលដ្ឋាន។
សិក្សាពីការស្រង់ចេញលក្ខណៈពិសេស (Feature Extraction): សរសេរកូដ Python ឬ PHP ជាមូលដ្ឋានដើម្បីទាញយកលក្ខណៈពិសេសទាំង ៣០ (ដូចជា អាយុកាល Domain, ស្លាក IFrame, ការប្រើប្រាស់ IP Address) ពីកូដ HTML នៃគេហទំព័រនានាដោយស្វ័យប្រវត្តិ។
ប្រមូលសំណុំទិន្នន័យតាមបរិបទកម្ពុជា (Local Data Collection): សហការជាមួយក្រុមជំនាញសន្តិសុខបណ្តាញ ឬប្រមូលទិន្នន័យដោយផ្ទាល់នូវតំណភ្ជាប់ (URLs) បោកបញ្ឆោតដែលកំណត់គោលដៅលើធនាគារ ឬស្ថាប័ននៅកម្ពុជា ដើម្បីបង្កើតសំណុំទិន្នន័យមានគុណភាពសម្រាប់ការស្រាវជ្រាវផ្ទាល់ខ្លួន។
សាកល្បងក្បួនដោះស្រាយបណ្តុំ (Ensemble Learning): អនុវត្តការសរសេរក្បួនដោះស្រាយ Self-Structuring Neural Network (SSNN) ហើយបំប្លែងវាទៅជា ESSNN ដោយប្រើទិន្នន័យប្រមូលបាន ដើម្បីសង្កេតមើលពីរបៀបដែលម៉ូដែលរក្សាទុកចំណេះដឹងនៅពេលមានរលកទិន្នន័យបោកបញ្ឆោតប្រភេទថ្មីលេចឡើង។
អភិវឌ្ឍឧបករណ៍ការពារផ្ទាល់ (Browser Extension): ចុងក្រោយ ត្រូវយកម៉ូដែល ESSNN ដែលបានបង្ហាត់រួច ទៅដាក់ដំណើរការជាកម្មវិធីជំនួយ (Extension) លើ Google Chrome ក្នុងទម្រង់ជា Real-time ព្រមានអ្នកប្រើប្រាស់នៅពេលពួកគេចុចលើតំណភ្ជាប់ដែលសង្ស័យថាជាការបោកបញ្ឆោត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Virtual Concept Drift	បាតុភូតដែលលក្ខណៈសម្បត្តិ ឬទិន្នន័យបញ្ជាក់ពីអ្វីមួយមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យក្បួនច្បាប់ចាស់ៗលែងមានប្រសិទ្ធភាពក្នុងការទស្សន៍ទាយ ទោះបីជាគោលដៅនៅដដែលក៏ដោយ (ឧទាហរណ៍ យុទ្ធសាស្ត្រថ្មីៗរបស់ជនបោកប្រាស់)។	ដូចជាឧក្រិដ្ឋជនដែលតែងតែផ្លាស់ប្តូរមុខមាត់និងសម្លៀកបំពាក់ថ្មីៗ ដើម្បីកុំឱ្យប៉ូលិសចំណាំបាន។
Catastrophic Forgetting	បញ្ហាដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) លុបបំបាត់ ឬបាត់បង់ចំណេះដឹងចាស់ៗទាំងស្រុងដោយស្វ័យប្រវត្តិ នៅពេលវាទាញយកទិន្នន័យនិងរៀនពីចំណេះដឹងថ្មី។	ដូចជាសិស្សដែលរៀនមេរៀនថ្មី ហើយភ្លេចមេរៀនចាស់ៗដែលធ្លាប់ចេះពីមុនស្អាតអស់។
Ensemble Learning	បច្ចេកទេសបណ្តុះបណ្តាលប្រព័ន្ធកុំព្យូទ័រដោយបង្កើតជាក្រុមឧបករណ៍វិភាគតូចៗជាច្រើន ហើយយកលទ្ធផលរបស់ពួកវាមកបូកបញ្ចូលគ្នាដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលមានភាពត្រឹមត្រូវខ្ពស់។	ដូចជាការសុំយោបល់ពីក្រុមគ្រូពេទ្យជំនាញច្រើននាក់ដើម្បីធ្វើការវិនិច្ឆ័យរោគ ជាជាងការពឹងផ្អែកលើគ្រូពេទ្យតែម្នាក់ឯង។
Stability-Plasticity Dilemma	ភាពលំបាកក្នុងការរក្សាសមតុល្យរវាងការចងចាំចំណេះដឹងចាស់ៗឱ្យបានល្អ (ស្ថិរភាព) និងភាពបត់បែនក្នុងការរៀនសូត្រទទួលយកទិន្នន័យថ្មីៗ (ភាពប្លាស្ទិក) នៅក្នុងប្រព័ន្ធដែលកំពុងវិវឌ្ឍ។	ដូចជាការព្យាយាមចាក់ទឹកបន្ថែមចូលក្នុងកែវដែលពេញ ដោយមិនឱ្យហៀរទឹកចាស់ចេញមកក្រៅ។
Incremental Learning	ដំណើរការរៀនសូត្ររបស់ម៉ាស៊ីនដែលទាញយកចំណេះដឹងពីទិន្នន័យថ្មីៗដែលហូរចូលជាបន្តបន្ទាប់ ដោយមិនចាំបាច់ចាប់ផ្តើមរៀនសារជាថ្មីពីចំណុចសូន្យនោះទេ។	ដូចជាការអានសៀវភៅភាគបន្តរាល់ថ្ងៃដោយយល់សាច់រឿងបន្តបន្ទាប់ ជាជាងការអានរឿងទាំងមូលឡើងវិញតាំងពីទំព័រទីមួយជារៀងរាល់ដង។
Information Gain	រង្វាស់វាស់ស្ទង់ថាតើលក្ខណៈពិសេសណាមួយមានឥទ្ធិពល ឬផ្តល់ព័ត៌មានជាក់លាក់កម្រិតណា ក្នុងការជួយកាត់បន្ថយភាពស្រពេចស្រពិលដើម្បីឈានទៅរកការសម្រេចចិត្តដ៏ត្រឹមត្រូវ។	ដូចជាការលេងល្បែងទាយឈ្មោះមនុស្ស ដោយសួរត្រង់ចំណុចសំខាន់ៗ (ដូចជា ភេទអ្វី?) ដែលជួយកាត់បន្ថយជម្រើសចម្លើយខុសបានច្រើនបំផុត។
Self-Structuring Neural Network	ក្បួនដោះស្រាយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលអាចរៀបចំ ឬពង្រីករចនាសម្ព័ន្ធរបស់ខ្លួនឯងដោយស្វ័យប្រវត្តិ (ដូចជាបន្ថែមចំនួនណឺរ៉ូន) នៅពេលកំពុងរៀន ដើម្បីដោះស្រាយបញ្ហាស្មុគស្មាញ។	ដូចជាក្រុមហ៊ុនមួយដែលស្វ័យប្រវត្តិជ្រើសរើសបុគ្គលិកបន្ថែមនៅពេលទំហំការងារកើនឡើង ដើម្បីធានាថាការងារអាចបញ្ចប់បានល្អដោយមិនលើសចំណុះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖