Original Title: An Ensemble Self-Structuring Neural Network Approach to Solving Classification Problems with Virtual Concept Drift and its Application to Phishing Websites
Source: eprints.hud.ac.uk
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯងជាបណ្តុំ (Ensemble) សម្រាប់ការដោះស្រាយបញ្ហាចំណាត់ថ្នាក់ជាមួយនឹងការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) និងការអនុវត្តរបស់វាទៅលើគេហទំព័របោកបញ្ឆោត

ចំណងជើងដើម៖ An Ensemble Self-Structuring Neural Network Approach to Solving Classification Problems with Virtual Concept Drift and its Application to Phishing Websites

អ្នកនិពន្ធ៖ Rami Mustafa A Mohammad (University of Huddersfield)

ឆ្នាំបោះពុម្ព៖ 2016

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) នៅក្នុងការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ជាពិសេសទៅលើគេហទំព័របោកបញ្ឆោត (Phishing Websites) ដែលតែងតែផ្លាស់ប្តូរលក្ខណៈសម្បត្តិដើម្បីគេចពីការតាមដាន។ ប្រព័ន្ធចាត់ថ្នាក់បែបប្រពៃណីភាគច្រើនបរាជ័យដោយសារវាជួបប្រទះបញ្ហាបាត់បង់ចំណេះដឹងចាស់នៅពេលទទួលបានទិន្នន័យថ្មី (Catastrophic Forgetting)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតនូវក្របខ័ណ្ឌចំណាត់ថ្នាក់ថ្មីមួយដោយប្រើបច្ចេកទេសរៀនសូត្រជាបណ្តុំ (Ensemble Learning) រួមបញ្ចូលជាមួយក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទដែលរៀបចំរចនាសម្ព័ន្ធដោយខ្លួនឯង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Ensemble Self-Structuring Neural Network (ESSNN)
ក្របខ័ណ្ឌបណ្តុំបណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯង
ដោះស្រាយការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) បានល្អ និងរក្សាទុកចំណេះដឹងចាស់ដោយមិនលុបបំបាត់ចោល (Catastrophic Forgetting)។ ទាមទារពេលវេលាយូរក្នុងការគណនា និងបណ្តុះបណ្តាលដោយសារតែវាមានសមាសភាពឧបករណ៍ចាត់ថ្នាក់ច្រើន (Multiple Classifiers)។ សម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៩៥,៦១% ខ្ពស់ជាងឧបករណ៍ចាត់ថ្នាក់អនឡាញនិងក្រៅបណ្ដាញផ្សេងទៀតនៅពេលជួបប្រទះការផ្លាស់ប្តូរទិន្នន័យជុំថ្មី។
Self-Structuring Neural Network (SSNN)
ក្បួនដោះស្រាយបណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯង
បង្កើតរចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទ (NN Structure) ដោយស្វ័យប្រវត្តិ ជួយសន្សំសំចៃពេលក្នុងការកំណត់រចនាសម្ព័ន្ធដោយដៃ។ ត្រូវការពេលវេលាដំណើរការយូរជាងបណ្តាញសរសៃប្រសាទធម្មតា (FFNN) ដោយចំណាយពេលមធ្យម ៥,៩៦ វិនាទីក្នុងការបង្កើតម៉ូដែល។ មានអត្រាកំហុសមធ្យមទាបបំផុតត្រឹម ១១,០៤% (នៅពេលកំណត់ 500 epochs) លើសំណុំទិន្នន័យ UCI ល្អជាងក្បួន C4.5 និង BN ដាច់។
Single Classifier Stream Mining (VFDT & HAT)
ឧបករណ៍ចាត់ថ្នាក់ទិន្នន័យហូរចូលជាបន្តបន្ទាប់ (តាមរយៈ Window)
ដំណើរការបានរហ័ស និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យធំៗដែលហូរចូលមិនដាច់ដោយប្រើបច្ចេកទេស Hoeffding Bound។ ជួបប្រទះបញ្ហាបាត់បង់ចំណេះដឹងចាស់ (Catastrophic Forgetting) នៅពេលលក្ខណៈសម្បត្តិចាស់ៗវិលត្រឡប់មកវិញ (Cyclical Concept Drift)។ ទទួលបានភាពត្រឹមត្រូវមធ្យម ៩១,៤៣% សម្រាប់ HAT និង ៩០,២៥% សម្រាប់ VFDT ដែលនៅទាបជាង ESSNN ក្នុងការរកឃើញការបោកបញ្ឆោត។
Offline Data Mining (C4.5, BN, SVM, LR)
ក្បួនដោះស្រាយក្រៅបណ្ដាញប្រពៃណី
ងាយស្រួលក្នុងការអនុវត្ត និងមានល្បឿនលឿនក្នុងការចាត់ថ្នាក់ទិន្នន័យនៅពេលមានសំណុំទិន្នន័យឋិតិវន្ត (Static Data)។ មិនអាចសម្របខ្លួនទៅនឹងយុទ្ធសាស្ត្រវាយប្រហារថ្មីៗបានឡើយ ហើយការទស្សន៍ទាយនឹងធ្លាក់ចុះនៅពេលលក្ខណៈពិសេសរបស់គេហទំព័រផ្លាស់ប្តូរ។ ដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលយកមកវាយតម្លៃលើសំណុំទិន្នន័យទី២ និងទី៣ ដោយមិនអាចទប់ទល់នឹង Virtual Concept Drift បាន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាម៉ូដែលមិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង (Supercomputers) នោះទេ ប៉ុន្តែទាមទារនូវកម្មវិធីនិងការប្រមូលសំណុំទិន្នន័យដែលបានធ្វើបច្ចុប្បន្នភាពជាប្រចាំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យអន្តរជាតិ (PhishTank, MillerSmiles) ដែលភាគច្រើនជាគេហទំព័រភាសាអង់គ្លេស និងការបន្លំក្រុមហ៊ុនអន្តរជាតិដូចជា PayPal ជាដើម។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការវាយប្រហារអាចមានទម្រង់ផ្សេង ដូចជាការប្រើប្រាស់ភាសាខ្មែរ ការក្លែងបន្លំធនាគារក្នុងស្រុក ឬការចែកចាយតំណភ្ជាប់ (Links) តាមរយៈ Telegram។ ហេតុនេះ ម៉ូដែលចាំបាច់ត្រូវបណ្តុះបណ្តាលឡើងវិញជាមួយទិន្នន័យភូមិសាស្ត្រក្នុងស្រុកទើបមានប្រសិទ្ធភាពខ្ពស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពល និងសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ពង្រឹងសុវត្ថិភាពប្រព័ន្ធអ៊ីនធឺណិតនៅប្រទេសកម្ពុជា ដែលកំពុងមានកំណើននៃឧក្រិដ្ឋកម្មបច្ចេកវិទ្យា។

ការអនុវត្តក្របខ័ណ្ឌស្វ័យបន្សាំ (Adaptive Framework) នេះ នឹងជួយស្ថាប័នកម្ពុជាឱ្យដើរទាន់យុទ្ធសាស្ត្របោកបញ្ឆោតតាមអ៊ីនធឺណិត (Phishing) ដែលមានការវិវត្តផ្លាស់ប្តូររៀងរាល់ថ្ងៃ ដោយមិនពឹងផ្អែកតែលើការបញ្ចូលទិន្នន័យទប់ស្កាត់ដោយដៃ (Manual Blacklisting) ទៀតនោះទេ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីឧបករណ៍វិភាគទិន្នន័យ (Data Mining Tools): និស្សិតគួរចាប់ផ្តើមពីការរៀនប្រើប្រាស់កម្មវិធី WEKA សម្រាប់ម៉ូដែល Machine Learning ស្តង់ដារ និង MOA (Massive Online Analysis) សម្រាប់ស្វែងយល់ពីរបៀបចាត់ថ្នាក់ទិន្នន័យហូរចូលជាបន្តបន្ទាប់ (Stream Mining) ដោយប្រើកូដ Java ជាមូលដ្ឋាន។
  2. សិក្សាពីការស្រង់ចេញលក្ខណៈពិសេស (Feature Extraction): សរសេរកូដ PythonPHP ជាមូលដ្ឋានដើម្បីទាញយកលក្ខណៈពិសេសទាំង ៣០ (ដូចជា អាយុកាល Domain, ស្លាក IFrame, ការប្រើប្រាស់ IP Address) ពីកូដ HTML នៃគេហទំព័រនានាដោយស្វ័យប្រវត្តិ។
  3. ប្រមូលសំណុំទិន្នន័យតាមបរិបទកម្ពុជា (Local Data Collection): សហការជាមួយក្រុមជំនាញសន្តិសុខបណ្តាញ ឬប្រមូលទិន្នន័យដោយផ្ទាល់នូវតំណភ្ជាប់ (URLs) បោកបញ្ឆោតដែលកំណត់គោលដៅលើធនាគារ ឬស្ថាប័ននៅកម្ពុជា ដើម្បីបង្កើតសំណុំទិន្នន័យមានគុណភាពសម្រាប់ការស្រាវជ្រាវផ្ទាល់ខ្លួន។
  4. សាកល្បងក្បួនដោះស្រាយបណ្តុំ (Ensemble Learning): អនុវត្តការសរសេរក្បួនដោះស្រាយ Self-Structuring Neural Network (SSNN) ហើយបំប្លែងវាទៅជា ESSNN ដោយប្រើទិន្នន័យប្រមូលបាន ដើម្បីសង្កេតមើលពីរបៀបដែលម៉ូដែលរក្សាទុកចំណេះដឹងនៅពេលមានរលកទិន្នន័យបោកបញ្ឆោតប្រភេទថ្មីលេចឡើង។
  5. អភិវឌ្ឍឧបករណ៍ការពារផ្ទាល់ (Browser Extension): ចុងក្រោយ ត្រូវយកម៉ូដែល ESSNN ដែលបានបង្ហាត់រួច ទៅដាក់ដំណើរការជាកម្មវិធីជំនួយ (Extension) លើ Google Chrome ក្នុងទម្រង់ជា Real-time ព្រមានអ្នកប្រើប្រាស់នៅពេលពួកគេចុចលើតំណភ្ជាប់ដែលសង្ស័យថាជាការបោកបញ្ឆោត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Virtual Concept Drift បាតុភូតដែលលក្ខណៈសម្បត្តិ ឬទិន្នន័យបញ្ជាក់ពីអ្វីមួយមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យក្បួនច្បាប់ចាស់ៗលែងមានប្រសិទ្ធភាពក្នុងការទស្សន៍ទាយ ទោះបីជាគោលដៅនៅដដែលក៏ដោយ (ឧទាហរណ៍ យុទ្ធសាស្ត្រថ្មីៗរបស់ជនបោកប្រាស់)។ ដូចជាឧក្រិដ្ឋជនដែលតែងតែផ្លាស់ប្តូរមុខមាត់និងសម្លៀកបំពាក់ថ្មីៗ ដើម្បីកុំឱ្យប៉ូលិសចំណាំបាន។
Catastrophic Forgetting បញ្ហាដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) លុបបំបាត់ ឬបាត់បង់ចំណេះដឹងចាស់ៗទាំងស្រុងដោយស្វ័យប្រវត្តិ នៅពេលវាទាញយកទិន្នន័យនិងរៀនពីចំណេះដឹងថ្មី។ ដូចជាសិស្សដែលរៀនមេរៀនថ្មី ហើយភ្លេចមេរៀនចាស់ៗដែលធ្លាប់ចេះពីមុនស្អាតអស់។
Ensemble Learning បច្ចេកទេសបណ្តុះបណ្តាលប្រព័ន្ធកុំព្យូទ័រដោយបង្កើតជាក្រុមឧបករណ៍វិភាគតូចៗជាច្រើន ហើយយកលទ្ធផលរបស់ពួកវាមកបូកបញ្ចូលគ្នាដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលមានភាពត្រឹមត្រូវខ្ពស់។ ដូចជាការសុំយោបល់ពីក្រុមគ្រូពេទ្យជំនាញច្រើននាក់ដើម្បីធ្វើការវិនិច្ឆ័យរោគ ជាជាងការពឹងផ្អែកលើគ្រូពេទ្យតែម្នាក់ឯង។
Stability-Plasticity Dilemma ភាពលំបាកក្នុងការរក្សាសមតុល្យរវាងការចងចាំចំណេះដឹងចាស់ៗឱ្យបានល្អ (ស្ថិរភាព) និងភាពបត់បែនក្នុងការរៀនសូត្រទទួលយកទិន្នន័យថ្មីៗ (ភាពប្លាស្ទិក) នៅក្នុងប្រព័ន្ធដែលកំពុងវិវឌ្ឍ។ ដូចជាការព្យាយាមចាក់ទឹកបន្ថែមចូលក្នុងកែវដែលពេញ ដោយមិនឱ្យហៀរទឹកចាស់ចេញមកក្រៅ។
Incremental Learning ដំណើរការរៀនសូត្ររបស់ម៉ាស៊ីនដែលទាញយកចំណេះដឹងពីទិន្នន័យថ្មីៗដែលហូរចូលជាបន្តបន្ទាប់ ដោយមិនចាំបាច់ចាប់ផ្តើមរៀនសារជាថ្មីពីចំណុចសូន្យនោះទេ។ ដូចជាការអានសៀវភៅភាគបន្តរាល់ថ្ងៃដោយយល់សាច់រឿងបន្តបន្ទាប់ ជាជាងការអានរឿងទាំងមូលឡើងវិញតាំងពីទំព័រទីមួយជារៀងរាល់ដង។
Information Gain រង្វាស់វាស់ស្ទង់ថាតើលក្ខណៈពិសេសណាមួយមានឥទ្ធិពល ឬផ្តល់ព័ត៌មានជាក់លាក់កម្រិតណា ក្នុងការជួយកាត់បន្ថយភាពស្រពេចស្រពិលដើម្បីឈានទៅរកការសម្រេចចិត្តដ៏ត្រឹមត្រូវ។ ដូចជាការលេងល្បែងទាយឈ្មោះមនុស្ស ដោយសួរត្រង់ចំណុចសំខាន់ៗ (ដូចជា ភេទអ្វី?) ដែលជួយកាត់បន្ថយជម្រើសចម្លើយខុសបានច្រើនបំផុត។
Self-Structuring Neural Network ក្បួនដោះស្រាយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលអាចរៀបចំ ឬពង្រីករចនាសម្ព័ន្ធរបស់ខ្លួនឯងដោយស្វ័យប្រវត្តិ (ដូចជាបន្ថែមចំនួនណឺរ៉ូន) នៅពេលកំពុងរៀន ដើម្បីដោះស្រាយបញ្ហាស្មុគស្មាញ។ ដូចជាក្រុមហ៊ុនមួយដែលស្វ័យប្រវត្តិជ្រើសរើសបុគ្គលិកបន្ថែមនៅពេលទំហំការងារកើនឡើង ដើម្បីធានាថាការងារអាចបញ្ចប់បានល្អដោយមិនលើសចំណុះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖