បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) នៅក្នុងការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ជាពិសេសទៅលើគេហទំព័របោកបញ្ឆោត (Phishing Websites) ដែលតែងតែផ្លាស់ប្តូរលក្ខណៈសម្បត្តិដើម្បីគេចពីការតាមដាន។ ប្រព័ន្ធចាត់ថ្នាក់បែបប្រពៃណីភាគច្រើនបរាជ័យដោយសារវាជួបប្រទះបញ្ហាបាត់បង់ចំណេះដឹងចាស់នៅពេលទទួលបានទិន្នន័យថ្មី (Catastrophic Forgetting)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតនូវក្របខ័ណ្ឌចំណាត់ថ្នាក់ថ្មីមួយដោយប្រើបច្ចេកទេសរៀនសូត្រជាបណ្តុំ (Ensemble Learning) រួមបញ្ចូលជាមួយក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទដែលរៀបចំរចនាសម្ព័ន្ធដោយខ្លួនឯង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Ensemble Self-Structuring Neural Network (ESSNN) ក្របខ័ណ្ឌបណ្តុំបណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯង |
ដោះស្រាយការផ្លាស់ប្តូរទស្សនៈនិម្មិត (Virtual Concept Drift) បានល្អ និងរក្សាទុកចំណេះដឹងចាស់ដោយមិនលុបបំបាត់ចោល (Catastrophic Forgetting)។ | ទាមទារពេលវេលាយូរក្នុងការគណនា និងបណ្តុះបណ្តាលដោយសារតែវាមានសមាសភាពឧបករណ៍ចាត់ថ្នាក់ច្រើន (Multiple Classifiers)។ | សម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៩៥,៦១% ខ្ពស់ជាងឧបករណ៍ចាត់ថ្នាក់អនឡាញនិងក្រៅបណ្ដាញផ្សេងទៀតនៅពេលជួបប្រទះការផ្លាស់ប្តូរទិន្នន័យជុំថ្មី។ |
| Self-Structuring Neural Network (SSNN) ក្បួនដោះស្រាយបណ្ដាញសរសៃប្រសាទរចនាសម្ព័ន្ធដោយខ្លួនឯង |
បង្កើតរចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទ (NN Structure) ដោយស្វ័យប្រវត្តិ ជួយសន្សំសំចៃពេលក្នុងការកំណត់រចនាសម្ព័ន្ធដោយដៃ។ | ត្រូវការពេលវេលាដំណើរការយូរជាងបណ្តាញសរសៃប្រសាទធម្មតា (FFNN) ដោយចំណាយពេលមធ្យម ៥,៩៦ វិនាទីក្នុងការបង្កើតម៉ូដែល។ | មានអត្រាកំហុសមធ្យមទាបបំផុតត្រឹម ១១,០៤% (នៅពេលកំណត់ 500 epochs) លើសំណុំទិន្នន័យ UCI ល្អជាងក្បួន C4.5 និង BN ដាច់។ |
| Single Classifier Stream Mining (VFDT & HAT) ឧបករណ៍ចាត់ថ្នាក់ទិន្នន័យហូរចូលជាបន្តបន្ទាប់ (តាមរយៈ Window) |
ដំណើរការបានរហ័ស និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យធំៗដែលហូរចូលមិនដាច់ដោយប្រើបច្ចេកទេស Hoeffding Bound។ | ជួបប្រទះបញ្ហាបាត់បង់ចំណេះដឹងចាស់ (Catastrophic Forgetting) នៅពេលលក្ខណៈសម្បត្តិចាស់ៗវិលត្រឡប់មកវិញ (Cyclical Concept Drift)។ | ទទួលបានភាពត្រឹមត្រូវមធ្យម ៩១,៤៣% សម្រាប់ HAT និង ៩០,២៥% សម្រាប់ VFDT ដែលនៅទាបជាង ESSNN ក្នុងការរកឃើញការបោកបញ្ឆោត។ |
| Offline Data Mining (C4.5, BN, SVM, LR) ក្បួនដោះស្រាយក្រៅបណ្ដាញប្រពៃណី |
ងាយស្រួលក្នុងការអនុវត្ត និងមានល្បឿនលឿនក្នុងការចាត់ថ្នាក់ទិន្នន័យនៅពេលមានសំណុំទិន្នន័យឋិតិវន្ត (Static Data)។ | មិនអាចសម្របខ្លួនទៅនឹងយុទ្ធសាស្ត្រវាយប្រហារថ្មីៗបានឡើយ ហើយការទស្សន៍ទាយនឹងធ្លាក់ចុះនៅពេលលក្ខណៈពិសេសរបស់គេហទំព័រផ្លាស់ប្តូរ។ | ដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលយកមកវាយតម្លៃលើសំណុំទិន្នន័យទី២ និងទី៣ ដោយមិនអាចទប់ទល់នឹង Virtual Concept Drift បាន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាម៉ូដែលមិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង (Supercomputers) នោះទេ ប៉ុន្តែទាមទារនូវកម្មវិធីនិងការប្រមូលសំណុំទិន្នន័យដែលបានធ្វើបច្ចុប្បន្នភាពជាប្រចាំ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យអន្តរជាតិ (PhishTank, MillerSmiles) ដែលភាគច្រើនជាគេហទំព័រភាសាអង់គ្លេស និងការបន្លំក្រុមហ៊ុនអន្តរជាតិដូចជា PayPal ជាដើម។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការវាយប្រហារអាចមានទម្រង់ផ្សេង ដូចជាការប្រើប្រាស់ភាសាខ្មែរ ការក្លែងបន្លំធនាគារក្នុងស្រុក ឬការចែកចាយតំណភ្ជាប់ (Links) តាមរយៈ Telegram។ ហេតុនេះ ម៉ូដែលចាំបាច់ត្រូវបណ្តុះបណ្តាលឡើងវិញជាមួយទិន្នន័យភូមិសាស្ត្រក្នុងស្រុកទើបមានប្រសិទ្ធភាពខ្ពស់។
វិធីសាស្ត្រនេះមានសក្តានុពល និងសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ពង្រឹងសុវត្ថិភាពប្រព័ន្ធអ៊ីនធឺណិតនៅប្រទេសកម្ពុជា ដែលកំពុងមានកំណើននៃឧក្រិដ្ឋកម្មបច្ចេកវិទ្យា។
ការអនុវត្តក្របខ័ណ្ឌស្វ័យបន្សាំ (Adaptive Framework) នេះ នឹងជួយស្ថាប័នកម្ពុជាឱ្យដើរទាន់យុទ្ធសាស្ត្របោកបញ្ឆោតតាមអ៊ីនធឺណិត (Phishing) ដែលមានការវិវត្តផ្លាស់ប្តូររៀងរាល់ថ្ងៃ ដោយមិនពឹងផ្អែកតែលើការបញ្ចូលទិន្នន័យទប់ស្កាត់ដោយដៃ (Manual Blacklisting) ទៀតនោះទេ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Virtual Concept Drift | បាតុភូតដែលលក្ខណៈសម្បត្តិ ឬទិន្នន័យបញ្ជាក់ពីអ្វីមួយមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យក្បួនច្បាប់ចាស់ៗលែងមានប្រសិទ្ធភាពក្នុងការទស្សន៍ទាយ ទោះបីជាគោលដៅនៅដដែលក៏ដោយ (ឧទាហរណ៍ យុទ្ធសាស្ត្រថ្មីៗរបស់ជនបោកប្រាស់)។ | ដូចជាឧក្រិដ្ឋជនដែលតែងតែផ្លាស់ប្តូរមុខមាត់និងសម្លៀកបំពាក់ថ្មីៗ ដើម្បីកុំឱ្យប៉ូលិសចំណាំបាន។ |
| Catastrophic Forgetting | បញ្ហាដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) លុបបំបាត់ ឬបាត់បង់ចំណេះដឹងចាស់ៗទាំងស្រុងដោយស្វ័យប្រវត្តិ នៅពេលវាទាញយកទិន្នន័យនិងរៀនពីចំណេះដឹងថ្មី។ | ដូចជាសិស្សដែលរៀនមេរៀនថ្មី ហើយភ្លេចមេរៀនចាស់ៗដែលធ្លាប់ចេះពីមុនស្អាតអស់។ |
| Ensemble Learning | បច្ចេកទេសបណ្តុះបណ្តាលប្រព័ន្ធកុំព្យូទ័រដោយបង្កើតជាក្រុមឧបករណ៍វិភាគតូចៗជាច្រើន ហើយយកលទ្ធផលរបស់ពួកវាមកបូកបញ្ចូលគ្នាដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលមានភាពត្រឹមត្រូវខ្ពស់។ | ដូចជាការសុំយោបល់ពីក្រុមគ្រូពេទ្យជំនាញច្រើននាក់ដើម្បីធ្វើការវិនិច្ឆ័យរោគ ជាជាងការពឹងផ្អែកលើគ្រូពេទ្យតែម្នាក់ឯង។ |
| Stability-Plasticity Dilemma | ភាពលំបាកក្នុងការរក្សាសមតុល្យរវាងការចងចាំចំណេះដឹងចាស់ៗឱ្យបានល្អ (ស្ថិរភាព) និងភាពបត់បែនក្នុងការរៀនសូត្រទទួលយកទិន្នន័យថ្មីៗ (ភាពប្លាស្ទិក) នៅក្នុងប្រព័ន្ធដែលកំពុងវិវឌ្ឍ។ | ដូចជាការព្យាយាមចាក់ទឹកបន្ថែមចូលក្នុងកែវដែលពេញ ដោយមិនឱ្យហៀរទឹកចាស់ចេញមកក្រៅ។ |
| Incremental Learning | ដំណើរការរៀនសូត្ររបស់ម៉ាស៊ីនដែលទាញយកចំណេះដឹងពីទិន្នន័យថ្មីៗដែលហូរចូលជាបន្តបន្ទាប់ ដោយមិនចាំបាច់ចាប់ផ្តើមរៀនសារជាថ្មីពីចំណុចសូន្យនោះទេ។ | ដូចជាការអានសៀវភៅភាគបន្តរាល់ថ្ងៃដោយយល់សាច់រឿងបន្តបន្ទាប់ ជាជាងការអានរឿងទាំងមូលឡើងវិញតាំងពីទំព័រទីមួយជារៀងរាល់ដង។ |
| Information Gain | រង្វាស់វាស់ស្ទង់ថាតើលក្ខណៈពិសេសណាមួយមានឥទ្ធិពល ឬផ្តល់ព័ត៌មានជាក់លាក់កម្រិតណា ក្នុងការជួយកាត់បន្ថយភាពស្រពេចស្រពិលដើម្បីឈានទៅរកការសម្រេចចិត្តដ៏ត្រឹមត្រូវ។ | ដូចជាការលេងល្បែងទាយឈ្មោះមនុស្ស ដោយសួរត្រង់ចំណុចសំខាន់ៗ (ដូចជា ភេទអ្វី?) ដែលជួយកាត់បន្ថយជម្រើសចម្លើយខុសបានច្រើនបំផុត។ |
| Self-Structuring Neural Network | ក្បួនដោះស្រាយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលអាចរៀបចំ ឬពង្រីករចនាសម្ព័ន្ធរបស់ខ្លួនឯងដោយស្វ័យប្រវត្តិ (ដូចជាបន្ថែមចំនួនណឺរ៉ូន) នៅពេលកំពុងរៀន ដើម្បីដោះស្រាយបញ្ហាស្មុគស្មាញ។ | ដូចជាក្រុមហ៊ុនមួយដែលស្វ័យប្រវត្តិជ្រើសរើសបុគ្គលិកបន្ថែមនៅពេលទំហំការងារកើនឡើង ដើម្បីធានាថាការងារអាចបញ្ចប់បានល្អដោយមិនលើសចំណុះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖