បញ្ហា (The Problem)៖ នៅក្នុងបរិបទនៃការជីកកកាយទិន្នន័យ ទំហំទិន្នន័យធំៗ និងលំហូរទិន្នន័យលឿនៗជារឿយៗតែងតែផ្លាស់ប្តូរទម្រង់ហៅថា Concept drift ដែលធ្វើឱ្យបច្ចេកទេសរៀនម៉ាស៊ីន (Machine learning) បែបប្រពៃណីលែងមានប្រសិទ្ធភាព។ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហានៃការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ និងតម្រែតម្រង់ (Regression) ក្នុងបរិស្ថានដែលទិន្នន័យមិនមានស្ថិរភាពព្រមទាំងមានបាត់តម្លៃស្លាក (Labels)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានណែនាំក្បួនដោះស្រាយតាមវិធីសាស្ត្រ Bayesian ចំនួនពីរគឺ Dynamic Logistic Regressor (DLR) និងក្បួនដោះស្រាយ Dynamic Characteristic Curve Convex Hull (DCCCH) សម្រាប់វាយតម្លៃនិងធ្វើសមាហរណកម្មលទ្ធផល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| DCCCH (Dynamic Characteristic Curve Convex Hull) ការជ្រើសរើសដោយប្រើខ្សែទំហំកោងថាមវន្ត (Meta-algorithm សម្រាប់ Ensemble) |
សម្របខ្លួនលឿនទៅនឹងបម្រែបម្រួលទិន្នន័យ (Concept drift) ដោយផ្តល់ទម្ងន់លើដំណើរការថ្មីៗរបស់អ្នករៀន និងមិនទាមទារអង្គចងចាំធំសម្រាប់ការរក្សាទុកទិន្នន័យចាស់ៗ។ | ទាមទារការគណនា Convex Hull ជាប្រចាំដើម្បីអាប់ដេតអ្នករៀន ដែលអាចប្រើប្រាស់កម្លាំងកុំព្យូទ័រច្រើនបន្តិចប្រសិនបើ Ensemble មានទំហំធំខ្លាំង។ | ទទួលបានអត្រាកំហុសទាបបំផុត (០.១៤២) លើទិន្នន័យនិម្មិតចាត់ថ្នាក់ និងតម្លៃលំអៀង RMSE ទាបបំផុត (ឧ. ២.៨៧ លើទិន្នន័យ EUR-CHF) លើការតម្រែតម្រង់។ |
| DLR (Dynamic Logistic Regressor) តម្រែតម្រង់ឡូជីស្ទីកថាមវន្ត (ចាត់ថ្នាក់ដោយប្រើ EKF) |
មានសមត្ថភាពខ្ពស់ក្នុងការប៉ាន់ស្មានទិន្នន័យដែលបាត់ (Missing observations) និងអាចទប់ទល់នឹងកំហុសស្លាកចំណាត់ថ្នាក់ (Corrupted labels) យ៉ាងមានប្រសិទ្ធភាពតាមរយៈ Bayesian inference។ | នៅតែជាទម្រង់ម៉ូដែលលីនេអ៊ែរ (Linear model) ដែលអាចមានដែនកំណត់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យដែលមានរចនាសម្ព័ន្ធមិនលីនេអ៊ែរស្មុគស្មាញ។ | អាចរក្សាបាននូវភាពសុក្រឹតនៃការចាត់ថ្នាក់រហូតដល់ ៩១% សូម្បីតែនៅពេលដែល ៨០% នៃស្លាកចំណាត់ថ្នាក់ (Class labels) ត្រូវបានលុបបាត់ក៏ដោយ។ |
| CVFDT (Concept-adapting Very Fast Decision Tree) មែកធាងសម្រេចចិត្តលឿនដែលអាចសម្របតាមបម្រែបម្រួលកុងសិប |
ងាយស្រួលយល់ និងបកស្រាយលទ្ធផល ជាពិសេសល្អសម្រាប់ទិន្នន័យដែលមានលក្ខណៈ (Features) ច្រើន។ | មានអត្រាកំហុសខ្ពស់ជាងបើធៀបនឹងវិធីសាស្ត្រ Ensemble ផ្សេងទៀត និងជួបប្រទះបញ្ហាដាច់ដំណើរការ (Segmentation fault) ក្នុងកូដដើមលើទិន្នន័យស្មុគស្មាញមួយចំនួន។ | មានអត្រាកំហុសរហូតដល់ ០.៤៤៣ លើទិន្នន័យដែលមាន ៥០ លក្ខណៈ ធៀបនឹង ០.១៤២ របស់ DCCCH ។ |
| AddExp (Additive Expert Ensembles) ការបូកបញ្ចូលលទ្ធផលអ្នកជំនាញ AddExp |
មានទ្រឹស្តីគណិតវិទ្យារឹងមាំគាំទ្រ និងមានយន្តការកាត់បន្ថយអ្នករៀនចោលនៅពេល Ensemble ធំធាត់លើសកំណត់។ | ដំណើរការជាក់ស្តែងនៅលើទិន្នន័យធំៗនិងស្មុគស្មាញមិនសូវល្អដូចការរំពឹងទុកតាមទ្រឹស្តីនោះទេ។ | ទទួលបានតម្លៃ RMSE ខ្ពស់ខ្លាំង (៣០.៧) ធៀបនឹងវិធីសាស្ត្រដទៃលើទិន្នន័យហិរញ្ញវត្ថុពិតប្រាកដ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ក្បួនដោះស្រាយទាំងនេះត្រូវបានរចនាឡើងសម្រាប់លំហូរទិន្នន័យ (Data streams) ដែលទាមទារអង្គចងចាំថេរ (Constant memory footprint) ប៉ុន្តែទាមទារសមត្ថភាពគណនាលឿនដើម្បីអាប់ដេតតាមពេលវេលាជាក់ស្តែង។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យនិម្មិត (Synthetic data) និងទិន្នន័យទីផ្សារប្តូរប្រាក់បរទេស (Forex) ប៉ុណ្ណោះ ដែលវាមិនតំណាងឱ្យភាពចម្រុះនៃប្រភេទបញ្ហាក្នុងពិភពពិតឡើយ។ សម្រាប់កម្ពុជា ការមិនបានសាកល្បងលើទិន្នន័យអត្ថបទ (Text) រូបភាព ឬទិន្នន័យរូបវន្ត (IoT sensors) ដែលជួបប្រទះញឹកញាប់ក្នុងបរិបទប្រទេសកំពុងអភិវឌ្ឍ ទាមទារឱ្យមានការសាកល្បងផ្ទៀងផ្ទាត់បន្ថែមមុននឹងដាក់ឱ្យប្រើប្រាស់។
ទោះបីជាយ៉ាងណាក៏ដោយ ក្បួនដោះស្រាយ DLR និង DCCCH នេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់អភិវឌ្ឍប្រព័ន្ធនៅកម្ពុជា ដែលទិន្នន័យតែងមានការប្រែប្រួលជានិច្ច។
ជារួម ភាពបត់បែនរបស់ DCCCH ក្នុងការសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរ គឺជាដំណោះស្រាយដ៏សក្តិសមបំផុតសម្រាប់ប្រព័ន្ធរដ្ឋ និងឯកជននៅកម្ពុជា ដែលកំពុងបោះជំហានទៅរកការប្រើប្រាស់ទិន្នន័យធំ (Big Data) ក្នុងពេលវេលាជាក់ស្តែង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Concept Drift | បាតុភូតដែលលក្ខណៈរចនាសម្ព័ន្ធ ឬទំនាក់ទំនងនៃប្រូបាប៊ីលីតេរបស់ទិន្នន័យមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីន (Machine Learning) ដែលធ្លាប់តែទាយត្រូវ ក្លាយជាលែងមានប្រសិទ្ធភាព។ | ដូចជាច្បាប់នៃល្បែងមួយដែលផ្លាស់ប្តូររហូតពេលអ្នកកំពុងលេង ដែលតម្រូវឱ្យអ្នកលេងត្រូវរៀនក្បួនថ្មីជានិច្ចដើម្បីឈ្នះ។ |
| Data Streams | លំហូរនៃទិន្នន័យដែលបញ្ជូនចូលមកជាបន្តបន្ទាប់ឥតឈប់ឈរ និងមានទំហំធំធេង ដែលប្រព័ន្ធត្រូវតែដំណើរការទិន្នន័យទាំងនោះភ្លាមៗ ដោយមិនមានអង្គចងចាំគ្រប់គ្រាន់សម្រាប់រក្សាទុកវាទាំងអស់នោះទេ។ | ដូចជាទឹកទន្លេដែលហូរមិនដាច់ ដែលយើងមិនអាចត្រងទឹកទាំងអស់ទុកក្នុងអាងបានទេ គឺបានត្រឹមតែដួសយកមកប្រើប្រាស់ភ្លាមៗប៉ុណ្ណោះ។ |
| Ensemble Learning | វិធីសាស្ត្រប្រើប្រាស់ម៉ូដែលរៀនម៉ាស៊ីន (Learners/Classifiers) ច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលត្រឹមត្រូវនិងមានស្ថិរភាពជាងការប្រើប្រាស់ម៉ូដែលតែមួយ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ៥នាក់ផ្សេងគ្នា រួចយកមតិភាគច្រើនដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺ ជាជាងជឿងងឹតងងល់លើគ្រូពេទ្យតែម្នាក់។ |
| Receiver Operating Characteristic (ROC) curve | ខ្សែក្រាហ្វិកសម្រាប់វាស់ស្ទង់សមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ដោយប្រៀបធៀបអត្រានៃការទស្សន៍ទាយត្រូវ (True Positive) និងអត្រានៃការទស្សន៍ទាយខុស (False Positive) នៅកម្រិតនៃការសម្រេចចិត្តផ្សេងៗគ្នា។ | ដូចជារបារវាស់ស្ទង់ថាតើឆ្មាំយាមច្រកទ្វារម្នាក់ពូកែប៉ុណ្ណាក្នុងការចាប់ចោរបានត្រឹមត្រូវ (True) ធៀបនឹងការចាប់ច្រឡំមនុស្សល្អ (False)។ |
| Convex Hull | នៅក្នុងបរិបទនៃក្រាហ្វិក ROC ឬ REC នេះ វាសំដៅលើខ្សែបន្ទាត់កោងនៅផ្នែកខាងក្រៅបង្អស់ដែលតភ្ជាប់ចំណុចដំណើរការល្អៗបំផុតរបស់ម៉ូដែលនានា ដើម្បីស្វែងរកបណ្តុំម៉ូដែលដែលផ្តល់លទ្ធផលល្អដាច់គេ។ | ដូចជាការយកកៅស៊ូកងទៅចងរុំជុំវិញក្រុមបង្គោលឈើ កៅស៊ូដែលលាតសន្ធឹងប៉ះបង្គោលក្រៅគេបំផុតនោះហើយគឺជា Convex Hull។ |
| Extended Kalman Filter (EKF) | ក្បួនគណិតវិទ្យាដែលប្រើសម្រាប់ប៉ាន់ស្មានស្ថានភាពបច្ចុប្បន្ននៃប្រព័ន្ធមួយដែលមានការប្រែប្រួល និងភាពមិនច្បាស់លាស់ ដោយធ្វើបច្ចុប្បន្នភាពទម្ងន់ម៉ូដែលផ្អែកលើការរួមបញ្ចូលគ្នារវាងការទស្សន៍ទាយមុន និងការអង្កេតទិន្នន័យថ្មី។ | ដូចជាការបើកបរឡានក្នុងអ័ព្ទក្រាស់ដោយពឹងផ្អែកលើការស្មានទីតាំងចាស់ បូកផ្សំនឹងពន្លឺភ្លើងព្រាលៗខាងមុខ ដើម្បីប៉ាន់ស្មានថាឡានកំពុងនៅត្រង់ណាឱ្យប្រាកដ។ |
| Bayesian Inference | វិធីសាស្ត្រស្ថិតិដែលប្រើប្រាស់ទ្រឹស្តី Bayes ដើម្បីធ្វើការអាប់ដេត (Update) ប្រូបាប៊ីលីតេ ឬកម្រិតនៃជំនឿទៅលើសម្មតិកម្មមួយ នៅពេលដែលប្រព័ន្ធទទួលបានភស្តុតាង ឬទិន្នន័យថ្មីៗបន្ថែមទៀត។ | ដូចជាការសង្ស័យថាមេឃនឹងភ្លៀងនៅពេលព្រឹក ហើយជំនឿនេះកាន់តែត្រូវបានអាប់ដេតឲ្យខ្លាំងឡើងៗនៅពេលអ្នកសង្កេតឃើញពពកខ្មៅ និងមានខ្យល់បក់ខ្លាំងនៅពេលបន្តិចក្រោយមក។ |
| Semi-Supervised Learning | ការហ្វឹកហាត់ម៉ូដែលម៉ាស៊ីនដោយប្រើប្រាស់ទិន្នន័យចម្រុះគ្នា គឺទិន្នន័យដែលមានភ្ជាប់ស្លាកចម្លើយ (Labeled data) ចំនួនតិចតួច និងទិន្នន័យដែលគ្មានចម្លើយ (Unlabeled data / Missing labels) យ៉ាងច្រើនសន្ធឹកសន្ធាប់។ | ដូចជាសិស្សរៀនមេរៀនដោយមានគ្រូប្រាប់ចម្លើយលំហាត់គំរូតែ២ទៅ៣ រួចសិស្សត្រូវយកគំរូនោះទៅសាកល្បងវិភាគដោះស្រាយលំហាត់រាប់រយផ្សេងទៀតដោយខ្លួនឯងដោយគ្មានចម្លើយផ្ទៀងផ្ទាត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖