Original Title: Learning from Data Streams with Concept Drift
Source: www.robots.ox.ac.uk
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពីលំហូរទិន្នន័យដែលមានបម្រែបម្រួលកុងសិប (Concept Drift)

ចំណងជើងដើម៖ Learning from Data Streams with Concept Drift

អ្នកនិពន្ធ៖ Roman Garnett (University of Oxford), Stephen J. Roberts (University of Oxford)

ឆ្នាំបោះពុម្ព៖ 2008 Technical Report PARG-08-01, University of Oxford

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ នៅក្នុងបរិបទនៃការជីកកកាយទិន្នន័យ ទំហំទិន្នន័យធំៗ និងលំហូរទិន្នន័យលឿនៗជារឿយៗតែងតែផ្លាស់ប្តូរទម្រង់ហៅថា Concept drift ដែលធ្វើឱ្យបច្ចេកទេសរៀនម៉ាស៊ីន (Machine learning) បែបប្រពៃណីលែងមានប្រសិទ្ធភាព។ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហានៃការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ និងតម្រែតម្រង់ (Regression) ក្នុងបរិស្ថានដែលទិន្នន័យមិនមានស្ថិរភាពព្រមទាំងមានបាត់តម្លៃស្លាក (Labels)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានណែនាំក្បួនដោះស្រាយតាមវិធីសាស្ត្រ Bayesian ចំនួនពីរគឺ Dynamic Logistic Regressor (DLR) និងក្បួនដោះស្រាយ Dynamic Characteristic Curve Convex Hull (DCCCH) សម្រាប់វាយតម្លៃនិងធ្វើសមាហរណកម្មលទ្ធផល។

Dynamic Logistic Regressor (DLR): ជាវិធីសាស្ត្រ Bayesian បែបបន្តបន្ទាប់សម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យដែលមានបម្រែបម្រួល (Non-stationary) និងអាចទាញយកទិន្នន័យខូចឬបាត់។
Dynamic Characteristic Curve Convex Hull (DCCCH): ជាក្បួនដោះស្រាយមេ (Meta-algorithm) សម្រាប់បូកបញ្ចូលលទ្ធផលរបស់អ្នករៀន (Ensemble learners) ដោយប្រើខ្សែទំហំកោងថាមវន្ត។
អត្រាវាស់ស្ទង់ Receiver Operating Characteristic (ROC) និង Regression Error Characteristic (REC) curves ដែលត្រូវបានកែច្នៃដើម្បីផ្តល់ទម្ងន់ដល់ភាពជាក់លាក់តាមពេលវេលាថ្មីៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយ DLR អាចរក្សាបាននូវភាពសុក្រឹតរហូតដល់ ៩១% សូម្បីតែពេលដែលស្លាកចំណាត់ថ្នាក់ (Class labels) ៨០% ត្រូវបានបាត់បង់ក៏ដោយ។
ក្បួនដោះស្រាយ DCCCH មានប្រសិទ្ធភាពខ្ពស់ជាងវិធីសាស្ត្រ Ensemble មុនៗ (ដូចជា SEA, AddExp, និង CVFDT) ទាំងលើការធ្វើតេស្តទិន្នន័យនិម្មិត និងទិន្នន័យពិតនៃទីផ្សារហិរញ្ញវត្ថុ ដោយទទួលបានតម្លៃលំអៀង (RMSE) ទាបជាងគេ។
DCCCH អនុញ្ញាតឱ្យមានការវាយតម្លៃលក្ខណៈទិន្នន័យ (Feature evaluation) តាមពេលវេលាជាក់ស្តែង ដែលជួយឱ្យប្រព័ន្ធដឹងពីសារៈសំខាន់នៃអថេរនីមួយៗនៅពេលដែលវាប្រែប្រួលរហូតដល់ ៧០%-៩០% នៃម៉ាស់ទិន្នន័យសរុប។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
DCCCH (Dynamic Characteristic Curve Convex Hull) ការជ្រើសរើសដោយប្រើខ្សែទំហំកោងថាមវន្ត (Meta-algorithm សម្រាប់ Ensemble)	សម្របខ្លួនលឿនទៅនឹងបម្រែបម្រួលទិន្នន័យ (Concept drift) ដោយផ្តល់ទម្ងន់លើដំណើរការថ្មីៗរបស់អ្នករៀន និងមិនទាមទារអង្គចងចាំធំសម្រាប់ការរក្សាទុកទិន្នន័យចាស់ៗ។	ទាមទារការគណនា Convex Hull ជាប្រចាំដើម្បីអាប់ដេតអ្នករៀន ដែលអាចប្រើប្រាស់កម្លាំងកុំព្យូទ័រច្រើនបន្តិចប្រសិនបើ Ensemble មានទំហំធំខ្លាំង។	ទទួលបានអត្រាកំហុសទាបបំផុត (០.១៤២) លើទិន្នន័យនិម្មិតចាត់ថ្នាក់ និងតម្លៃលំអៀង RMSE ទាបបំផុត (ឧ. ២.៨៧ លើទិន្នន័យ EUR-CHF) លើការតម្រែតម្រង់។
DLR (Dynamic Logistic Regressor) តម្រែតម្រង់ឡូជីស្ទីកថាមវន្ត (ចាត់ថ្នាក់ដោយប្រើ EKF)	មានសមត្ថភាពខ្ពស់ក្នុងការប៉ាន់ស្មានទិន្នន័យដែលបាត់ (Missing observations) និងអាចទប់ទល់នឹងកំហុសស្លាកចំណាត់ថ្នាក់ (Corrupted labels) យ៉ាងមានប្រសិទ្ធភាពតាមរយៈ Bayesian inference។	នៅតែជាទម្រង់ម៉ូដែលលីនេអ៊ែរ (Linear model) ដែលអាចមានដែនកំណត់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យដែលមានរចនាសម្ព័ន្ធមិនលីនេអ៊ែរស្មុគស្មាញ។	អាចរក្សាបាននូវភាពសុក្រឹតនៃការចាត់ថ្នាក់រហូតដល់ ៩១% សូម្បីតែនៅពេលដែល ៨០% នៃស្លាកចំណាត់ថ្នាក់ (Class labels) ត្រូវបានលុបបាត់ក៏ដោយ។
CVFDT (Concept-adapting Very Fast Decision Tree) មែកធាងសម្រេចចិត្តលឿនដែលអាចសម្របតាមបម្រែបម្រួលកុងសិប	ងាយស្រួលយល់ និងបកស្រាយលទ្ធផល ជាពិសេសល្អសម្រាប់ទិន្នន័យដែលមានលក្ខណៈ (Features) ច្រើន។	មានអត្រាកំហុសខ្ពស់ជាងបើធៀបនឹងវិធីសាស្ត្រ Ensemble ផ្សេងទៀត និងជួបប្រទះបញ្ហាដាច់ដំណើរការ (Segmentation fault) ក្នុងកូដដើមលើទិន្នន័យស្មុគស្មាញមួយចំនួន។	មានអត្រាកំហុសរហូតដល់ ០.៤៤៣ លើទិន្នន័យដែលមាន ៥០ លក្ខណៈ ធៀបនឹង ០.១៤២ របស់ DCCCH ។
AddExp (Additive Expert Ensembles) ការបូកបញ្ចូលលទ្ធផលអ្នកជំនាញ AddExp	មានទ្រឹស្តីគណិតវិទ្យារឹងមាំគាំទ្រ និងមានយន្តការកាត់បន្ថយអ្នករៀនចោលនៅពេល Ensemble ធំធាត់លើសកំណត់។	ដំណើរការជាក់ស្តែងនៅលើទិន្នន័យធំៗនិងស្មុគស្មាញមិនសូវល្អដូចការរំពឹងទុកតាមទ្រឹស្តីនោះទេ។	ទទួលបានតម្លៃ RMSE ខ្ពស់ខ្លាំង (៣០.៧) ធៀបនឹងវិធីសាស្ត្រដទៃលើទិន្នន័យហិរញ្ញវត្ថុពិតប្រាកដ។

ការចំណាយលើធនធាន (Resource Cost)៖ ក្បួនដោះស្រាយទាំងនេះត្រូវបានរចនាឡើងសម្រាប់លំហូរទិន្នន័យ (Data streams) ដែលទាមទារអង្គចងចាំថេរ (Constant memory footprint) ប៉ុន្តែទាមទារសមត្ថភាពគណនាលឿនដើម្បីអាប់ដេតតាមពេលវេលាជាក់ស្តែង។

Hardware: មិនទាមទារម៉ាស៊ីន Supercomputer ឬ GPU ធំដុំនោះទេ ព្រោះវាដំណើរការលើប្រព័ន្ធទិន្នន័យជាបន្តបន្ទាប់ដោយមិនរក្សាទុកទិន្នន័យចាស់ៗ ប៉ុន្តែត្រូវការ CPU ដែលអាចដំណើរការប្រតិបត្តិការម៉ាទ្រីសបានលឿន។
Software: អាចអភិវឌ្ឍន៍បានដោយប្រើភាសា Programming ដែលគាំទ្រគណិតវិទ្យាកម្រិតខ្ពស់ ដូចជា Python (ភ្ជាប់ជាមួយ NumPy/SciPy សម្រាប់ Convex Hull) ឬ C/C++ សម្រាប់ល្បឿនអតិបរមា។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅលើផ្នែកប្រូបាប៊ីលីតេ (Bayesian Inference), ស្ថិតិម៉ាទ្រីស, និង Extended Kalman Filter (EKF)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យនិម្មិត (Synthetic data) និងទិន្នន័យទីផ្សារប្តូរប្រាក់បរទេស (Forex) ប៉ុណ្ណោះ ដែលវាមិនតំណាងឱ្យភាពចម្រុះនៃប្រភេទបញ្ហាក្នុងពិភពពិតឡើយ។ សម្រាប់កម្ពុជា ការមិនបានសាកល្បងលើទិន្នន័យអត្ថបទ (Text) រូបភាព ឬទិន្នន័យរូបវន្ត (IoT sensors) ដែលជួបប្រទះញឹកញាប់ក្នុងបរិបទប្រទេសកំពុងអភិវឌ្ឍ ទាមទារឱ្យមានការសាកល្បងផ្ទៀងផ្ទាត់បន្ថែមមុននឹងដាក់ឱ្យប្រើប្រាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាយ៉ាងណាក៏ដោយ ក្បួនដោះស្រាយ DLR និង DCCCH នេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់អភិវឌ្ឍប្រព័ន្ធនៅកម្ពុជា ដែលទិន្នន័យតែងមានការប្រែប្រួលជានិច្ច។

វិស័យបច្ចេកវិទ្យាហិរញ្ញវត្ថុ (FinTech & Digital Banking): អាចអនុវត្តក្នុងប្រព័ន្ធទូទាត់ប្រាក់ដូចជា Bakong ដើម្បីស្វែងរកប្រតិបត្តិការគួរឱ្យសង្ស័យ (Fraud detection) ព្រោះទម្លាប់នៃការចាយវាយរបស់ពលរដ្ឋអាចផ្លាស់ប្តូរលឿន (Concept drift) ហើយទិន្នន័យតែងតែហូរចូលជាបន្តបន្ទាប់។
ការត្រួតពិនិត្យអាកាសធាតុ និងកសិកម្មឆ្លាតវៃ (Smart Agriculture): ប្រើប្រាស់ជាមួយឧបករណ៍សេនស័រ (IoT sensors) នៅតាមដងទន្លេមេគង្គ ឬកសិដ្ឋាន ដើម្បីទស្សន៍ទាយកម្រិតទឹកនិងសំណើម ដ្បិតម៉ូដែល DLR មានសមត្ថភាពអាចទាយទុកនិងដំណើរការបាន ទោះបីជាសេនស័រខ្លះខូច ឬដាច់អ៊ីនធឺណិតធ្វើឱ្យបាត់ទិន្នន័យក៏ដោយ។
ការគ្រប់គ្រងចរាចរណ៍រាជធានីភ្នំពេញ (Urban Traffic Management): យកទៅប្រើប្រាស់ជាមួយកាមេរ៉ាចរាចរណ៍ដើម្បីវិភាគនិងព្យាករណ៍ការកកស្ទះ ដោយប្រព័ន្ធនេះអាចសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរលំហូរចរាចរណ៍តាមរដូវកាល ឬពេលមានបុណ្យទានធំៗ (Concept drift)។

ជារួម ភាពបត់បែនរបស់ DCCCH ក្នុងការសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរ គឺជាដំណោះស្រាយដ៏សក្តិសមបំផុតសម្រាប់ប្រព័ន្ធរដ្ឋ និងឯកជននៅកម្ពុជា ដែលកំពុងបោះជំហានទៅរកការប្រើប្រាស់ទិន្នន័យធំ (Big Data) ក្នុងពេលវេលាជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះទ្រឹស្តីប្រូបាប៊ីលីតេ: និស្សិតត្រូវយល់ដឹងស៊ីជម្រៅអំពីទ្រឹស្តី Bayesian Inference, Conditional Probability និង Expected Value ដែលជាគ្រឹះនៃម៉ូដែល DLR។
ស្វែងយល់អំពីការរៀនម៉ាស៊ីនលើលំហូរទិន្នន័យ: ផ្តោតលើការស្រាវជ្រាវភាពខុសគ្នារវាងការរៀនបែបប្រពៃណី (Batch learning) និង Online Learning ពិសេសបាតុភូត Concept Drift នៅក្នុងសៀវភៅ ឬអត្ថបទស្រាវជ្រាវពាក់ព័ន្ធនឹង Data Stream Mining។
សរសេរកូដសម្រាប់ Dynamic Logistic Regressor (DLR): អនុវត្តការសរសេរកូដជាភាសា Python ដោយប្រើបណ្ណាល័យ NumPy ដើម្បីបង្កើតម៉ូដែលចំណាត់ថ្នាក់ដែលអាប់ដេតខ្លួនឯង ដោយប្រើប្រាស់ Extended Kalman Filter (EKF) សម្រាប់កែសម្រួលទម្ងន់ម៉ូដែល។
បង្កើតប្រព័ន្ធ DCCCH Meta-algorithm: រៀបចំកូដដើម្បីគូរ Dynamic ROC/REC curves បន្ទាប់មកប្រើប្រាស់មុខងារ ConvexHull ពីបណ្ណាល័យ SciPy ដើម្បីជ្រើសរើសម៉ូដែលកំពូលៗពីក្រុមអ្នករៀន (Ensemble) ប្រកបដោយប្រសិទ្ធភាព។
តេស្តផ្ទាល់ជាមួយទិន្នន័យជាក់ស្តែងនៅកម្ពុជា: ទាញយកទិន្នន័យប្រែប្រួលជាក់ស្តែង ឧទាហរណ៍ទិន្នន័យជួញដូរភាគហ៊ុនប្រចាំថ្ងៃពីផ្សារមូលបត្រកម្ពុជា (CSX) ឬទិន្នន័យអាកាសធាតុពី Data.gov.kh ដើម្បីធ្វើតេស្តមើលសមត្ថភាពចាប់យកបម្រែបម្រួលរបស់ម៉ូដែល DCCCH។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Concept Drift	បាតុភូតដែលលក្ខណៈរចនាសម្ព័ន្ធ ឬទំនាក់ទំនងនៃប្រូបាប៊ីលីតេរបស់ទិន្នន័យមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីន (Machine Learning) ដែលធ្លាប់តែទាយត្រូវ ក្លាយជាលែងមានប្រសិទ្ធភាព។	ដូចជាច្បាប់នៃល្បែងមួយដែលផ្លាស់ប្តូររហូតពេលអ្នកកំពុងលេង ដែលតម្រូវឱ្យអ្នកលេងត្រូវរៀនក្បួនថ្មីជានិច្ចដើម្បីឈ្នះ។
Data Streams	លំហូរនៃទិន្នន័យដែលបញ្ជូនចូលមកជាបន្តបន្ទាប់ឥតឈប់ឈរ និងមានទំហំធំធេង ដែលប្រព័ន្ធត្រូវតែដំណើរការទិន្នន័យទាំងនោះភ្លាមៗ ដោយមិនមានអង្គចងចាំគ្រប់គ្រាន់សម្រាប់រក្សាទុកវាទាំងអស់នោះទេ។	ដូចជាទឹកទន្លេដែលហូរមិនដាច់ ដែលយើងមិនអាចត្រងទឹកទាំងអស់ទុកក្នុងអាងបានទេ គឺបានត្រឹមតែដួសយកមកប្រើប្រាស់ភ្លាមៗប៉ុណ្ណោះ។
Ensemble Learning	វិធីសាស្ត្រប្រើប្រាស់ម៉ូដែលរៀនម៉ាស៊ីន (Learners/Classifiers) ច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលត្រឹមត្រូវនិងមានស្ថិរភាពជាងការប្រើប្រាស់ម៉ូដែលតែមួយ។	ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ៥នាក់ផ្សេងគ្នា រួចយកមតិភាគច្រើនដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺ ជាជាងជឿងងឹតងងល់លើគ្រូពេទ្យតែម្នាក់។
Receiver Operating Characteristic (ROC) curve	ខ្សែក្រាហ្វិកសម្រាប់វាស់ស្ទង់សមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ដោយប្រៀបធៀបអត្រានៃការទស្សន៍ទាយត្រូវ (True Positive) និងអត្រានៃការទស្សន៍ទាយខុស (False Positive) នៅកម្រិតនៃការសម្រេចចិត្តផ្សេងៗគ្នា។	ដូចជារបារវាស់ស្ទង់ថាតើឆ្មាំយាមច្រកទ្វារម្នាក់ពូកែប៉ុណ្ណាក្នុងការចាប់ចោរបានត្រឹមត្រូវ (True) ធៀបនឹងការចាប់ច្រឡំមនុស្សល្អ (False)។
Convex Hull	នៅក្នុងបរិបទនៃក្រាហ្វិក ROC ឬ REC នេះ វាសំដៅលើខ្សែបន្ទាត់កោងនៅផ្នែកខាងក្រៅបង្អស់ដែលតភ្ជាប់ចំណុចដំណើរការល្អៗបំផុតរបស់ម៉ូដែលនានា ដើម្បីស្វែងរកបណ្តុំម៉ូដែលដែលផ្តល់លទ្ធផលល្អដាច់គេ។	ដូចជាការយកកៅស៊ូកងទៅចងរុំជុំវិញក្រុមបង្គោលឈើ កៅស៊ូដែលលាតសន្ធឹងប៉ះបង្គោលក្រៅគេបំផុតនោះហើយគឺជា Convex Hull។
Extended Kalman Filter (EKF)	ក្បួនគណិតវិទ្យាដែលប្រើសម្រាប់ប៉ាន់ស្មានស្ថានភាពបច្ចុប្បន្ននៃប្រព័ន្ធមួយដែលមានការប្រែប្រួល និងភាពមិនច្បាស់លាស់ ដោយធ្វើបច្ចុប្បន្នភាពទម្ងន់ម៉ូដែលផ្អែកលើការរួមបញ្ចូលគ្នារវាងការទស្សន៍ទាយមុន និងការអង្កេតទិន្នន័យថ្មី។	ដូចជាការបើកបរឡានក្នុងអ័ព្ទក្រាស់ដោយពឹងផ្អែកលើការស្មានទីតាំងចាស់ បូកផ្សំនឹងពន្លឺភ្លើងព្រាលៗខាងមុខ ដើម្បីប៉ាន់ស្មានថាឡានកំពុងនៅត្រង់ណាឱ្យប្រាកដ។
Bayesian Inference	វិធីសាស្ត្រស្ថិតិដែលប្រើប្រាស់ទ្រឹស្តី Bayes ដើម្បីធ្វើការអាប់ដេត (Update) ប្រូបាប៊ីលីតេ ឬកម្រិតនៃជំនឿទៅលើសម្មតិកម្មមួយ នៅពេលដែលប្រព័ន្ធទទួលបានភស្តុតាង ឬទិន្នន័យថ្មីៗបន្ថែមទៀត។	ដូចជាការសង្ស័យថាមេឃនឹងភ្លៀងនៅពេលព្រឹក ហើយជំនឿនេះកាន់តែត្រូវបានអាប់ដេតឲ្យខ្លាំងឡើងៗនៅពេលអ្នកសង្កេតឃើញពពកខ្មៅ និងមានខ្យល់បក់ខ្លាំងនៅពេលបន្តិចក្រោយមក។
Semi-Supervised Learning	ការហ្វឹកហាត់ម៉ូដែលម៉ាស៊ីនដោយប្រើប្រាស់ទិន្នន័យចម្រុះគ្នា គឺទិន្នន័យដែលមានភ្ជាប់ស្លាកចម្លើយ (Labeled data) ចំនួនតិចតួច និងទិន្នន័យដែលគ្មានចម្លើយ (Unlabeled data / Missing labels) យ៉ាងច្រើនសន្ធឹកសន្ធាប់។	ដូចជាសិស្សរៀនមេរៀនដោយមានគ្រូប្រាប់ចម្លើយលំហាត់គំរូតែ២ទៅ៣ រួចសិស្សត្រូវយកគំរូនោះទៅសាកល្បងវិភាគដោះស្រាយលំហាត់រាប់រយផ្សេងទៀតដោយខ្លួនឯងដោយគ្មានចម្លើយផ្ទៀងផ្ទាត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖