Original Title: Advances in Data Stream Mining with Concept Drift
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វឌ្ឍនភាពនៃការទាញយកទិន្នន័យតាមស្ទ្រីមជាមួយបម្រែបម្រួលគោលគំនិត (Concept Drift)

ចំណងជើងដើម៖ Advances in Data Stream Mining with Concept Drift

អ្នកនិពន្ធ៖ Roberto Souto Maior de Barros (Universidade Federal de Pernambuco - UFPE)

ឆ្នាំបោះពុម្ព៖ 2017 Universidade Federal de Pernambuco

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការរៀនតាមប្រព័ន្ធអនឡាញ (Online Learning) ទាមទារឱ្យមានការទាញយកព័ត៌មានពីទិន្នន័យដែលហូរចូលជាបន្តបន្ទាប់និងលឿន (Data Streams) ដែលជារឿយៗតែងតែរងផលប៉ះពាល់ពីការផ្លាស់ប្តូររបាយទិន្នន័យ ដែលហៅថា បម្រែបម្រួលគោលគំនិត (Concept Drift) ដែលធ្វើឱ្យក្បួនដោះស្រាយចាស់ៗធ្លាក់ចុះប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើវិធីសាស្ត្រចាប់សញ្ញាថ្មីចំនួនពីរ (RDDM និង WSTD) និងក្បួនដោះស្រាយបណ្ដុំថ្មីមួយ (BOLE) ដោយធ្វើការប្រៀបធៀបខ្នាតធំលើទិន្នន័យសិប្បនិម្មិតនិងទិន្នន័យពិតប្រាកដ។

ការបង្កើតវិធីសាស្ត្រចាប់សញ្ញាថ្មី (RDDM, WSTD, BOLE Algorithms)
ការធ្វើតេស្តប្រៀបធៀបវិធីសាស្ត្រចាប់សញ្ញា១៥ប្រភេទ (15 Drift Detectors Configurations)
ការធ្វើតេស្តប្រៀបធៀបក្បួនដោះស្រាយបណ្ដុំ៥ប្រភេទ (5 Ensemble Algorithms Configurations)
ការវាយតម្លៃដោយប្រើម៉ូដែល Naive Bayes និង Hoeffding Trees នៅក្នុងក្របខ័ណ្ឌ (MOA Framework)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ RDDM129 និង HDDMA ត្រូវបានរកឃើញថាជាជម្រើសដ៏ល្អបំផុតនិងមានភាពសុក្រឹតខ្ពស់ក្នុងការចាប់យកបម្រែបម្រួលទាំងប្រភេទគំហុក (Abrupt) និងសន្សឹមៗ (Gradual)។
ក្បួនដោះស្រាយបណ្ដុំចំណាត់ថ្នាក់ BOLE5 ទទួលបានលទ្ធផលប្រសើរជាងគេក្នុងការប្រើប្រាស់ជាមួយចំណាត់ថ្នាក់ Naive Bayes លើគ្រប់ទិន្នន័យសាកល្បងទាំងអស់។
សម្រាប់ម៉ូដែលចំណាត់ថ្នាក់ Hoeffding Tree ក្បួនដោះស្រាយបណ្ដុំ FASE បង្ហាញដំណើរការល្អបំផុត ខណៈដែលការជ្រើសរើសម៉ូដែលបណ្ដុំមានឥទ្ធិពលលើភាពសុក្រឹតចុងក្រោយខ្លាំងជាងការជ្រើសរើសកម្មវិធីចាប់សញ្ញា (Drift Detector)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
RDDM (Reactive Drift Detection Method) វិធីសាស្ត្រចាប់សញ្ញាបម្រែបម្រួលបែបសកម្ម	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកបម្រែបម្រួលទិន្នន័យសន្សឹមៗ (Gradual Drifts) និងរក្សាបានភាពសុក្រឹតនៅពេលគោលគំនិតមានទំហំធំ។	ប្រើប្រាស់អង្គចងចាំ (Memory) ច្រើនជាង DDM បន្តិចបន្តួច ដោយសារត្រូវរក្សាទុកប្រវត្តិទិន្នន័យក្នុង Circular Queue។	ផ្តល់លទ្ធផលភាពសុក្រឹតខ្ពស់ជាង DDM យ៉ាងច្បាស់លាស់នៅក្នុងទិន្នន័យសាកល្បងទាំងអស់ និងត្រូវបានរកឃើញថាជាវិធីសាស្ត្រល្អបំផុតមួយ (RDDM129)។
WSTD (Wilcoxon Rank Sum Test Drift Detector) កម្មវិធីចាប់សញ្ញាដោយប្រើតេស្តស្ថិតិ Wilcoxon	មានភាពច្បាស់លាស់ខ្ពស់ក្នុងការកំណត់ទីតាំងបម្រែបម្រួល (Precision) និងកាត់បន្ថយការចាប់សញ្ញាខុស (False Positives) បានយ៉ាងល្អ។	ទាមទារដំណើរការគណនាស្ថិតិបន្តិចបន្តួចបន្ថែម ដែលអាចធ្វើឱ្យវាដើរយឺតជាងម៉ូដែលសាមញ្ញៗ។	ទទួលបានចំណាត់ថ្នាក់ខ្ពស់បំផុតផ្នែកភាពសុក្រឹតជាមួយម៉ូដែលទាំងពីរ (NB និង HT) នៅក្នុងការធ្វើតេស្តប្រៀបធៀបជាមួយម៉ូដែលចាស់ៗ។
BOLE (Boosting-like Online Learning Ensemble) បណ្ដុំក្បួនដោះស្រាយរៀនតាមអនឡាញបែប Boosting	មានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងបម្រែបម្រួលញឹកញាប់ និងគំហុក ដោយមានការកែសម្រួលយន្តការបោះឆ្នោតរបស់ Classifiers ចាស់ៗ។	ទោះបីជាដំណើរការល្អខ្លាំងជាមួយចំណាត់ថ្នាក់ Naive Bayes ក៏ដោយ វានៅមានកម្រិតទាបជាងក្បួនដោះស្រាយ FASE បន្តិចនៅពេលប្រើជាមួយ Hoeffding Tree។	ក្បួនដោះស្រាយ BOLE5 បានយកឈ្នះដាច់លើក្បួនដោះស្រាយផ្សេងទៀតនៅពេលធ្វើតេស្តដោយប្រើចំណាត់ថ្នាក់ Naive Bayes លើគ្រប់ទិន្នន័យទាំងអស់។
DDM (Drift Detection Method) ក្បួនដោះស្រាយចាប់សញ្ញាបម្រែបម្រួលស្តង់ដារចាស់	សាមញ្ញ ងាយស្រួលអនុវត្ត ប្រើប្រាស់អង្គចងចាំតិចតួចបំផុត O(1) និងដំណើរការបានលឿន។	បាត់បង់ភាពរសើប (Sensitivity) និងថយចុះប្រសិទ្ធភាពយ៉ាងខ្លាំងនៅពេលបម្រែបម្រួលមានរយៈកាលវែង (Long concepts)។	គុណភាពនៃការទស្សន៍ទាយធ្លាក់ចុះនៅពេលទិន្នន័យហូរចូលមានទំហំធំលើសពី ២០០,០០០ ជួរ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាការប្រើប្រាស់ធនធាន (អង្គចងចាំ និងពេលវេលាដំណើរការ) សម្រាប់ក្បួនដោះស្រាយថ្មីៗទាំងនេះ គឺមានទំហំតូច និងអាចដំណើរការបានយ៉ាងរលូននៅលើកុំព្យូទ័រធម្មតា។

Hardware: មិនទាមទារកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ឬ GPU នោះទេ (ឧទាហរណ៍ CPU Intel Core i7 និង 16GB RAM ក៏អាចដំណើរការការធ្វើតេស្តបានយ៉ាងរលូន)។
Software: ត្រូវការប្រព័ន្ធដំណើរការស្រាវជ្រាវ Massive Online Analysis (MOA framework) និងភាសាកម្មវិធី Java ។
Dataset: ត្រូវការទិន្នន័យស្ទ្រីម (Data Streams) ដែលមានលំហូរបន្តបន្ទាប់ ដូចជាទិន្នន័យសិប្បនិម្មិត (Agrawal, LED, Mixed) ឫ ទិន្នន័យពិត (Electricity, Covertype)។
Expertise: ទាមទារអ្នកមានចំណេះដឹងផ្នែក Machine Learning ជាពិសេសលើផ្នែក Online Learning, Ensemble Methods និង Data Stream Mining។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យពិតប្រាកដដែលត្រូវបានប្រើប្រាស់ក្នុងការស្រាវជ្រាវនេះ (ដូចជាទិន្នន័យទីផ្សារអគ្គិសនីនៅអូស្ត្រាលី និងទិន្នន័យព្រៃឈើនៅសហរដ្ឋអាមេរិក) ឆ្លុះបញ្ចាំងពីបរិបទ និងលក្ខខណ្ឌនៃប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា ដែលមាននិន្នាការសេដ្ឋកិច្ច ការប្រែប្រួលអាកាសធាតុ និងអាកប្បកិរិយាអ្នកប្រើប្រាស់ខុសប្លែកពីគេ ការអនុវត្តម៉ូដែលទាំងនេះតម្រូវឱ្យមានការបង្វឹកឡើងវិញជាមួយនឹងទិន្នន័យក្នុងស្រុក ដើម្បីជៀសវាងភាពលម្អៀងក្នុងការធ្វើសេចក្តីសម្រេចចិត្ត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ក្បួនដោះស្រាយតាមដានការប្រែប្រួលទិន្នន័យ (Concept Drift) នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកដោះស្រាយបញ្ហាជាក់ស្តែងនៅក្នុងស្ថាប័ននានានៅកម្ពុជា។

វិស័យហិរញ្ញវត្ថុ និងធនាគារឌីជីថល (Fintech): ធនាគារដូចជា ABA ឬ ស្ថាប័នមីក្រូហិរញ្ញវត្ថុនានា អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីតាមដាននិងទប់ស្កាត់ការក្លែងបន្លំ (Fraud Detection) ដែលល្បិចរបស់ជនខិលខូចតែងតែផ្លាស់ប្តូរទម្រង់ជាប្រចាំ។
ការតាមដានបរិស្ថាន និងកសិកម្ម (Agriculture & Environment): ក្រសួងធនធានទឹក ឬ អង្គការក្រៅរដ្ឋាភិបាល អាចប្រើដើម្បីវិភាគទិន្នន័យពីសេនស័រវាស់កម្ពស់ទឹកបឹងទន្លេសាប ដោយរកមើលភាពប្រែប្រួលមិនប្រក្រតីដែលបណ្តាលមកពីបម្រែបម្រួលអាកាសធាតុ (Climate Change)។
វិស័យទូរគមនាគមន៍ (Telecommunications): ក្រុមហ៊ុនបណ្តាញទូរស័ព្ទ អាចប្រើម៉ូដែលទាំងនេះដើម្បីព្យាករណ៍ពីអាកប្បកិរិយារបស់អ្នកប្រើប្រាស់អ៊ីនធឺណិតដែលផ្លាស់ប្តូរឥតឈប់ឈរតាមនិន្នាការសង្គម។

ការរួមបញ្ចូលប្រព័ន្ធវិភាគទិន្នន័យអនឡាញដែលមានសមត្ថភាពចាប់យកបម្រែបម្រួលបរិបទ នឹងជួយឱ្យស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជាអាចសម្របខ្លួន និងធ្វើការសម្រេចចិត្តបានទាន់សភាពការណ៍។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Data Stream Mining: និស្សិតគួរចាប់ផ្តើមស្វែងយល់ពីទ្រឹស្តីមូលដ្ឋាននៃ Concept Drift និង Online Learning ដោយប្រើប្រាស់ឯកសារអនឡាញ និងសៀវភៅពាក់ព័ន្ធនឹង Machine Learning សម្រាប់ទិន្នន័យដែលមានលំហូរបន្តបន្ទាប់។
ដំឡើងនិងអនុវត្តជាមួយ MOA Framework: ទាញយកនិងតំឡើងកម្មវិធីបរិស្ថាន MOA (Massive Online Analysis) Framework ដែលមានមូលដ្ឋានលើ Java ដើម្បីសាកល្បងដំណើរការក្បួនដោះស្រាយដែលមានស្រាប់ដូចជា DDM និង ADWIN។
ធ្វើការសាកល្បងជាមួយក្បួនដោះស្រាយថ្មី (RDDM, WSTD, BOLE): ទាញយកកូដប្រភព (Source code) នៃវិធីសាស្ត្រ RDDM និង BOLE ពី GitHub មកដាក់បញ្ចូលក្នុង MOA Framework រួចធ្វើការប្រៀបធៀបលទ្ធផលដោយប្រើទិន្នន័យសាកល្បងដូចជា Electricity Dataset។
ប្រមូលទិន្នន័យក្នុងស្រុកនិងរៀបចំគម្រោងស្រាវជ្រាវ (Local Case Study): បង្កើតគម្រោងមួយដោយប្រមូលទិន្នន័យពិតប្រាកដនៅក្នុងប្រទេសកម្ពុជា (ឧទាហរណ៍៖ ទិន្នន័យចរាចរណ៍នៅភ្នំពេញ ឬ ទិន្នន័យអាកាសធាតុពីសេនស័រ IoT) ហើយអនុវត្តក្បួនដោះស្រាយទាំងនេះដើម្បីតាមដានការផ្លាស់ប្តូរ និងសរសេរជារបាយការណ៍ស្រាវជ្រាវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Concept Drift	បម្រែបម្រួលគោលគំនិត គឺជាបាតុភូតមួយនៅក្នុងការរៀនម៉ាស៊ីន (Machine Learning) ដែលរបាយ ឬលក្ខណៈនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យម៉ូដែលចាស់ដែលធ្លាប់តែទស្សន៍ទាយត្រូវ លែងសូវមានភាពសុក្រឹតនិងទាមទារការបង្វឹកសារជាថ្មី។	ដូចជាការទស្សន៍ទាយម៉ូដសម្លៀកបំពាក់ ដែលស្ទីលកាលពីឆ្នាំមុនលែងពេញនិយមសម្រាប់ឆ្នាំនេះ ដូច្នេះយើងត្រូវរៀនសង្កេតមើលចំណង់ចំណូលចិត្តថ្មីៗជានិច្ច។
Data Streams	លំហូរទិន្នន័យ ដែលហូរចូលក្នុងប្រព័ន្ធជាបន្តបន្ទាប់ ឥតឈប់ឈរ និងក្នុងល្បឿនលឿន ដែលធ្វើឱ្យប្រព័ន្ធមិនអាចរក្សាទុកទិន្នន័យទាំងអស់នោះបានទេ ហើយតម្រូវឱ្យមានការវិភាគនិងទាញយកព័ត៌មានភ្លាមៗ។	ដូចជាទឹកទន្លេដែលហូរមិនដាច់ ដែលយើងមិនអាចត្រងទឹកទាំងអស់ទុកបានទេ គឺយើងអាចត្រឹមតែធ្វើការវាស់វែងនិងដួសយកព័ត៌មានពេលវាហូរកាត់ប៉ុណ្ណោះ។
Ensemble Methods	ការប្រើប្រាស់វិធីសាស្ត្រប្រមូលផ្ដុំ ដោយយកម៉ូដែលទស្សន៍ទាយ (Classifiers) តូចៗជាច្រើនមកធ្វើការរួមគ្នា ដើម្បីធ្វើការបោះឆ្នោត ឬសម្រេចចិត្តលើចម្លើយចុងក្រោយមួយដែលត្រឹមត្រូវនិងមានស្ថិរភាពជាងការប្រើម៉ូដែលតែមួយ។	ដូចជាការសម្រេចចិត្តក្នុងក្រុមប្រឹក្សាភិបាល ដែលការប្រមូលមតិបោះឆ្នោតពីអ្នកជំនាញច្រើននាក់ តែងតែត្រឹមត្រូវជាងការជឿលើមនុស្សតែម្នាក់។
Online Learning	ការរៀនតាមប្រព័ន្ធអនឡាញ (ក្នុងបរិបទ AI) គឺជាក្បួនដោះស្រាយដែលរៀននិងកែសម្រួលខ្លួនវាបន្តិចម្ដងៗ រាល់ពេលដែលទិន្នន័យថ្មីនីមួយៗហូរចូលមកដល់ ជាជាងការរៀនទិន្នន័យមួយដុំធំក្នុងពេលតែមួយ (Batch Learning)។	ដូចជាសិស្សដែលរៀនមេរៀនថ្មីជារៀងរាល់ថ្ងៃហើយចងចាំទុក ជាជាងការរង់ចាំអានសៀវភៅទាំងមូលនៅថ្ងៃមុនប្រឡងតែម្តង។
Interleaved Test-Then-Train	យន្តការវាយតម្លៃម៉ូដែល ដោយយកទិន្នន័យថ្មីដែលទើបហូរចូលមកធ្វើតេស្តសាកល្បងសមត្ថភាពទស្សន៍ទាយជាមុន រួចទើបយកទិន្នន័យដដែលនោះទៅបង្វឹក (Train) ម៉ូដែលបន្ត ធ្វើឱ្យគេមិនបាច់បែងចែកទិន្នន័យជាដុំ Test និង Train ដាច់ពីគ្នាឡើយ។	ដូចជាការធ្វើតេស្តសិស្សដោយសួរលំហាត់ថ្មីសិន ហើយពេលសិស្សឆ្លើយរួច ទើបគ្រូពន្យល់ចម្លើយដើម្បីឱ្យសិស្សរៀនពីវាសម្រាប់ថ្ងៃក្រោយ។
False Positive	នៅក្នុងការចាប់សញ្ញា Concept Drift ការរកឃើញសញ្ញាខុស ឬ False Positive គឺមានន័យថា ប្រព័ន្ធបានផ្តល់សញ្ញាព្រមានថាមានការប្រែប្រួលទិន្នន័យ ទាំងដែលតាមការពិតទិន្នន័យមិនមានការផ្លាស់ប្តូរអ្វីទាល់តែសោះ។	ដូចជាសំឡេងស៊ីរ៉ែនរោទិ៍ប្រាប់ថាមានចោរចូលផ្ទះ ទាំងដែលតាមពិតគ្រាន់តែជាសត្វឆ្មាលោតកាត់។
Abrupt and Gradual Drift	ជាប្រភេទនៃបម្រែបម្រួលទិន្នន័យ ដែល Abrupt Drift គឺជាការប្តូររបាយទិន្នន័យភ្លាមៗនិងគំហុក ចំណែកឯ Gradual Drift គឺជាការផ្លាស់ប្តូរយឺតៗនិងសន្សឹមៗពីទិន្នន័យនៃគោលគំនិតចាស់ទៅគោលគំនិតថ្មី។	Abrupt គឺដូចជាការបិទបើកកុងតាក់ភ្លើងភ្លាមៗ ចំណែក Gradual គឺដូចជាការមួលប៉ូតុងបន្ថយឬពន្លឺភ្លើងបន្តិចម្តងៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖