Original Title: Block-based and online ensembles for concept-drifting data streams
Source: www.cs.put.poznan.pl
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បណ្តុំម៉ូដែលផ្អែកលើប្លុក និងអនឡាញសម្រាប់ស្ទ្រីមទិន្នន័យដែលមានបម្រែបម្រួលទម្រង់អថេរ

ចំណងជើងដើម៖ Block-based and online ensembles for concept-drifting data streams

អ្នកនិពន្ធ៖ Dariusz Brzeziński (Poznan University of Technology)

ឆ្នាំបោះពុម្ព៖ 2015

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការដំណើរការស្ទ្រីមទិន្នន័យដ៏ធំ និងលឿនទាមទារនូវក្បួនដោះស្រាយដែលអាចបន្សាំទៅនឹងការផ្លាស់ប្តូរដោយមិនបានរំពឹងទុក (Concept drift) និងដោះស្រាយអតុល្យភាពទិន្នន័យក្នុងកម្រិតអង្គចងចាំមានកំណត់។ បណ្តុំក្បួនដោះស្រាយបច្ចុប្បន្ន ភាគច្រើនមានការឆ្លើយតបយឺតយ៉ាវចំពោះការផ្លាស់ប្តូរភ្លាមៗ ឬទាមទារថាមពលកុំព្យូទ័រខ្ពស់ពេកសម្រាប់ការវាយតម្លៃ។

វិធីសាស្ត្រ (The Methodology)៖ និក្ខេបបទនេះបង្ហាញពីក្បួនដោះស្រាយចំណាត់ថ្នាក់កូនកាត់ និងរង្វាស់វាយតម្លៃថ្មី ដោយធ្វើតេស្តប្រៀបធៀបលើសំណុំទិន្នន័យស្ទ្រីមពិត និងសិប្បនិម្មិតផ្សេងៗគ្នាជាច្រើន។

ការបង្កើតម៉ូដែល Accuracy Updated Ensemble (AUE) និង Online Accuracy Updated Ensemble (OAUE) សម្រាប់រៀនតាមប្លុក និងអនឡាញផ្តាច់មុខ
ការប្រើប្រាស់រចនាសម្ព័ន្ធ Red-Black Tree ដើម្បីគណនារង្វាស់ Prequential Area Under the ROC Curve (Prequential AUC)
ការធ្វើតេស្តប្រៀបធៀបដោយប្រើប្រាស់ប្រព័ន្ធ Massive Online Analysis (MOA framework)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល AUE ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងវិធីសាស្ត្រស្ទ្រីមចំនួន ១១ ផ្សេងទៀត ក្នុងសេណារីយ៉ូបម្រែបម្រួលផ្សេងៗ ព្រមទាំងប្រើប្រាស់អង្គចងចាំតិចជាងមុន។
ម៉ូដែល OAUE បញ្ចូលគ្នានូវការថ្លឹងទម្ងន់ផ្អែកលើប្លុក និងការរៀនតាមអនឡាញប្រកបដោយជោគជ័យ ដោយធ្វើបច្ចុប្បន្នភាពទម្ងន់ក្នុងពេលវេលាថេរ O(1) ក្នុងមួយទិន្នន័យ។
ក្បួនដោះស្រាយ Prequential AUC ថ្មី អាចវាយតម្លៃយ៉ាងត្រឹមត្រូវលើស្ទ្រីមដែលគ្មានតុល្យភាព និងរកឃើញបម្រែបម្រួលនិម្មិត (Virtual drifts) ក្នុងកម្រិតដំណើរការ O(1) ដែលដោះស្រាយចំណុចខ្សោយនៃរង្វាស់ភាពត្រឹមត្រូវទូទៅបានយ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Accuracy Updated Ensemble (AUE) បណ្តុំម៉ូដែលធ្វើបច្ចុប្បន្នភាពភាពត្រឹមត្រូវផ្អែកលើប្លុក	មានលទ្ធភាពបន្ស៊ាំទៅនឹងបម្រែបម្រួលទិន្នន័យបានល្អទាំងប្រភេទរំពេច និងបណ្តើរៗ។ ប្រើប្រាស់អង្គចងចាំតិចជាងវិធីសាស្ត្រ ensemble មុនៗ។	ដំណើរការជាប្លុក (block-based) ដូច្នេះអាចមានការឆ្លើយតបយឺតបន្តិចចំពោះបម្រែបម្រួលរហ័សភ្លាមៗ ធៀបនឹងម៉ូដែលអនឡាញសុទ្ធ។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែល AWE និងដំណើរការបានលឿនជាង ព្រមទាំងប្រើអង្គចងចាំតិច។
Online Accuracy Updated Ensemble (OAUE) បណ្តុំម៉ូដែលធ្វើបច្ចុប្បន្នភាពភាពត្រឹមត្រូវអនឡាញ	រៀននិងធ្វើបច្ចុប្បន្នភាពរាល់ពេលមានទិន្នន័យចូលម្តងមួយៗ (O(1) complexity) ដែលជួយឱ្យមានការឆ្លើយតបរហ័សបំផុតចំពោះបម្រែបម្រួល។	ទាមទារការគណនាទម្ងន់ជាប្រចាំរាល់ពេលមានទិន្នន័យចូល ដែលងាយរងឥទ្ធិពលពីទិន្នន័យរំខាន (noise) ប្រសិនបើប្រើប្រាស់មុខងារថ្លឹងទម្ងន់លីនេអ៊ែរ។	ជាម៉ូដែលដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតជាមធ្យមលើសំណុំទិន្នន័យតេស្តទូលំទូលាយ ដោយប្រើប្រាស់ពេលវេលានិងអង្គចងចាំតិចបំផុត។
Accuracy Weighted Ensemble (AWE) បណ្តុំម៉ូដែលថ្លឹងទម្ងន់ភាពត្រឹមត្រូវម៉ូដែលចាស់	ដំណើរការបានល្អគួរសមលើសំណុំទិន្នន័យធំៗដែលមានបម្រែបម្រួលប្រភេទវិលជុំ (recurring drifts)។	ទាមទារការធ្វើតេស្តវាយតម្លៃបេក្ខភាព (Cross-validation) ច្រើនដែលស៊ីពេល និងមានភាពទន់ខ្សោយចំពោះទិន្នន័យប្រែប្រួលរហ័ស។	មានចំណាត់ថ្នាក់ទាបជាង AUE និងសន្សំសំចៃធនធានកុំព្យូទ័របានតិចជាងយ៉ាងកត់សម្គាល់។
Leveraging Bagging (Lev) ម៉ូដែលប្រមូលផ្តុំ Leveraging Bagging	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងសេណារីយ៉ូទិន្នន័យអនឡាញមួយចំនួន ដោយប្រើវិធីសាស្ត្រផ្លាស់ប្តូរទម្ងន់ទិន្នន័យយ៉ាងមានប្រសិទ្ធភាព។	ស៊ីអង្គចងចាំច្រើនបំផុត និងមានល្បឿនដំណើរការយឺតជាង OAUE ខ្លាំង។	ទាមទារកម្រិតអង្គចងចាំ (RAM) និងពេលវេលាគណនាខ្ពស់ជាង OAUE រហូតដល់ទៅរាប់សិបដង ទោះបីជាមានភាពត្រឹមត្រូវប្រហាក់ប្រហែលគ្នាក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ សម្រាប់ដំណើរការទិន្នន័យស្ទ្រីមរាប់លានជួរជាបន្តបន្ទាប់ និងប្រើប្រាស់កម្មវិធីវិភាគជំនាញ។

Hardware: ទាមទារ CPU ខ្លាំង (ឧទាហរណ៍៖ Intel Core i7 2.80 GHz ឬ dual-core AMD Opteron) និង RAM យ៉ាងហោចណាស់ 10GB ទៅ 64GB សម្រាប់រក្សាទុកទិន្នន័យបណ្តោះអាសន្ន។
Software: ត្រូវការដំឡើងប្រព័ន្ធ MOA (Massive Online Analysis) framework ដែលជាកម្មវិធីអភិវឌ្ឍន៍ដោយប្រើភាសា Java។
Dataset: ទាមទារសំណុំទិន្នន័យពិតនិងសិប្បនិម្មិតដែលមានទំហំធំ (ពីខ្ទង់ម៉ឺន ទៅរាប់លានជួរ) មានលក្ខណៈបម្រែបម្រួលទម្រង់ (Concept drift) ដើម្បីធ្វើការប្រៀបធៀបក្បួនដោះស្រាយ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើសំណុំទិន្នន័យសិប្បនិម្មិត និងទិន្នន័យស្តង់ដាររបស់បស្ចិមប្រទេស (ឧទាហរណ៍៖ ទិន្នន័យអាកាសយានដ្ឋានអាមេរិក តម្លៃអគ្គិសនីអូស្ត្រាលី)។ ការខ្វះខាតការធ្វើតេស្តលើទិន្នន័យពិតប្រាកដមកពីតំបន់អាស៊ីអាគ្នេយ៍ អាចធ្វើឱ្យយើងមិនទាន់អាចឆ្លុះបញ្ចាំងពេញលេញពីទម្រង់បម្រែបម្រួល ឬកម្រិតភាពគ្មានតុល្យភាពទិន្នន័យ (Data Imbalance) ក្នុងបរិបទប្រទេសកម្ពុជាឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាគ្មានទិន្នន័យជាក់លាក់ពីកម្ពុជាក្តី ក្បួនដោះស្រាយទាំងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យាឆ្លាតវៃនៅកម្ពុជា ដែលទិន្នន័យមានការហូរចូលឥតឈប់ឈរ និងប្រែប្រួលលឿន។

ការព្យាករណ៍អាកាសធាតុ និងទឹកជំនន់ (MoWRAM): អាចប្រើប្រាស់ម៉ូដែល OAUE ដើម្បីវិភាគទិន្នន័យឧបករណ៍ចាប់សញ្ញា (Sensors) តាមដងទន្លេសាប និងទន្លេមេគង្គ ដើម្បីទស្សន៍ទាយកម្រិតទឹកជំនន់ ដោយសារអាកាសធាតុមានការប្រែប្រួលឥតឈប់ឈរ។
ប្រព័ន្ធទូទាត់ប្រាក់ និងធនាគារ (FinTech / បាគង): អាចប្រើសម្រាប់តាមដានលំហូរប្រតិបត្តិការផ្ទេរប្រាក់ប្រចាំថ្ងៃ ដើម្បីចាប់កំហុស ឬការក្លែងបន្លំ (Fraud Detection) ដែលឧក្រិដ្ឋជនតែងតែផ្លាស់ប្តូរយុទ្ធសាស្ត្រជារឿយៗ។
ការគ្រប់គ្រងចរាចរណ៍នៅរាជធានីភ្នំពេញ: ប្រព័ន្ធនេះអាចស្វែងយល់ពីលំហូរចរាចរណ៍នៅតាមស្តុប ដោយសម្របខ្លួនទៅនឹងការកកស្ទះថ្មីៗ ពេលមានការដ្ឋានសាងសង់ផ្លូវ ឬការផ្លាស់ប្តូរម៉ោងធ្វើការ។

សរុបមក ក្បួនដោះស្រាយតាមដានបម្រែបម្រួលស្ទ្រីមទាំងនេះ អាចជួយស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការសម្រេចចិត្តរហ័ស សន្សំសំចៃធនធានកុំព្យូទ័រ និងឆ្លើយតបប្រកបដោយប្រសិទ្ធភាពទៅនឹងការផ្លាស់ប្តូរបរិបទសង្គម។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនតាមស្ទ្រីមទិន្នន័យ: ចាប់ផ្តើមរៀនពីទ្រឹស្តីនៃ Data Stream Mining និងយន្តការនៃការផ្លាស់ប្តូរទម្រង់ Concept Drift ព្រមទាំងរំលឹកមូលដ្ឋានគ្រឹះនៃភាសាសរសេរកូដ Java។
ដំឡើងនិងអនុវត្តផ្ទាល់ជាមួយបរិស្ថាន MOA: ទាញយកនិងដំឡើងកម្មវិធី Massive Online Analysis (MOA) មកសាកល្បងបង្កើតទិន្នន័យសិប្បនិម្មិតតាមរយៈ Stream Generators (ឧទាហរណ៍៖ SEA, Hyperplane) សម្រាប់ស្វែងយល់ពីដំណើរការទិន្នន័យអនឡាញ។
អនុវត្តកូដម៉ូដែល OAUE និងរង្វាស់ Prequential AUC: ទាញយកកូដ ឬសរសេរកម្មវិធីដើម្បីដំណើរការក្បួនដោះស្រាយ Online Accuracy Updated Ensemble (OAUE) រួចធ្វើការវាយតម្លៃដោយប្រើប្រាស់វិធីសាស្ត្រ Prequential AUC ដើម្បីពិនិត្យមើលប្រតិកម្មរបស់វាចំពោះទិន្នន័យដែលគ្មានតុល្យភាព។
អនុវត្តលើសំណុំទិន្នន័យបញ្ហាជាក់ស្តែងនៅកម្ពុជា: ស្វែងរកសំណុំទិន្នន័យក្នុងស្រុក (ឧទាហរណ៍៖ ទិន្នន័យតម្លៃទំនិញពី Open Data Cambodia ឬទិន្នន័យអាកាសធាតុ) យកមកបង្ហាត់ម៉ូដែល ដើម្បីព្យាករណ៍ និងបង្កើតដំណោះស្រាយពិតប្រាកដដែលអាចផ្តល់ប្រយោជន៍ដល់សង្គម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Concept Drift	គឺជាបាតុភូតដែលទម្រង់ក្បួន ឬលក្ខណៈនៃទិន្នន័យមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីន (Machine Learning) ដែលបានរៀនពីមុនលែងមានភាពត្រឹមត្រូវ និងទាមទារការធ្វើបច្ចុប្បន្នភាពឡើងវិញជាប្រចាំ។	ដូចជាការផ្លាស់ប្តូរចំណង់ចំណូលចិត្តម៉ូដសម្លៀកបំពាក់របស់មនុស្សពីមួយឆ្នាំទៅមួយឆ្នាំ ដែលធ្វើឱ្យហាងលក់ខោអាវត្រូវតែផ្លាស់ប្តូរការស្តុកទំនិញជានិច្ច ដើម្បីកុំឱ្យហួសសម័យ។
Ensemble Classifiers	គឺជាវិធីសាស្ត្រក្នុងការបណ្តុះបណ្តាលម៉ូដែលតូចៗជាច្រើន (Component Classifiers) រួចបូកបញ្ចូលការសម្រេចចិត្តរបស់ពួកវាបញ្ចូលគ្នា (ឧទាហរណ៍ តាមរយៈការបោះឆ្នោតទម្ងន់) ដើម្បីទទួលបានលទ្ធផលទស្សន៍ទាយចុងក្រោយមួយដែលត្រឹមត្រូវ និងគួរឱ្យទុកចិត្តជាងមុន។	ដូចជាការពិគ្រោះយោបល់ជាមួយគ្រូពេទ្យជំនាញចំនួន ៥នាក់ផ្សេងគ្នា ដើម្បីសន្និដ្ឋានពីរោគវិនិច្ឆ័យរួម ជាជាងជឿលើការសម្រេចចិត្តរបស់គ្រូពេទ្យតែម្នាក់ឯង។
Data Stream Mining	គឺជាដំណើរការវិភាគ និងទាញយកចំណេះដឹងពីលំហូរទិន្នន័យដែលធ្លាក់ចូលមកជាបន្តបន្ទាប់ ក្នុងល្បឿនលឿន និងមានទំហំធំ ដោយប្រព័ន្ធកុំព្យូទ័រអាចអានទិន្នន័យទាំងនោះបានតែម្តងប៉ុណ្ណោះក្នុងអង្គចងចាំ។	ដូចជាការឈរមើលទឹកទន្លេហូរ ហើយព្យាយាមកត់ត្រាប្រភេទត្រីដែលហែលកាត់ភ្លាមៗ ដោយមិនអាចចាប់វាទុកក្នុងអាងធំមួយសម្រាប់មើលពេលក្រោយបានទេ។
Prequential Evaluation	ជារង្វាស់វាយតម្លៃម៉ូដែល ដោយតម្រូវឱ្យម៉ូដែលធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីជាមុនសិន រួចទើបយកទិន្នន័យនោះទៅឱ្យម៉ូដែលរៀនសូត្របន្ត (Test-then-train) ដើម្បីតាមដានភាពត្រឹមត្រូវរបស់ម៉ូដែលក្នុងពេលវេលាជាក់ស្តែង (Real-time)។	ដូចជាការឱ្យសិស្សធ្វើលំហាត់សាកល្បងជាមុនដើម្បីដាក់ពិន្ទុ រួចទើបគ្រូប្រាប់ចម្លើយនិងពន្យល់ដើម្បីឱ្យសិស្សនោះរៀនសូត្របន្ថែមភ្លាមៗពីកំហុសរបស់ខ្លួន។
Online Learning	ជាយន្តការរៀនសូត្រដែលម៉ូដែលម៉ាស៊ីនអាចរៀន និងកែតម្រូវទម្ងន់ខ្លួនឯងភ្លាមៗ រាល់ពេលដែលទិន្នន័យថ្មីនីមួយៗ (ម្តងមួយៗ) ត្រូវបានបញ្ចូល ដោយមិនចាំបាច់រង់ចាំប្រមូលទិន្នន័យច្រើនធ្វើជាដុំនោះទេ។	ដូចជាមនុស្សដែលរៀនកែតម្រូវអក្ខរាវិរុទ្ធពីកំហុសភ្លាមៗ ក្រោយពេលវាយអត្ថបទខុសមួយពាក្យៗ។
Block-based Processing	ជាវិធីសាស្ត្រដំណើរការទិន្នន័យដោយប្រមូលផ្តុំវាជាប្លុក ឬជាដុំមានទំហំកំណត់សិន (ឧ. ១០០០ ជួរទិន្នន័យក្នុង១ដុំ) ទើបបញ្ជូនទៅឱ្យម៉ូដែលម៉ាស៊ីនដើម្បីវិភាគ និងកែប្រែទម្ងន់។	ដូចជាការសន្សំកាក់ឱ្យពេញកូនជ្រូកសិន ទើបយកទៅផ្ញើនៅធនាគារម្តង ជាជាងការយកកាក់ទៅធនាគាររាល់ពេលដែលសន្សំបានមួយកាក់ភ្លាមៗ។
Virtual Drift	ជាការផ្លាស់ប្តូររបាយទិន្នន័យ ឬសមាមាត្រនៃទិន្នន័យក្នុងស្ទ្រីម ប៉ុន្តែវាមិនបានផ្លាស់ប្តូរនិយមន័យគោល ឬព្រំដែននៃការកំណត់ចំណាត់ថ្នាក់ទិន្នន័យនោះឡើយ (កត្តាវិនិច្ឆ័យនៅដដែល)។	ដូចជាការផ្លាស់ប្តូរម៉ោងហោះហើររបស់យន្តហោះដោយសាររដូវកាលទាបខ្ពស់ ប៉ុន្តែវាមិនមែនជាកត្តាដែលធ្វើឱ្យយន្តហោះនោះពន្យារពេល (Delay) ដោយសារបញ្ហាបច្ចេកទេសនោះទេ។
Hoeffding Tree	ជាប្រភេទក្បួនដោះស្រាយដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់លំហូរទិន្នន័យធំៗ ដោយប្រើប្រាស់រូបមន្តស្ថិតិ Hoeffding bound ដើម្បីពុះមែកធាងថ្មីៗ ដោយគ្រាន់តែប្រើប្រាស់ទិន្នន័យមួយចំនួនតូចប៉ុណ្ណោះ។	ដូចជាការភ្លក់ទឹកស៊ុបតែមួយស្លាបព្រា ក៏អាចដឹងពីគុណភាពនិងរសជាតិស៊ុបទាំងមូលនៅក្នុងឆ្នាំងបាន ដោយមិនបាច់ត្រូវញ៉ាំវាឱ្យអស់មួយឆ្នាំងនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖