Original Title: Block-based and online ensembles for concept-drifting data streams
Source: www.cs.put.poznan.pl
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បណ្តុំម៉ូដែលផ្អែកលើប្លុក និងអនឡាញសម្រាប់ស្ទ្រីមទិន្នន័យដែលមានបម្រែបម្រួលទម្រង់អថេរ

ចំណងជើងដើម៖ Block-based and online ensembles for concept-drifting data streams

អ្នកនិពន្ធ៖ Dariusz Brzeziński (Poznan University of Technology)

ឆ្នាំបោះពុម្ព៖ 2015

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការដំណើរការស្ទ្រីមទិន្នន័យដ៏ធំ និងលឿនទាមទារនូវក្បួនដោះស្រាយដែលអាចបន្សាំទៅនឹងការផ្លាស់ប្តូរដោយមិនបានរំពឹងទុក (Concept drift) និងដោះស្រាយអតុល្យភាពទិន្នន័យក្នុងកម្រិតអង្គចងចាំមានកំណត់។ បណ្តុំក្បួនដោះស្រាយបច្ចុប្បន្ន ភាគច្រើនមានការឆ្លើយតបយឺតយ៉ាវចំពោះការផ្លាស់ប្តូរភ្លាមៗ ឬទាមទារថាមពលកុំព្យូទ័រខ្ពស់ពេកសម្រាប់ការវាយតម្លៃ។

វិធីសាស្ត្រ (The Methodology)៖ និក្ខេបបទនេះបង្ហាញពីក្បួនដោះស្រាយចំណាត់ថ្នាក់កូនកាត់ និងរង្វាស់វាយតម្លៃថ្មី ដោយធ្វើតេស្តប្រៀបធៀបលើសំណុំទិន្នន័យស្ទ្រីមពិត និងសិប្បនិម្មិតផ្សេងៗគ្នាជាច្រើន។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Accuracy Updated Ensemble (AUE)
បណ្តុំម៉ូដែលធ្វើបច្ចុប្បន្នភាពភាពត្រឹមត្រូវផ្អែកលើប្លុក
មានលទ្ធភាពបន្ស៊ាំទៅនឹងបម្រែបម្រួលទិន្នន័យបានល្អទាំងប្រភេទរំពេច និងបណ្តើរៗ។ ប្រើប្រាស់អង្គចងចាំតិចជាងវិធីសាស្ត្រ ensemble មុនៗ។ ដំណើរការជាប្លុក (block-based) ដូច្នេះអាចមានការឆ្លើយតបយឺតបន្តិចចំពោះបម្រែបម្រួលរហ័សភ្លាមៗ ធៀបនឹងម៉ូដែលអនឡាញសុទ្ធ។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែល AWE និងដំណើរការបានលឿនជាង ព្រមទាំងប្រើអង្គចងចាំតិច។
Online Accuracy Updated Ensemble (OAUE)
បណ្តុំម៉ូដែលធ្វើបច្ចុប្បន្នភាពភាពត្រឹមត្រូវអនឡាញ
រៀននិងធ្វើបច្ចុប្បន្នភាពរាល់ពេលមានទិន្នន័យចូលម្តងមួយៗ (O(1) complexity) ដែលជួយឱ្យមានការឆ្លើយតបរហ័សបំផុតចំពោះបម្រែបម្រួល។ ទាមទារការគណនាទម្ងន់ជាប្រចាំរាល់ពេលមានទិន្នន័យចូល ដែលងាយរងឥទ្ធិពលពីទិន្នន័យរំខាន (noise) ប្រសិនបើប្រើប្រាស់មុខងារថ្លឹងទម្ងន់លីនេអ៊ែរ។ ជាម៉ូដែលដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតជាមធ្យមលើសំណុំទិន្នន័យតេស្តទូលំទូលាយ ដោយប្រើប្រាស់ពេលវេលានិងអង្គចងចាំតិចបំផុត។
Accuracy Weighted Ensemble (AWE)
បណ្តុំម៉ូដែលថ្លឹងទម្ងន់ភាពត្រឹមត្រូវម៉ូដែលចាស់
ដំណើរការបានល្អគួរសមលើសំណុំទិន្នន័យធំៗដែលមានបម្រែបម្រួលប្រភេទវិលជុំ (recurring drifts)។ ទាមទារការធ្វើតេស្តវាយតម្លៃបេក្ខភាព (Cross-validation) ច្រើនដែលស៊ីពេល និងមានភាពទន់ខ្សោយចំពោះទិន្នន័យប្រែប្រួលរហ័ស។ មានចំណាត់ថ្នាក់ទាបជាង AUE និងសន្សំសំចៃធនធានកុំព្យូទ័របានតិចជាងយ៉ាងកត់សម្គាល់។
Leveraging Bagging (Lev)
ម៉ូដែលប្រមូលផ្តុំ Leveraging Bagging
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងសេណារីយ៉ូទិន្នន័យអនឡាញមួយចំនួន ដោយប្រើវិធីសាស្ត្រផ្លាស់ប្តូរទម្ងន់ទិន្នន័យយ៉ាងមានប្រសិទ្ធភាព។ ស៊ីអង្គចងចាំច្រើនបំផុត និងមានល្បឿនដំណើរការយឺតជាង OAUE ខ្លាំង។ ទាមទារកម្រិតអង្គចងចាំ (RAM) និងពេលវេលាគណនាខ្ពស់ជាង OAUE រហូតដល់ទៅរាប់សិបដង ទោះបីជាមានភាពត្រឹមត្រូវប្រហាក់ប្រហែលគ្នាក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ សម្រាប់ដំណើរការទិន្នន័យស្ទ្រីមរាប់លានជួរជាបន្តបន្ទាប់ និងប្រើប្រាស់កម្មវិធីវិភាគជំនាញ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើសំណុំទិន្នន័យសិប្បនិម្មិត និងទិន្នន័យស្តង់ដាររបស់បស្ចិមប្រទេស (ឧទាហរណ៍៖ ទិន្នន័យអាកាសយានដ្ឋានអាមេរិក តម្លៃអគ្គិសនីអូស្ត្រាលី)។ ការខ្វះខាតការធ្វើតេស្តលើទិន្នន័យពិតប្រាកដមកពីតំបន់អាស៊ីអាគ្នេយ៍ អាចធ្វើឱ្យយើងមិនទាន់អាចឆ្លុះបញ្ចាំងពេញលេញពីទម្រង់បម្រែបម្រួល ឬកម្រិតភាពគ្មានតុល្យភាពទិន្នន័យ (Data Imbalance) ក្នុងបរិបទប្រទេសកម្ពុជាឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាគ្មានទិន្នន័យជាក់លាក់ពីកម្ពុជាក្តី ក្បួនដោះស្រាយទាំងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យាឆ្លាតវៃនៅកម្ពុជា ដែលទិន្នន័យមានការហូរចូលឥតឈប់ឈរ និងប្រែប្រួលលឿន។

សរុបមក ក្បួនដោះស្រាយតាមដានបម្រែបម្រួលស្ទ្រីមទាំងនេះ អាចជួយស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការសម្រេចចិត្តរហ័ស សន្សំសំចៃធនធានកុំព្យូទ័រ និងឆ្លើយតបប្រកបដោយប្រសិទ្ធភាពទៅនឹងការផ្លាស់ប្តូរបរិបទសង្គម។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនតាមស្ទ្រីមទិន្នន័យ: ចាប់ផ្តើមរៀនពីទ្រឹស្តីនៃ Data Stream Mining និងយន្តការនៃការផ្លាស់ប្តូរទម្រង់ Concept Drift ព្រមទាំងរំលឹកមូលដ្ឋានគ្រឹះនៃភាសាសរសេរកូដ Java
  2. ដំឡើងនិងអនុវត្តផ្ទាល់ជាមួយបរិស្ថាន MOA: ទាញយកនិងដំឡើងកម្មវិធី Massive Online Analysis (MOA) មកសាកល្បងបង្កើតទិន្នន័យសិប្បនិម្មិតតាមរយៈ Stream Generators (ឧទាហរណ៍៖ SEA, Hyperplane) សម្រាប់ស្វែងយល់ពីដំណើរការទិន្នន័យអនឡាញ។
  3. អនុវត្តកូដម៉ូដែល OAUE និងរង្វាស់ Prequential AUC: ទាញយកកូដ ឬសរសេរកម្មវិធីដើម្បីដំណើរការក្បួនដោះស្រាយ Online Accuracy Updated Ensemble (OAUE) រួចធ្វើការវាយតម្លៃដោយប្រើប្រាស់វិធីសាស្ត្រ Prequential AUC ដើម្បីពិនិត្យមើលប្រតិកម្មរបស់វាចំពោះទិន្នន័យដែលគ្មានតុល្យភាព។
  4. អនុវត្តលើសំណុំទិន្នន័យបញ្ហាជាក់ស្តែងនៅកម្ពុជា: ស្វែងរកសំណុំទិន្នន័យក្នុងស្រុក (ឧទាហរណ៍៖ ទិន្នន័យតម្លៃទំនិញពី Open Data Cambodia ឬទិន្នន័យអាកាសធាតុ) យកមកបង្ហាត់ម៉ូដែល ដើម្បីព្យាករណ៍ និងបង្កើតដំណោះស្រាយពិតប្រាកដដែលអាចផ្តល់ប្រយោជន៍ដល់សង្គម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Concept Drift គឺជាបាតុភូតដែលទម្រង់ក្បួន ឬលក្ខណៈនៃទិន្នន័យមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីន (Machine Learning) ដែលបានរៀនពីមុនលែងមានភាពត្រឹមត្រូវ និងទាមទារការធ្វើបច្ចុប្បន្នភាពឡើងវិញជាប្រចាំ។ ដូចជាការផ្លាស់ប្តូរចំណង់ចំណូលចិត្តម៉ូដសម្លៀកបំពាក់របស់មនុស្សពីមួយឆ្នាំទៅមួយឆ្នាំ ដែលធ្វើឱ្យហាងលក់ខោអាវត្រូវតែផ្លាស់ប្តូរការស្តុកទំនិញជានិច្ច ដើម្បីកុំឱ្យហួសសម័យ។
Ensemble Classifiers គឺជាវិធីសាស្ត្រក្នុងការបណ្តុះបណ្តាលម៉ូដែលតូចៗជាច្រើន (Component Classifiers) រួចបូកបញ្ចូលការសម្រេចចិត្តរបស់ពួកវាបញ្ចូលគ្នា (ឧទាហរណ៍ តាមរយៈការបោះឆ្នោតទម្ងន់) ដើម្បីទទួលបានលទ្ធផលទស្សន៍ទាយចុងក្រោយមួយដែលត្រឹមត្រូវ និងគួរឱ្យទុកចិត្តជាងមុន។ ដូចជាការពិគ្រោះយោបល់ជាមួយគ្រូពេទ្យជំនាញចំនួន ៥នាក់ផ្សេងគ្នា ដើម្បីសន្និដ្ឋានពីរោគវិនិច្ឆ័យរួម ជាជាងជឿលើការសម្រេចចិត្តរបស់គ្រូពេទ្យតែម្នាក់ឯង។
Data Stream Mining គឺជាដំណើរការវិភាគ និងទាញយកចំណេះដឹងពីលំហូរទិន្នន័យដែលធ្លាក់ចូលមកជាបន្តបន្ទាប់ ក្នុងល្បឿនលឿន និងមានទំហំធំ ដោយប្រព័ន្ធកុំព្យូទ័រអាចអានទិន្នន័យទាំងនោះបានតែម្តងប៉ុណ្ណោះក្នុងអង្គចងចាំ។ ដូចជាការឈរមើលទឹកទន្លេហូរ ហើយព្យាយាមកត់ត្រាប្រភេទត្រីដែលហែលកាត់ភ្លាមៗ ដោយមិនអាចចាប់វាទុកក្នុងអាងធំមួយសម្រាប់មើលពេលក្រោយបានទេ។
Prequential Evaluation ជារង្វាស់វាយតម្លៃម៉ូដែល ដោយតម្រូវឱ្យម៉ូដែលធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីជាមុនសិន រួចទើបយកទិន្នន័យនោះទៅឱ្យម៉ូដែលរៀនសូត្របន្ត (Test-then-train) ដើម្បីតាមដានភាពត្រឹមត្រូវរបស់ម៉ូដែលក្នុងពេលវេលាជាក់ស្តែង (Real-time)។ ដូចជាការឱ្យសិស្សធ្វើលំហាត់សាកល្បងជាមុនដើម្បីដាក់ពិន្ទុ រួចទើបគ្រូប្រាប់ចម្លើយនិងពន្យល់ដើម្បីឱ្យសិស្សនោះរៀនសូត្របន្ថែមភ្លាមៗពីកំហុសរបស់ខ្លួន។
Online Learning ជាយន្តការរៀនសូត្រដែលម៉ូដែលម៉ាស៊ីនអាចរៀន និងកែតម្រូវទម្ងន់ខ្លួនឯងភ្លាមៗ រាល់ពេលដែលទិន្នន័យថ្មីនីមួយៗ (ម្តងមួយៗ) ត្រូវបានបញ្ចូល ដោយមិនចាំបាច់រង់ចាំប្រមូលទិន្នន័យច្រើនធ្វើជាដុំនោះទេ។ ដូចជាមនុស្សដែលរៀនកែតម្រូវអក្ខរាវិរុទ្ធពីកំហុសភ្លាមៗ ក្រោយពេលវាយអត្ថបទខុសមួយពាក្យៗ។
Block-based Processing ជាវិធីសាស្ត្រដំណើរការទិន្នន័យដោយប្រមូលផ្តុំវាជាប្លុក ឬជាដុំមានទំហំកំណត់សិន (ឧ. ១០០០ ជួរទិន្នន័យក្នុង១ដុំ) ទើបបញ្ជូនទៅឱ្យម៉ូដែលម៉ាស៊ីនដើម្បីវិភាគ និងកែប្រែទម្ងន់។ ដូចជាការសន្សំកាក់ឱ្យពេញកូនជ្រូកសិន ទើបយកទៅផ្ញើនៅធនាគារម្តង ជាជាងការយកកាក់ទៅធនាគាររាល់ពេលដែលសន្សំបានមួយកាក់ភ្លាមៗ។
Virtual Drift ជាការផ្លាស់ប្តូររបាយទិន្នន័យ ឬសមាមាត្រនៃទិន្នន័យក្នុងស្ទ្រីម ប៉ុន្តែវាមិនបានផ្លាស់ប្តូរនិយមន័យគោល ឬព្រំដែននៃការកំណត់ចំណាត់ថ្នាក់ទិន្នន័យនោះឡើយ (កត្តាវិនិច្ឆ័យនៅដដែល)។ ដូចជាការផ្លាស់ប្តូរម៉ោងហោះហើររបស់យន្តហោះដោយសាររដូវកាលទាបខ្ពស់ ប៉ុន្តែវាមិនមែនជាកត្តាដែលធ្វើឱ្យយន្តហោះនោះពន្យារពេល (Delay) ដោយសារបញ្ហាបច្ចេកទេសនោះទេ។
Hoeffding Tree ជាប្រភេទក្បួនដោះស្រាយដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់លំហូរទិន្នន័យធំៗ ដោយប្រើប្រាស់រូបមន្តស្ថិតិ Hoeffding bound ដើម្បីពុះមែកធាងថ្មីៗ ដោយគ្រាន់តែប្រើប្រាស់ទិន្នន័យមួយចំនួនតូចប៉ុណ្ណោះ។ ដូចជាការភ្លក់ទឹកស៊ុបតែមួយស្លាបព្រា ក៏អាចដឹងពីគុណភាពនិងរសជាតិស៊ុបទាំងមូលនៅក្នុងឆ្នាំងបាន ដោយមិនបាច់ត្រូវញ៉ាំវាឱ្យអស់មួយឆ្នាំងនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖