Original Title: AML4S: An AutoML Pipeline for Data Streams
Source: doi.org/10.3390/make7030087
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

AML4S៖ បណ្តាញ AutoML សម្រាប់លំហូរទិន្នន័យ (Data Streams)

ចំណងជើងដើម៖ AML4S: An AutoML Pipeline for Data Streams

អ្នកនិពន្ធ៖ Eleftherios Kalaitzidis (Aristotle University of Thessaloniki), Themistoklis Diamantopoulos (Aristotle University of Thessaloniki), Athanasios Michailoudis (Aristotle University of Thessaloniki), Andreas L. Symeonidis (Aristotle University of Thessaloniki)

ឆ្នាំបោះពុម្ព៖ 2025 Mach. Learn. Knowl. Extr.

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ប្រកបដោយប្រសិទ្ធភាពសម្រាប់លំហូរទិន្នន័យបន្តបន្ទាប់ (Continuous Data Streams) ដែលមានការផ្លាស់ប្តូររបាយទិន្នន័យតាមពេលវេលា ជាពិសេសការដោះស្រាយបញ្ហាទាក់ទងនឹងការផ្លាស់ប្តូរអថេរគោលដៅ (Concept Drifts) និងការផ្លាស់ប្តូរទិន្នន័យបញ្ចូល (Data Drifts) ដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវ AML4S ដែលជាបណ្តាញរៀនដោយម៉ាស៊ីនស្វ័យប្រវត្តិ (AutoML Pipeline) សម្រាប់ទិន្នន័យកំពុងហូរ ដោយរួមបញ្ចូលការរៀបចំទិន្នន័យជាមុន ការជ្រើសរើសម៉ូដែល ការកែតម្រូវប៉ារ៉ាម៉ែត្រ និងយន្តការរាវរកការផ្លាស់ប្តូរទិន្នន័យ (Drift Detection)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
AML4S (Proposed Method)
បណ្តាញ AutoML សម្រាប់លំហូរទិន្នន័យ (រចនាបថស្នើឡើង)
អាចរាវរកការផ្លាស់ប្តូរទាំងផ្នែកអថេរគោលដៅ (Concept Drifts) និងផ្នែកទិន្នន័យបញ្ចូល (Data Drifts) ដោយស្វ័យប្រវត្តិ។ មានភាពបត់បែនខ្ពស់ក្នុងការជ្រើសរើសម៉ូដែលនិងប៉ារ៉ាម៉ែត្រដោយឯករាជ្យ។ ទាមទារពេលវេលាខ្លះក្នុងការបង្ហាត់ម៉ូដែលឡើងវិញ (Retraining) ពេញលេញនៅពេលប្រព័ន្ធរកឃើញការផ្លាស់ប្តូរធំៗនៅលើទិន្នន័យ។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតលើគ្រប់សេណារីយ៉ូ (ឧទាហរណ៍៖ ៩៣.០៥% លើទិន្នន័យកម្ចី២ថ្នាក់ និង ៩០.៩៣% លើទិន្នន័យអគ្គិសនី)។
Hoeffding Adaptive Tree (HAT)
ចំណាត់ថ្នាក់ដើមឈើសម្រេចចិត្តដែលអាចសម្របខ្លួនតាមអនឡាញ
ដំណើរការលឿន និងមានយន្តការរាវរក Concept Drift ដាច់ដោយឡែកដោយប្រើបច្ចេកទេស ADWIN ពីធម្មជាតិរបស់វា។ មិនអាចរាវរក Data Drifts បានទេ ហើយភាគច្រើនត្រូវការការរៀបចំទិន្នន័យជាមុន (ដូចជា Standard Scaler) ដើម្បីធានាបានលទ្ធផលល្អ។ ទទួលបានភាពត្រឹមត្រូវ ៩០.៦៧% (ជាមួយ Scaling) និង ៨៧.៩២% (គ្មាន Scaling) លើទិន្នន័យកម្ចីសិប្បនិម្មិត។
Aggregated Mondrian Forest (AMF)
ចំណាត់ថ្នាក់ប្រភេទព្រៃ (Forest Ensemble) សម្រាប់លំហូរទិន្នន័យ
មានភាពរឹងមាំ និងអាចទប់ទល់ជាមួយទិន្នន័យដែលមានលក្ខណៈស្មុគស្មាញច្រើន ព្រមទាំងផ្តល់ស្ថិរភាពលើទិន្នន័យដែលមានសំលេងរំខាន (Noisy data)។ ងាយរងឥទ្ធិពលពីលក្ខណៈទិន្នន័យដែលមានរង្វាស់ខុសគ្នាខ្លាំង (តម្រូវឱ្យមានការធ្វើមាត្រដ្ឋាន Data Scaling ជាចាំបាច់)។ ទទួលបានភាពត្រឹមត្រូវ ៩៤.៤៣% លើទិន្នន័យ Covtype ប៉ុន្តែនៅតែចាញ់ប្រៀប AML4S ក្នុងករណីភាគច្រើន។
OAML-basic
ក្បួនដោះស្រាយវាយតម្លៃ AutoML អនឡាញមូលដ្ឋាន
អាចបង្កើតម៉ូដែលចម្រុះ និងមានប្រសិទ្ធភាពក្នុងការដោះស្រាយលំហូរទិន្នន័យដែលមានការផ្លាស់ប្តូរបន្តិចម្តងៗ។ ផ្តោតតែលើ Concept Drifts តាមរយៈយន្តការ EDDM និងមិនមានភាពរហ័សរហួនគ្រប់គ្រាន់ចំពោះការផ្លាស់ប្តូរទិន្នន័យបញ្ចូលភ្លាមៗឡើយ។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨១.៧២% ប៉ុណ្ណោះលើទិន្នន័យអគ្គិសនី ដែលទាបជាងឆ្ងាយបើប្រៀបនឹង AML4S ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រកម្រិតមធ្យម ដែលអនុញ្ញាតឱ្យប្រព័ន្ធដំណើរការបានយ៉ាងរលូនក្នុងពេលវេលាជាក់ស្តែង (Real-time) ដោយមិនតម្រូវឱ្យមានអង្គគណនាក្រាហ្វិក (GPU) នោះទេ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យសិប្បនិម្មិត (ទាក់ទងនឹងកម្ចីហិរញ្ញវត្ថុ) និងទិន្នន័យស្តង់ដារអន្តរជាតិមានស្រាប់ដូចជាទីផ្សារអគ្គិសនីអូស្ត្រាលី អាកាសចរណ៍ និងប្រភេទដើមឈើនៅសហរដ្ឋអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈទិន្នន័យដូចជាឥរិយាបថសេដ្ឋកិច្ចក្រៅប្រព័ន្ធ (Informal economy) ឬលក្ខខណ្ឌអាកាសធាតុក្នុងតំបន់គឺមិនត្រូវបានគ្របដណ្តប់ឡើយ ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះផ្ទាល់លើទិន្នន័យកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ AML4S នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់ស្ថាប័នកម្ពុជាដែលធ្វើការជាមួយទិន្នន័យកំពុងហូររាល់វិនាទី ជាពិសេសក្នុងបរិបទដែលឥរិយាបថទីផ្សារផ្លាស់ប្តូរលឿន។

សរុបមក ក្បួនដោះស្រាយនេះផ្តល់នូវឧបករណ៍វាយតម្លៃស្វ័យប្រវត្តិមួយដ៏រឹងមាំ ដែលអនុញ្ញាតឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាឆ្លើយតបទៅនឹងការវិវឌ្ឍនៃទិន្នន័យបានទាន់ពេលវេលា ដោយកាត់បន្ថយការពឹងផ្អែកខ្លាំងលើអន្តរាគមន៍ពីមនុស្ស។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះទ្រឹស្តី Online Machine Learning: អ្នកស្រាវជ្រាវគួរសិក្សាស្វែងយល់ពីគោលគំនិតនៃ Data Streams, Concept Drift, Data Drift និងក្បួនដោះស្រាយរាវរកការផ្លាស់ប្តូរទិន្នន័យ ដូចជាក្បួនដោះស្រាយ ADWIN ដែលត្រូវបានប្រើប្រាស់នៅក្នុងការសិក្សានេះ។
  2. រៀបចំបរិស្ថានការងារ និងបណ្ណាល័យកូដ: ដំឡើងភាសា Python រួចទាញយកនិងអនុវត្តបណ្ណាល័យ River ដែលជាបណ្ណាល័យស្នូល (Framework) សម្រាប់គាំទ្រការរៀនដោយម៉ាស៊ីនក្នុងទម្រង់ Streaming Data ។
  3. ទាញយកនិងសាកល្បងកូដគំរូ AML4S: ចូលទៅកាន់ឃ្លាំងកូដ GitHub (AuthEceSoftEng/automl-data-streams) ដើម្បីទាញយកកូដមកសាកល្បងដំណើរការ (Run) ជាមួយទិន្នន័យ Loan Dataset ដែលមានស្រាប់ ដើម្បីស្វែងយល់ពីលំហូរការងាររបស់វា។
  4. អនុវត្តផ្ទាល់លើសំណុំទិន្នន័យក្នុងស្រុក: ប្រមូលទិន្នន័យជាក់ស្តែងពីកម្ពុជា ឧទាហរណ៍៖ ទិន្នន័យប្រតិបត្តិការទូទាត់ប្រាក់ពីធនាគារជាតិ ឬទិន្នន័យសេនស័រអាកាសធាតុ ហើយបញ្ជូនវាទៅកាន់ AutoML Pipeline នេះដើម្បីវាយតម្លៃកម្រិតប្រសិទ្ធភាព។
  5. កែតម្រូវ និងបង្រួមធនធានប្រើប្រាស់ (Optimization): ធ្វើការកែតម្រូវទំហំអង្គចងចាំបណ្តោះអាសន្ន (Buffer memory) និងចំនួននៃ Hyperparameters ដើម្បីធានាថាប្រព័ន្ធអាចដំណើរការជា Real-time ដោយមិនទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រធំពេក ពេលដាក់ឱ្យប្រើប្រាស់ជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Data Streams វាគឺជាទម្រង់នៃទិន្នន័យដែលត្រូវបានបង្កើតឡើង និងបញ្ជូនមកជាបន្តបន្ទាប់ដោយគ្មានទីបញ្ចប់ ដូចជាទិន្នន័យពីសេនស័រឧបករណ៍ឆ្លាតវៃ ប្រតិបត្តិការហិរញ្ញវត្ថុ ឬបណ្តាញសង្គម ដែលតម្រូវឱ្យប្រព័ន្ធកុំព្យូទ័រចាប់យកនិងវិភាគភ្លាមៗក្នុងពេលជាក់ស្តែង (Real-time) ជាជាងការប្រមូលទុកសិនទើបវិភាគតាមក្រោយ។ ដូចជាទឹកទន្លេដែលហូរមិនចេះដាច់ ដែលយើងត្រូវត្រងយកមកពិនិត្យមើលភ្លាមៗជាជាងចាំដងដាក់ពាងឱ្យពេញទើបមើល។
Concept Drift គឺជាបាតុភូតដែលទំនាក់ទំនងរវាងទិន្នន័យបញ្ចូល (Input) និងលទ្ធផលចុងក្រោយ (Target) ផ្លាស់ប្តូរទៅតាមពេលវេលា។ ឧទាហរណ៍ ដើមឡើយប្រាក់ខែ៥០០ដុល្លារអាចទិញផ្ទះបាន ប៉ុន្តែ១០ឆ្នាំក្រោយប្រាក់ខែ៥០០ដុល្លារលែងអាចទិញផ្ទះបានទៀតហើយ ដែលធ្វើឱ្យក្បួនច្បាប់ដែលម៉ាស៊ីនធ្លាប់រៀនពីមុនលែងត្រឹមត្រូវ និងទាមទារការរៀនសាជាថ្មី។ ដូចជាការប្តូរច្បាប់ល្បែងកណ្តាលទី ដែលក្បាច់ដែលយើងធ្លាប់ប្រើឈ្នះពីមុន លែងមានប្រសិទ្ធភាពនៅពេលនេះ។
Data Drift គឺជាការផ្លាស់ប្តូរលក្ខណៈ ឬរបាយនៃទិន្នន័យបញ្ចូល (Input features) ខ្លួនឯងតែម្តង ដោយមិនមានការផ្លាស់ប្តូរច្បាប់វាយតម្លៃគោលដៅនោះទេ។ វាធ្វើឱ្យម៉ូដែលជួបប្រទះទិន្នន័យប្រភេទថ្មី ឬទិន្នន័យដែលមានទំហំខុសពីធម្មតា ដែលនាំឱ្យការទស្សន៍ទាយថយចុះភាពត្រឹមត្រូវដោយសារភាពមិនស៊ាំ។ ដូចជាអ្នកលក់ដូរដែលធ្លាប់តែលក់ឱ្យអតិថិជនចាស់ៗ ប៉ុន្តែស្រាប់តែថ្ងៃមួយមានភ្ញៀវទេសចរបរទេសដើរចូលមកទិញច្រើនខុសធម្មតា ដែលធ្វើឱ្យគាត់ពិបាកក្នុងការទាក់ទង។
AutoML ដំណើរការនៃការធ្វើឱ្យការរចនា និងការបង្កើតបណ្តាញម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Pipeline) ប្រព្រឹត្តទៅដោយស្វ័យប្រវត្តិ។ វាជួយជ្រើសរើសក្បួនដោះស្រាយ (Algorithm) ល្អបំផុត រៀបចំទិន្នន័យជាមុន និងកែតម្រូវប៉ារ៉ាម៉ែត្រនានាដោយខ្លួនឯង ដោយមិនបាច់ឱ្យវិស្វករសរសេរកូដសាកល្បងដោយដៃម្តងមួយៗ។ ដូចជារថយន្តប្រើលេខអូតូ (Auto) ដែលវាចេះដូរលេខដោយខ្លួនឯងទៅតាមល្បឿនផ្លូវ ដោយមិនបាច់ឱ្យអ្នកបើកបរជាន់អំប៊្រាយ៉ានិងចូលលេខដោយដៃ។
Online Learning ជាវិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត ដោយរៀនពីទិន្នន័យថ្មីៗមួយម្តងៗ (Instance by instance) ភ្លាមៗនៅពេលដែលវាហូរចូលមក។ វិធីនេះមិនទាមទារការរក្សាទុកទិន្នន័យរាប់លានសិនទើបចាប់ផ្តើមរៀន (Batch learning) នោះទេ ដែលជួយឱ្យម៉ាស៊ីនអាចតាមទាន់រាល់ការផ្លាស់ប្តូរស្ថានភាពថ្មីៗបានយ៉ាងរហ័ស។ ដូចជាសិស្សដែលរៀនមេរៀន និងធ្វើលំហាត់រាល់ថ្ងៃភ្លាមៗនៅសាលា ជាជាងចាំដល់ថ្ងៃប្រឡងទើបប្រមូលសៀវភៅមកអានដាច់យប់តែម្តង។
ADWIN ក្បួនដោះស្រាយតាមដានបម្រែបម្រួល (Adaptive Windowing) ដែលត្រួតពិនិត្យមើលកម្រិតភាពត្រឹមត្រូវនៃម៉ូដែល ឬតម្លៃជាមធ្យមនៃទិន្នន័យ។ ប្រសិនបើវាគណនាឃើញថាទិន្នន័យចាស់ និងទិន្នន័យថ្មីមានគម្លាតខុសគ្នាខ្លាំងខុសធម្មតា វាសន្និដ្ឋានថាមានការផ្លាស់ប្តូរ (Drift) ហើយបញ្ជាឱ្យប្រព័ន្ធបោះបង់ទិន្នន័យចាស់ចោល រួចចាប់ផ្តើមសម្របខ្លួនទៅនឹងទិន្នន័យថ្មី។ ដូចជាកាមេរ៉ាចាប់ល្បឿនដែលអាចដឹងថាឡានមួយកំពុងតែបើកបរក្នុងល្បឿនថេរធម្មតា ឬក៏ស្រាប់តែបង្កើនល្បឿនខុសប្រក្រតីភ្លាមៗ។
Sliding Window បច្ចេកទេសគ្រប់គ្រងទិន្នន័យដែលរក្សាទុកតែចំនួនទិន្នន័យថ្មីៗក្នុងកម្រិតកំណត់មួយ (ឧទាហរណ៍៖ រក្សាទុកតែ ៤៥០ ទិន្នន័យចុងក្រោយ) នៅក្នុងអង្គចងចាំ។ នៅពេលមានទិន្នន័យថ្មីចូលមកមួយ ទិន្នន័យចាស់បំផុតទីមួយនឹងត្រូវរុញចេញ ដើម្បីធានាថាប្រព័ន្ធមានព័ត៌មានទាន់សម័យជានិច្ចសម្រាប់ការគណនា និងមិនស៊ីទំហំផ្ទុកកុំព្យូទ័រ។ ដូចជាប្រវត្តិហៅទូរស័ព្ទ (Call History) ក្នុងទូរស័ព្ទដៃ ដែលបង្ហាញតែលេខ ៥០ ចុងក្រោយ ហើយរុញលេខចាស់ៗចោលដោយស្វ័យប្រវត្តិនៅពេលមានអ្នកតេចូលថ្មី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖