បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ប្រកបដោយប្រសិទ្ធភាពសម្រាប់លំហូរទិន្នន័យបន្តបន្ទាប់ (Continuous Data Streams) ដែលមានការផ្លាស់ប្តូររបាយទិន្នន័យតាមពេលវេលា ជាពិសេសការដោះស្រាយបញ្ហាទាក់ទងនឹងការផ្លាស់ប្តូរអថេរគោលដៅ (Concept Drifts) និងការផ្លាស់ប្តូរទិន្នន័យបញ្ចូល (Data Drifts) ដោយស្វ័យប្រវត្តិ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវ AML4S ដែលជាបណ្តាញរៀនដោយម៉ាស៊ីនស្វ័យប្រវត្តិ (AutoML Pipeline) សម្រាប់ទិន្នន័យកំពុងហូរ ដោយរួមបញ្ចូលការរៀបចំទិន្នន័យជាមុន ការជ្រើសរើសម៉ូដែល ការកែតម្រូវប៉ារ៉ាម៉ែត្រ និងយន្តការរាវរកការផ្លាស់ប្តូរទិន្នន័យ (Drift Detection)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| AML4S (Proposed Method) បណ្តាញ AutoML សម្រាប់លំហូរទិន្នន័យ (រចនាបថស្នើឡើង) |
អាចរាវរកការផ្លាស់ប្តូរទាំងផ្នែកអថេរគោលដៅ (Concept Drifts) និងផ្នែកទិន្នន័យបញ្ចូល (Data Drifts) ដោយស្វ័យប្រវត្តិ។ មានភាពបត់បែនខ្ពស់ក្នុងការជ្រើសរើសម៉ូដែលនិងប៉ារ៉ាម៉ែត្រដោយឯករាជ្យ។ | ទាមទារពេលវេលាខ្លះក្នុងការបង្ហាត់ម៉ូដែលឡើងវិញ (Retraining) ពេញលេញនៅពេលប្រព័ន្ធរកឃើញការផ្លាស់ប្តូរធំៗនៅលើទិន្នន័យ។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតលើគ្រប់សេណារីយ៉ូ (ឧទាហរណ៍៖ ៩៣.០៥% លើទិន្នន័យកម្ចី២ថ្នាក់ និង ៩០.៩៣% លើទិន្នន័យអគ្គិសនី)។ |
| Hoeffding Adaptive Tree (HAT) ចំណាត់ថ្នាក់ដើមឈើសម្រេចចិត្តដែលអាចសម្របខ្លួនតាមអនឡាញ |
ដំណើរការលឿន និងមានយន្តការរាវរក Concept Drift ដាច់ដោយឡែកដោយប្រើបច្ចេកទេស ADWIN ពីធម្មជាតិរបស់វា។ | មិនអាចរាវរក Data Drifts បានទេ ហើយភាគច្រើនត្រូវការការរៀបចំទិន្នន័យជាមុន (ដូចជា Standard Scaler) ដើម្បីធានាបានលទ្ធផលល្អ។ | ទទួលបានភាពត្រឹមត្រូវ ៩០.៦៧% (ជាមួយ Scaling) និង ៨៧.៩២% (គ្មាន Scaling) លើទិន្នន័យកម្ចីសិប្បនិម្មិត។ |
| Aggregated Mondrian Forest (AMF) ចំណាត់ថ្នាក់ប្រភេទព្រៃ (Forest Ensemble) សម្រាប់លំហូរទិន្នន័យ |
មានភាពរឹងមាំ និងអាចទប់ទល់ជាមួយទិន្នន័យដែលមានលក្ខណៈស្មុគស្មាញច្រើន ព្រមទាំងផ្តល់ស្ថិរភាពលើទិន្នន័យដែលមានសំលេងរំខាន (Noisy data)។ | ងាយរងឥទ្ធិពលពីលក្ខណៈទិន្នន័យដែលមានរង្វាស់ខុសគ្នាខ្លាំង (តម្រូវឱ្យមានការធ្វើមាត្រដ្ឋាន Data Scaling ជាចាំបាច់)។ | ទទួលបានភាពត្រឹមត្រូវ ៩៤.៤៣% លើទិន្នន័យ Covtype ប៉ុន្តែនៅតែចាញ់ប្រៀប AML4S ក្នុងករណីភាគច្រើន។ |
| OAML-basic ក្បួនដោះស្រាយវាយតម្លៃ AutoML អនឡាញមូលដ្ឋាន |
អាចបង្កើតម៉ូដែលចម្រុះ និងមានប្រសិទ្ធភាពក្នុងការដោះស្រាយលំហូរទិន្នន័យដែលមានការផ្លាស់ប្តូរបន្តិចម្តងៗ។ | ផ្តោតតែលើ Concept Drifts តាមរយៈយន្តការ EDDM និងមិនមានភាពរហ័សរហួនគ្រប់គ្រាន់ចំពោះការផ្លាស់ប្តូរទិន្នន័យបញ្ចូលភ្លាមៗឡើយ។ | ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨១.៧២% ប៉ុណ្ណោះលើទិន្នន័យអគ្គិសនី ដែលទាបជាងឆ្ងាយបើប្រៀបនឹង AML4S ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រកម្រិតមធ្យម ដែលអនុញ្ញាតឱ្យប្រព័ន្ធដំណើរការបានយ៉ាងរលូនក្នុងពេលវេលាជាក់ស្តែង (Real-time) ដោយមិនតម្រូវឱ្យមានអង្គគណនាក្រាហ្វិក (GPU) នោះទេ។
ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យសិប្បនិម្មិត (ទាក់ទងនឹងកម្ចីហិរញ្ញវត្ថុ) និងទិន្នន័យស្តង់ដារអន្តរជាតិមានស្រាប់ដូចជាទីផ្សារអគ្គិសនីអូស្ត្រាលី អាកាសចរណ៍ និងប្រភេទដើមឈើនៅសហរដ្ឋអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈទិន្នន័យដូចជាឥរិយាបថសេដ្ឋកិច្ចក្រៅប្រព័ន្ធ (Informal economy) ឬលក្ខខណ្ឌអាកាសធាតុក្នុងតំបន់គឺមិនត្រូវបានគ្របដណ្តប់ឡើយ ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះផ្ទាល់លើទិន្នន័យកម្ពុជា។
វិធីសាស្ត្រ AML4S នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់ស្ថាប័នកម្ពុជាដែលធ្វើការជាមួយទិន្នន័យកំពុងហូររាល់វិនាទី ជាពិសេសក្នុងបរិបទដែលឥរិយាបថទីផ្សារផ្លាស់ប្តូរលឿន។
សរុបមក ក្បួនដោះស្រាយនេះផ្តល់នូវឧបករណ៍វាយតម្លៃស្វ័យប្រវត្តិមួយដ៏រឹងមាំ ដែលអនុញ្ញាតឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាឆ្លើយតបទៅនឹងការវិវឌ្ឍនៃទិន្នន័យបានទាន់ពេលវេលា ដោយកាត់បន្ថយការពឹងផ្អែកខ្លាំងលើអន្តរាគមន៍ពីមនុស្ស។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Data Streams | វាគឺជាទម្រង់នៃទិន្នន័យដែលត្រូវបានបង្កើតឡើង និងបញ្ជូនមកជាបន្តបន្ទាប់ដោយគ្មានទីបញ្ចប់ ដូចជាទិន្នន័យពីសេនស័រឧបករណ៍ឆ្លាតវៃ ប្រតិបត្តិការហិរញ្ញវត្ថុ ឬបណ្តាញសង្គម ដែលតម្រូវឱ្យប្រព័ន្ធកុំព្យូទ័រចាប់យកនិងវិភាគភ្លាមៗក្នុងពេលជាក់ស្តែង (Real-time) ជាជាងការប្រមូលទុកសិនទើបវិភាគតាមក្រោយ។ | ដូចជាទឹកទន្លេដែលហូរមិនចេះដាច់ ដែលយើងត្រូវត្រងយកមកពិនិត្យមើលភ្លាមៗជាជាងចាំដងដាក់ពាងឱ្យពេញទើបមើល។ |
| Concept Drift | គឺជាបាតុភូតដែលទំនាក់ទំនងរវាងទិន្នន័យបញ្ចូល (Input) និងលទ្ធផលចុងក្រោយ (Target) ផ្លាស់ប្តូរទៅតាមពេលវេលា។ ឧទាហរណ៍ ដើមឡើយប្រាក់ខែ៥០០ដុល្លារអាចទិញផ្ទះបាន ប៉ុន្តែ១០ឆ្នាំក្រោយប្រាក់ខែ៥០០ដុល្លារលែងអាចទិញផ្ទះបានទៀតហើយ ដែលធ្វើឱ្យក្បួនច្បាប់ដែលម៉ាស៊ីនធ្លាប់រៀនពីមុនលែងត្រឹមត្រូវ និងទាមទារការរៀនសាជាថ្មី។ | ដូចជាការប្តូរច្បាប់ល្បែងកណ្តាលទី ដែលក្បាច់ដែលយើងធ្លាប់ប្រើឈ្នះពីមុន លែងមានប្រសិទ្ធភាពនៅពេលនេះ។ |
| Data Drift | គឺជាការផ្លាស់ប្តូរលក្ខណៈ ឬរបាយនៃទិន្នន័យបញ្ចូល (Input features) ខ្លួនឯងតែម្តង ដោយមិនមានការផ្លាស់ប្តូរច្បាប់វាយតម្លៃគោលដៅនោះទេ។ វាធ្វើឱ្យម៉ូដែលជួបប្រទះទិន្នន័យប្រភេទថ្មី ឬទិន្នន័យដែលមានទំហំខុសពីធម្មតា ដែលនាំឱ្យការទស្សន៍ទាយថយចុះភាពត្រឹមត្រូវដោយសារភាពមិនស៊ាំ។ | ដូចជាអ្នកលក់ដូរដែលធ្លាប់តែលក់ឱ្យអតិថិជនចាស់ៗ ប៉ុន្តែស្រាប់តែថ្ងៃមួយមានភ្ញៀវទេសចរបរទេសដើរចូលមកទិញច្រើនខុសធម្មតា ដែលធ្វើឱ្យគាត់ពិបាកក្នុងការទាក់ទង។ |
| AutoML | ដំណើរការនៃការធ្វើឱ្យការរចនា និងការបង្កើតបណ្តាញម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Pipeline) ប្រព្រឹត្តទៅដោយស្វ័យប្រវត្តិ។ វាជួយជ្រើសរើសក្បួនដោះស្រាយ (Algorithm) ល្អបំផុត រៀបចំទិន្នន័យជាមុន និងកែតម្រូវប៉ារ៉ាម៉ែត្រនានាដោយខ្លួនឯង ដោយមិនបាច់ឱ្យវិស្វករសរសេរកូដសាកល្បងដោយដៃម្តងមួយៗ។ | ដូចជារថយន្តប្រើលេខអូតូ (Auto) ដែលវាចេះដូរលេខដោយខ្លួនឯងទៅតាមល្បឿនផ្លូវ ដោយមិនបាច់ឱ្យអ្នកបើកបរជាន់អំប៊្រាយ៉ានិងចូលលេខដោយដៃ។ |
| Online Learning | ជាវិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត ដោយរៀនពីទិន្នន័យថ្មីៗមួយម្តងៗ (Instance by instance) ភ្លាមៗនៅពេលដែលវាហូរចូលមក។ វិធីនេះមិនទាមទារការរក្សាទុកទិន្នន័យរាប់លានសិនទើបចាប់ផ្តើមរៀន (Batch learning) នោះទេ ដែលជួយឱ្យម៉ាស៊ីនអាចតាមទាន់រាល់ការផ្លាស់ប្តូរស្ថានភាពថ្មីៗបានយ៉ាងរហ័ស។ | ដូចជាសិស្សដែលរៀនមេរៀន និងធ្វើលំហាត់រាល់ថ្ងៃភ្លាមៗនៅសាលា ជាជាងចាំដល់ថ្ងៃប្រឡងទើបប្រមូលសៀវភៅមកអានដាច់យប់តែម្តង។ |
| ADWIN | ក្បួនដោះស្រាយតាមដានបម្រែបម្រួល (Adaptive Windowing) ដែលត្រួតពិនិត្យមើលកម្រិតភាពត្រឹមត្រូវនៃម៉ូដែល ឬតម្លៃជាមធ្យមនៃទិន្នន័យ។ ប្រសិនបើវាគណនាឃើញថាទិន្នន័យចាស់ និងទិន្នន័យថ្មីមានគម្លាតខុសគ្នាខ្លាំងខុសធម្មតា វាសន្និដ្ឋានថាមានការផ្លាស់ប្តូរ (Drift) ហើយបញ្ជាឱ្យប្រព័ន្ធបោះបង់ទិន្នន័យចាស់ចោល រួចចាប់ផ្តើមសម្របខ្លួនទៅនឹងទិន្នន័យថ្មី។ | ដូចជាកាមេរ៉ាចាប់ល្បឿនដែលអាចដឹងថាឡានមួយកំពុងតែបើកបរក្នុងល្បឿនថេរធម្មតា ឬក៏ស្រាប់តែបង្កើនល្បឿនខុសប្រក្រតីភ្លាមៗ។ |
| Sliding Window | បច្ចេកទេសគ្រប់គ្រងទិន្នន័យដែលរក្សាទុកតែចំនួនទិន្នន័យថ្មីៗក្នុងកម្រិតកំណត់មួយ (ឧទាហរណ៍៖ រក្សាទុកតែ ៤៥០ ទិន្នន័យចុងក្រោយ) នៅក្នុងអង្គចងចាំ។ នៅពេលមានទិន្នន័យថ្មីចូលមកមួយ ទិន្នន័យចាស់បំផុតទីមួយនឹងត្រូវរុញចេញ ដើម្បីធានាថាប្រព័ន្ធមានព័ត៌មានទាន់សម័យជានិច្ចសម្រាប់ការគណនា និងមិនស៊ីទំហំផ្ទុកកុំព្យូទ័រ។ | ដូចជាប្រវត្តិហៅទូរស័ព្ទ (Call History) ក្នុងទូរស័ព្ទដៃ ដែលបង្ហាញតែលេខ ៥០ ចុងក្រោយ ហើយរុញលេខចាស់ៗចោលដោយស្វ័យប្រវត្តិនៅពេលមានអ្នកតេចូលថ្មី។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖