បញ្ហា (The Problem)៖ ការដំណើរការស្ទ្រីមទិន្នន័យដ៏ធំ និងលឿនទាមទារនូវក្បួនដោះស្រាយដែលអាចបន្សាំទៅនឹងការផ្លាស់ប្តូរដោយមិនបានរំពឹងទុក (Concept drift) និងដោះស្រាយអតុល្យភាពទិន្នន័យក្នុងកម្រិតអង្គចងចាំមានកំណត់។ បណ្តុំក្បួនដោះស្រាយបច្ចុប្បន្ន ភាគច្រើនមានការឆ្លើយតបយឺតយ៉ាវចំពោះការផ្លាស់ប្តូរភ្លាមៗ ឬទាមទារថាមពលកុំព្យូទ័រខ្ពស់ពេកសម្រាប់ការវាយតម្លៃ។
វិធីសាស្ត្រ (The Methodology)៖ និក្ខេបបទនេះបង្ហាញពីក្បួនដោះស្រាយចំណាត់ថ្នាក់កូនកាត់ និងរង្វាស់វាយតម្លៃថ្មី ដោយធ្វើតេស្តប្រៀបធៀបលើសំណុំទិន្នន័យស្ទ្រីមពិត និងសិប្បនិម្មិតផ្សេងៗគ្នាជាច្រើន។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Accuracy Updated Ensemble (AUE) បណ្តុំម៉ូដែលធ្វើបច្ចុប្បន្នភាពភាពត្រឹមត្រូវផ្អែកលើប្លុក |
មានលទ្ធភាពបន្ស៊ាំទៅនឹងបម្រែបម្រួលទិន្នន័យបានល្អទាំងប្រភេទរំពេច និងបណ្តើរៗ។ ប្រើប្រាស់អង្គចងចាំតិចជាងវិធីសាស្ត្រ ensemble មុនៗ។ | ដំណើរការជាប្លុក (block-based) ដូច្នេះអាចមានការឆ្លើយតបយឺតបន្តិចចំពោះបម្រែបម្រួលរហ័សភ្លាមៗ ធៀបនឹងម៉ូដែលអនឡាញសុទ្ធ។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែល AWE និងដំណើរការបានលឿនជាង ព្រមទាំងប្រើអង្គចងចាំតិច។ |
| Online Accuracy Updated Ensemble (OAUE) បណ្តុំម៉ូដែលធ្វើបច្ចុប្បន្នភាពភាពត្រឹមត្រូវអនឡាញ |
រៀននិងធ្វើបច្ចុប្បន្នភាពរាល់ពេលមានទិន្នន័យចូលម្តងមួយៗ (O(1) complexity) ដែលជួយឱ្យមានការឆ្លើយតបរហ័សបំផុតចំពោះបម្រែបម្រួល។ | ទាមទារការគណនាទម្ងន់ជាប្រចាំរាល់ពេលមានទិន្នន័យចូល ដែលងាយរងឥទ្ធិពលពីទិន្នន័យរំខាន (noise) ប្រសិនបើប្រើប្រាស់មុខងារថ្លឹងទម្ងន់លីនេអ៊ែរ។ | ជាម៉ូដែលដែលផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតជាមធ្យមលើសំណុំទិន្នន័យតេស្តទូលំទូលាយ ដោយប្រើប្រាស់ពេលវេលានិងអង្គចងចាំតិចបំផុត។ |
| Accuracy Weighted Ensemble (AWE) បណ្តុំម៉ូដែលថ្លឹងទម្ងន់ភាពត្រឹមត្រូវម៉ូដែលចាស់ |
ដំណើរការបានល្អគួរសមលើសំណុំទិន្នន័យធំៗដែលមានបម្រែបម្រួលប្រភេទវិលជុំ (recurring drifts)។ | ទាមទារការធ្វើតេស្តវាយតម្លៃបេក្ខភាព (Cross-validation) ច្រើនដែលស៊ីពេល និងមានភាពទន់ខ្សោយចំពោះទិន្នន័យប្រែប្រួលរហ័ស។ | មានចំណាត់ថ្នាក់ទាបជាង AUE និងសន្សំសំចៃធនធានកុំព្យូទ័របានតិចជាងយ៉ាងកត់សម្គាល់។ |
| Leveraging Bagging (Lev) ម៉ូដែលប្រមូលផ្តុំ Leveraging Bagging |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងសេណារីយ៉ូទិន្នន័យអនឡាញមួយចំនួន ដោយប្រើវិធីសាស្ត្រផ្លាស់ប្តូរទម្ងន់ទិន្នន័យយ៉ាងមានប្រសិទ្ធភាព។ | ស៊ីអង្គចងចាំច្រើនបំផុត និងមានល្បឿនដំណើរការយឺតជាង OAUE ខ្លាំង។ | ទាមទារកម្រិតអង្គចងចាំ (RAM) និងពេលវេលាគណនាខ្ពស់ជាង OAUE រហូតដល់ទៅរាប់សិបដង ទោះបីជាមានភាពត្រឹមត្រូវប្រហាក់ប្រហែលគ្នាក៏ដោយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានកម្លាំងមធ្យមទៅខ្ពស់ សម្រាប់ដំណើរការទិន្នន័យស្ទ្រីមរាប់លានជួរជាបន្តបន្ទាប់ និងប្រើប្រាស់កម្មវិធីវិភាគជំនាញ។
ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើសំណុំទិន្នន័យសិប្បនិម្មិត និងទិន្នន័យស្តង់ដាររបស់បស្ចិមប្រទេស (ឧទាហរណ៍៖ ទិន្នន័យអាកាសយានដ្ឋានអាមេរិក តម្លៃអគ្គិសនីអូស្ត្រាលី)។ ការខ្វះខាតការធ្វើតេស្តលើទិន្នន័យពិតប្រាកដមកពីតំបន់អាស៊ីអាគ្នេយ៍ អាចធ្វើឱ្យយើងមិនទាន់អាចឆ្លុះបញ្ចាំងពេញលេញពីទម្រង់បម្រែបម្រួល ឬកម្រិតភាពគ្មានតុល្យភាពទិន្នន័យ (Data Imbalance) ក្នុងបរិបទប្រទេសកម្ពុជាឡើយ។
ទោះបីជាគ្មានទិន្នន័យជាក់លាក់ពីកម្ពុជាក្តី ក្បួនដោះស្រាយទាំងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យាឆ្លាតវៃនៅកម្ពុជា ដែលទិន្នន័យមានការហូរចូលឥតឈប់ឈរ និងប្រែប្រួលលឿន។
សរុបមក ក្បួនដោះស្រាយតាមដានបម្រែបម្រួលស្ទ្រីមទាំងនេះ អាចជួយស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការសម្រេចចិត្តរហ័ស សន្សំសំចៃធនធានកុំព្យូទ័រ និងឆ្លើយតបប្រកបដោយប្រសិទ្ធភាពទៅនឹងការផ្លាស់ប្តូរបរិបទសង្គម។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Concept Drift | គឺជាបាតុភូតដែលទម្រង់ក្បួន ឬលក្ខណៈនៃទិន្នន័យមានការផ្លាស់ប្តូរទៅតាមពេលវេលា ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីន (Machine Learning) ដែលបានរៀនពីមុនលែងមានភាពត្រឹមត្រូវ និងទាមទារការធ្វើបច្ចុប្បន្នភាពឡើងវិញជាប្រចាំ។ | ដូចជាការផ្លាស់ប្តូរចំណង់ចំណូលចិត្តម៉ូដសម្លៀកបំពាក់របស់មនុស្សពីមួយឆ្នាំទៅមួយឆ្នាំ ដែលធ្វើឱ្យហាងលក់ខោអាវត្រូវតែផ្លាស់ប្តូរការស្តុកទំនិញជានិច្ច ដើម្បីកុំឱ្យហួសសម័យ។ |
| Ensemble Classifiers | គឺជាវិធីសាស្ត្រក្នុងការបណ្តុះបណ្តាលម៉ូដែលតូចៗជាច្រើន (Component Classifiers) រួចបូកបញ្ចូលការសម្រេចចិត្តរបស់ពួកវាបញ្ចូលគ្នា (ឧទាហរណ៍ តាមរយៈការបោះឆ្នោតទម្ងន់) ដើម្បីទទួលបានលទ្ធផលទស្សន៍ទាយចុងក្រោយមួយដែលត្រឹមត្រូវ និងគួរឱ្យទុកចិត្តជាងមុន។ | ដូចជាការពិគ្រោះយោបល់ជាមួយគ្រូពេទ្យជំនាញចំនួន ៥នាក់ផ្សេងគ្នា ដើម្បីសន្និដ្ឋានពីរោគវិនិច្ឆ័យរួម ជាជាងជឿលើការសម្រេចចិត្តរបស់គ្រូពេទ្យតែម្នាក់ឯង។ |
| Data Stream Mining | គឺជាដំណើរការវិភាគ និងទាញយកចំណេះដឹងពីលំហូរទិន្នន័យដែលធ្លាក់ចូលមកជាបន្តបន្ទាប់ ក្នុងល្បឿនលឿន និងមានទំហំធំ ដោយប្រព័ន្ធកុំព្យូទ័រអាចអានទិន្នន័យទាំងនោះបានតែម្តងប៉ុណ្ណោះក្នុងអង្គចងចាំ។ | ដូចជាការឈរមើលទឹកទន្លេហូរ ហើយព្យាយាមកត់ត្រាប្រភេទត្រីដែលហែលកាត់ភ្លាមៗ ដោយមិនអាចចាប់វាទុកក្នុងអាងធំមួយសម្រាប់មើលពេលក្រោយបានទេ។ |
| Prequential Evaluation | ជារង្វាស់វាយតម្លៃម៉ូដែល ដោយតម្រូវឱ្យម៉ូដែលធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីជាមុនសិន រួចទើបយកទិន្នន័យនោះទៅឱ្យម៉ូដែលរៀនសូត្របន្ត (Test-then-train) ដើម្បីតាមដានភាពត្រឹមត្រូវរបស់ម៉ូដែលក្នុងពេលវេលាជាក់ស្តែង (Real-time)។ | ដូចជាការឱ្យសិស្សធ្វើលំហាត់សាកល្បងជាមុនដើម្បីដាក់ពិន្ទុ រួចទើបគ្រូប្រាប់ចម្លើយនិងពន្យល់ដើម្បីឱ្យសិស្សនោះរៀនសូត្របន្ថែមភ្លាមៗពីកំហុសរបស់ខ្លួន។ |
| Online Learning | ជាយន្តការរៀនសូត្រដែលម៉ូដែលម៉ាស៊ីនអាចរៀន និងកែតម្រូវទម្ងន់ខ្លួនឯងភ្លាមៗ រាល់ពេលដែលទិន្នន័យថ្មីនីមួយៗ (ម្តងមួយៗ) ត្រូវបានបញ្ចូល ដោយមិនចាំបាច់រង់ចាំប្រមូលទិន្នន័យច្រើនធ្វើជាដុំនោះទេ។ | ដូចជាមនុស្សដែលរៀនកែតម្រូវអក្ខរាវិរុទ្ធពីកំហុសភ្លាមៗ ក្រោយពេលវាយអត្ថបទខុសមួយពាក្យៗ។ |
| Block-based Processing | ជាវិធីសាស្ត្រដំណើរការទិន្នន័យដោយប្រមូលផ្តុំវាជាប្លុក ឬជាដុំមានទំហំកំណត់សិន (ឧ. ១០០០ ជួរទិន្នន័យក្នុង១ដុំ) ទើបបញ្ជូនទៅឱ្យម៉ូដែលម៉ាស៊ីនដើម្បីវិភាគ និងកែប្រែទម្ងន់។ | ដូចជាការសន្សំកាក់ឱ្យពេញកូនជ្រូកសិន ទើបយកទៅផ្ញើនៅធនាគារម្តង ជាជាងការយកកាក់ទៅធនាគាររាល់ពេលដែលសន្សំបានមួយកាក់ភ្លាមៗ។ |
| Virtual Drift | ជាការផ្លាស់ប្តូររបាយទិន្នន័យ ឬសមាមាត្រនៃទិន្នន័យក្នុងស្ទ្រីម ប៉ុន្តែវាមិនបានផ្លាស់ប្តូរនិយមន័យគោល ឬព្រំដែននៃការកំណត់ចំណាត់ថ្នាក់ទិន្នន័យនោះឡើយ (កត្តាវិនិច្ឆ័យនៅដដែល)។ | ដូចជាការផ្លាស់ប្តូរម៉ោងហោះហើររបស់យន្តហោះដោយសាររដូវកាលទាបខ្ពស់ ប៉ុន្តែវាមិនមែនជាកត្តាដែលធ្វើឱ្យយន្តហោះនោះពន្យារពេល (Delay) ដោយសារបញ្ហាបច្ចេកទេសនោះទេ។ |
| Hoeffding Tree | ជាប្រភេទក្បួនដោះស្រាយដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់លំហូរទិន្នន័យធំៗ ដោយប្រើប្រាស់រូបមន្តស្ថិតិ Hoeffding bound ដើម្បីពុះមែកធាងថ្មីៗ ដោយគ្រាន់តែប្រើប្រាស់ទិន្នន័យមួយចំនួនតូចប៉ុណ្ណោះ។ | ដូចជាការភ្លក់ទឹកស៊ុបតែមួយស្លាបព្រា ក៏អាចដឹងពីគុណភាពនិងរសជាតិស៊ុបទាំងមូលនៅក្នុងឆ្នាំងបាន ដោយមិនបាច់ត្រូវញ៉ាំវាឱ្យអស់មួយឆ្នាំងនោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖