បញ្ហា (The Problem)៖ ការរៀនតាមប្រព័ន្ធអនឡាញ (Online Learning) ទាមទារឱ្យមានការទាញយកព័ត៌មានពីទិន្នន័យដែលហូរចូលជាបន្តបន្ទាប់និងលឿន (Data Streams) ដែលជារឿយៗតែងតែរងផលប៉ះពាល់ពីការផ្លាស់ប្តូររបាយទិន្នន័យ ដែលហៅថា បម្រែបម្រួលគោលគំនិត (Concept Drift) ដែលធ្វើឱ្យក្បួនដោះស្រាយចាស់ៗធ្លាក់ចុះប្រសិទ្ធភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើវិធីសាស្ត្រចាប់សញ្ញាថ្មីចំនួនពីរ (RDDM និង WSTD) និងក្បួនដោះស្រាយបណ្ដុំថ្មីមួយ (BOLE) ដោយធ្វើការប្រៀបធៀបខ្នាតធំលើទិន្នន័យសិប្បនិម្មិតនិងទិន្នន័យពិតប្រាកដ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| RDDM (Reactive Drift Detection Method) វិធីសាស្ត្រចាប់សញ្ញាបម្រែបម្រួលបែបសកម្ម |
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកបម្រែបម្រួលទិន្នន័យសន្សឹមៗ (Gradual Drifts) និងរក្សាបានភាពសុក្រឹតនៅពេលគោលគំនិតមានទំហំធំ។ | ប្រើប្រាស់អង្គចងចាំ (Memory) ច្រើនជាង DDM បន្តិចបន្តួច ដោយសារត្រូវរក្សាទុកប្រវត្តិទិន្នន័យក្នុង Circular Queue។ | ផ្តល់លទ្ធផលភាពសុក្រឹតខ្ពស់ជាង DDM យ៉ាងច្បាស់លាស់នៅក្នុងទិន្នន័យសាកល្បងទាំងអស់ និងត្រូវបានរកឃើញថាជាវិធីសាស្ត្រល្អបំផុតមួយ (RDDM129)។ |
| WSTD (Wilcoxon Rank Sum Test Drift Detector) កម្មវិធីចាប់សញ្ញាដោយប្រើតេស្តស្ថិតិ Wilcoxon |
មានភាពច្បាស់លាស់ខ្ពស់ក្នុងការកំណត់ទីតាំងបម្រែបម្រួល (Precision) និងកាត់បន្ថយការចាប់សញ្ញាខុស (False Positives) បានយ៉ាងល្អ។ | ទាមទារដំណើរការគណនាស្ថិតិបន្តិចបន្តួចបន្ថែម ដែលអាចធ្វើឱ្យវាដើរយឺតជាងម៉ូដែលសាមញ្ញៗ។ | ទទួលបានចំណាត់ថ្នាក់ខ្ពស់បំផុតផ្នែកភាពសុក្រឹតជាមួយម៉ូដែលទាំងពីរ (NB និង HT) នៅក្នុងការធ្វើតេស្តប្រៀបធៀបជាមួយម៉ូដែលចាស់ៗ។ |
| BOLE (Boosting-like Online Learning Ensemble) បណ្ដុំក្បួនដោះស្រាយរៀនតាមអនឡាញបែប Boosting |
មានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងបម្រែបម្រួលញឹកញាប់ និងគំហុក ដោយមានការកែសម្រួលយន្តការបោះឆ្នោតរបស់ Classifiers ចាស់ៗ។ | ទោះបីជាដំណើរការល្អខ្លាំងជាមួយចំណាត់ថ្នាក់ Naive Bayes ក៏ដោយ វានៅមានកម្រិតទាបជាងក្បួនដោះស្រាយ FASE បន្តិចនៅពេលប្រើជាមួយ Hoeffding Tree។ | ក្បួនដោះស្រាយ BOLE5 បានយកឈ្នះដាច់លើក្បួនដោះស្រាយផ្សេងទៀតនៅពេលធ្វើតេស្តដោយប្រើចំណាត់ថ្នាក់ Naive Bayes លើគ្រប់ទិន្នន័យទាំងអស់។ |
| DDM (Drift Detection Method) ក្បួនដោះស្រាយចាប់សញ្ញាបម្រែបម្រួលស្តង់ដារចាស់ |
សាមញ្ញ ងាយស្រួលអនុវត្ត ប្រើប្រាស់អង្គចងចាំតិចតួចបំផុត O(1) និងដំណើរការបានលឿន។ | បាត់បង់ភាពរសើប (Sensitivity) និងថយចុះប្រសិទ្ធភាពយ៉ាងខ្លាំងនៅពេលបម្រែបម្រួលមានរយៈកាលវែង (Long concepts)។ | គុណភាពនៃការទស្សន៍ទាយធ្លាក់ចុះនៅពេលទិន្នន័យហូរចូលមានទំហំធំលើសពី ២០០,០០០ ជួរ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាការប្រើប្រាស់ធនធាន (អង្គចងចាំ និងពេលវេលាដំណើរការ) សម្រាប់ក្បួនដោះស្រាយថ្មីៗទាំងនេះ គឺមានទំហំតូច និងអាចដំណើរការបានយ៉ាងរលូននៅលើកុំព្យូទ័រធម្មតា។
ទិន្នន័យពិតប្រាកដដែលត្រូវបានប្រើប្រាស់ក្នុងការស្រាវជ្រាវនេះ (ដូចជាទិន្នន័យទីផ្សារអគ្គិសនីនៅអូស្ត្រាលី និងទិន្នន័យព្រៃឈើនៅសហរដ្ឋអាមេរិក) ឆ្លុះបញ្ចាំងពីបរិបទ និងលក្ខខណ្ឌនៃប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា ដែលមាននិន្នាការសេដ្ឋកិច្ច ការប្រែប្រួលអាកាសធាតុ និងអាកប្បកិរិយាអ្នកប្រើប្រាស់ខុសប្លែកពីគេ ការអនុវត្តម៉ូដែលទាំងនេះតម្រូវឱ្យមានការបង្វឹកឡើងវិញជាមួយនឹងទិន្នន័យក្នុងស្រុក ដើម្បីជៀសវាងភាពលម្អៀងក្នុងការធ្វើសេចក្តីសម្រេចចិត្ត។
ក្បួនដោះស្រាយតាមដានការប្រែប្រួលទិន្នន័យ (Concept Drift) នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកដោះស្រាយបញ្ហាជាក់ស្តែងនៅក្នុងស្ថាប័ននានានៅកម្ពុជា។
ការរួមបញ្ចូលប្រព័ន្ធវិភាគទិន្នន័យអនឡាញដែលមានសមត្ថភាពចាប់យកបម្រែបម្រួលបរិបទ នឹងជួយឱ្យស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជាអាចសម្របខ្លួន និងធ្វើការសម្រេចចិត្តបានទាន់សភាពការណ៍។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Concept Drift | បម្រែបម្រួលគោលគំនិត គឺជាបាតុភូតមួយនៅក្នុងការរៀនម៉ាស៊ីន (Machine Learning) ដែលរបាយ ឬលក្ខណៈនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យម៉ូដែលចាស់ដែលធ្លាប់តែទស្សន៍ទាយត្រូវ លែងសូវមានភាពសុក្រឹតនិងទាមទារការបង្វឹកសារជាថ្មី។ | ដូចជាការទស្សន៍ទាយម៉ូដសម្លៀកបំពាក់ ដែលស្ទីលកាលពីឆ្នាំមុនលែងពេញនិយមសម្រាប់ឆ្នាំនេះ ដូច្នេះយើងត្រូវរៀនសង្កេតមើលចំណង់ចំណូលចិត្តថ្មីៗជានិច្ច។ |
| Data Streams | លំហូរទិន្នន័យ ដែលហូរចូលក្នុងប្រព័ន្ធជាបន្តបន្ទាប់ ឥតឈប់ឈរ និងក្នុងល្បឿនលឿន ដែលធ្វើឱ្យប្រព័ន្ធមិនអាចរក្សាទុកទិន្នន័យទាំងអស់នោះបានទេ ហើយតម្រូវឱ្យមានការវិភាគនិងទាញយកព័ត៌មានភ្លាមៗ។ | ដូចជាទឹកទន្លេដែលហូរមិនដាច់ ដែលយើងមិនអាចត្រងទឹកទាំងអស់ទុកបានទេ គឺយើងអាចត្រឹមតែធ្វើការវាស់វែងនិងដួសយកព័ត៌មានពេលវាហូរកាត់ប៉ុណ្ណោះ។ |
| Ensemble Methods | ការប្រើប្រាស់វិធីសាស្ត្រប្រមូលផ្ដុំ ដោយយកម៉ូដែលទស្សន៍ទាយ (Classifiers) តូចៗជាច្រើនមកធ្វើការរួមគ្នា ដើម្បីធ្វើការបោះឆ្នោត ឬសម្រេចចិត្តលើចម្លើយចុងក្រោយមួយដែលត្រឹមត្រូវនិងមានស្ថិរភាពជាងការប្រើម៉ូដែលតែមួយ។ | ដូចជាការសម្រេចចិត្តក្នុងក្រុមប្រឹក្សាភិបាល ដែលការប្រមូលមតិបោះឆ្នោតពីអ្នកជំនាញច្រើននាក់ តែងតែត្រឹមត្រូវជាងការជឿលើមនុស្សតែម្នាក់។ |
| Online Learning | ការរៀនតាមប្រព័ន្ធអនឡាញ (ក្នុងបរិបទ AI) គឺជាក្បួនដោះស្រាយដែលរៀននិងកែសម្រួលខ្លួនវាបន្តិចម្ដងៗ រាល់ពេលដែលទិន្នន័យថ្មីនីមួយៗហូរចូលមកដល់ ជាជាងការរៀនទិន្នន័យមួយដុំធំក្នុងពេលតែមួយ (Batch Learning)។ | ដូចជាសិស្សដែលរៀនមេរៀនថ្មីជារៀងរាល់ថ្ងៃហើយចងចាំទុក ជាជាងការរង់ចាំអានសៀវភៅទាំងមូលនៅថ្ងៃមុនប្រឡងតែម្តង។ |
| Interleaved Test-Then-Train | យន្តការវាយតម្លៃម៉ូដែល ដោយយកទិន្នន័យថ្មីដែលទើបហូរចូលមកធ្វើតេស្តសាកល្បងសមត្ថភាពទស្សន៍ទាយជាមុន រួចទើបយកទិន្នន័យដដែលនោះទៅបង្វឹក (Train) ម៉ូដែលបន្ត ធ្វើឱ្យគេមិនបាច់បែងចែកទិន្នន័យជាដុំ Test និង Train ដាច់ពីគ្នាឡើយ។ | ដូចជាការធ្វើតេស្តសិស្សដោយសួរលំហាត់ថ្មីសិន ហើយពេលសិស្សឆ្លើយរួច ទើបគ្រូពន្យល់ចម្លើយដើម្បីឱ្យសិស្សរៀនពីវាសម្រាប់ថ្ងៃក្រោយ។ |
| False Positive | នៅក្នុងការចាប់សញ្ញា Concept Drift ការរកឃើញសញ្ញាខុស ឬ False Positive គឺមានន័យថា ប្រព័ន្ធបានផ្តល់សញ្ញាព្រមានថាមានការប្រែប្រួលទិន្នន័យ ទាំងដែលតាមការពិតទិន្នន័យមិនមានការផ្លាស់ប្តូរអ្វីទាល់តែសោះ។ | ដូចជាសំឡេងស៊ីរ៉ែនរោទិ៍ប្រាប់ថាមានចោរចូលផ្ទះ ទាំងដែលតាមពិតគ្រាន់តែជាសត្វឆ្មាលោតកាត់។ |
| Abrupt and Gradual Drift | ជាប្រភេទនៃបម្រែបម្រួលទិន្នន័យ ដែល Abrupt Drift គឺជាការប្តូររបាយទិន្នន័យភ្លាមៗនិងគំហុក ចំណែកឯ Gradual Drift គឺជាការផ្លាស់ប្តូរយឺតៗនិងសន្សឹមៗពីទិន្នន័យនៃគោលគំនិតចាស់ទៅគោលគំនិតថ្មី។ | Abrupt គឺដូចជាការបិទបើកកុងតាក់ភ្លើងភ្លាមៗ ចំណែក Gradual គឺដូចជាការមួលប៉ូតុងបន្ថយឬពន្លឺភ្លើងបន្តិចម្តងៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖