Original Title: Predictive Machine Learning Approach for Complex Problem Solving Process Data Mining
Source: acta.uni-obuda.hu
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនបែបព្យាករណ៍សម្រាប់ការទាញយកទិន្នន័យនៃដំណើរការដោះស្រាយបញ្ហាស្មុគស្មាញ

ចំណងជើងដើម៖ Predictive Machine Learning Approach for Complex Problem Solving Process Data Mining

អ្នកនិពន្ធ៖ Aleksandar Pejić (University of Szeged), Piroska Stanić Molcer (Subotica Tech College of Applied Sciences)

ឆ្នាំបោះពុម្ព៖ 2021, Acta Polytechnica Hungarica

វិស័យសិក្សា៖ Educational Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយលទ្ធផល និងភាពជោគជ័យនៃដំណើរការដោះស្រាយបញ្ហាស្មុគស្មាញរបស់សិស្ស ដោយប្រើប្រាស់ទិន្នន័យកំណត់ហេតុឆៅ (raw log files) ដែលប្រមូលបានពីប្រព័ន្ធវាយតម្លៃលើកុំព្យូទ័រ PISA 2012។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបក្បួនដោះស្រាយ Machine Learning ចំនួន ៦ ប្រភេទ ដើម្បីព្យាករណ៍លទ្ធផលដោយផ្អែកលើសំណុំទិន្នន័យលក្ខណៈពិសេសចំនួន២ ដែលបានទាញយកពីសកម្មភាពរបស់សិស្ស។

ការទាញយកទិន្នន័យលក្ខណៈពិសេសផ្អែកលើពេលវេលា និងយុទ្ធសាស្ត្រ VOTAT (Time-based and VOTAT-based feature extraction)
ការវាយតម្លៃដោយក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនចំនួន ៦ (Evaluation with 6 machine learning algorithms)
ការធ្វើឲ្យប្រសើរឡើងម៉ូដែលរៀនស៊ីជម្រៅដោយប្រើក្បួនដោះស្រាយហ្សែន (Deep learning optimization using genetic algorithm)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលរៀនស៊ីជម្រៅ (Deep learning) គឺជាក្បួនដោះស្រាយដែលស័ក្តិសមបំផុត ដោយទទួលបានពិន្ទុ F-measure ៩៤.៩% សម្រាប់ទិន្នន័យផ្អែកលើយុទ្ធសាស្ត្រ VOTAT បន្ទាប់ពីការធ្វើឲ្យប្រសើររួច។
ការប្រើប្រាស់យុទ្ធសាស្ត្រ VOTAT គឺជាសូចនាករព្យាករណ៍ដ៏រឹងមាំមួយសម្រាប់ភាពជោគជ័យនៃការដោះស្រាយបញ្ហា ដោយម៉ូដែលទាំង ៦ ទទួលបានភាពត្រឹមត្រូវលើសពី ៨៨.៥%។
ទិន្នន័យផ្អែកលើពេលវេលាក៏អាចប្រើជាសូចនាករបានល្អផងដែរ ដោយសម្រេចបានភាពត្រឹមត្រូវ ៧៧.៩% តាមរយៈម៉ូដែល Deep learning ដែលបានធ្វើឲ្យប្រសើរឡើង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Deep Learning (Optimized with Genetic Algorithm) ការរៀនស៊ីជម្រៅ (ធ្វើឲ្យប្រសើរដោយក្បួនដោះស្រាយហ្សែន)	មានសមត្ថភាពខ្ពស់បំផុតក្នុងការទស្សន៍ទាយ ដោយទទួលបានលទ្ធផលល្អឥតខ្ចោះទាំងលើទិន្នន័យយុទ្ធសាស្ត្រ (VOTAT) និងទិន្នន័យពេលវេលា។ វាអាចស្វែងយល់ពីទំនាក់ទំនងស្មុគស្មាញដែលម៉ូដែលផ្សេងទៀតមិនអាចធ្វើបាន។	ទាមទារពេលវេលាយូរក្នុងការបង្វឹក និងត្រូវការការកំណត់រចនាសម្ព័ន្ធស្មុគស្មាញ (ចំនួនស្រទាប់ និងណឺរ៉ូន) តាមរយៈក្បួនដោះស្រាយហ្សែន។	ទទួលបានពិន្ទុ F-measure ៩៤.៩% (ទិន្នន័យ VOTAT) និង ៧៧.៩% (ទិន្នន័យពេលវេលា)។
Random Forest & Gradient Boosted Trees ព្រៃចៃដន្យ និង ដើមឈើជម្រុញជម្រាល	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ខ្លាំង (៩៤.១%) សម្រាប់ទិន្នន័យដែលផ្អែកលើយុទ្ធសាស្ត្រ VOTAT ហើយម៉ូដែលទាំងនេះកម្រជួបប្រទះបញ្ហា Overfitting។	ប្រើប្រាស់ពេលវេលាក្នុងការគណនាយូរជាងគេបំផុត (ចន្លោះពី ១៥៣ ទៅ ២៩១ វិនាទី) និងធ្លាក់ចុះសមត្ថភាពខ្លាំងនៅពេលប្រើជាមួយទិន្នន័យពេលវេលា។	ទទួលបានភាពត្រឹមត្រូវ ៩៤.១% (VOTAT) តែធ្លាក់មកត្រឹម ៦៩.៨%-៧៥.៧% (ទិន្នន័យពេលវេលា)។
Decision Tree ដើមឈើសម្រេចចិត្ត	មានល្បឿនលឿនក្នុងការដំណើរការ (ត្រឹមតែ ៤៨ វិនាទី) និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល ខណៈរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។	ទោះបីជាលឿន ប៉ុន្តែសមត្ថភាពនៃការទស្សន៍ទាយនៅមានកម្រិតទាបជាងម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) បន្តិចបន្តួច។	ទទួលបានភាពត្រឹមត្រូវ ៩៣.៤% និងពិន្ទុ F-measure ៩៣.៨% (ទិន្នន័យ VOTAT)។
Logistic Regression & Naïve Bayes តម្រែតម្រង់ឡូជីស្ទីក និង ណាយអ៊ីវបេយ	ជាម៉ូដែលដែលសាមញ្ញ ដំណើរការលឿនបំផុត និងស័ក្តិសមបំផុតសម្រាប់ធ្វើជាម៉ូដែលគោល (Baseline) សម្រាប់ការប្រៀបធៀប។	សមត្ថភាពចាប់យកទំនាក់ទំនងស្មុគស្មាញមានកម្រិតទាប ជាពិសេសនៅពេលវិភាគលើទិន្នន័យពេលវេលាដែលមានលក្ខណៈប្រែប្រួលខ្លាំង។	ទទួលបានភាពត្រឹមត្រូវចន្លោះពី ៨៧.៨% ទៅ ៨៩.៧% សម្រាប់ទិន្នន័យ VOTAT។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ អាស្រ័យលើម៉ូដែលដែលត្រូវបានប្រើប្រាស់ ជាពិសេសនៅពេលធ្វើការបង្វឹក និងធ្វើឲ្យប្រសើរឡើងនូវម៉ូដែល Deep Learning តាមរយៈក្បួនដោះស្រាយហ្សែន។

Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានស៊ីភីយូ (Multi-core CPU) ខ្លាំង ឬក្រាហ្វិកកាត (GPU) គឺត្រូវបានណែនាំដើម្បីកាត់បន្ថយពេលវេលានៃការគណនា (Runtime) សម្រាប់ម៉ូដែល Deep Learning និង Gradient Boosted Trees។
Software: ត្រូវការភាសាកម្មវិធី (ដូចជា Python ឬ R) និងបណ្ណាល័យវិភាគទិន្នន័យ (Data Mining/Machine Learning Frameworks) ដើម្បីសាងសង់និងវាយតម្លៃម៉ូដែល។
Dataset: ប្រើប្រាស់ទិន្នន័យកំណត់ហេតុ (Log files) ពីការវាយតម្លៃ PISA 2012 ដែលអាចរកបានជាសាធារណៈដោយឥតគិតថ្លៃសម្រាប់ការស្រាវជ្រាវ។
Expertise: ទាមទារជំនាញក្នុងការទាញយកលក្ខណៈពិសេស (Feature Engineering) ពីទិន្នន័យឆៅ (Raw Paradata) និងចំណេះដឹងផ្នែកធ្វើឲ្យប្រសើររចនាសម្ព័ន្ធ Neural Networks។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ PISA 2012 របស់អង្គការ OECD ដែលប្រមូលបានពីសិស្សអាយុ ១៥ ឆ្នាំ មកពី ៤៤ ប្រទេស។ ទោះបីជាមានភាពចម្រុះជាសកលក៏ដោយ ប៉ុន្តែទិន្នន័យនេះប្រហែលជាមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីកម្រិតអក្ខរកម្មឌីជីថល កម្មវិធីសិក្សា និងការយល់ដឹងអំពីកុំព្យូទ័ររបស់សិស្សនៅកម្ពុជាឡើយ ជាពិសេសនៅតាមតំបន់ជនបទ។ ការប្រមូលទិន្នន័យក្នុងស្រុកគឺជារឿងចាំបាច់ដើម្បីផ្ទៀងផ្ទាត់ប្រសិទ្ធភាពម៉ូដែលនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការទាញយកទិន្នន័យកំណត់ហេតុ (Log files) នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យអប់រំនៅកម្ពុជា ដើម្បីផ្លាស់ប្តូរពីការវាយតម្លៃត្រឹមតែលទ្ធផល ទៅជាការតាមដានដំណើរការនៃការរៀនសូត្រ។

ប្រព័ន្ធគ្រប់គ្រងការសិក្សានៅសាកលវិទ្យាល័យ (RUPP, ITC LMS): សាកលវិទ្យាល័យអាចបញ្ចូលមុខងារតាមដាន Paradata ទៅក្នុងប្រព័ន្ធ Moodle របស់ពួកគេ ដើម្បីវិភាគពីពេលវេលាដែលនិស្សិតចំណាយលើការអាន និងការធ្វើលំហាត់ ដែលអាចជួយទស្សន៍ទាយនិស្សិតដែលប្រឈមនឹងការប្រឡងធ្លាក់។
វិស័យបច្ចេកវិទ្យាអប់រំ (EdTech Startups ដូចជា Tesdopi ឬ E-School): ក្រុមហ៊ុន EdTech អាចប្រើប្រាស់យុទ្ធសាស្ត្រ VOTAT ដើម្បីបង្កើតហ្គេមអប់រំឆ្លាតវៃ (Intelligent Games) ដែលអាចផ្តល់ការណែនាំភ្លាមៗ (Real-time feedback) នៅពេលសិស្សកំពុងវង្វេងផ្លូវក្នុងការដោះស្រាយលំហាត់។
ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS): អាចប្រើប្រាស់វិធីសាស្ត្រនេះសម្រាប់ការប្រឡងវាស់ស្ទង់សមត្ថភាពថ្នាក់ជាតិលើប្រព័ន្ធកុំព្យូទ័រនាពេលអនាគត ដើម្បីស្វែងយល់ពីរបៀបដែលសិស្សកម្ពុជាដោះស្រាយបញ្ហាវិទ្យាសាស្ត្រ និងគណិតវិទ្យា។

សរុបមក ការប្រើប្រាស់បច្ចេកទេស Machine Learning លើទិន្នន័យ Paradata នឹងជួយឲ្យស្ថាប័នអប់រំនៅកម្ពុជាអាចកសាងប្រព័ន្ធ E-learning ដែលមានសមត្ថភាពជួយគាំទ្រដល់សិស្សទាន់ពេលវេលា និងចំគោលដៅ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ស្វែងយល់ពីទិន្នន័យអប់រំ និងការទាញយក Paradata: ចាប់ផ្តើមដោយការទាញយកសំណុំទិន្នន័យ PISA 2012 ជាសាធារណៈ ដើម្បីសិក្សាពីទម្រង់នៃឯកសារកំណត់ហេតុ (Log files)។ ប្រើប្រាស់ Python រួមជាមួយបណ្ណាល័យ Pandas ដើម្បីសម្អាត និងទាញយកសកម្មភាពនៃការចុច (Clicks) និងពេលវេលា (Timestamps) របស់សិស្ស។
ជំហានទី២៖ អនុវត្តការបង្កើតលក្ខណៈពិសេស (Feature Engineering): សរសេរកូដដើម្បីគណនាលក្ខណៈពិសេសផ្អែកលើយុទ្ធសាស្ត្រ (VOTAT) និងពេលវេលា ដូចជាការបំប្លែងសកម្មភាពទៅជាសមាមាត្រ និងការគណនាចន្លោះពេលរវាងការចុចប៊ូតុង Apply ដោយប្រើប្រាស់ NumPy និងបង្ហាញទិន្នន័យតាមរយៈ Matplotlib។
ជំហានទី៣៖ សាងសង់និងប្រៀបធៀបម៉ូដែលរៀនដោយម៉ាស៊ីនកម្រិតមូលដ្ឋាន: ប្រើប្រាស់ Scikit-Learn ដើម្បីសាងសង់ម៉ូដែលមូលដ្ឋានដូចជា Decision Tree និង Logistic Regression។ ធ្វើការវាយតម្លៃសមត្ថភាពម៉ូដែលដោយប្រើរង្វាស់ពិន្ទុ F-measure និង AUCROC។
ជំហានទី៤៖ សាងសង់ម៉ូដែល Deep Learning និងធ្វើឲ្យប្រសើរឡើង: បោះជំហានទៅមុខដោយការប្រើប្រាស់ TensorFlow ឬ PyTorch ដើម្បីបង្កើតបណ្ដាញសរសៃប្រសាទ (Neural Networks)។ សាកល្បងសរសេរក្បួនដោះស្រាយហ្សែន (Genetic Algorithm) ដើម្បីស្វែងរកចំនួនស្រទាប់ និងណឺរ៉ូនដែលល្អបំផុតដោយស្វ័យប្រវត្តិ។
ជំហានទី៥៖ ធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធ E-Learning ជាក់ស្តែង: សហការជាមួយដេប៉ាតឺម៉ង់ IT ដើម្បីបង្កើតកម្មវិធីបន្ថែម (Plugin) សម្រាប់ប្រព័ន្ធ Moodle របស់សាកលវិទ្យាល័យ ដែលអាចប្រមូលទិន្នន័យសកម្មភាពនិស្សិត និងដំណើរការម៉ូដែលទស្សន៍ទាយដែលបានហ្វឹកហាត់រួច ដើម្បីផ្តល់សញ្ញាព្រមានដល់សាស្ត្រាចារ្យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Educational Data Mining	ជាការប្រើប្រាស់បច្ចេកទេសវិភាគទិន្នន័យកុំព្យូទ័រ (Data Mining) ដើម្បីទាញយកលំនាំ ឬព័ត៌មានលាក់កំបាំងពីទិន្នន័យអប់រំធំៗ (ឧទាហរណ៍៖ កំណត់ត្រាសកម្មភាពរបស់សិស្សពេលប្រឡង) ដើម្បីស្វែងយល់ពីទម្លាប់នៃការរៀនសូត្រ និងជួយកែលម្អប្រព័ន្ធអប់រំ។	ដូចជាការរែងស្វែងរកគ្រាប់ពេជ្រនៅក្នុងគំនរខ្សាច់ តែនេះគឺការស្វែងរកគន្លឹះនៃភាពជោគជ័យពីក្នុងគំនរទិន្នន័យរបស់សិស្ស។
VOTAT (vary-one-thing-at-a-time)	ជាយុទ្ធសាស្ត្រក្នុងការពិសោធន៍ឬដោះស្រាយបញ្ហា ដែលគេធ្វើការផ្លាស់ប្តូរអថេរ (ចំណុចដែលត្រូវតេស្ត) តែមួយគត់ក្នុងពេលតែមួយ ខណៈរក្សាចំណុចផ្សេងទៀតឲ្យនៅដដែល ដើម្បីអាចសង្កេតមើលថាតើការផ្លាស់ប្តូរនោះមានឥទ្ធិពលអ្វីខ្លះទៅលើលទ្ធផល។	ដូចជាពេលយើងចង់ដឹងថាសម្លប្រៃដោយសារអ្វី យើងសាកល្បងបន្ថយអំបិលតែមួយមុខសិន (មិនបន្ថយទឹកត្រី ឬប៊ីចេងព្រមគ្នាទេ) ដើម្បីរកឱ្យឃើញមូលហេតុពិតប្រាកដ។
Paradata	ជាទិន្នន័យបន្ទាប់បន្សំដែលកត់ត្រាពីសកម្មភាពលម្អិត និងពេលវេលាដែលសិស្សចំណាយនៅពេលធ្វើតេស្តលើកុំព្យូទ័រ ដូចជាការចុចកណ្ដុរ រយៈពេលអានសំណួរ ឬការប្តូរចម្លើយ។ វាបង្ហាញពីដំណើរការនៃការគិត មិនមែនត្រឹមតែលទ្ធផលចុងក្រោយនោះទេ។	ដូចជាកាមេរ៉ាសុវត្ថិភាពដែលថតទុកគ្រប់សកម្មភាព និងចលនារបស់យើងតាំងពីដើមដល់ចប់ មិនមែនគ្រាន់តែមើលលទ្ធផលនៃការងាររបស់យើងនោះទេ។
Deep Learning	ជាបច្ចេកទេសមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Networks) មានស្រទាប់ច្រើន ដើម្បីរៀនសូត្រពីទិន្នន័យដ៏ស្មុគស្មាញ និងធ្វើការទស្សន៍ទាយលទ្ធផលបានយ៉ាងសុក្រឹត (ដូចជាការទស្សន៍ទាយថាសិស្សនឹងប្រឡងជាប់ឬធ្លាក់)។	ដូចជាការបង្កើតខួរក្បាលសិប្បនិម្មិតឲ្យកុំព្យូទ័រ ដែលអាចរៀនសូត្រចំណាំរូបភាព ឬទស្សន៍ទាយរឿងរ៉ាវនានាបានដោយខ្លួនឯង តាមរយៈការមើលគំរូច្រើនដង។
Genetic Algorithm	ជាក្បួនដោះស្រាយតាមកុំព្យូទ័រដែលយកគំរូតាមទ្រឹស្តីវិវត្តន៍របស់ធម្មជាតិ (ការបង្កាត់ពូជ ការបំប្លែងហ្សែន និងការជ្រើសរើសពូជល្អ) ដើម្បីស្វែងរកដំណោះស្រាយដែលល្អបំផុតសម្រាប់បញ្ហាស្មុគស្មាញណាមួយ ដូចជាការរកទំហំដ៏ល្អឥតខ្ចោះសម្រាប់ម៉ូដែល AI។	ដូចជាការបង្កាត់ពូជគោ ដោយជ្រើសរើសយកតែមេបាណាដែលរឹងមាំ និងឲ្យសាច់ច្រើន ដើម្បីបានកូនជំនាន់ក្រោយដែលកាន់តែមានគុណភាពល្អប្រសើរ។
AUCROC	ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning ក្នុងការបែងចែករវាងក្រុមពីរ (ឧទាហរណ៍៖ សិស្សដែលឆ្លើយត្រូវ និងសិស្សដែលឆ្លើយខុស)។ ពិន្ទុកាន់តែខិតជិត ១ មានន័យថាម៉ូដែលនោះកាន់តែពូកែក្នុងការទស្សន៍ទាយ។	ដូចជាពិន្ទុវាយតម្លៃសមត្ថភាពរបស់គ្រូទាយ បើបានពិន្ទុជិត ១០ គឺមានន័យថាគាត់ទាយត្រូវស្ទើរតែទាំងអស់។
F-measure	ជារង្វាស់រួមបញ្ចូលគ្នាដែលវាស់ស្ទង់ភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយ ដោយគិតទាំងភាពជាក់លាក់ (Precision: ទាយត្រូវប៉ុន្មានភាគរយក្នុងចំណោមការទាយទាំងអស់) និងសមត្ថភាពរកឃើញ (Recall: រកឃើញគោលដៅពិតប្រាកដប៉ុន្មាន)។ វាមានប្រយោជន៍ខ្លាំងនៅពេលទិន្នន័យមិនមានតុល្យភាព។	ដូចជាការវាយតម្លៃអ្នកនេសាទត្រី ដោយគិតទាំង "ចាប់បានត្រីគោលដៅប៉ុន្មានក្បាល" និង "ចាប់ច្រឡំសំរាមអស់ប៉ុន្មាន" ដើម្បីដឹងថាគាត់ពិតជាពូកែឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖