បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយលទ្ធផល និងភាពជោគជ័យនៃដំណើរការដោះស្រាយបញ្ហាស្មុគស្មាញរបស់សិស្ស ដោយប្រើប្រាស់ទិន្នន័យកំណត់ហេតុឆៅ (raw log files) ដែលប្រមូលបានពីប្រព័ន្ធវាយតម្លៃលើកុំព្យូទ័រ PISA 2012។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបក្បួនដោះស្រាយ Machine Learning ចំនួន ៦ ប្រភេទ ដើម្បីព្យាករណ៍លទ្ធផលដោយផ្អែកលើសំណុំទិន្នន័យលក្ខណៈពិសេសចំនួន២ ដែលបានទាញយកពីសកម្មភាពរបស់សិស្ស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Deep Learning (Optimized with Genetic Algorithm) ការរៀនស៊ីជម្រៅ (ធ្វើឲ្យប្រសើរដោយក្បួនដោះស្រាយហ្សែន) |
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការទស្សន៍ទាយ ដោយទទួលបានលទ្ធផលល្អឥតខ្ចោះទាំងលើទិន្នន័យយុទ្ធសាស្ត្រ (VOTAT) និងទិន្នន័យពេលវេលា។ វាអាចស្វែងយល់ពីទំនាក់ទំនងស្មុគស្មាញដែលម៉ូដែលផ្សេងទៀតមិនអាចធ្វើបាន។ | ទាមទារពេលវេលាយូរក្នុងការបង្វឹក និងត្រូវការការកំណត់រចនាសម្ព័ន្ធស្មុគស្មាញ (ចំនួនស្រទាប់ និងណឺរ៉ូន) តាមរយៈក្បួនដោះស្រាយហ្សែន។ | ទទួលបានពិន្ទុ F-measure ៩៤.៩% (ទិន្នន័យ VOTAT) និង ៧៧.៩% (ទិន្នន័យពេលវេលា)។ |
| Random Forest & Gradient Boosted Trees ព្រៃចៃដន្យ និង ដើមឈើជម្រុញជម្រាល |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ខ្លាំង (៩៤.១%) សម្រាប់ទិន្នន័យដែលផ្អែកលើយុទ្ធសាស្ត្រ VOTAT ហើយម៉ូដែលទាំងនេះកម្រជួបប្រទះបញ្ហា Overfitting។ | ប្រើប្រាស់ពេលវេលាក្នុងការគណនាយូរជាងគេបំផុត (ចន្លោះពី ១៥៣ ទៅ ២៩១ វិនាទី) និងធ្លាក់ចុះសមត្ថភាពខ្លាំងនៅពេលប្រើជាមួយទិន្នន័យពេលវេលា។ | ទទួលបានភាពត្រឹមត្រូវ ៩៤.១% (VOTAT) តែធ្លាក់មកត្រឹម ៦៩.៨%-៧៥.៧% (ទិន្នន័យពេលវេលា)។ |
| Decision Tree ដើមឈើសម្រេចចិត្ត |
មានល្បឿនលឿនក្នុងការដំណើរការ (ត្រឹមតែ ៤៨ វិនាទី) និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល ខណៈរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។ | ទោះបីជាលឿន ប៉ុន្តែសមត្ថភាពនៃការទស្សន៍ទាយនៅមានកម្រិតទាបជាងម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) បន្តិចបន្តួច។ | ទទួលបានភាពត្រឹមត្រូវ ៩៣.៤% និងពិន្ទុ F-measure ៩៣.៨% (ទិន្នន័យ VOTAT)។ |
| Logistic Regression & Naïve Bayes តម្រែតម្រង់ឡូជីស្ទីក និង ណាយអ៊ីវបេយ |
ជាម៉ូដែលដែលសាមញ្ញ ដំណើរការលឿនបំផុត និងស័ក្តិសមបំផុតសម្រាប់ធ្វើជាម៉ូដែលគោល (Baseline) សម្រាប់ការប្រៀបធៀប។ | សមត្ថភាពចាប់យកទំនាក់ទំនងស្មុគស្មាញមានកម្រិតទាប ជាពិសេសនៅពេលវិភាគលើទិន្នន័យពេលវេលាដែលមានលក្ខណៈប្រែប្រួលខ្លាំង។ | ទទួលបានភាពត្រឹមត្រូវចន្លោះពី ៨៧.៨% ទៅ ៨៩.៧% សម្រាប់ទិន្នន័យ VOTAT។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ អាស្រ័យលើម៉ូដែលដែលត្រូវបានប្រើប្រាស់ ជាពិសេសនៅពេលធ្វើការបង្វឹក និងធ្វើឲ្យប្រសើរឡើងនូវម៉ូដែល Deep Learning តាមរយៈក្បួនដោះស្រាយហ្សែន។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ PISA 2012 របស់អង្គការ OECD ដែលប្រមូលបានពីសិស្សអាយុ ១៥ ឆ្នាំ មកពី ៤៤ ប្រទេស។ ទោះបីជាមានភាពចម្រុះជាសកលក៏ដោយ ប៉ុន្តែទិន្នន័យនេះប្រហែលជាមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីកម្រិតអក្ខរកម្មឌីជីថល កម្មវិធីសិក្សា និងការយល់ដឹងអំពីកុំព្យូទ័ររបស់សិស្សនៅកម្ពុជាឡើយ ជាពិសេសនៅតាមតំបន់ជនបទ។ ការប្រមូលទិន្នន័យក្នុងស្រុកគឺជារឿងចាំបាច់ដើម្បីផ្ទៀងផ្ទាត់ប្រសិទ្ធភាពម៉ូដែលនេះ។
វិធីសាស្ត្រនៃការទាញយកទិន្នន័យកំណត់ហេតុ (Log files) នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យអប់រំនៅកម្ពុជា ដើម្បីផ្លាស់ប្តូរពីការវាយតម្លៃត្រឹមតែលទ្ធផល ទៅជាការតាមដានដំណើរការនៃការរៀនសូត្រ។
សរុបមក ការប្រើប្រាស់បច្ចេកទេស Machine Learning លើទិន្នន័យ Paradata នឹងជួយឲ្យស្ថាប័នអប់រំនៅកម្ពុជាអាចកសាងប្រព័ន្ធ E-learning ដែលមានសមត្ថភាពជួយគាំទ្រដល់សិស្សទាន់ពេលវេលា និងចំគោលដៅ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Educational Data Mining | ជាការប្រើប្រាស់បច្ចេកទេសវិភាគទិន្នន័យកុំព្យូទ័រ (Data Mining) ដើម្បីទាញយកលំនាំ ឬព័ត៌មានលាក់កំបាំងពីទិន្នន័យអប់រំធំៗ (ឧទាហរណ៍៖ កំណត់ត្រាសកម្មភាពរបស់សិស្សពេលប្រឡង) ដើម្បីស្វែងយល់ពីទម្លាប់នៃការរៀនសូត្រ និងជួយកែលម្អប្រព័ន្ធអប់រំ។ | ដូចជាការរែងស្វែងរកគ្រាប់ពេជ្រនៅក្នុងគំនរខ្សាច់ តែនេះគឺការស្វែងរកគន្លឹះនៃភាពជោគជ័យពីក្នុងគំនរទិន្នន័យរបស់សិស្ស។ |
| VOTAT (vary-one-thing-at-a-time) | ជាយុទ្ធសាស្ត្រក្នុងការពិសោធន៍ឬដោះស្រាយបញ្ហា ដែលគេធ្វើការផ្លាស់ប្តូរអថេរ (ចំណុចដែលត្រូវតេស្ត) តែមួយគត់ក្នុងពេលតែមួយ ខណៈរក្សាចំណុចផ្សេងទៀតឲ្យនៅដដែល ដើម្បីអាចសង្កេតមើលថាតើការផ្លាស់ប្តូរនោះមានឥទ្ធិពលអ្វីខ្លះទៅលើលទ្ធផល។ | ដូចជាពេលយើងចង់ដឹងថាសម្លប្រៃដោយសារអ្វី យើងសាកល្បងបន្ថយអំបិលតែមួយមុខសិន (មិនបន្ថយទឹកត្រី ឬប៊ីចេងព្រមគ្នាទេ) ដើម្បីរកឱ្យឃើញមូលហេតុពិតប្រាកដ។ |
| Paradata | ជាទិន្នន័យបន្ទាប់បន្សំដែលកត់ត្រាពីសកម្មភាពលម្អិត និងពេលវេលាដែលសិស្សចំណាយនៅពេលធ្វើតេស្តលើកុំព្យូទ័រ ដូចជាការចុចកណ្ដុរ រយៈពេលអានសំណួរ ឬការប្តូរចម្លើយ។ វាបង្ហាញពីដំណើរការនៃការគិត មិនមែនត្រឹមតែលទ្ធផលចុងក្រោយនោះទេ។ | ដូចជាកាមេរ៉ាសុវត្ថិភាពដែលថតទុកគ្រប់សកម្មភាព និងចលនារបស់យើងតាំងពីដើមដល់ចប់ មិនមែនគ្រាន់តែមើលលទ្ធផលនៃការងាររបស់យើងនោះទេ។ |
| Deep Learning | ជាបច្ចេកទេសមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Networks) មានស្រទាប់ច្រើន ដើម្បីរៀនសូត្រពីទិន្នន័យដ៏ស្មុគស្មាញ និងធ្វើការទស្សន៍ទាយលទ្ធផលបានយ៉ាងសុក្រឹត (ដូចជាការទស្សន៍ទាយថាសិស្សនឹងប្រឡងជាប់ឬធ្លាក់)។ | ដូចជាការបង្កើតខួរក្បាលសិប្បនិម្មិតឲ្យកុំព្យូទ័រ ដែលអាចរៀនសូត្រចំណាំរូបភាព ឬទស្សន៍ទាយរឿងរ៉ាវនានាបានដោយខ្លួនឯង តាមរយៈការមើលគំរូច្រើនដង។ |
| Genetic Algorithm | ជាក្បួនដោះស្រាយតាមកុំព្យូទ័រដែលយកគំរូតាមទ្រឹស្តីវិវត្តន៍របស់ធម្មជាតិ (ការបង្កាត់ពូជ ការបំប្លែងហ្សែន និងការជ្រើសរើសពូជល្អ) ដើម្បីស្វែងរកដំណោះស្រាយដែលល្អបំផុតសម្រាប់បញ្ហាស្មុគស្មាញណាមួយ ដូចជាការរកទំហំដ៏ល្អឥតខ្ចោះសម្រាប់ម៉ូដែល AI។ | ដូចជាការបង្កាត់ពូជគោ ដោយជ្រើសរើសយកតែមេបាណាដែលរឹងមាំ និងឲ្យសាច់ច្រើន ដើម្បីបានកូនជំនាន់ក្រោយដែលកាន់តែមានគុណភាពល្អប្រសើរ។ |
| AUCROC | ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning ក្នុងការបែងចែករវាងក្រុមពីរ (ឧទាហរណ៍៖ សិស្សដែលឆ្លើយត្រូវ និងសិស្សដែលឆ្លើយខុស)។ ពិន្ទុកាន់តែខិតជិត ១ មានន័យថាម៉ូដែលនោះកាន់តែពូកែក្នុងការទស្សន៍ទាយ។ | ដូចជាពិន្ទុវាយតម្លៃសមត្ថភាពរបស់គ្រូទាយ បើបានពិន្ទុជិត ១០ គឺមានន័យថាគាត់ទាយត្រូវស្ទើរតែទាំងអស់។ |
| F-measure | ជារង្វាស់រួមបញ្ចូលគ្នាដែលវាស់ស្ទង់ភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយ ដោយគិតទាំងភាពជាក់លាក់ (Precision: ទាយត្រូវប៉ុន្មានភាគរយក្នុងចំណោមការទាយទាំងអស់) និងសមត្ថភាពរកឃើញ (Recall: រកឃើញគោលដៅពិតប្រាកដប៉ុន្មាន)។ វាមានប្រយោជន៍ខ្លាំងនៅពេលទិន្នន័យមិនមានតុល្យភាព។ | ដូចជាការវាយតម្លៃអ្នកនេសាទត្រី ដោយគិតទាំង "ចាប់បានត្រីគោលដៅប៉ុន្មានក្បាល" និង "ចាប់ច្រឡំសំរាមអស់ប៉ុន្មាន" ដើម្បីដឹងថាគាត់ពិតជាពូកែឬអត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖