បញ្ហា (The Problem)៖ ការជ្រើសរើសក្បួនដោះស្រាយការរៀនម៉ាស៊ីន (Machine Learning Algorithms) គឺជាបញ្ហាប្រឈមដ៏សំខាន់ដោយសារតែភាពមិនប្រាកដប្រជានៃការវិនិច្ឆ័យរបស់មនុស្ស និងលក្ខណៈវិនិច្ឆ័យនៃការអនុវត្តដែលមានភាពផ្ទុយគ្នាជាច្រើន។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកូនកាត់នៃ ការធ្វើសេចក្តីសម្រេចចិត្តពហុលក្ខណៈវិនិច្ឆ័យ (MCDM) ដើម្បីវាយតម្លៃ និងចាត់ចំណាត់ថ្នាក់ក្បួនដោះស្រាយចំណាត់ថ្នាក់ចំនួន ៧ ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យចំនួន ១០។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Logistic Regression (LRN) ការតំរែតំរង់ឡូជីស្ទិក |
មានតុល្យភាពល្អរវាងល្បឿន និងប្រសិទ្ធភាព ដោយទទួលបានពិន្ទុ Kappa ខ្ពស់ និងជាប់ចំណាត់ថ្នាក់លេខ ១ តាមវិធីសាស្ត្រ TOPSIS។ | អាចមានកម្រិតប្រសិនបើទិន្នន័យមានភាពស្មុគស្មាញខ្លាំង ឬមិនមែនជាលីនេអ៊ែរ (Non-linear)។ | ជាប់ចំណាត់ថ្នាក់ល្អបំផុត (Best Classifier) បន្ទាប់ពីការវាយតម្លៃរួម។ |
| Sequential Minimal Optimization (SMO) ក្បួនដោះស្រាយសម្រាប់ Support Vector Machine (SVM) |
ទទួលបានលទ្ធផលខ្ពស់បំផុតលើរង្វាស់ Accuracy, TPR, F-Measure និង MAE។ | ទាមទារធនធានគណនា និងពេលវេលាបង្វឹក (Training Time) ច្រើនជាង LRN បន្តិច។ | មានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតគឺ ៨៨.៥%។ |
| Naive Bayes (NBS) ក្បួនដោះស្រាយ Naive Bayes |
ដំណើរការលឿន និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកំណត់ករណីអវិជ្ជមានពិត (True Negative Rate)។ | សន្មតថាលក្ខណៈនីមួយៗនៃទិន្នន័យមិនមានទំនាក់ទំនងគ្នា (Independence assumption) ដែលអាចមិនឆ្លុះបញ្ចាំងការពិត។ | ទទួលបាន TN Rate ខ្ពស់បំផុតគឺ ៩២.២%។ |
| Multilayer Perceptron (MLP) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) |
មានសមត្ថភាពដោះស្រាយទិន្នន័យដែលមានទំនាក់ទំនងស្មុគស្មាញ។ | ចំណាយពេលបង្វឹកយូរជាងគេបំផុតបើធៀបនឹងក្បួនដោះស្រាយផ្សេងទៀត។ | ចំណាយពេលបង្វឹកដល់ទៅ ៥.៦១ វិនាទី (យឺតជាងគេ)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដោយផ្តោតលើការប្រើប្រាស់កម្មវិធីវិភាគទិន្នន័យ និងគណិតវិទ្យា។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យឥណទានរបស់ប្រទេសអូស្ត្រាលី (Australian Credit Dataset) ដែលអាចមិនឆ្លុះបញ្ចាំងពីឥរិយាបថហិរញ្ញវត្ថុ ឬលក្ខណៈឥណទាននៅក្នុងប្រទេសកម្ពុជា។ ម៉ូដែលដែលដំណើរការល្អលើទិន្នន័យនេះ (ដូចជា LRN) អាចនឹងមិនដំណើរការល្អបំផុតនៅកម្ពុជាទេ ប្រសិនបើទិន្នន័យក្នុងស្រុកមានភាពខុសប្លែកគ្នាខ្លាំង។
វិធីសាស្ត្រសាស្រ្តនៃការវាយតម្លៃនេះ (MCDM + ML) គឺមានសារៈសំខាន់ និងអាចអនុវត្តបានយ៉ាងល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា។
ក្របខ័ណ្ឌការងារ (Framework) នៃការស្រាវជ្រាវនេះមានតម្លៃជាងលទ្ធផលជាក់លាក់នៃក្បួនដោះស្រាយ ហើយកម្ពុជាអាចយកគំរូនេះទៅអនុវត្តលើទិន្នន័យក្នុងស្រុកបានភ្លាមៗ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Multi-Criteria Decision Making (MCDM) | ដំណើរការវាយតម្លៃ និងជ្រើសរើសជម្រើសដ៏ល្អបំផុតពីជម្រើសជាច្រើន ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យ (Criteria) ផ្សេងៗគ្នាដែលជារឿយៗមានភាពផ្ទុយគ្នា (ឧទាហរណ៍៖ ចង់បានល្បឿនលឿន ប៉ុន្តែចង់ចំណាយតិច)។ | ដូចជាការជ្រើសរើសទិញទូរស័ព្ទដៃថ្មីមួយ ដោយមិនត្រឹមតែមើលលើតម្លៃថោកប៉ុណ្ណោះទេ តែត្រូវថ្លឹងថ្លែងជាមួយគុណភាពកាមេរ៉ា និងថាមពលថ្មក្នុងពេលតែមួយ។ |
| Fuzzy Analytical Hierarchy Process (FAHP) | វិធីសាស្ត្រគណិតវិទ្យាដែលប្រើតក្កវិទ្យាមិនច្បាស់លាស់ (Fuzzy Logic) ដើម្បីបំប្លែងការវិនិច្ឆ័យប្រកបដោយអារម្មណ៍របស់មនុស្ស (ដូចជា "សំខាន់ខ្លាំង" ឬ "សំខាន់មធ្យម") ទៅជាតម្លៃលេខសម្រាប់ធ្វើការគណនាទម្ងន់នៃលក្ខណៈវិនិច្ឆ័យ។ | ដូចជាការផ្តល់ពិន្ទុលើរសជាតិម្ហូប ដោយមិនដាក់ពិន្ទុជាក់លាក់ ១០/១០ ទេ តែដាក់ជាចន្លោះពិន្ទុ (ប្រហែល ៨ ទៅ ៩) ព្រោះការវិនិច្ឆ័យរបស់មនុស្សមិនមានភាពដាច់ស្រេច ១០០% ឡើយ។ |
| TOPSIS | បច្ចេកទេសសម្រាប់ចាត់ចំណាត់ថ្នាក់ជម្រើស ដោយវាស់វែងថាតើជម្រើសមួយណាស្ថិតនៅជិតបំផុតទៅនឹង "ដំណោះស្រាយដ៏ល្អឥតខ្ចោះ" (Positive Ideal Solution) និងស្ថិតនៅឆ្ងាយបំផុតពី "ដំណោះស្រាយដែលអាក្រក់បំផុត" (Negative Ideal Solution)។ | ដូចជាការជ្រើសរើសសិស្សពូកែ ដោយរកមើលសិស្សណាដែលមានលក្ខណៈសម្បត្តិស្រដៀងនឹងសិស្សគំរូបំផុត និងមានលក្ខណៈខុសគ្នាដាច់ស្រឡះពីសិស្សដែលរៀនខ្សោយបំផុត។ |
| Kappa Statistic | រង្វាស់សម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ដោយគិតគូរដកចេញនូវភាពត្រឹមត្រូវដែលកើតឡើងដោយភាពចៃដន្យ (Random Chance)។ វាផ្តល់នូវលទ្ធផលគួរឱ្យទុកចិត្តជាងការប្រើរង្វាស់ Accuracy ធម្មតា។ | ដូចជាការប្រឡងពហុជ្រើសរើស (Multiple Choice) ដែលគ្រូកាត់ពិន្ទុចំពោះសំណួរដែលសិស្ស "ទាយត្រូវ" ដោយចៃដន្យ ដើម្បីដឹងថាសិស្សចេះពិតប្រាកដកម្រិតណា។ |
| Triangular Fuzzy Numbers (TFNs) | វិធីតំណាងឱ្យភាពមិនច្បាស់លាស់នៃទិន្នន័យដោយប្រើតម្លៃចំនួនបី៖ តម្លៃទាបបំផុត (Lower), តម្លៃដែលអាចទៅរួចបំផុត (Medium), និងតម្លៃខ្ពស់បំផុត (Upper) ជំនួសឱ្យការប្រើលេខតែមួយដាច់ស្រេច។ | ជំនួសឱ្យការនិយាយថា "ខ្ញុំនឹងទៅដល់ម៉ោង ៨" (លេខតែមួយ) យើងនិយាយថា "ខ្ញុំនឹងទៅដល់ចន្លោះម៉ោង ៧:៥០ ដល់ ៨:១០" (មានបីចំណុចនៃពេលវេលាដើម្បីបង្ហាញពីភាពបត់បែន)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖