Original Title: Performance Evaluation of Supervised Machine Learning Algorithms Using Multi-Criteria Decision Making Techniques
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃដំណើរការនៃក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យដោយប្រើបច្ចេកទេសធ្វើសេចក្តីសម្រេចចិត្តពហុលក្ខណៈវិនិច្ឆ័យ

ចំណងជើងដើម៖ Performance Evaluation of Supervised Machine Learning Algorithms Using Multi-Criteria Decision Making Techniques

អ្នកនិពន្ធ៖ Akinsola J. E. T (Babcock University), Awodele, O. (Babcock University), Kuyoro S. O. (Babcock University), Kasali, F. A. (Mountain Top University)

ឆ្នាំបោះពុម្ព៖ 2019 (2nd International Conference on Education and Development - ITED 2019)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការជ្រើសរើសក្បួនដោះស្រាយការរៀនម៉ាស៊ីន (Machine Learning Algorithms) គឺជាបញ្ហាប្រឈមដ៏សំខាន់ដោយសារតែភាពមិនប្រាកដប្រជានៃការវិនិច្ឆ័យរបស់មនុស្ស និងលក្ខណៈវិនិច្ឆ័យនៃការអនុវត្តដែលមានភាពផ្ទុយគ្នាជាច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកូនកាត់នៃ ការធ្វើសេចក្តីសម្រេចចិត្តពហុលក្ខណៈវិនិច្ឆ័យ (MCDM) ដើម្បីវាយតម្លៃ និងចាត់ចំណាត់ថ្នាក់ក្បួនដោះស្រាយចំណាត់ថ្នាក់ចំនួន ៧ ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យចំនួន ១០។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Logistic Regression (LRN)
ការតំរែតំរង់ឡូជីស្ទិក
មានតុល្យភាពល្អរវាងល្បឿន និងប្រសិទ្ធភាព ដោយទទួលបានពិន្ទុ Kappa ខ្ពស់ និងជាប់ចំណាត់ថ្នាក់លេខ ១ តាមវិធីសាស្ត្រ TOPSIS។ អាចមានកម្រិតប្រសិនបើទិន្នន័យមានភាពស្មុគស្មាញខ្លាំង ឬមិនមែនជាលីនេអ៊ែរ (Non-linear)។ ជាប់ចំណាត់ថ្នាក់ល្អបំផុត (Best Classifier) បន្ទាប់ពីការវាយតម្លៃរួម។
Sequential Minimal Optimization (SMO)
ក្បួនដោះស្រាយសម្រាប់ Support Vector Machine (SVM)
ទទួលបានលទ្ធផលខ្ពស់បំផុតលើរង្វាស់ Accuracy, TPR, F-Measure និង MAE។ ទាមទារធនធានគណនា និងពេលវេលាបង្វឹក (Training Time) ច្រើនជាង LRN បន្តិច។ មានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតគឺ ៨៨.៥%។
Naive Bayes (NBS)
ក្បួនដោះស្រាយ Naive Bayes
ដំណើរការលឿន និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកំណត់ករណីអវិជ្ជមានពិត (True Negative Rate)។ សន្មតថាលក្ខណៈនីមួយៗនៃទិន្នន័យមិនមានទំនាក់ទំនងគ្នា (Independence assumption) ដែលអាចមិនឆ្លុះបញ្ចាំងការពិត។ ទទួលបាន TN Rate ខ្ពស់បំផុតគឺ ៩២.២%។
Multilayer Perceptron (MLP)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network)
មានសមត្ថភាពដោះស្រាយទិន្នន័យដែលមានទំនាក់ទំនងស្មុគស្មាញ។ ចំណាយពេលបង្វឹកយូរជាងគេបំផុតបើធៀបនឹងក្បួនដោះស្រាយផ្សេងទៀត។ ចំណាយពេលបង្វឹកដល់ទៅ ៥.៦១ វិនាទី (យឺតជាងគេ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដោយផ្តោតលើការប្រើប្រាស់កម្មវិធីវិភាគទិន្នន័យ និងគណិតវិទ្យា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យឥណទានរបស់ប្រទេសអូស្ត្រាលី (Australian Credit Dataset) ដែលអាចមិនឆ្លុះបញ្ចាំងពីឥរិយាបថហិរញ្ញវត្ថុ ឬលក្ខណៈឥណទាននៅក្នុងប្រទេសកម្ពុជា។ ម៉ូដែលដែលដំណើរការល្អលើទិន្នន័យនេះ (ដូចជា LRN) អាចនឹងមិនដំណើរការល្អបំផុតនៅកម្ពុជាទេ ប្រសិនបើទិន្នន័យក្នុងស្រុកមានភាពខុសប្លែកគ្នាខ្លាំង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រសាស្រ្តនៃការវាយតម្លៃនេះ (MCDM + ML) គឺមានសារៈសំខាន់ និងអាចអនុវត្តបានយ៉ាងល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា។

ក្របខ័ណ្ឌការងារ (Framework) នៃការស្រាវជ្រាវនេះមានតម្លៃជាងលទ្ធផលជាក់លាក់នៃក្បួនដោះស្រាយ ហើយកម្ពុជាអាចយកគំរូនេះទៅអនុវត្តលើទិន្នន័យក្នុងស្រុកបានភ្លាមៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការសិក្សាមូលដ្ឋានគ្រឹះ និងឧបករណ៍: និស្សិតត្រូវស្វែងយល់អំពីរង្វាស់វាយតម្លៃ ML (ដូចជា Kappa, F-measure) និងដំឡើងកម្មវិធី WEKA ដើម្បីរៀនដំណើរការក្បួនដោះស្រាយផ្សេងៗ។
  2. ការប្រមូល និងរៀបចំទិន្នន័យ: ជំនួសឱ្យទិន្នន័យអូស្ត្រាលី និស្សិតគួរស្វែងរកទិន្នន័យដែលពាក់ព័ន្ធនឹងកម្ពុជា ឬទិន្នន័យបើកចំហរផ្សេងទៀត ហើយបំប្លែងវាទៅជាទម្រង់ .arff សម្រាប់ប្រើក្នុង WEKA។
  3. ការអនុវត្តការពិសោធន៍ ML: ដំណើរការក្បួនដោះស្រាយទាំង ៧ (ដូចក្នុងឯកសារ) លើទិន្នន័យថ្មី ដោយប្រើបច្ចេកទេស 10-fold cross-validation ដើម្បីកត់ត្រាលទ្ធផលនៃលក្ខណៈវិនិច្ឆ័យទាំង ១០។
  4. ការវាយតម្លៃដោយប្រើ MCDM: ប្រើប្រាស់លទ្ធផលដែលទទួលបាន ដើម្បីគណនាចំណាត់ថ្នាក់ក្បួនដោះស្រាយដោយប្រើវិធីសាស្ត្រ TOPSIS (អាចសរសេរកូដសាមញ្ញក្នុង Python ឬ Excel ប្រសិនបើមិនចេះ MATLAB) ដើម្បីរកមើលក្បួនដោះស្រាយដែលសមស្របបំផុតសម្រាប់ទិន្នន័យនោះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Multi-Criteria Decision Making (MCDM) ដំណើរការវាយតម្លៃ និងជ្រើសរើសជម្រើសដ៏ល្អបំផុតពីជម្រើសជាច្រើន ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យ (Criteria) ផ្សេងៗគ្នាដែលជារឿយៗមានភាពផ្ទុយគ្នា (ឧទាហរណ៍៖ ចង់បានល្បឿនលឿន ប៉ុន្តែចង់ចំណាយតិច)។ ដូចជាការជ្រើសរើសទិញទូរស័ព្ទដៃថ្មីមួយ ដោយមិនត្រឹមតែមើលលើតម្លៃថោកប៉ុណ្ណោះទេ តែត្រូវថ្លឹងថ្លែងជាមួយគុណភាពកាមេរ៉ា និងថាមពលថ្មក្នុងពេលតែមួយ។
Fuzzy Analytical Hierarchy Process (FAHP) វិធីសាស្ត្រគណិតវិទ្យាដែលប្រើតក្កវិទ្យាមិនច្បាស់លាស់ (Fuzzy Logic) ដើម្បីបំប្លែងការវិនិច្ឆ័យប្រកបដោយអារម្មណ៍របស់មនុស្ស (ដូចជា "សំខាន់ខ្លាំង" ឬ "សំខាន់មធ្យម") ទៅជាតម្លៃលេខសម្រាប់ធ្វើការគណនាទម្ងន់នៃលក្ខណៈវិនិច្ឆ័យ។ ដូចជាការផ្តល់ពិន្ទុលើរសជាតិម្ហូប ដោយមិនដាក់ពិន្ទុជាក់លាក់ ១០/១០ ទេ តែដាក់ជាចន្លោះពិន្ទុ (ប្រហែល ៨ ទៅ ៩) ព្រោះការវិនិច្ឆ័យរបស់មនុស្សមិនមានភាពដាច់ស្រេច ១០០% ឡើយ។
TOPSIS បច្ចេកទេសសម្រាប់ចាត់ចំណាត់ថ្នាក់ជម្រើស ដោយវាស់វែងថាតើជម្រើសមួយណាស្ថិតនៅជិតបំផុតទៅនឹង "ដំណោះស្រាយដ៏ល្អឥតខ្ចោះ" (Positive Ideal Solution) និងស្ថិតនៅឆ្ងាយបំផុតពី "ដំណោះស្រាយដែលអាក្រក់បំផុត" (Negative Ideal Solution)។ ដូចជាការជ្រើសរើសសិស្សពូកែ ដោយរកមើលសិស្សណាដែលមានលក្ខណៈសម្បត្តិស្រដៀងនឹងសិស្សគំរូបំផុត និងមានលក្ខណៈខុសគ្នាដាច់ស្រឡះពីសិស្សដែលរៀនខ្សោយបំផុត។
Kappa Statistic រង្វាស់សម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ដោយគិតគូរដកចេញនូវភាពត្រឹមត្រូវដែលកើតឡើងដោយភាពចៃដន្យ (Random Chance)។ វាផ្តល់នូវលទ្ធផលគួរឱ្យទុកចិត្តជាងការប្រើរង្វាស់ Accuracy ធម្មតា។ ដូចជាការប្រឡងពហុជ្រើសរើស (Multiple Choice) ដែលគ្រូកាត់ពិន្ទុចំពោះសំណួរដែលសិស្ស "ទាយត្រូវ" ដោយចៃដន្យ ដើម្បីដឹងថាសិស្សចេះពិតប្រាកដកម្រិតណា។
Triangular Fuzzy Numbers (TFNs) វិធីតំណាងឱ្យភាពមិនច្បាស់លាស់នៃទិន្នន័យដោយប្រើតម្លៃចំនួនបី៖ តម្លៃទាបបំផុត (Lower), តម្លៃដែលអាចទៅរួចបំផុត (Medium), និងតម្លៃខ្ពស់បំផុត (Upper) ជំនួសឱ្យការប្រើលេខតែមួយដាច់ស្រេច។ ជំនួសឱ្យការនិយាយថា "ខ្ញុំនឹងទៅដល់ម៉ោង ៨" (លេខតែមួយ) យើងនិយាយថា "ខ្ញុំនឹងទៅដល់ចន្លោះម៉ោង ៧:៥០ ដល់ ៨:១០" (មានបីចំណុចនៃពេលវេលាដើម្បីបង្ហាញពីភាពបត់បែន)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖