Original Title: Performance Evaluation of Supervised Machine Learning Algorithms Using Multi-Criteria Decision Making Techniques
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃដំណើរការនៃក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យដោយប្រើបច្ចេកទេសធ្វើសេចក្តីសម្រេចចិត្តពហុលក្ខណៈវិនិច្ឆ័យ

ចំណងជើងដើម៖ Performance Evaluation of Supervised Machine Learning Algorithms Using Multi-Criteria Decision Making Techniques

អ្នកនិពន្ធ៖ Akinsola J. E. T (Babcock University), Awodele, O. (Babcock University), Kuyoro S. O. (Babcock University), Kasali, F. A. (Mountain Top University)

ឆ្នាំបោះពុម្ព៖ 2019 (2nd International Conference on Education and Development - ITED 2019)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការជ្រើសរើសក្បួនដោះស្រាយការរៀនម៉ាស៊ីន (Machine Learning Algorithms) គឺជាបញ្ហាប្រឈមដ៏សំខាន់ដោយសារតែភាពមិនប្រាកដប្រជានៃការវិនិច្ឆ័យរបស់មនុស្ស និងលក្ខណៈវិនិច្ឆ័យនៃការអនុវត្តដែលមានភាពផ្ទុយគ្នាជាច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកូនកាត់នៃ ការធ្វើសេចក្តីសម្រេចចិត្តពហុលក្ខណៈវិនិច្ឆ័យ (MCDM) ដើម្បីវាយតម្លៃ និងចាត់ចំណាត់ថ្នាក់ក្បួនដោះស្រាយចំណាត់ថ្នាក់ចំនួន ៧ ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យចំនួន ១០។

ការប្រើប្រាស់ក្បួនដោះស្រាយចំនួន ៧ រួមមាន Naive Bayes, Logistic Regression, និង SMO លើសំណុំទិន្នន័យឥណទាន (Australian Credit Dataset)។
ដំណើរការឋានានុក្រមវិភាគមិនច្បាស់លាស់ (Fuzzy AHP) ដើម្បីកំណត់ទម្ងន់នៃលក្ខណៈវិនិច្ឆ័យ (Criteria Weights) ដោយផ្អែកលើការវិនិច្ឆ័យរបស់អ្នកជំនាញ។
បច្ចេកទេស TOPSIS និង SAW ត្រូវបានអនុវត្តនៅក្នុង MATLAB ដើម្បីចាត់ចំណាត់ថ្នាក់ក្បួនដោះស្រាយដែលល្អបំផុត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

លទ្ធផលបង្ហាញថា Logistic Regression (LRN) គឺជាក្បួនដោះស្រាយដែលមានចំណាត់ថ្នាក់ខ្ពស់បំផុតតាមរយៈវិធីសាស្ត្រ TOPSIS។
ស្ថិតិ Kappa (Kappa Statistic) ត្រូវបានរកឃើញថាជាលក្ខណៈវិនិច្ឆ័យដែលមានទម្ងន់អាទិភាពខ្ពស់បំផុត បន្ទាប់មកគឺភាពត្រឹមត្រូវ (Accuracy)។
បច្ចេកទេស MCDM មានប្រសិទ្ធភាពក្នុងការដោះស្រាយបញ្ហានៃការជ្រើសរើសក្បួនដោះស្រាយដោយកាត់បន្ថយភាពលំអៀង និងផ្តល់នូវការសម្រេចចិត្តដែលមានហេតុផលច្បាស់លាស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Logistic Regression (LRN) ការតំរែតំរង់ឡូជីស្ទិក	មានតុល្យភាពល្អរវាងល្បឿន និងប្រសិទ្ធភាព ដោយទទួលបានពិន្ទុ Kappa ខ្ពស់ និងជាប់ចំណាត់ថ្នាក់លេខ ១ តាមវិធីសាស្ត្រ TOPSIS។	អាចមានកម្រិតប្រសិនបើទិន្នន័យមានភាពស្មុគស្មាញខ្លាំង ឬមិនមែនជាលីនេអ៊ែរ (Non-linear)។	ជាប់ចំណាត់ថ្នាក់ល្អបំផុត (Best Classifier) បន្ទាប់ពីការវាយតម្លៃរួម។
Sequential Minimal Optimization (SMO) ក្បួនដោះស្រាយសម្រាប់ Support Vector Machine (SVM)	ទទួលបានលទ្ធផលខ្ពស់បំផុតលើរង្វាស់ Accuracy, TPR, F-Measure និង MAE។	ទាមទារធនធានគណនា និងពេលវេលាបង្វឹក (Training Time) ច្រើនជាង LRN បន្តិច។	មានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតគឺ ៨៨.៥%។
Naive Bayes (NBS) ក្បួនដោះស្រាយ Naive Bayes	ដំណើរការលឿន និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកំណត់ករណីអវិជ្ជមានពិត (True Negative Rate)។	សន្មតថាលក្ខណៈនីមួយៗនៃទិន្នន័យមិនមានទំនាក់ទំនងគ្នា (Independence assumption) ដែលអាចមិនឆ្លុះបញ្ចាំងការពិត។	ទទួលបាន TN Rate ខ្ពស់បំផុតគឺ ៩២.២%។
Multilayer Perceptron (MLP) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network)	មានសមត្ថភាពដោះស្រាយទិន្នន័យដែលមានទំនាក់ទំនងស្មុគស្មាញ។	ចំណាយពេលបង្វឹកយូរជាងគេបំផុតបើធៀបនឹងក្បួនដោះស្រាយផ្សេងទៀត។	ចំណាយពេលបង្វឹកដល់ទៅ ៥.៦១ វិនាទី (យឺតជាងគេ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដោយផ្តោតលើការប្រើប្រាស់កម្មវិធីវិភាគទិន្នន័យ និងគណិតវិទ្យា។

Software: ត្រូវការកម្មវិធី WEKA សម្រាប់ដំណើរការ ML និង MATLAB សម្រាប់ការគណនា MCDM (TOPSIS/SAW)។
Dataset: ប្រើប្រាស់សំណុំទិន្នន័យឥណទានអូស្ត្រាលី (Australian Credit Dataset) ពី UCI Repository ដែលមានទំហំតូចល្មម (៦៩០ ករណី)។
Expertise: ទាមទារអ្នកជំនាញចំនួន ៦ នាក់ដើម្បីផ្តល់ពិន្ទុវិនិច្ឆ័យក្នុងការកំណត់ទម្ងន់នៃលក្ខណៈវិនិច្ឆ័យតាមរយៈ Fuzzy AHP។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យឥណទានរបស់ប្រទេសអូស្ត្រាលី (Australian Credit Dataset) ដែលអាចមិនឆ្លុះបញ្ចាំងពីឥរិយាបថហិរញ្ញវត្ថុ ឬលក្ខណៈឥណទាននៅក្នុងប្រទេសកម្ពុជា។ ម៉ូដែលដែលដំណើរការល្អលើទិន្នន័យនេះ (ដូចជា LRN) អាចនឹងមិនដំណើរការល្អបំផុតនៅកម្ពុជាទេ ប្រសិនបើទិន្នន័យក្នុងស្រុកមានភាពខុសប្លែកគ្នាខ្លាំង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រសាស្រ្តនៃការវាយតម្លៃនេះ (MCDM + ML) គឺមានសារៈសំខាន់ និងអាចអនុវត្តបានយ៉ាងល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Banking & MFI): គ្រឹះស្ថានហិរញ្ញវត្ថុនៅកម្ពុជាអាចប្រើវិធីសាស្ត្រនេះដើម្បីជ្រើសរើសក្បួនដោះស្រាយដ៏ល្អបំផុតសម្រាប់វាយតម្លៃពិន្ទុឥណទាន (Credit Scoring) ដោយផ្អែកលើទិន្នន័យអតិថិជនជាក់ស្តែង។
ការអប់រំ និងស្រាវជ្រាវ (Education & Research): ជាគំរូដ៏ល្អសម្រាប់និស្សិតនៅសាកលវិទ្យាល័យបច្ចេកវិទ្យា (ដូចជា ITC ឬ RUPP) ក្នុងការសិក្សាអំពីការរួមបញ្ចូលគ្នារវាងម៉ាស៊ីនរៀន (Machine Learning) និងវិទ្យាសាស្ត្រធ្វើសេចក្តីសម្រេចចិត្ត។

ក្របខ័ណ្ឌការងារ (Framework) នៃការស្រាវជ្រាវនេះមានតម្លៃជាងលទ្ធផលជាក់លាក់នៃក្បួនដោះស្រាយ ហើយកម្ពុជាអាចយកគំរូនេះទៅអនុវត្តលើទិន្នន័យក្នុងស្រុកបានភ្លាមៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ និងឧបករណ៍: និស្សិតត្រូវស្វែងយល់អំពីរង្វាស់វាយតម្លៃ ML (ដូចជា Kappa, F-measure) និងដំឡើងកម្មវិធី WEKA ដើម្បីរៀនដំណើរការក្បួនដោះស្រាយផ្សេងៗ។
ការប្រមូល និងរៀបចំទិន្នន័យ: ជំនួសឱ្យទិន្នន័យអូស្ត្រាលី និស្សិតគួរស្វែងរកទិន្នន័យដែលពាក់ព័ន្ធនឹងកម្ពុជា ឬទិន្នន័យបើកចំហរផ្សេងទៀត ហើយបំប្លែងវាទៅជាទម្រង់ .arff សម្រាប់ប្រើក្នុង WEKA។
ការអនុវត្តការពិសោធន៍ ML: ដំណើរការក្បួនដោះស្រាយទាំង ៧ (ដូចក្នុងឯកសារ) លើទិន្នន័យថ្មី ដោយប្រើបច្ចេកទេស 10-fold cross-validation ដើម្បីកត់ត្រាលទ្ធផលនៃលក្ខណៈវិនិច្ឆ័យទាំង ១០។
ការវាយតម្លៃដោយប្រើ MCDM: ប្រើប្រាស់លទ្ធផលដែលទទួលបាន ដើម្បីគណនាចំណាត់ថ្នាក់ក្បួនដោះស្រាយដោយប្រើវិធីសាស្ត្រ TOPSIS (អាចសរសេរកូដសាមញ្ញក្នុង Python ឬ Excel ប្រសិនបើមិនចេះ MATLAB) ដើម្បីរកមើលក្បួនដោះស្រាយដែលសមស្របបំផុតសម្រាប់ទិន្នន័យនោះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Multi-Criteria Decision Making (MCDM)	ដំណើរការវាយតម្លៃ និងជ្រើសរើសជម្រើសដ៏ល្អបំផុតពីជម្រើសជាច្រើន ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យ (Criteria) ផ្សេងៗគ្នាដែលជារឿយៗមានភាពផ្ទុយគ្នា (ឧទាហរណ៍៖ ចង់បានល្បឿនលឿន ប៉ុន្តែចង់ចំណាយតិច)។	ដូចជាការជ្រើសរើសទិញទូរស័ព្ទដៃថ្មីមួយ ដោយមិនត្រឹមតែមើលលើតម្លៃថោកប៉ុណ្ណោះទេ តែត្រូវថ្លឹងថ្លែងជាមួយគុណភាពកាមេរ៉ា និងថាមពលថ្មក្នុងពេលតែមួយ។
Fuzzy Analytical Hierarchy Process (FAHP)	វិធីសាស្ត្រគណិតវិទ្យាដែលប្រើតក្កវិទ្យាមិនច្បាស់លាស់ (Fuzzy Logic) ដើម្បីបំប្លែងការវិនិច្ឆ័យប្រកបដោយអារម្មណ៍របស់មនុស្ស (ដូចជា "សំខាន់ខ្លាំង" ឬ "សំខាន់មធ្យម") ទៅជាតម្លៃលេខសម្រាប់ធ្វើការគណនាទម្ងន់នៃលក្ខណៈវិនិច្ឆ័យ។	ដូចជាការផ្តល់ពិន្ទុលើរសជាតិម្ហូប ដោយមិនដាក់ពិន្ទុជាក់លាក់ ១០/១០ ទេ តែដាក់ជាចន្លោះពិន្ទុ (ប្រហែល ៨ ទៅ ៩) ព្រោះការវិនិច្ឆ័យរបស់មនុស្សមិនមានភាពដាច់ស្រេច ១០០% ឡើយ។
TOPSIS	បច្ចេកទេសសម្រាប់ចាត់ចំណាត់ថ្នាក់ជម្រើស ដោយវាស់វែងថាតើជម្រើសមួយណាស្ថិតនៅជិតបំផុតទៅនឹង "ដំណោះស្រាយដ៏ល្អឥតខ្ចោះ" (Positive Ideal Solution) និងស្ថិតនៅឆ្ងាយបំផុតពី "ដំណោះស្រាយដែលអាក្រក់បំផុត" (Negative Ideal Solution)។	ដូចជាការជ្រើសរើសសិស្សពូកែ ដោយរកមើលសិស្សណាដែលមានលក្ខណៈសម្បត្តិស្រដៀងនឹងសិស្សគំរូបំផុត និងមានលក្ខណៈខុសគ្នាដាច់ស្រឡះពីសិស្សដែលរៀនខ្សោយបំផុត។
Kappa Statistic	រង្វាស់សម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ដោយគិតគូរដកចេញនូវភាពត្រឹមត្រូវដែលកើតឡើងដោយភាពចៃដន្យ (Random Chance)។ វាផ្តល់នូវលទ្ធផលគួរឱ្យទុកចិត្តជាងការប្រើរង្វាស់ Accuracy ធម្មតា។	ដូចជាការប្រឡងពហុជ្រើសរើស (Multiple Choice) ដែលគ្រូកាត់ពិន្ទុចំពោះសំណួរដែលសិស្ស "ទាយត្រូវ" ដោយចៃដន្យ ដើម្បីដឹងថាសិស្សចេះពិតប្រាកដកម្រិតណា។
Triangular Fuzzy Numbers (TFNs)	វិធីតំណាងឱ្យភាពមិនច្បាស់លាស់នៃទិន្នន័យដោយប្រើតម្លៃចំនួនបី៖ តម្លៃទាបបំផុត (Lower), តម្លៃដែលអាចទៅរួចបំផុត (Medium), និងតម្លៃខ្ពស់បំផុត (Upper) ជំនួសឱ្យការប្រើលេខតែមួយដាច់ស្រេច។	ជំនួសឱ្យការនិយាយថា "ខ្ញុំនឹងទៅដល់ម៉ោង ៨" (លេខតែមួយ) យើងនិយាយថា "ខ្ញុំនឹងទៅដល់ចន្លោះម៉ោង ៧:៥០ ដល់ ៨:១០" (មានបីចំណុចនៃពេលវេលាដើម្បីបង្ហាញពីភាពបត់បែន)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖