Original Title: Supervised Machine Learning Algorithms: Classification and Comparison
Source: www.ijcttjournal.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

អាល់គោរីតមម៉ាស៊ីនរៀនបែបមានការត្រួតពិនិត្យ៖ ការធ្វើចំណាត់ថ្នាក់និងការប្រៀបធៀប

ចំណងជើងដើម៖ Supervised Machine Learning Algorithms: Classification and Comparison

អ្នកនិពន្ធ៖ Osisanwo F.Y. (Babcock University), Akinsola J.E.T. (Babcock University), Awodele O. (Babcock University), Hinmikaiye J. O. (Babcock University), Olakanmi O. (Babcock University), Akinjobi J. (Crawford University)

ឆ្នាំបោះពុម្ព៖ 2017 (International Journal of Computer Trends and Technology)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះឆ្លើយតបទៅនឹងតម្រូវការក្នុងការកំណត់ប្រសិទ្ធភាពនៃអាល់គោរីតមម៉ាស៊ីនរៀនបែបមានការត្រួតពិនិត្យ (Supervised Machine Learning) ដោយផ្អែកលើទំហំទិន្នន័យ និងចំនួនអថេរ ដើម្បីស្វែងរកគំរូដ៏ល្អបំផុតសម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់កម្មវិធី WEKA ដើម្បីប្រៀបធៀបអាល់គោរីតមចំនួន ៧ ដោយធ្វើការពិសោធន៍លើសំណុំទិន្នន័យជំងឺទឹកនោមផ្អែមដែលមានទំហំខុសៗគ្នា។

ការប្រើប្រាស់សំណុំទិន្នន័យជំងឺទឹកនោមផ្អែម (Diabetes Dataset) ចំនួន ៧៦៨ ករណី
ការប្រើប្រាស់ឧបករណ៍ WEKA (Waikato Environment for Knowledge Analysis) ដើម្បីដំណើរការអាល់គោរីតម
ការប្រៀបធៀបអាល់គោរីតមចំនួន ៧ រួមមាន Decision Table, Random Forest, Naïve Bayes, SVM, Neural Networks, JRip និង Decision Tree (J48)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

លទ្ធផលបានបង្ហាញថា Support Vector Machine (SVM) គឺជាអាល់គោរីតមដែលមានភាពជាក់លាក់ និងត្រឹមត្រូវបំផុត (Most precision and accuracy) សម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យនេះ។
អាល់គោរីតម Naïve Bayes និង Random Forest ទទួលបានចំណាត់ថ្នាក់បន្ទាប់បន្សំចំពោះកម្រិតនៃភាពត្រឹមត្រូវ បន្ទាប់ពី SVM។
ការសិក្សារកឃើញថា SVM និង Neural Networks ដំណើរការបានល្អជាងនៅលើទិន្នន័យដែលមានទំហំធំ និងមានអថេរច្រើន ខណៈដែល Naïve Bayes អាចដំណើរការបានល្អគួរសមទោះបីជាទិន្នន័យមានទំហំតូចក៏ដោយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)	មានកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) និងដំណើរការបានល្អជាមួយទិន្នន័យដែលមានវិមាត្រច្រើន។	ត្រូវការការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានច្បាស់លាស់ ហើយវាត្រូវការធនធានគណនាកម្រិតមធ្យម។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងគេគឺ ៧៧.៣៤% និងចំណាយពេល ០.០៩ វិនាទី។
Naïve Bayes ណាវបេយស៍ (Naïve Bayes)	មានល្បឿនលឿនបំផុតក្នុងការបង្កើតគំរូ (០.០៣ វិនាទី) និងត្រូវការទិន្នន័យតូចក៏អាចដំណើរការបានល្អ។	សន្មតថាគ្រប់អថេរទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independence assumption) ដែលមិនតែងតែពិតក្នុងករណីជាក់ស្តែង។	ទទួលបានភាពត្រឹមត្រូវលំដាប់ទីពីរគឺ ៧៦.៣០%។
Neural Networks (Perceptron) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកលំនាំស្មុគស្មាញនៅពេលមានទិន្នន័យច្រើន។	ចំណាយពេលយូរបំផុតក្នុងការបង្កើតគំរូ (០.៨១ វិនាទី) និងមានប្រសិទ្ធភាពធ្លាក់ចុះខ្លាំងនៅពេលទិន្នន័យមានចំនួនតិច (ធ្លាក់ដល់ ៥៩%)។	ទទួលបានភាពត្រឹមត្រូវ ៧៥.១៣% លើទិន្នន័យធំ ប៉ុន្តែដំណើរការមិនល្អលើទិន្នន័យតូច។
Decision Tree (J48) ដើមឈើសម្រេចចិត្ត (J48)	ងាយស្រួលក្នុងការបកស្រាយ និងយល់ពីលទ្ធផល (Rules generation)។	មានកម្រិតភាពត្រឹមត្រូវទាបជាង SVM និង Naïve Bayes ក្នុងការសិក្សានេះ។	ទទួលបានភាពត្រឹមត្រូវ ៧៣.៨៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានធំដុំទេ ដោយសារទិន្នន័យមានទំហំតូច (ក្រោម ១០០០ ករណី) និងប្រើប្រាស់កម្មវិធីកុំព្យូទ័រទូទៅ។

Software: ប្រើប្រាស់កម្មវិធី WEKA (Waikato Environment for Knowledge Analysis) កំណែ 3.7.13 ដែលជាកម្មវិធីបើកចំហ (Open Source)។
Dataset: ត្រូវការទិន្នន័យដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់ (Structured Data) ដូចជា Pima Indians Diabetes Database។
Hardware: អាចដំណើរការបានលើកុំព្យូទ័រយួរដៃធម្មតា មិនចាំបាច់ត្រូវការ GPU កម្រិតខ្ពស់សម្រាប់ការពិសោធន៍កម្រិតនេះទេ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ Pima Indians Diabetes Database ដែលប្រមូលពីស្ត្រីដែលមានដើមកំណើត Pima Indian នៅសហរដ្ឋអាមេរិក។ នេះជាការលំអៀងនៃទិន្នន័យ (Data Bias) ព្រោះលក្ខណៈហ្សែន និងរបបអាហារខុសពីប្រជាជនកម្ពុជា ដូច្នេះគំរូនេះមិនអាចយកមកប្រើដើម្បីវិភាគជំងឺទឹកនោមផ្អែមនៅកម្ពុជាដោយផ្ទាល់បានទេ ប្រសិនបើគ្មានការបង្វឹកឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ និងការរកឃើញនៅក្នុងការសិក្សានេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់អ្នកអភិវឌ្ឍន៍បច្ចេកវិទ្យានៅកម្ពុជា ដើម្បីជ្រើសរើសអាល់គោរីតមដែលត្រឹមត្រូវសម្រាប់កម្មវិធីនានា។

វិស័យសុខាភិបាល (HealthTech): មន្ទីរពេទ្យនៅកម្ពុជា (ដូចជាមន្ទីរពេទ្យកាល់ម៉ែត) អាចប្រើប្រាស់ SVM ដើម្បីបង្កើតប្រព័ន្ធព្យាករណ៍ជំងឺ ដោយប្រើប្រាស់ទិន្នន័យអ្នកជំងឺក្នុងស្រុក។
វិស័យមីក្រូហិរញ្ញវត្ថុ (Microfinance): គ្រឹះស្ថានដូចជា ACLEDA ឬ ABA អាចអនុវត្តវិធីសាស្ត្រ Classification ដើម្បីវាយតម្លៃហានិភ័យឥណទាន (Credit Scoring) ដោយផ្អែកលើប្រវត្តិអតិថិជន។
វិស័យអប់រំ (Education): សាកលវិទ្យាល័យនានាអាចប្រើ Decision Tree (J48) ដើម្បីវិភាគកត្តាដែលធ្វើឱ្យនិស្សិតបោះបង់ការសិក្សា ដោយសារវាផ្តល់នូវលក្ខខណ្ឌ (Rules) ដែលងាយយល់។

ទោះបីជាទិន្នន័យមិនអាចប្រើផ្ទាល់បាន ប៉ុន្តែការសន្និដ្ឋានថា SVM និង Naïve Bayes ជាជម្រើសល្អបំផុតសម្រាប់ទិន្នន័យបែបនេះ គឺជាចំណេះដឹងដ៏មានតម្លៃសម្រាប់ការបង្កើត AI នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ដំឡើងកម្មវិធីនិងរៀបចំទិន្នន័យ: ទាញយកនិងដំឡើងកម្មវិធី WEKA លើកុំព្យូទ័ររបស់អ្នក។ បន្ទាប់មក ចូលទៅកាន់ UCI Machine Learning Repository ដើម្បីទាញយកទិន្នន័យ 'Pima Indians Diabetes' ជាទម្រង់ .arff ឬ .csv ។
ការពិសោធន៍ជាក់ស្តែងជាមួយ SVM: នៅក្នុង WEKA Explorer សូមជ្រើសរើសមុខងារ Classify រួចប្រើប្រាស់អាល់គោរីតម 'SMO' (ដែលជាការអនុវត្តរបស់ SVM ក្នុង WEKA)។ កំណត់ការធ្វើតេស្តបែប 10-fold cross-validation ដើម្បីផ្ទៀងផ្ទាត់លទ្ធផលដូចក្នុងតារាងទី ៣ នៃឯកសារ។
ការប្រៀបធៀបជាមួយ Naïve Bayes: ផ្លាស់ប្តូរអាល់គោរីតមទៅជា 'NaiveBayes' ហើយប្រៀបធៀបល្បឿន (Time to build model) និងភាពត្រឹមត្រូវ (Accuracy) ជាមួយនឹង SVM ។ សង្កេតមើលថាតើវាលឿនជាងប៉ុណ្ណា។
ការអនុវត្តលើទិន្នន័យកម្ពុជា: ប្រមូលទិន្នន័យតូចមួយ (ឧទាហរណ៍៖ ទិន្នន័យអតិថិជន ឬទិន្នន័យកសិកម្ម) ក្នុងទម្រង់ Excel រួចបំប្លែងទៅជា CSV។ សាកល្បងប្រើអាល់គោរីតមទាំងពីរខាងលើ ដើម្បីមើលថាអាល់គោរីតមមួយណាផ្តល់លទ្ធផលល្អជាងសម្រាប់បរិបទជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Supervised Machine Learning	ជាវិធីសាស្ត្រមួយដែលកុំព្យូទ័ររៀនពីទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវរួចស្រាប់ (Labeled Data) ដើម្បីបង្កើតជាគំរូសម្រាប់ទស្សន៍ទាយទិន្នន័យថ្មីៗនៅពេលអនាគត។	ដូចជាសិស្សរៀនមេរៀនដោយមានគ្រូកែដាក់ពិន្ទុ និងប្រាប់ចម្លើយត្រូវភ្លាមៗ ដើម្បីឱ្យសិស្សចងចាំសម្រាប់ពេលប្រឡង។
Classification	ដំណើរការនៃការបែងចែកទិន្នន័យទៅជាក្រុម ឬប្រភេទផ្សេងៗគ្នា (ដូចជា 'ឈឺ' ឬ 'មិនឈឺ') ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ។	ដូចជាការបែងចែកផ្លែឈើដាក់ក្នុងកន្ត្រកផ្សេងគ្នា (ផ្លែប៉ pommes ដាក់មួយកន្ត្រក ផ្លែក្រូចដាក់មួយកន្ត្រក) ទៅតាមប្រភេទរបស់វា។
Support Vector Machine (SVM)	ជាអាល់គោរីតមដែលស្វែងរកបន្ទាត់ព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីញែកទិន្នន័យជាពីរក្រុមដាច់ពីគ្នា ដោយព្យាយាមរក្សាគម្លាតឱ្យធំបំផុតរវាងក្រុមទាំងពីរនោះ ដើម្បីឱ្យការទស្សន៍ទាយមានភាពច្បាស់លាស់។	ដូចជាការគូសបន្ទាត់ព្រំដែននៅលើដី ដើម្បីញែកក្រុមមនុស្សពីរក្រុមដាច់ពីគ្នា ដោយមិនឱ្យនរណាម្នាក់ឈរជាន់បន្ទាត់នោះ។
Kappa statistic	ជាមេគុណស្ថិតិសម្រាប់វាស់វែងកម្រិតនៃភាពត្រឹមត្រូវនៃការធ្វើចំណាត់ថ្នាក់ ដោយដកចេញនូវកត្តាដែលអាចកើតឡើងដោយការទាយព្រាវ (Random chance) ដើម្បីឱ្យដឹងថាគំរូនោះពិតជាចេះមែនឬអត់។	ដូចជាការវាស់សមត្ថភាពសិស្សពិតប្រាកដ ដោយមិនរាប់បញ្ចូលពិន្ទុដែលសិស្សទទួលបានពីការគូសវាសចម្លើយព្រាវៗត្រូវដោយចៃដន្យ។
Mean Absolute Error (MAE)	ជាមធ្យមភាគនៃកំហុស (Error) រវាងតម្លៃដែលម៉ាស៊ីនទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ MAE កាន់តែតូច បង្ហាញថាគំរូនោះកាន់តែមានភាពត្រឹមត្រូវ។	ដូចជាការវាស់ចម្ងាយថាគ្រាប់ព្រួញដែលបាញ់ខុស ស្ថិតនៅឆ្ងាយប៉ុណ្ណាពីចំណុចកណ្តាលនៃផ្ទាំងស៊ីប។
10-fold cross-validation	បច្ចេកទេសវាយតម្លៃម៉ូដែលដោយបែងចែកទិន្នន័យជា ១០ ផ្នែកស្មើគ្នា រួចធ្វើការបង្វឹក និងតេស្តចំនួន ១០ ដង (រាល់ដងទុក ១ ផ្នែកសម្រាប់តេស្ត) ដើម្បីធានាថាវាដំណើរការល្អលើគ្រប់ផ្នែកនៃទិន្នន័យ។	ដូចជាការបែងចែកសៀវភៅជា ១០ ជំពូក រួចធ្វើតេស្តសិស្ស ១០ ដង ដោយរាល់ដងទុក ១ ជំពូកសម្រាប់ប្រឡង និង ៩ ជំពូកទៀតសម្រាប់រៀន។
Naïve Bayes	ជាអាល់គោរីតមគណនាប្រូបាប៊ីលីតេដែលសន្មតថាគ្រប់លក្ខខណ្ឌទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independent)។ វាមានល្បឿនលឿន និងសាមញ្ញ ប៉ុន្តែមានប្រសិទ្ធភាពសម្រាប់ការងារជាច្រើន។	ដូចជាការសន្និដ្ឋានថាអ្នកមានជំងឺគ្រុនផ្តាសាយ ដោយគ្រាន់តែឃើញអ្នកក្អក និងក្តៅខ្លួនដាច់ដោយឡែកពីគ្នា ដោយមិនខ្វល់ថាក្អកបណ្តាលមកពីក្តៅខ្លួនឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖