Original Title: An overview of the supervised machine learning methods
Source: doi.org/10.20544/HORIZONS.B.04.1.17.P05
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ទិដ្ឋភាពទូទៅនៃវិធីសាស្ត្ររៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised Machine Learning)

ចំណងជើងដើម៖ An overview of the supervised machine learning methods

អ្នកនិពន្ធ៖ Vladimir Nasteski (Faculty of Information and Communication Technologies, Bitola, Macedonia)

ឆ្នាំបោះពុម្ព៖ 2017

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃតម្រូវការក្នុងការស្វែងយល់ និងចាត់ថ្នាក់នូវក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised Machine Learning) ដែលកំពុងកើនឡើងយ៉ាងឆាប់រហ័សសម្រាប់ការវិភាគទិន្នន័យ និងការទស្សន៍ទាយ។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះធ្វើការត្រួតពិនិត្យឡើងវិញ (Review) និងវិភាគលើទ្រឹស្តីមូលដ្ឋាន រចនាសម្ព័ន្ធ និងដំណើរការគណិតវិទ្យានៃវិធីសាស្ត្ររៀនម៉ាស៊ីនសំខាន់ៗ។

ការប្រៀបធៀបរវាងម៉ូដែលចំណាត់ថ្នាក់ (Classification) និងម៉ូដែលតម្រត (Regression)
ការវិភាគលម្អិតលើក្បួនដោះស្រាយដូចជា Decision Trees, Linear Regression, Naive Bayes និង Logistic Regression

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរៀនដែលមានការត្រួតពិនិត្យ (Supervised learning) គឺជាបច្ចេកទេសដ៏មានឥទ្ធិពលបំផុតមួយក្នុងការរៀនម៉ាស៊ីន ដោយសារការប្រើប្រាស់ទិន្នន័យដែលមានស្លាក (labeled data) ដើម្បីបង្កើតម៉ូដែលដែលមានភាពជាក់លាក់។
ដំណើរការនៃការរៀនត្រូវបានបែងចែកជាពីរដំណាក់កាលសំខាន់គឺ ការបង្វឹក (Training) និងការសាកល្បង (Testing) ដើម្បីធានាថា algorithm អាចព្យាករណ៍ទិន្នន័យថ្មីបានត្រឹមត្រូវ។
ក្បួនដោះស្រាយនីមួយៗមានលក្ខណៈពិសេសខុសគ្នា ដូចជា Decision Trees ប្រើសម្រាប់ការបែងចែកតាមលក្ខខណ្ឌ រីឯ Linear Regression និង Logistic Regression ប្រើសម្រាប់ការស្វែងរកទំនាក់ទំនងរវាងអថេរ និងការគណនាប្រូបាប៊ីលីតេ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Decision Trees ដើមឈើសម្រេចចិត្ត (Decision Trees)៖ ជាវិធីសាស្ត្របែងចែកទិន្នន័យជាថ្នាំង (nodes) និងមែកធាងដើម្បីឈានទៅរកការសន្និដ្ឋាន។	ងាយស្រួលយល់ និងបកស្រាយដោយមនុស្ស ព្រោះវាបង្ហាញជាលំហូរនៃលក្ខខណ្ឌ។ អាចប្រើបានទាំងទិន្នន័យជាលេខ និងទិន្នន័យជាក្រុម (categorical data)។	អាចមានភាពស្មុគស្មាញខ្លាំងប្រសិនបើមិនមានការកំណត់ទំហំ (over-fitting) ដែលធ្វើឱ្យពិបាកក្នុងការគ្រប់គ្រង។	បង្កើតបានជាគំរូដែលអាចព្យាករណ៍ឥរិយាបថរបស់អតិថិជន ឬចាត់ថ្នាក់ទិន្នន័យដោយផ្អែកលើលក្ខខណ្ឌដែលបានកំណត់។
Linear Regression តម្រែតម្រង់លីនេអ៊ែរ (Linear Regression)៖ ប្រើសម្រាប់ស្វែងរកទំនាក់ទំនងរវាងអថេរ និងព្យាករណ៍តម្លៃជាលេខបន្ត (continuous value)។	សាមញ្ញ និងមានប្រសិទ្ធភាពក្នុងការស្វែងរកទំនាក់ទំនងរវាងទិន្នន័យដែលមានលក្ខណៈជាបន្ទាត់ត្រង់។	មិនសមស្របសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដាច់ដោយឡែក (classification) ហើយកម្រិតភាពត្រឹមត្រូវមានកម្រិតលើទិន្នន័យមិនមែនលីនេអ៊ែរ។	បង្កើតបានជាសមីការបន្ទាត់ដែលកាត់បន្ថយគម្លាតកំហុស (loss function) ដើម្បីព្យាករណ៍តម្លៃអថេរគោលដៅ។
Naive Bayes ណាយីវបេ (Naive Bayes)៖ វិធីសាស្ត្រស្ថិតិដែលផ្អែកលើទ្រឹស្តីរបស់ Bayes ដោយសន្មតថាអថេរនីមួយៗមិនអាស្រ័យលើគ្នា។	ធន់នឹងទិន្នន័យដែលមានភាពរំខាន (noise) និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាត់ថ្នាក់អត្ថបទ (text classification)។	ការសន្មតថាអថេរទាំងអស់មិនអាស្រ័យលើគ្នា (independence assumption) ជារឿយៗមិនឆ្លុះបញ្ចាំងពីការពិតជាក់ស្តែងទេ។	គណនាប្រូបាប៊ីលីតេជាក់លាក់សម្រាប់សម្មតិកម្មនីមួយៗ ដើម្បីដោះស្រាយបញ្ហាព្យាករណ៍។
Logistic Regression តម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression)៖ ប្រើសម្រាប់ព្យាករណ៍ប្រូបាប៊ីលីតេនៃព្រឹត្តិការណ៍មួយ (លទ្ធផល ០ ឬ ១)។	ផ្តល់លទ្ធផលជាតម្លៃប្រូបាប៊ីលីតេ (០ ដល់ ១) តាមរយៈអនុគមន៍ Sigmoid ដែលងាយស្រួលសម្រាប់ការសម្រេចចិត្តបែប Binary។	ជាប្រភេទ Discriminative Classifier ដែលខុសពី Generative Classifier ដូច Naive Bayes និងទាមទារទិន្នន័យដែលបែងចែកដាច់ពីគ្នាបានល្អ។	ប្រើប្រាស់ Cost Function ដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រដែលល្អបំផុតសម្រាប់កំណត់ព្រំដែននៃការសម្រេចចិត្ត (Decision Boundary)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីធនធានជាក់លាក់ទេ ប៉ុន្តែវិធីសាស្ត្រដែលបានលើកឡើងជាទូទៅមិនត្រូវការធនធានកុំព្យូទ័រធំដុំដូច Deep Learning នោះទេ។

Software: ភាសាសរសេរកូដ Python (និងបណ្ណាល័យដូចជា Scikit-learn) ឬកម្មវិធីស្ថិតិដូចជា SAS ដែលត្រូវបានលើកឡើងក្នុងឯកសារយោង។
Dataset: ទាមទារទិន្នន័យដែលមានស្លាកសម្គាល់ (Labeled Data/Annotated Data) សម្រាប់ដំណើរការបង្ហាត់ (Training Process)។
Expertise: ចំណេះដឹងផ្នែកស្ថិតិ និងគណិតវិទ្យា (ប្រូបាប៊ីលីតេ, Sigmoid function, Cost function)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការសង្ខេបទ្រឹស្តី (Review Paper) ដូច្នេះមិនមានទិន្នន័យពិសោធន៍ជាក់លាក់ដែលនាំឱ្យមានភាពលំអៀងទេ។ ប៉ុន្តែសម្រាប់កម្ពុជា ការអនុវត្តម៉ូដែលទាំងនេះនឹងជួបប្រទះបញ្ហាខ្វះខាតទិន្នន័យដែលមានស្លាកជាភាសាខ្មែរ (Khmer Labeled Data) ដែលអាចនាំឱ្យមានភាពលំអៀងប្រសិនបើប្រើតែទិន្នន័យបរទេស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រទាំងនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ព្រោះវាជាមូលដ្ឋានគ្រឹះក្នុងការបង្កើតប្រព័ន្ធឆ្លាតវៃដែលមានតម្លៃសមរម្យ និងអាចអនុវត្តបានភ្លាមៗ។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ: ប្រើប្រាស់ Decision Trees ឬ Logistic Regression ដើម្បីវាយតម្លៃហានិភ័យឥណទាន (Credit Scoring) របស់អតិថិជននៅតាមតំបន់ជនបទ។
វិស័យកសិកម្ម: ប្រើប្រាស់ Linear Regression ដើម្បីទស្សន៍ទាយទិន្នផលស្រូវ ឬដំណាំផ្សេងៗដោយផ្អែកលើទិន្នន័យទឹកភ្លៀង និងជីជាតិដី។
ការរៀបចំឯកសាររដ្ឋបាល: ប្រើប្រាស់ Naive Bayes សម្រាប់ការចាត់ថ្នាក់ឯកសារ ឬពាក្យបណ្តឹងអេឡិចត្រូនិច (Document Classification) នៅក្នុងក្រសួងស្ថាប័ន។

ដោយសារបច្ចេកវិទ្យាទាំងនេះមិនត្រូវការកុំព្យូទ័រទំនើបខ្លាំង វាសាកសមបំផុតសម្រាប់ការចាប់ផ្តើមធ្វើឌីជីថលូបនីយកម្ម (Digitalization) នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះគណិតវិទ្យា: និស្សិតគួរចាប់ផ្តើមពីការយល់ដឹងអំពី Linear Algebra និង Probability (ពិសេស Bayes Theorem) ដើម្បីយល់ពីរបៀបដែលម៉ូដែលធ្វើការគណនា។
រៀនប្រើប្រាស់ឧបករណ៍បច្ចេកទេស: អនុវត្តការសរសេរកូដដោយប្រើភាសា Python និងបណ្ណាល័យ Scikit-learn ដើម្បីបង្កើតម៉ូដែល Decision Tree និង Regression ដូចមានបង្ហាញក្នុងឯកសារយោង។
ការប្រមូល និងរៀបចំទិន្នន័យ (Data Preparation): រៀនពីរបៀបសម្អាតទិន្នន័យ និងដាក់ស្លាក (Labeling) ព្រោះ Supervised Learning ទាមទារទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវជាមុន។
ការវាយតម្លៃម៉ូដែល (Model Evaluation): រៀនបែងចែកទិន្នន័យជាពីរផ្នែកគឺ Training set និង Testing set ដើម្បីវាស់វែងភាពត្រឹមត្រូវនៃការព្យាករណ៍ មុននឹងយកទៅប្រើប្រាស់ជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Supervised learning	ជាវិធីសាស្ត្រដែលកុំព្យូទ័ររៀនពីទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវ (Labeled Data) រួចស្រាប់ ដើម្បីបង្កើតជាគំរូសម្រាប់ទស្សន៍ទាយចម្លើយនៃទិន្នន័យថ្មី។ វាប្រៀបធៀបលទ្ធផលដែលវាទាយ ទៅនឹងចម្លើយពិត ដើម្បីកែតម្រូវកំហុស។	ដូចជាសិស្សរៀនដោះស្រាយលំហាត់គណិតវិទ្យាដោយមានគ្រូកែឱ្យ និងប្រាប់ចម្លើយត្រូវភ្លាមៗ ដើម្បីឱ្យសិស្សចេះធ្វើលំហាត់ស្រដៀងគ្នានេះនៅពេលប្រឡង។
Classification	ជាដំណើរការនៃការបែងចែកទិន្នន័យទៅជាក្រុម ឬប្រភេទផ្សេងៗគ្នាដែលបានកំណត់ទុកជាមុន (Discrete labels) ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ។	ដូចជាការបែងចែកសំបុត្រទៅតាមប្រអប់តំបន់ផ្សេងៗគ្នា ដោយមើលលើលេខកូដប្រៃសណីយ៍។
Regression	ជាបច្ចេកទេសសម្រាប់ទស្សន៍ទាយតម្លៃជាលេខបន្តបន្ទាប់ (Continuous value) ដោយស្វែងរកទំនាក់ទំនងរវាងអថេរផ្សេងៗ មិនមែនគ្រាន់តែបែងចែកជាក្រុមនោះទេ។	ដូចជាការប៉ាន់ស្មានតម្លៃលក់ចេញនៃផ្ទះមួយ ដោយផ្អែកលើទំហំដី ចំនួនបន្ទប់ និងទីតាំង។
Decision tree	ជាគំរូដែលរៀបចំលក្ខខណ្ឌនៃការសម្រេចចិត្តជាទម្រង់មែកធាង ដោយបំបែកទិន្នន័យជាដំណាក់កាលៗតាមលក្ខខណ្ឌ (Nodes) រហូតដល់ទទួលបានចម្លើយចុងក្រោយ (Leaves)។	ដូចជាការលេងល្បែងទាយសត្វ ដោយសួរថា 'តើវាមានជើង ៤ ឬទេ?' បើ 'មាន' ទៅផ្លូវមួយ បើ 'គ្មាន' ទៅផ្លូវមួយទៀត រហូតទាយត្រូវ។
Sigmoid function	ជាអនុគមន៍គណិតវិទ្យាដែលមានរាងដូចអក្សរ 'S' ប្រើក្នុង Logistic Regression ដើម្បីបំប្លែងតម្លៃលេខណាមួយឱ្យទៅជាតម្លៃចន្លោះពី ០ ទៅ ១ ដើម្បីតំណាងឱ្យប្រូបាប៊ីលីតេ។	ដូចជាកុងតាក់ភ្លើងដែលអាចបង្វិលបាន ដើម្បីកំណត់កម្រិតពន្លឺពីងងឹតឈឹង (០) ទៅភ្លឺខ្លាំង (១) ដោយមិនអាចលើស ឬខ្វះពីនេះ។
Naive Bayes	ជាក្បួនដោះស្រាយដែលប្រើទ្រឹស្តីប្រូបាប៊ីលីតេដើម្បីគណនាឱកាសនៃការកើតឡើងនៃព្រឹត្តិការណ៍មួយ ដោយសន្មតថាគ្រប់កត្តាទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independence assumption)។	ដូចជាការសន្និដ្ឋានថាផ្លែឈើមួយជា 'ផ្លែប៉ម' ដោយគ្រាន់តែឃើញវា 'ពណ៌ក្រហម' និង 'មូល' ដោយមិនខ្វល់ថាលក្ខណៈទាំងពីរនេះទាក់ទងគ្នាឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖