Original Title: An overview of the supervised machine learning methods
Source: doi.org/10.20544/HORIZONS.B.04.1.17.P05
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ទិដ្ឋភាពទូទៅនៃវិធីសាស្ត្ររៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised Machine Learning)

ចំណងជើងដើម៖ An overview of the supervised machine learning methods

អ្នកនិពន្ធ៖ Vladimir Nasteski (Faculty of Information and Communication Technologies, Bitola, Macedonia)

ឆ្នាំបោះពុម្ព៖ 2017

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃតម្រូវការក្នុងការស្វែងយល់ និងចាត់ថ្នាក់នូវក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised Machine Learning) ដែលកំពុងកើនឡើងយ៉ាងឆាប់រហ័សសម្រាប់ការវិភាគទិន្នន័យ និងការទស្សន៍ទាយ។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះធ្វើការត្រួតពិនិត្យឡើងវិញ (Review) និងវិភាគលើទ្រឹស្តីមូលដ្ឋាន រចនាសម្ព័ន្ធ និងដំណើរការគណិតវិទ្យានៃវិធីសាស្ត្ររៀនម៉ាស៊ីនសំខាន់ៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Decision Trees
ដើមឈើសម្រេចចិត្ត (Decision Trees)៖ ជាវិធីសាស្ត្របែងចែកទិន្នន័យជាថ្នាំង (nodes) និងមែកធាងដើម្បីឈានទៅរកការសន្និដ្ឋាន។
ងាយស្រួលយល់ និងបកស្រាយដោយមនុស្ស ព្រោះវាបង្ហាញជាលំហូរនៃលក្ខខណ្ឌ។ អាចប្រើបានទាំងទិន្នន័យជាលេខ និងទិន្នន័យជាក្រុម (categorical data)។ អាចមានភាពស្មុគស្មាញខ្លាំងប្រសិនបើមិនមានការកំណត់ទំហំ (over-fitting) ដែលធ្វើឱ្យពិបាកក្នុងការគ្រប់គ្រង។ បង្កើតបានជាគំរូដែលអាចព្យាករណ៍ឥរិយាបថរបស់អតិថិជន ឬចាត់ថ្នាក់ទិន្នន័យដោយផ្អែកលើលក្ខខណ្ឌដែលបានកំណត់។
Linear Regression
តម្រែតម្រង់លីនេអ៊ែរ (Linear Regression)៖ ប្រើសម្រាប់ស្វែងរកទំនាក់ទំនងរវាងអថេរ និងព្យាករណ៍តម្លៃជាលេខបន្ត (continuous value)។
សាមញ្ញ និងមានប្រសិទ្ធភាពក្នុងការស្វែងរកទំនាក់ទំនងរវាងទិន្នន័យដែលមានលក្ខណៈជាបន្ទាត់ត្រង់។ មិនសមស្របសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដាច់ដោយឡែក (classification) ហើយកម្រិតភាពត្រឹមត្រូវមានកម្រិតលើទិន្នន័យមិនមែនលីនេអ៊ែរ។ បង្កើតបានជាសមីការបន្ទាត់ដែលកាត់បន្ថយគម្លាតកំហុស (loss function) ដើម្បីព្យាករណ៍តម្លៃអថេរគោលដៅ។
Naive Bayes
ណាយីវបេ (Naive Bayes)៖ វិធីសាស្ត្រស្ថិតិដែលផ្អែកលើទ្រឹស្តីរបស់ Bayes ដោយសន្មតថាអថេរនីមួយៗមិនអាស្រ័យលើគ្នា។
ធន់នឹងទិន្នន័យដែលមានភាពរំខាន (noise) និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាត់ថ្នាក់អត្ថបទ (text classification)។ ការសន្មតថាអថេរទាំងអស់មិនអាស្រ័យលើគ្នា (independence assumption) ជារឿយៗមិនឆ្លុះបញ្ចាំងពីការពិតជាក់ស្តែងទេ។ គណនាប្រូបាប៊ីលីតេជាក់លាក់សម្រាប់សម្មតិកម្មនីមួយៗ ដើម្បីដោះស្រាយបញ្ហាព្យាករណ៍។
Logistic Regression
តម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression)៖ ប្រើសម្រាប់ព្យាករណ៍ប្រូបាប៊ីលីតេនៃព្រឹត្តិការណ៍មួយ (លទ្ធផល ០ ឬ ១)។
ផ្តល់លទ្ធផលជាតម្លៃប្រូបាប៊ីលីតេ (០ ដល់ ១) តាមរយៈអនុគមន៍ Sigmoid ដែលងាយស្រួលសម្រាប់ការសម្រេចចិត្តបែប Binary។ ជាប្រភេទ Discriminative Classifier ដែលខុសពី Generative Classifier ដូច Naive Bayes និងទាមទារទិន្នន័យដែលបែងចែកដាច់ពីគ្នាបានល្អ។ ប្រើប្រាស់ Cost Function ដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រដែលល្អបំផុតសម្រាប់កំណត់ព្រំដែននៃការសម្រេចចិត្ត (Decision Boundary)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីធនធានជាក់លាក់ទេ ប៉ុន្តែវិធីសាស្ត្រដែលបានលើកឡើងជាទូទៅមិនត្រូវការធនធានកុំព្យូទ័រធំដុំដូច Deep Learning នោះទេ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការសង្ខេបទ្រឹស្តី (Review Paper) ដូច្នេះមិនមានទិន្នន័យពិសោធន៍ជាក់លាក់ដែលនាំឱ្យមានភាពលំអៀងទេ។ ប៉ុន្តែសម្រាប់កម្ពុជា ការអនុវត្តម៉ូដែលទាំងនេះនឹងជួបប្រទះបញ្ហាខ្វះខាតទិន្នន័យដែលមានស្លាកជាភាសាខ្មែរ (Khmer Labeled Data) ដែលអាចនាំឱ្យមានភាពលំអៀងប្រសិនបើប្រើតែទិន្នន័យបរទេស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រទាំងនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ព្រោះវាជាមូលដ្ឋានគ្រឹះក្នុងការបង្កើតប្រព័ន្ធឆ្លាតវៃដែលមានតម្លៃសមរម្យ និងអាចអនុវត្តបានភ្លាមៗ។

ដោយសារបច្ចេកវិទ្យាទាំងនេះមិនត្រូវការកុំព្យូទ័រទំនើបខ្លាំង វាសាកសមបំផុតសម្រាប់ការចាប់ផ្តើមធ្វើឌីជីថលូបនីយកម្ម (Digitalization) នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះគណិតវិទ្យា: និស្សិតគួរចាប់ផ្តើមពីការយល់ដឹងអំពី Linear Algebra និង Probability (ពិសេស Bayes Theorem) ដើម្បីយល់ពីរបៀបដែលម៉ូដែលធ្វើការគណនា។
  2. រៀនប្រើប្រាស់ឧបករណ៍បច្ចេកទេស: អនុវត្តការសរសេរកូដដោយប្រើភាសា Python និងបណ្ណាល័យ Scikit-learn ដើម្បីបង្កើតម៉ូដែល Decision Tree និង Regression ដូចមានបង្ហាញក្នុងឯកសារយោង។
  3. ការប្រមូល និងរៀបចំទិន្នន័យ (Data Preparation): រៀនពីរបៀបសម្អាតទិន្នន័យ និងដាក់ស្លាក (Labeling) ព្រោះ Supervised Learning ទាមទារទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវជាមុន។
  4. ការវាយតម្លៃម៉ូដែល (Model Evaluation): រៀនបែងចែកទិន្នន័យជាពីរផ្នែកគឺ Training set និង Testing set ដើម្បីវាស់វែងភាពត្រឹមត្រូវនៃការព្យាករណ៍ មុននឹងយកទៅប្រើប្រាស់ជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Supervised learning ជាវិធីសាស្ត្រដែលកុំព្យូទ័ររៀនពីទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវ (Labeled Data) រួចស្រាប់ ដើម្បីបង្កើតជាគំរូសម្រាប់ទស្សន៍ទាយចម្លើយនៃទិន្នន័យថ្មី។ វាប្រៀបធៀបលទ្ធផលដែលវាទាយ ទៅនឹងចម្លើយពិត ដើម្បីកែតម្រូវកំហុស។ ដូចជាសិស្សរៀនដោះស្រាយលំហាត់គណិតវិទ្យាដោយមានគ្រូកែឱ្យ និងប្រាប់ចម្លើយត្រូវភ្លាមៗ ដើម្បីឱ្យសិស្សចេះធ្វើលំហាត់ស្រដៀងគ្នានេះនៅពេលប្រឡង។
Classification ជាដំណើរការនៃការបែងចែកទិន្នន័យទៅជាក្រុម ឬប្រភេទផ្សេងៗគ្នាដែលបានកំណត់ទុកជាមុន (Discrete labels) ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ។ ដូចជាការបែងចែកសំបុត្រទៅតាមប្រអប់តំបន់ផ្សេងៗគ្នា ដោយមើលលើលេខកូដប្រៃសណីយ៍។
Regression ជាបច្ចេកទេសសម្រាប់ទស្សន៍ទាយតម្លៃជាលេខបន្តបន្ទាប់ (Continuous value) ដោយស្វែងរកទំនាក់ទំនងរវាងអថេរផ្សេងៗ មិនមែនគ្រាន់តែបែងចែកជាក្រុមនោះទេ។ ដូចជាការប៉ាន់ស្មានតម្លៃលក់ចេញនៃផ្ទះមួយ ដោយផ្អែកលើទំហំដី ចំនួនបន្ទប់ និងទីតាំង។
Decision tree ជាគំរូដែលរៀបចំលក្ខខណ្ឌនៃការសម្រេចចិត្តជាទម្រង់មែកធាង ដោយបំបែកទិន្នន័យជាដំណាក់កាលៗតាមលក្ខខណ្ឌ (Nodes) រហូតដល់ទទួលបានចម្លើយចុងក្រោយ (Leaves)។ ដូចជាការលេងល្បែងទាយសត្វ ដោយសួរថា 'តើវាមានជើង ៤ ឬទេ?' បើ 'មាន' ទៅផ្លូវមួយ បើ 'គ្មាន' ទៅផ្លូវមួយទៀត រហូតទាយត្រូវ។
Sigmoid function ជាអនុគមន៍គណិតវិទ្យាដែលមានរាងដូចអក្សរ 'S' ប្រើក្នុង Logistic Regression ដើម្បីបំប្លែងតម្លៃលេខណាមួយឱ្យទៅជាតម្លៃចន្លោះពី ០ ទៅ ១ ដើម្បីតំណាងឱ្យប្រូបាប៊ីលីតេ។ ដូចជាកុងតាក់ភ្លើងដែលអាចបង្វិលបាន ដើម្បីកំណត់កម្រិតពន្លឺពីងងឹតឈឹង (០) ទៅភ្លឺខ្លាំង (១) ដោយមិនអាចលើស ឬខ្វះពីនេះ។
Naive Bayes ជាក្បួនដោះស្រាយដែលប្រើទ្រឹស្តីប្រូបាប៊ីលីតេដើម្បីគណនាឱកាសនៃការកើតឡើងនៃព្រឹត្តិការណ៍មួយ ដោយសន្មតថាគ្រប់កត្តាទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independence assumption)។ ដូចជាការសន្និដ្ឋានថាផ្លែឈើមួយជា 'ផ្លែប៉ម' ដោយគ្រាន់តែឃើញវា 'ពណ៌ក្រហម' និង 'មូល' ដោយមិនខ្វល់ថាលក្ខណៈទាំងពីរនេះទាក់ទងគ្នាឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖