បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃតម្រូវការក្នុងការស្វែងយល់ និងចាត់ថ្នាក់នូវក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised Machine Learning) ដែលកំពុងកើនឡើងយ៉ាងឆាប់រហ័សសម្រាប់ការវិភាគទិន្នន័យ និងការទស្សន៍ទាយ។
វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះធ្វើការត្រួតពិនិត្យឡើងវិញ (Review) និងវិភាគលើទ្រឹស្តីមូលដ្ឋាន រចនាសម្ព័ន្ធ និងដំណើរការគណិតវិទ្យានៃវិធីសាស្ត្ររៀនម៉ាស៊ីនសំខាន់ៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Decision Trees ដើមឈើសម្រេចចិត្ត (Decision Trees)៖ ជាវិធីសាស្ត្របែងចែកទិន្នន័យជាថ្នាំង (nodes) និងមែកធាងដើម្បីឈានទៅរកការសន្និដ្ឋាន។ |
ងាយស្រួលយល់ និងបកស្រាយដោយមនុស្ស ព្រោះវាបង្ហាញជាលំហូរនៃលក្ខខណ្ឌ។ អាចប្រើបានទាំងទិន្នន័យជាលេខ និងទិន្នន័យជាក្រុម (categorical data)។ | អាចមានភាពស្មុគស្មាញខ្លាំងប្រសិនបើមិនមានការកំណត់ទំហំ (over-fitting) ដែលធ្វើឱ្យពិបាកក្នុងការគ្រប់គ្រង។ | បង្កើតបានជាគំរូដែលអាចព្យាករណ៍ឥរិយាបថរបស់អតិថិជន ឬចាត់ថ្នាក់ទិន្នន័យដោយផ្អែកលើលក្ខខណ្ឌដែលបានកំណត់។ |
| Linear Regression តម្រែតម្រង់លីនេអ៊ែរ (Linear Regression)៖ ប្រើសម្រាប់ស្វែងរកទំនាក់ទំនងរវាងអថេរ និងព្យាករណ៍តម្លៃជាលេខបន្ត (continuous value)។ |
សាមញ្ញ និងមានប្រសិទ្ធភាពក្នុងការស្វែងរកទំនាក់ទំនងរវាងទិន្នន័យដែលមានលក្ខណៈជាបន្ទាត់ត្រង់។ | មិនសមស្របសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដាច់ដោយឡែក (classification) ហើយកម្រិតភាពត្រឹមត្រូវមានកម្រិតលើទិន្នន័យមិនមែនលីនេអ៊ែរ។ | បង្កើតបានជាសមីការបន្ទាត់ដែលកាត់បន្ថយគម្លាតកំហុស (loss function) ដើម្បីព្យាករណ៍តម្លៃអថេរគោលដៅ។ |
| Naive Bayes ណាយីវបេ (Naive Bayes)៖ វិធីសាស្ត្រស្ថិតិដែលផ្អែកលើទ្រឹស្តីរបស់ Bayes ដោយសន្មតថាអថេរនីមួយៗមិនអាស្រ័យលើគ្នា។ |
ធន់នឹងទិន្នន័យដែលមានភាពរំខាន (noise) និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាត់ថ្នាក់អត្ថបទ (text classification)។ | ការសន្មតថាអថេរទាំងអស់មិនអាស្រ័យលើគ្នា (independence assumption) ជារឿយៗមិនឆ្លុះបញ្ចាំងពីការពិតជាក់ស្តែងទេ។ | គណនាប្រូបាប៊ីលីតេជាក់លាក់សម្រាប់សម្មតិកម្មនីមួយៗ ដើម្បីដោះស្រាយបញ្ហាព្យាករណ៍។ |
| Logistic Regression តម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression)៖ ប្រើសម្រាប់ព្យាករណ៍ប្រូបាប៊ីលីតេនៃព្រឹត្តិការណ៍មួយ (លទ្ធផល ០ ឬ ១)។ |
ផ្តល់លទ្ធផលជាតម្លៃប្រូបាប៊ីលីតេ (០ ដល់ ១) តាមរយៈអនុគមន៍ Sigmoid ដែលងាយស្រួលសម្រាប់ការសម្រេចចិត្តបែប Binary។ | ជាប្រភេទ Discriminative Classifier ដែលខុសពី Generative Classifier ដូច Naive Bayes និងទាមទារទិន្នន័យដែលបែងចែកដាច់ពីគ្នាបានល្អ។ | ប្រើប្រាស់ Cost Function ដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រដែលល្អបំផុតសម្រាប់កំណត់ព្រំដែននៃការសម្រេចចិត្ត (Decision Boundary)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីធនធានជាក់លាក់ទេ ប៉ុន្តែវិធីសាស្ត្រដែលបានលើកឡើងជាទូទៅមិនត្រូវការធនធានកុំព្យូទ័រធំដុំដូច Deep Learning នោះទេ។
ការសិក្សានេះគឺជាការសង្ខេបទ្រឹស្តី (Review Paper) ដូច្នេះមិនមានទិន្នន័យពិសោធន៍ជាក់លាក់ដែលនាំឱ្យមានភាពលំអៀងទេ។ ប៉ុន្តែសម្រាប់កម្ពុជា ការអនុវត្តម៉ូដែលទាំងនេះនឹងជួបប្រទះបញ្ហាខ្វះខាតទិន្នន័យដែលមានស្លាកជាភាសាខ្មែរ (Khmer Labeled Data) ដែលអាចនាំឱ្យមានភាពលំអៀងប្រសិនបើប្រើតែទិន្នន័យបរទេស។
វិធីសាស្ត្រទាំងនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ព្រោះវាជាមូលដ្ឋានគ្រឹះក្នុងការបង្កើតប្រព័ន្ធឆ្លាតវៃដែលមានតម្លៃសមរម្យ និងអាចអនុវត្តបានភ្លាមៗ។
ដោយសារបច្ចេកវិទ្យាទាំងនេះមិនត្រូវការកុំព្យូទ័រទំនើបខ្លាំង វាសាកសមបំផុតសម្រាប់ការចាប់ផ្តើមធ្វើឌីជីថលូបនីយកម្ម (Digitalization) នៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Supervised learning | ជាវិធីសាស្ត្រដែលកុំព្យូទ័ររៀនពីទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវ (Labeled Data) រួចស្រាប់ ដើម្បីបង្កើតជាគំរូសម្រាប់ទស្សន៍ទាយចម្លើយនៃទិន្នន័យថ្មី។ វាប្រៀបធៀបលទ្ធផលដែលវាទាយ ទៅនឹងចម្លើយពិត ដើម្បីកែតម្រូវកំហុស។ | ដូចជាសិស្សរៀនដោះស្រាយលំហាត់គណិតវិទ្យាដោយមានគ្រូកែឱ្យ និងប្រាប់ចម្លើយត្រូវភ្លាមៗ ដើម្បីឱ្យសិស្សចេះធ្វើលំហាត់ស្រដៀងគ្នានេះនៅពេលប្រឡង។ |
| Classification | ជាដំណើរការនៃការបែងចែកទិន្នន័យទៅជាក្រុម ឬប្រភេទផ្សេងៗគ្នាដែលបានកំណត់ទុកជាមុន (Discrete labels) ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ។ | ដូចជាការបែងចែកសំបុត្រទៅតាមប្រអប់តំបន់ផ្សេងៗគ្នា ដោយមើលលើលេខកូដប្រៃសណីយ៍។ |
| Regression | ជាបច្ចេកទេសសម្រាប់ទស្សន៍ទាយតម្លៃជាលេខបន្តបន្ទាប់ (Continuous value) ដោយស្វែងរកទំនាក់ទំនងរវាងអថេរផ្សេងៗ មិនមែនគ្រាន់តែបែងចែកជាក្រុមនោះទេ។ | ដូចជាការប៉ាន់ស្មានតម្លៃលក់ចេញនៃផ្ទះមួយ ដោយផ្អែកលើទំហំដី ចំនួនបន្ទប់ និងទីតាំង។ |
| Decision tree | ជាគំរូដែលរៀបចំលក្ខខណ្ឌនៃការសម្រេចចិត្តជាទម្រង់មែកធាង ដោយបំបែកទិន្នន័យជាដំណាក់កាលៗតាមលក្ខខណ្ឌ (Nodes) រហូតដល់ទទួលបានចម្លើយចុងក្រោយ (Leaves)។ | ដូចជាការលេងល្បែងទាយសត្វ ដោយសួរថា 'តើវាមានជើង ៤ ឬទេ?' បើ 'មាន' ទៅផ្លូវមួយ បើ 'គ្មាន' ទៅផ្លូវមួយទៀត រហូតទាយត្រូវ។ |
| Sigmoid function | ជាអនុគមន៍គណិតវិទ្យាដែលមានរាងដូចអក្សរ 'S' ប្រើក្នុង Logistic Regression ដើម្បីបំប្លែងតម្លៃលេខណាមួយឱ្យទៅជាតម្លៃចន្លោះពី ០ ទៅ ១ ដើម្បីតំណាងឱ្យប្រូបាប៊ីលីតេ។ | ដូចជាកុងតាក់ភ្លើងដែលអាចបង្វិលបាន ដើម្បីកំណត់កម្រិតពន្លឺពីងងឹតឈឹង (០) ទៅភ្លឺខ្លាំង (១) ដោយមិនអាចលើស ឬខ្វះពីនេះ។ |
| Naive Bayes | ជាក្បួនដោះស្រាយដែលប្រើទ្រឹស្តីប្រូបាប៊ីលីតេដើម្បីគណនាឱកាសនៃការកើតឡើងនៃព្រឹត្តិការណ៍មួយ ដោយសន្មតថាគ្រប់កត្តាទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independence assumption)។ | ដូចជាការសន្និដ្ឋានថាផ្លែឈើមួយជា 'ផ្លែប៉ម' ដោយគ្រាន់តែឃើញវា 'ពណ៌ក្រហម' និង 'មូល' ដោយមិនខ្វល់ថាលក្ខណៈទាំងពីរនេះទាក់ទងគ្នាឬអត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖