បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការជ្រើសរើសក្បួនដោះស្រាយដើមឈើសម្រេចចិត្ត (Decision Tree Algorithms) ដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដោយផ្អែកលើភាពត្រឹមត្រូវ និងល្បឿននៃការគណនា។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រពិសោធន៍តាមរយៈកម្មវិធី WEKA ដើម្បីវិភាគប្រៀបធៀបក្បួនដោះស្រាយចំនួនបីទៅលើសំណុំទិន្នន័យវាយតម្លៃរថយន្ត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| ID3 Algorithm ក្បួនដោះស្រាយ ID3 (Iterative Dichotomiser 3) |
មានល្បឿនប្រតិបត្តិការលឿនបំផុត (០.០២ វិនាទី) និងងាយស្រួលយល់សម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាក្រុម (Categorical Data)។ | មិនអាចដំណើរការជាមួយទិន្នន័យជាលេខ (Numerical) ឬទិន្នន័យដែលបាត់ (Missing Values) បានទេ និងងាយរងគ្រោះដោយសារទិន្នន័យមិនប្រក្រតី (Outliers)។ | ទទួលបានភាពត្រឹមត្រូវ ៨៩.៣៥% និងប្រើពេលត្រឹមតែ ០.០២ វិនាទី។ |
| C4.5 Algorithm ក្បួនដោះស្រាយ C4.5 (ជំនាន់ក្រោយរបស់ ID3) |
អាចដោះស្រាយទាំងទិន្នន័យលេខ និងក្រុម ព្រមទាំងមានសមត្ថភាពដោះស្រាយទិន្នន័យដែលបាត់ និងប្រើប្រាស់បច្ចេកទេសកាត់មែក (Pruning) ដើម្បីកាត់បន្ថយកំហុស។ | មានភាពស្មុគស្មាញជាង ID3 និងប្រើប្រាស់ធនធានច្រើនជាងបន្តិចក្នុងការគណនា។ | ទទួលបានភាពត្រឹមត្រូវ ៩២.៣៦% និងប្រើពេល ០.០៦ វិនាទី។ |
| CART Algorithm ក្បួនដោះស្រាយ CART (Classification and Regression Trees) |
ផ្តល់នូវកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចបង្កើតទាំងដើមឈើចំណាត់ថ្នាក់ និងដើមឈើតម្រែតម្រង់ (Regression Trees) ដោយប្រើសន្ទស្សន៍ Gini។ | ចំណាយពេលយូរបំផុតក្នុងការប្រតិបត្តិការធៀបនឹងក្បួនដោះស្រាយផ្សេងទៀត។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតគឺ ៩៧.១១% ប៉ុន្តែប្រើពេលដល់ទៅ ០.៥ វិនាទី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តក្បួនដោះស្រាយទាំងនេះមិនទាមទារធនធានកុំព្យូទ័រខ្លាំងក្លាទេ ព្រោះវាជាក្បួនដោះស្រាយបែបបុរាណ (Traditional ML) ដែលអាចដំណើរការលើកុំព្យូទ័រទូទៅបាន។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារ 'Car Evaluation' ដែលមានលក្ខណៈអឺរ៉ុប ឬអាមេរិក ដោយផ្តោតលើលក្ខណៈបច្ចេកទេសរថយន្ត។ វាមិនឆ្លុះបញ្ចាំងពីបរិបទជាក់ស្តែងនៅកម្ពុជាដែលទិន្នន័យអាចមានភាពមិនពេញលេញ (Missing Values) ច្រើន ឬមានភាពមិនប្រក្រតី (Noise) ខ្ពស់ជាងនេះ។
វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្ពស់សម្រាប់កម្ពុជា ជាពិសេសក្នុងវិស័យដែលត្រូវការការបកស្រាយលទ្ធផលច្បាស់លាស់ (Explainable AI)។
ដោយសារ Decision Trees ងាយស្រួលបកស្រាយ វាស័ក្តិសមសម្រាប់ការចាប់ផ្តើមអនុវត្ត AI នៅក្នុងស្ថាប័នកម្ពុជាដែលត្រូវការតម្លាភាពក្នុងការសម្រេចចិត្ត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Decision Tree | ជាគំរូនៃក្បួនដោះស្រាយដែលរៀបចំទិន្នន័យជាទម្រង់រចនាសម្ព័ន្ធដូចដើមឈើ ដោយបែកមែកធាងនៅរាល់ចំណុចដែលមានជម្រើស (Node) ដើម្បីឈានទៅរកការសម្រេចចិត្ត ឬលទ្ធផលចុងក្រោយ (Leaf) ដោយផ្អែកលើលក្ខខណ្ឌនៃទិន្នន័យ។ | ដូចជាការលេងហ្គេមសួរឆ្លើយ 'Yes/No' ដើម្បីទាយឈ្មោះសត្វ ដោយសួរសំណួរម្តងមួយៗបន្តគ្នា រហូតដល់ទាយត្រូវ។ |
| Information Gain | ជាវិធីសាស្ត្រគណិតវិទ្យាប្រើនៅក្នុងក្បួនដោះស្រាយ ID3 និង C4.5 ដើម្បីវាស់វែងថាតើព័ត៌មានប៉ុន្មានដែលទទួលបានពីការបំបែកទិន្នន័យតាមលក្ខណៈណាមួយ។ វាជួយកាត់បន្ថយភាពមិនច្បាស់លាស់ (Entropy) នៅក្នុងទិន្នន័យ។ | ប្រៀបដូចជាការជ្រើសរើសសួរសំណួរដែលល្អបំផុត ដែលអាចកាត់បន្ថយជម្រើសចម្លើយបានច្រើនជាងគេ ដើម្បីឆាប់រកឃើញចម្លើយពិត។ |
| Gini Index | ជាមធ្យោបាយវាស់វែងកម្រិតនៃភាពមិនសុទ្ធ (Impurity) ឬភាពចម្រុះនៅក្នុងក្រុមទិន្នន័យ។ វាត្រូវបានប្រើនៅក្នុងក្បួន CART ដើម្បីជ្រើសរើសរបៀបបំបែកទិន្នន័យដែលធ្វើឱ្យក្រុមរងមានភាពសុទ្ធល្អបំផុត។ | ដូចជាការពិនិត្យមើលកន្ត្រកផ្លែឈើ ថាតើវាមានផ្លែឈើតែមួយប្រភេទ (សុទ្ធ) ឬមានច្រើនប្រភេទលាយគ្នា (មិនសុទ្ធ) ដើម្បីងាយស្រួលបែងចែក។ |
| Pruning | ជាដំណើរការកាត់បន្ថយទំហំនៃ Decision Tree ដោយដកចេញនូវមែកធាងដែលមិនសូវសំខាន់ ឬដែលធ្វើឱ្យម៉ូដែលស្មុគស្មាញពេក ដើម្បីការពារកុំឱ្យម៉ូដែលទន្ទេញទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក (Overfitting) និងជួយឱ្យវាដំណើរការល្អលើទិន្នន័យថ្មី។ | ដូចជាការកាត់មែកឈើដែលស្ងួត ឬមិនចាំបាច់ចេញ ដើម្បីឱ្យដើមឈើលូតលាស់បានល្អ មានរូបរាងស្អាត និងមិនរញ៉េរញ៉ៃ។ |
| Supervised Learning | ជាប្រភេទនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលកុំព្យូទ័ររៀនពីទិន្នន័យដែលមានចម្លើយរួចស្រាប់ (Labeled Data) ដើម្បីបង្កើតជាម៉ូដែលសម្រាប់ទស្សន៍ទាយចម្លើយនៃទិន្នន័យថ្មីៗនៅពេលអនាគត។ | ដូចជាសិស្សរៀនដោះស្រាយលំហាត់គណិតវិទ្យាដោយមានគ្រូកែឱ្យ និងប្រាប់ចម្លើយត្រូវជាមុន រួចទើបយកចំណេះដឹងនោះទៅប្រឡង។ |
| Confusion Matrix | ជាតារាងដែលប្រើដើម្បីវាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ដោយបង្ហាញចំនួននៃការទស្សន៍ទាយត្រូវ (True Positive/Negative) និងការទស្សន៍ទាយខុស (False Positive/Negative) ធៀបនឹងទិន្នន័យជាក់ស្តែង។ | ដូចជាតារាងពិន្ទុសរុបដែលប្រាប់ថាយើងទាយត្រូវប៉ុន្មានដង និងទាយខុសប៉ុន្មានដង ក្នុងការប្រកួតមួយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖