បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការជ្រើសរើសក្បួនដោះស្រាយ (Algorithm) ដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដោយប្រៀបធៀបលើល្បឿន ភាពត្រឹមត្រូវ និងរចនាសម្ព័ន្ធស្មុគស្មាញនៃម៉ូដែល។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការពិសោធន៍ប្រៀបធៀបដោយអនុវត្តក្បួនដោះស្រាយចំនួនបីផ្សេងគ្នាទៅលើសំណុំទិន្នន័យដែលមានទំហំតូច មធ្យម និងធំ ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| C5.0 Algorithm ក្បួនដោះស្រាយ C5.0 (ប្រើ Entropy) |
ផ្តល់នូវកម្រិតភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតក្នុងការពិសោធន៍ និងអាចដោះស្រាយទិន្នន័យដែលមានភាពស្មុគស្មាញបានល្អ។ | ចំណាយពេលយូរជាងគេក្នុងការបង្កើតម៉ូដែល និងបង្កើតដើមឈើដែលមានទំហំធំ (ជម្រៅជ្រៅ និងទទឹងធំ) ដែលអាចពិបាកក្នុងការបកស្រាយដោយភ្នែកទទេ។ | សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុត (ឧទាហរណ៍ ១០០% លើ Mushroom dataset) ប៉ុន្តែបង្កើតចំនួនថ្នាំង (Nodes) ច្រើនជាងគេ (រហូតដល់ ៥៥៩ ថ្នាំងសម្រាប់ Bank Marketing)។ |
| CART (Classification and Regression Trees) ក្បួនដោះស្រាយ CART (ប្រើ Gini Index) |
មានល្បឿនលឿនក្នុងការបង្កើតម៉ូដែល និងបង្កើតដើមឈើដែលមានទំហំតូចជាង (Compact Tree) ដែលងាយស្រួលមើលនិងបកស្រាយ។ | មានកម្រិតភាពត្រឹមត្រូវទាបជាង C5.0 បន្តិចបន្តួចនៅក្នុងសំណុំទិន្នន័យភាគច្រើន។ | ប្រើពេលតិចបំផុតក្នុងការសាងសង់ម៉ូដែល (ឧទាហរណ៍ ០.០៤ វិនាទីសម្រាប់ Obesity dataset) និងមានប្រសិទ្ធភាពល្អលើទិន្នន័យទូទៅ។ |
| ID3 (Iterative Dichotomiser 3) ក្បួនដោះស្រាយ ID3 (ប្រើ Information Gain) |
ជាក្បួនដោះស្រាយមូលដ្ឋានដែលងាយស្រួលយល់ និងមានល្បឿនលឿនសមរម្យ។ | មិនអាចដោះស្រាយទិន្នន័យជាលេខ (Continuous data) បានល្អដូច CART ទេ ហើយងាយរងគ្រោះដោយសារការលំអៀងទៅរកអថេរដែលមានតម្លៃច្រើន។ | ផ្តល់លទ្ធផលប្រហាក់ប្រហែលនឹង CART ដែរប៉ុន្តែបង្កើតរចនាសម្ព័ន្ធដើមឈើខុសគ្នាបន្តិចបន្តួច។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថាការពិសោធន៍អាចធ្វើទៅបានដោយប្រើធនធានកុំព្យូទ័រធម្មតា ដោយមិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង (High-Performance Computing) នោះទេ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពី UCI Repository ដែលភាគច្រើនជាទិន្នន័យពីបស្ចិមប្រទេស (ដូចជាទិន្នន័យឥណទានរបស់អាល្លឺម៉ង់ German Credit ឬទិន្នន័យជំរឿនអាមេរិក Adult dataset)។ ការណ៍នេះអាចធ្វើឱ្យម៉ូដែលដែលបានបង្កើតមិនអាចយកមកអនុវត្តផ្ទាល់នៅក្នុងបរិបទសង្គម និងសេដ្ឋកិច្ចរបស់កម្ពុជាបានទេ ប្រសិនបើគ្មានការបង្ហាត់ម៉ូដែលឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។
បច្ចេកទេស Decision Tree នេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដោយសារវាជាម៉ូដែលដែលអាចបកស្រាយបាន (Explainable AI) ដែលសាកសមសម្រាប់វិស័យដែលត្រូវការតម្លាភាព។
ការប្រើប្រាស់ C5.0 ហាក់មានសក្តានុពលខ្ពស់បំផុតសម្រាប់ស្ថាប័ននៅកម្ពុជាដែលផ្តល់អាទិភាពលើភាពត្រឹមត្រូវ (Accuracy) ប៉ុន្តែប្រសិនបើត្រូវការការពន្យល់សាមញ្ញ CART គឺជាជម្រើសល្អជាង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Recursive partitioning | នេះគឺជាដំណើរការស្នូលនៃក្បួនដោះស្រាយ Decision Tree ដែលធ្វើការបំបែកទិន្នន័យធំៗឱ្យទៅជាផ្នែកតូចៗជាបន្តបន្ទាប់ ដោយផ្អែកលើលក្ខខណ្ឌជាក់លាក់ រហូតទាល់តែទិន្នន័យទាំងនោះត្រូវបានចាត់ថ្នាក់ច្បាស់លាស់។ | ដូចជាការតម្រៀបសន្លឹកបៀ ដោយដំបូងបំបែកតាមពណ៌ (ក្រហម ឬខ្មៅ) បន្ទាប់មកបំបែកតាមប្រភេទ (បេះដូង ឬការ៉ូ) រហូតដល់យើងអាចកំណត់អត្តសញ្ញាណសន្លឹកបៀនីមួយៗបាន។ |
| Supervised learning | គឺជាប្រភេទនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលកុំព្យូទ័រត្រូវបានបង្រៀនដោយប្រើទិន្នន័យដែលមានចម្លើយ (Labels) ត្រឹមត្រូវរួចស្រេច ដើម្បីឱ្យវាអាចបង្កើតគំរូសម្រាប់ទស្សន៍ទាយចម្លើយនៃទិន្នន័យថ្មីៗនៅពេលអនាគត។ | ដូចជាគ្រូបង្រៀនសិស្សដោយបង្ហាញរូបភាពសត្វ និងប្រាប់ឈ្មោះសត្វនោះ ដើម្បីឱ្យសិស្សចងចាំ និងអាចប្រាប់ឈ្មោះសត្វបានត្រឹមត្រូវនៅពេលឃើញរូបភាពនោះនៅពេលក្រោយ។ |
| Pruning | ជាបច្ចេកទេសដែលប្រើក្នុងក្បួនដោះស្រាយ CART និង C5.0 ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញនៃ Decision Tree ដោយកាត់ចោលនូវផ្នែក (មែក) ដែលមិនសូវសំខាន់ ឬលម្អិតពេក ដើម្បីបង្កើនប្រសិទ្ធភាព និងការពារកុំឱ្យម៉ាស៊ីនរៀនលម្អិតពេក (Overfitting)។ | ដូចជាការកាត់មែកឈើដែលស្ងួត ឬមិនចាំបាច់ចេញពីដើមឈើ ដើម្បីឱ្យដើមឈើនោះលូតលាស់បានល្អ មានរូបរាងស្អាត និងមិនស្មុគស្មាញ។ |
| Greedy search approach | គឺជាយុទ្ធសាស្ត្រដោះស្រាយបញ្ហាដោយជ្រើសរើសជម្រើសដែលល្អបំផុតនៅចំពោះមុខភ្លាមៗនៅជំហាននីមួយៗ ដោយមិនខ្វល់ថាវានឹងប៉ះពាល់ដល់លទ្ធផលចុងក្រោយ ឬជំហានបន្ទាប់យ៉ាងណានោះទេ (ប្រើក្នុង CART)។ | ដូចជាការដើរឡើងភ្នំដោយជ្រើសរើសផ្លូវដែលខ្ពស់ជាងគេនៅចំពោះមុខជានិច្ច ដោយមិនបានគិតគូរថាផ្លូវនោះអាចនឹងទាល់នៅខាងមុខឬអត់នោះទេ។ |
| Categorical dependent variables | សំដៅលើលទ្ធផលគោលដៅដែលម៉ាស៊ីនត្រូវទស្សន៍ទាយ ដែលមិនមែនជាលេខ (Continuous) ប៉ុន្តែជាប្រភេទ ឬក្រុម (Categories) ដូចជា 'Yes/No' ឬ 'High/Medium/Low' ជាដើម។ | ដូចជាការបែងចែកផ្លែឈើដាក់ក្នុងកន្ត្រកផ្សេងគ្នា (កន្ត្រកស្វាយ កន្ត្រកក្រូច) ជាជាងការវាស់ទម្ងន់ជាលេខរបស់ផ្លែឈើនីមួយៗ។ |
| Entropy | នៅក្នុងបរិបទ ID3 និង C5.0 វាគឺជាការវាស់វែងភាពមិនច្បាស់លាស់ ឬភាពច្របូកច្របល់នៃទិន្នន័យ។ ក្បួនដោះស្រាយប្រើវាដើម្បីគណនាថាតើគួរកាត់បំបែកទិន្នន័យត្រង់ណា ដើម្បីឱ្យក្រុមទិន្នន័យថ្មីមានភាពសុក្រិតបំផុត។ | ដូចជាការវាស់កម្រិតនៃភាពរញ៉េរញ៉ៃនៅក្នុងបន្ទប់មួយ ប្រសិនបើរបស់របរនៅរាយប៉ាយគឺមាន Entropy ខ្ពស់ តែបើរបស់របរត្រូវបានរៀបចំតាមក្រុមត្រឹមត្រូវ នោះ Entropy នឹងទាប។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖