បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើតម្រូវការក្នុងការស្វែងយល់និងប្រៀបធៀបប្រសិទ្ធភាព លទ្ធភាពនៃការពង្រីក និងលក្ខណៈពិសេសនៃក្បួនដោះស្រាយ Decision Tree ចំនួនបីគឺ ID3, CART, និង C4.5 ដើម្បីកំណត់ថាមួយណាដែលសមស្របបំផុតសម្រាប់ប្រភេទនៃទិន្នន័យផ្សេងៗគ្នា។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការសិក្សាស្រាវជ្រាវតាមបែបទ្រឹស្តី និងការវិភាគប្រៀបធៀបនៃក្បួនដោះស្រាយ ដោយពិនិត្យមើលលក្ខខណ្ឌនៃការបំបែក (Splitting criteria) ការគ្រប់គ្រងប្រភេទទិន្នន័យ និងយុទ្ធសាស្ត្រនៃការកាត់តម្រឹម (Pruning strategy)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| ID3 (Iterative Dichotomizer 3) ក្បួនដោះស្រាយ ID3 ដែលប្រើប្រាស់ Information Gain ដើម្បីបំបែកទិន្នន័យ |
បង្កើត Decision Tree បានលឿនបំផុត និងផ្តល់នូវវិធាន (Rules) ដែលងាយស្រួលយល់សម្រាប់មនុស្ស។ | មិនអាចដំណើរការជាមួយទិន្នន័យជាលេខ (Numeric) ឬទិន្នន័យដែលបាត់បង់ (Missing values) បានទេ ហើយងាយនឹងមានបញ្ហា Overfitting។ | សមស្របសម្រាប់តែទិន្នន័យប្រភេទ Categorical ដែលគ្មានភាពមិនប្រក្រតី (Noise-free)។ |
| C4.5 ក្បួនដោះស្រាយដែលវិវត្តពី ID3 ដោយប្រើប្រាស់ Gain Ratio |
អាចគ្រប់គ្រងទាំងទិន្នន័យជាប់ (Continuous) និងដាច់ដោយឡែក (Discrete) ព្រមទាំងប្រើប្រាស់បច្ចេកទេស Pruning ដើម្បីកាត់បន្ថយអត្រាខុស។ | អាចបង្កើតមែកទទេ (Empty branches) ដែលមិនមានតម្លៃសម្រាប់ការបង្កើតវិធាន ហើយដំណើរការយឺតជាង ID3 បន្តិច។ | ដោះស្រាយបញ្ហារបស់ ID3 ដោយអាចគ្រប់គ្រងទិន្នន័យដែលបាត់បង់ និងកាត់បន្ថយការ Overfitting។ |
| CART (Classification and Regression Trees) ក្បួនដោះស្រាយសម្រាប់បង្កើត Binary Trees ដោយប្រើប្រាស់ Gini Index ឬ Twoing Criteria |
អាចធ្វើការជាមួយទាំងបញ្ហា Classification និង Regression ហើយមានសមត្ថភាពខ្ពស់ក្នុងការគ្រប់គ្រង Outliers។ | ការបំបែកគឺធ្វើឡើងតែពីរផ្នែក (Binary split) ហើយរចនាសម្ព័ន្ធ Tree អាចមិនមានស្ថេរភាពប្រសិនបើទិន្នន័យមានការផ្លាស់ប្តូរបន្តិចបន្តួច។ | ល្អបំផុតសម្រាប់ការវិភាគដែលត្រូវការភាពបត់បែនរវាងប្រភេទអថេរ និងការទស្សន៍ទាយតម្លៃលេខ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីតម្រូវការផ្នែករឹងជាក់លាក់ទេ ប៉ុន្តែក្បួនដោះស្រាយ Decision Tree ជាទូទៅមិនទាមទារធនធានកុំព្យូទ័រខ្ពស់នោះទេ។
ការសិក្សានេះគឺជាការស្ទង់មតិបែបទ្រឹស្តី (Theoretical Survey) ដែលធ្វើឡើងដោយអ្នកស្រាវជ្រាវនៅប្រទេសឥណ្ឌា ដោយមិនបានប្រើប្រាស់ទិន្នន័យជាក់ស្តែង (Real-world dataset) ដើម្បីធ្វើការវាស់វែងប្រសិទ្ធភាពទេ។ ឧទាហរណ៍ដែលលើកឡើងគឺគ្រាន់តែជាទិន្នន័យអាកាសធាតុសាមញ្ញ (Weather dataset) ដើម្បីពន្យល់ពីដំណើរការប៉ុណ្ណោះ។
វិធីសាស្ត្រទាំងនេះមានសារៈសំខាន់ខ្លាំង និងអាចអនុវត្តបានភ្លាមៗនៅក្នុងប្រទេសកម្ពុជាសម្រាប់ការវិភាគទិន្នន័យបែបបុរាណ។
ដោយសារក្បួនដោះស្រាយទាំងនេះងាយស្រួលពន្យល់ (Explainable AI) វាសាកសមបំផុតសម្រាប់ការចាប់ផ្តើមអនុវត្ត Data Mining នៅក្នុងស្ថាប័នកម្ពុជាដែលត្រូវការតម្លាភាពក្នុងការសម្រេចចិត្ត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Entropy | រង្វាស់នៃភាពមិនសុទ្ធ (Impurity) ឬភាពច្របូកច្របល់នៅក្នុងសំណុំទិន្នន័យ។ នៅក្នុង Decision Tree វាត្រូវបានប្រើដើម្បីគណនាថាតើការបំបែកទិន្នន័យមួយណាដែលនឹងផ្តល់នូវក្រុមទិន្នន័យដែលមានលក្ខណៈដូចគ្នា (Homogeneous) ជាងគេ។ | ដូចជាការវាស់ថាតើបន្ទប់មួយរញ៉េរញ៉ៃកម្រិតណា។ បន្ទប់រញ៉េរញ៉ៃខ្លាំងមាន Entropy ខ្ពស់ បន្ទប់ដែលមានរបៀបរៀបរយមាន Entropy ទាប។ |
| Information Gain | បច្ចេកទេសដែលប្រើក្នុងក្បួនដោះស្រាយ ID3 ដើម្បីវាស់វែងថាតើយើងទទួលបានព័ត៌មានច្បាស់លាស់ប៉ុន្មានបន្ទាប់ពីបំបែកទិន្នន័យតាមលក្ខខណ្ឌណាមួយ។ វាជួយជ្រើសរើសលក្ខខណ្ឌដែលល្អបំផុតសម្រាប់ដាក់នៅកំពូលនៃ Tree។ | ដូចជាការលេងល្បែងទាយសំនួរ ២០ សំនួរ; សំនួរដែលកាត់ចោលចម្លើយខុសបានច្រើនបំផុត គឺជាសំនួរដែលមាន Information Gain ខ្ពស់បំផុត។ |
| Pruning | ដំណើរការនៃការកាត់បន្ថយទំហំនៃ Decision Tree ដោយដកចេញនូវផ្នែក (Nodes) ដែលមិនសូវសំខាន់ ឬដែលផ្តល់ព័ត៌មានលម្អិតពេក ដើម្បីការពារកុំឱ្យម៉ូដែលស្មុគស្មាញពេក។ | ដូចជាការកាត់មែកឈើដែលងាប់ ឬមែកតូចៗចេញ ដើម្បីឱ្យដើមឈើទាំងមូលលូតលាស់បានល្អ និងមានរូបរាងស្អាត។ |
| Over-fitting | ស្ថានភាពដែលម៉ូដែលរៀនពីទិន្នន័យបង្វឹក (Training Data) លម្អិតពេក រហូតដល់ចងចាំទាំងទិន្នន័យដែលខុសប្រក្រតី (Noise) ធ្វើឱ្យវាមានប្រសិទ្ធភាពទាបនៅពេលយកទៅប្រើជាមួយទិន្នន័យថ្មី។ | ដូចជាសិស្សដែលទន្ទេញចម្លើយវិញ្ញាសាចាស់ៗចាំទាំងអស់ ប៉ុន្តែបែរជាធ្លាក់ពេលប្រឡងពិតប្រាកដព្រោះសំនួរត្រូវបានកែប្រែបន្តិចបន្តួច។ |
| Gini Index | រង្វាស់មួយប្រភេទទៀតសម្រាប់វាស់ភាពមិនសុទ្ធ (Impurity) ដែលត្រូវបានប្រើប្រាស់ដោយក្បួនដោះស្រាយ CART។ វាគណនាប្រូបាប៊ីលីតេដែលធាតុមួយត្រូវបានចាត់ថ្នាក់ខុស ប្រសិនបើវាត្រូវបានជ្រើសរើសដោយចៃដន្យ។ | ស្រដៀងនឹង Entropy ដែរ វាដូចជាការវាស់ថាតើក្នុងកន្ត្រកមួយមានផ្លែឈើចម្រុះគ្នាខ្លាំងប៉ុណ្ណា។ បើមានតែផ្លែប៉ោមសុទ្ធ Gini Index គឺសូន្យ។ |
| Gain Ratio | ការកែតម្រូវលើ Information Gain ដែលប្រើក្នុង C4.5 ដើម្បីដោះស្រាយបញ្ហាលំអៀងទៅរកអថេរដែលមានតម្លៃច្រើន (ដូចជាលេខអត្តសញ្ញាណជាដើម) ដោយធ្វើការ Normalize ទៅលើលទ្ធផល។ | ដូចជាការផ្តល់ពិន្ទុក្នុងការប្រកួតមួយដោយគិតគូរពីភាពលំបាកផងដែរ មិនមែនគ្រាន់តែរាប់ចំនួនពិន្ទុដាច់នោះទេ។ |
| Recursive Partitioning | វិធីសាស្ត្រនៃការបំបែកទិន្នន័យជាផ្នែកតូចៗម្តងហើយម្តងទៀត។ ដំណើរការនេះចាប់ផ្តើមពីចំណុចកំពូល (Root) ហើយបន្តបំបែកចុះក្រោមរហូតដល់លក្ខខណ្ឌត្រូវបានបំពេញ ឬទិន្នន័យមានលក្ខណៈដូចគ្នា។ | ដូចជាការបកខ្ទឹមបារាំងមួយស្រទាប់ម្តងៗ ឬការកាត់នំជាចំណែកតូចៗបន្តបន្ទាប់គ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖