បញ្ហា (The Problem)៖ ជាមួយនឹងការកើនឡើងនៃទិន្នន័យនៅក្នុងវិស័យព័ត៌មានវិទ្យា ការទាញយកចំណេះដឹងដែលមានប្រយោជន៍ពីសំណុំទិន្នន័យដ៏ធំ មិនពេញលេញ និងមានភាពស្មុគស្មាញ គឺជាបញ្ហាប្រឈមដែលតម្រូវឱ្យមានបច្ចេកទេសធ្វើចំណាត់ថ្នាក់ (Classification) ដ៏មានប្រសិទ្ធភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើឡើងដោយការប្រៀបធៀបលក្ខណៈសម្បត្តិ ចំណុចខ្លាំង និងចំណុចខ្សោយនៃអាល់កូរីត Decision Tree ចំនួនបីគឺ ID3, C4.5, និង CART ព្រមទាំងពិនិត្យមើលកម្មវិធីដែលប្រើប្រាស់អាល់កូរីតទាំងនេះ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| ID3 (Iterative Dichotomiser 3) អាល់កូរីតដែលបង្កើតដើមឈើសម្រេចចិត្ត (Decision Tree) ដោយប្រើវិធីសាស្ត្រស្វែងរកបែបលោភលន់ (Greedy Search) ពីលើចុះក្រោម។ |
ងាយស្រួលយល់ និងអនុវត្តសម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាប្រភេទ (Categorical Data)។ | មានល្បឿនយឺត មិនអាចដោះស្រាយទិន្នន័យដែលមានតម្លៃបាត់បង់ (Missing Values) ឬទិន្នន័យជាលេខ (Continuous Data) បានទេ ហើយងាយនឹងជួបបញ្ហា Overfitting។ | ប្រើប្រាស់ Information Gain (ការចំណេញព័ត៌មាន) និង Entropy ដើម្បីជ្រើសរើស Attribute សម្រាប់បំបែក។ |
| C4.5 ជាជំនាន់ដែលកែលម្អចេញពី ID3 ដោយអាចដោះស្រាយទាំងទិន្នន័យជាលេខ និងទិន្នន័យជាប្រភេទ។ |
លឿនជាង ID3 អាចដោះស្រាយទិន្នន័យដែលបាត់បង់ (Missing Values) និងមានសមត្ថភាពកាត់មែក (Pruning) ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ។ | នៅតែមានការប្រើប្រាស់អង្គចងចាំច្រើននៅពេលដែលដើមឈើមានទំហំធំ។ | ប្រើប្រាស់ Gain Ratio និងផ្តល់លទ្ធផលត្រឹមត្រូវជាង ID3 ព្រមទាំងអាចបំបែកជាច្រើនសាខា (Multi-way splits)។ |
| CART (Classification and Regression Trees) អាល់កូរីតដែលអាចបង្កើតបានទាំងដើមឈើចំណាត់ថ្នាក់ (Classification Tree) និងដើមឈើតំរិះ (Regression Tree)។ |
អាចដោះស្រាយទិន្នន័យចម្រុះ (លេខ និងអក្សរ) ធ្វើការកាត់មែកក្រោយពេលបង្កើត (Post-pruning) និងអាចប្រើសម្រាប់ព្យាករណ៍តម្លៃ (Regression)។ | ធ្វើការបំបែកបានតែពីរផ្លូវប៉ុណ្ណោះ (Binary Split) សម្រាប់រាល់ថ្នាំង (Node)។ | ប្រើប្រាស់ Gini Index (សន្ទស្សន៍ Gini) ដែលមានល្បឿនមធ្យម និងគាំទ្រការធ្វើ Cross-validation។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តអាល់កូរីតទាំងនេះមិនតម្រូវឱ្យមានធនធានខ្ពស់ហួសហេតុនោះទេ ប៉ុន្តែប្រសិទ្ធភាពអាស្រ័យលើទំហំទិន្នន័យ និងកម្មវិធីដែលប្រើប្រាស់។
ឯកសារនេះគឺជាការសិក្សាសរុប (Survey Paper) ដែលមិនបានផ្អែកលើទិន្នន័យជាក់លាក់ណាមួយរបស់ប្រទេសណាមួយឡើយ ប៉ុន្តែវាបានលើកឡើងពីការប្រើប្រាស់ទិន្នន័យសិស្ស (Student Performance) និងទិន្នន័យសុខាភិបាលជាឧទាហរណ៍។ នេះជាចំណុចល្អព្រោះវាផ្តល់នូវមូលដ្ឋានទ្រឹស្តីដែលអាចយកមកអនុវត្តបានគ្រប់បរិបទ រួមទាំងនៅកម្ពុជា។
វិធីសាស្ត្រ Decision Tree ពិតជាមានសារៈសំខាន់ណាស់សម្រាប់កម្ពុជា ដោយសារវាជាបច្ចេកទេសមូលដ្ឋាននៃ Data Mining ដែលអាចអនុវត្តបានក្នុងវិស័យជាច្រើនដែលកំពុងរីកចម្រើន។
សរុបមក នេះគឺជាបច្ចេកទេសដែលមានតម្លៃទាបតែផ្តល់ប្រសិទ្ធភាពខ្ពស់ ក្នុងការជួយដល់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការទាញយកចំណេះដឹងពីទិន្នន័យដើម្បីគាំទ្រការសម្រេចចិត្ត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Information Gain | គឺជាការវាស់វែងបរិមាណព័ត៌មានដែលទទួលបានអំពីអថេរគោលដៅ (Target Variable) បន្ទាប់ពីបំបែកសំណុំទិន្នន័យដោយប្រើលក្ខណៈសម្បត្តិ (Attribute) ណាមួយ។ នៅក្នុងអាល់កូរីត ID3 វាត្រូវបានប្រើដើម្បីកំណត់ថា តើលក្ខណៈសម្បត្តិមួយណាគួរត្រូវបានជ្រើសរើសដើម្បីបំបែកទិន្នន័យនៅជំហានបន្ទាប់។ | ដូចជាការសួរសំណួរដែលឆ្លាតវៃបំផុត ដើម្បីកាត់បន្ថយជម្រើសចម្លើយដែលមិនត្រឹមត្រូវឱ្យបានច្រើនបំផុតក្នុងការទស្សន៍ទាយអ្វីមួយ។ |
| Entropy | នៅក្នុងបរិបទនៃ Decision Tree នេះគឺជាការវាស់វែងកម្រិតនៃភាពមិនច្បាស់លាស់ ឬភាពរញ៉េរញ៉ៃ (Impurity) នៅក្នុងសំណុំទិន្នន័យ។ ប្រសិនបើទិន្នន័យទាំងអស់ជាប្រភេទដូចគ្នា Entropy គឺសូន្យ (ស្អាត) ប៉ុន្តែបើវាលាយឡំគ្នាខ្លាំង Entropy នឹងខ្ពស់។ | ប្រៀបដូចជាការវាស់ថាតើផ្លែឈើនៅក្នុងកន្ត្រកមួយមានប្រភេទលាយឡំគ្នាខ្លាំងប៉ុណ្ណា (រញ៉េរញ៉ៃ) ឬមានតែមួយមុខ (សុទ្ធ)។ |
| Gini Index | គឺជាកម្រិតរង្វាស់ដែលប្រើដោយអាល់កូរីត CART ដើម្បីកំណត់ភាពមិនបរិសុទ្ធ (Impurity) នៃទិន្នន័យ។ វាគណនាឱកាសដែលទិន្នន័យមួយនឹងត្រូវចាត់ថ្នាក់ខុស ប្រសិនបើយើងជ្រើសរើសវាដោយចៃដន្យ។ តម្លៃ Gini កាន់តែទាបបង្ហាញថាការបំបែកនោះកាន់តែល្អ។ | ដូចជាការព្យាយាមចាប់បាល់ចេញពីធុងមួយ; បើបាល់ទាំងអស់មានពណ៌ដូចគ្នា ឱកាសចាប់បានពណ៌ខុសគឺសូន្យ (Gini ទាបបំផុត)។ |
| Pruning | គឺជាបច្ចេកទេសកាត់បន្ថយទំហំនៃ Decision Tree ដោយដកចេញនូវមែក (Branches) ដែលមិនសូវសំខាន់ ឬដែលផ្តល់ព័ត៌មានលម្អិតពេក ដើម្បីការពារបញ្ហា Overfitting (ការរៀនចាំមាត់ពេក) និងធ្វើឱ្យម៉ូដែលដំណើរការល្អលើទិន្នន័យថ្មី។ | ដូចជាការកាត់មែកឈើដែលស្ងួត ឬលើសចេញ ដើម្បីឱ្យដើមឈើមានរូបរាងស្អាត និងលូតលាស់បានល្អប្រសើរ។ |
| Greedy Search | គឺជាយុទ្ធសាស្ត្រដែលអាល់កូរីតប្រើដើម្បីធ្វើការសម្រេចចិត្ត។ នៅគ្រប់ជំហាន វាជ្រើសរើសជម្រើសដែលមើលទៅល្អបំផុតភ្លាមៗនៅពេលនោះ (Local Optimum) ដោយមិនគិតពីផលវិបាករយៈពេលវែង ដើម្បីសង្ឃឹមថានឹងរកឃើញដំណោះស្រាយល្អបំផុតនៅទីបញ្ចប់ (Global Optimum)។ | ដូចជាការដើរឡើងភ្នំដោយជ្រើសរើសផ្លូវណាដែលចោតបំផុតនៅចំពោះមុខភ្លាមៗ ដោយសង្ឃឹមថាវានឹងនាំទៅដល់កំពូលភ្នំលឿនបំផុត។ |
| Root Node | គឺជាថ្នាំងកំពូលបំផុតនៃ Decision Tree ដែលតំណាងឱ្យសំណុំទិន្នន័យទាំងមូល។ វាគឺជាចំណុចចាប់ផ្តើមដែលទិន្នន័យត្រូវបានវាយតម្លៃ និងបំបែកជាលើកដំបូង។ | ប្រៀបដូចជាបុព្វបុរសដើមគេបង្អស់នៅក្នុងប្លង់វង្សត្រកូល ដែលបែកខ្នែងទៅកូនចៅជំនាន់ក្រោយៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖