Original Title: A Survey on Decision Tree Algorithms of Classification in Data Mining
Source: www.ijsr.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាកម្រងអំពីអាល់កូរីត Decision Tree សម្រាប់ការធ្វើចំណាត់ថ្នាក់ក្នុងការជីកយកទិន្នន័យ (Data Mining)

ចំណងជើងដើម៖ A Survey on Decision Tree Algorithms of Classification in Data Mining

អ្នកនិពន្ធ៖ Himani Sharma (SRM University, Chennai, India), Sunil Kumar (SRM University, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2016 (International Journal of Science and Research)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជាមួយនឹងការកើនឡើងនៃទិន្នន័យនៅក្នុងវិស័យព័ត៌មានវិទ្យា ការទាញយកចំណេះដឹងដែលមានប្រយោជន៍ពីសំណុំទិន្នន័យដ៏ធំ មិនពេញលេញ និងមានភាពស្មុគស្មាញ គឺជាបញ្ហាប្រឈមដែលតម្រូវឱ្យមានបច្ចេកទេសធ្វើចំណាត់ថ្នាក់ (Classification) ដ៏មានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើឡើងដោយការប្រៀបធៀបលក្ខណៈសម្បត្តិ ចំណុចខ្លាំង និងចំណុចខ្សោយនៃអាល់កូរីត Decision Tree ចំនួនបីគឺ ID3, C4.5, និង CART ព្រមទាំងពិនិត្យមើលកម្មវិធីដែលប្រើប្រាស់អាល់កូរីតទាំងនេះ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
ID3 (Iterative Dichotomiser 3)
អាល់កូរីតដែលបង្កើតដើមឈើសម្រេចចិត្ត (Decision Tree) ដោយប្រើវិធីសាស្ត្រស្វែងរកបែបលោភលន់ (Greedy Search) ពីលើចុះក្រោម។
ងាយស្រួលយល់ និងអនុវត្តសម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាប្រភេទ (Categorical Data)។ មានល្បឿនយឺត មិនអាចដោះស្រាយទិន្នន័យដែលមានតម្លៃបាត់បង់ (Missing Values) ឬទិន្នន័យជាលេខ (Continuous Data) បានទេ ហើយងាយនឹងជួបបញ្ហា Overfitting។ ប្រើប្រាស់ Information Gain (ការចំណេញព័ត៌មាន) និង Entropy ដើម្បីជ្រើសរើស Attribute សម្រាប់បំបែក។
C4.5
ជាជំនាន់ដែលកែលម្អចេញពី ID3 ដោយអាចដោះស្រាយទាំងទិន្នន័យជាលេខ និងទិន្នន័យជាប្រភេទ។
លឿនជាង ID3 អាចដោះស្រាយទិន្នន័យដែលបាត់បង់ (Missing Values) និងមានសមត្ថភាពកាត់មែក (Pruning) ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ។ នៅតែមានការប្រើប្រាស់អង្គចងចាំច្រើននៅពេលដែលដើមឈើមានទំហំធំ។ ប្រើប្រាស់ Gain Ratio និងផ្តល់លទ្ធផលត្រឹមត្រូវជាង ID3 ព្រមទាំងអាចបំបែកជាច្រើនសាខា (Multi-way splits)។
CART (Classification and Regression Trees)
អាល់កូរីតដែលអាចបង្កើតបានទាំងដើមឈើចំណាត់ថ្នាក់ (Classification Tree) និងដើមឈើតំរិះ (Regression Tree)។
អាចដោះស្រាយទិន្នន័យចម្រុះ (លេខ និងអក្សរ) ធ្វើការកាត់មែកក្រោយពេលបង្កើត (Post-pruning) និងអាចប្រើសម្រាប់ព្យាករណ៍តម្លៃ (Regression)។ ធ្វើការបំបែកបានតែពីរផ្លូវប៉ុណ្ណោះ (Binary Split) សម្រាប់រាល់ថ្នាំង (Node)។ ប្រើប្រាស់ Gini Index (សន្ទស្សន៍ Gini) ដែលមានល្បឿនមធ្យម និងគាំទ្រការធ្វើ Cross-validation។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តអាល់កូរីតទាំងនេះមិនតម្រូវឱ្យមានធនធានខ្ពស់ហួសហេតុនោះទេ ប៉ុន្តែប្រសិទ្ធភាពអាស្រ័យលើទំហំទិន្នន័យ និងកម្មវិធីដែលប្រើប្រាស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការសិក្សាសរុប (Survey Paper) ដែលមិនបានផ្អែកលើទិន្នន័យជាក់លាក់ណាមួយរបស់ប្រទេសណាមួយឡើយ ប៉ុន្តែវាបានលើកឡើងពីការប្រើប្រាស់ទិន្នន័យសិស្ស (Student Performance) និងទិន្នន័យសុខាភិបាលជាឧទាហរណ៍។ នេះជាចំណុចល្អព្រោះវាផ្តល់នូវមូលដ្ឋានទ្រឹស្តីដែលអាចយកមកអនុវត្តបានគ្រប់បរិបទ រួមទាំងនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Decision Tree ពិតជាមានសារៈសំខាន់ណាស់សម្រាប់កម្ពុជា ដោយសារវាជាបច្ចេកទេសមូលដ្ឋាននៃ Data Mining ដែលអាចអនុវត្តបានក្នុងវិស័យជាច្រើនដែលកំពុងរីកចម្រើន។

សរុបមក នេះគឺជាបច្ចេកទេសដែលមានតម្លៃទាបតែផ្តល់ប្រសិទ្ធភាពខ្ពស់ ក្នុងការជួយដល់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការទាញយកចំណេះដឹងពីទិន្នន័យដើម្បីគាំទ្រការសម្រេចចិត្ត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១: សិក្សាមូលដ្ឋានគ្រឹះនៃ Information Theory: និស្សិតគួរចាប់ផ្តើមពីការយល់អំពី Entropy និង Information Gain ដែលជាស្នូលនៃអាល់កូរីត ID3 និង C4.5។
  2. ជំហានទី ២: ដំឡើងនិងប្រើប្រាស់កម្មវិធី WEKA: ទាញយកកម្មវិធី (WEKA) ហើយសាកល្បងប្រើប្រាស់មុខងារ J48 (ដែលជា C4.5) ជាមួយទិន្នន័យគំរូដែលមានស្រាប់ក្នុងកម្មវិធី ដើម្បីមើលពីរបៀបបង្កើតដើមឈើ។
  3. ជំហានទី ៣: ការប្រៀបធៀបអាល់កូរីត: ធ្វើការពិសោធន៍ដោយប្រើទិន្នន័យតែមួយ (ឧទាហរណ៍ទិន្នន័យអាកាសធាតុ) ជាមួយអាល់កូរីតផ្សេងៗគ្នា (ID3, J48/C4.5, CART) ក្នុង (WEKA) ដើម្បីប្រៀបធៀបលទ្ធផល Accuracy។
  4. ជំហានទី ៤: អនុវត្តលើគម្រោងជាក់ស្តែង: ប្រមូលទិន្នន័យជាក់ស្តែង (ឧទាហរណ៍ ទិន្នន័យលក់ផលិតផល ឬទិន្នន័យសិស្សក្នុងថ្នាក់) រួចបង្កើត Decision Tree ដើម្បីទាញយក Rule សម្រាប់ធ្វើការព្យាករណ៍។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Information Gain គឺជាការវាស់វែងបរិមាណព័ត៌មានដែលទទួលបានអំពីអថេរគោលដៅ (Target Variable) បន្ទាប់ពីបំបែកសំណុំទិន្នន័យដោយប្រើលក្ខណៈសម្បត្តិ (Attribute) ណាមួយ។ នៅក្នុងអាល់កូរីត ID3 វាត្រូវបានប្រើដើម្បីកំណត់ថា តើលក្ខណៈសម្បត្តិមួយណាគួរត្រូវបានជ្រើសរើសដើម្បីបំបែកទិន្នន័យនៅជំហានបន្ទាប់។ ដូចជាការសួរសំណួរដែលឆ្លាតវៃបំផុត ដើម្បីកាត់បន្ថយជម្រើសចម្លើយដែលមិនត្រឹមត្រូវឱ្យបានច្រើនបំផុតក្នុងការទស្សន៍ទាយអ្វីមួយ។
Entropy នៅក្នុងបរិបទនៃ Decision Tree នេះគឺជាការវាស់វែងកម្រិតនៃភាពមិនច្បាស់លាស់ ឬភាពរញ៉េរញ៉ៃ (Impurity) នៅក្នុងសំណុំទិន្នន័យ។ ប្រសិនបើទិន្នន័យទាំងអស់ជាប្រភេទដូចគ្នា Entropy គឺសូន្យ (ស្អាត) ប៉ុន្តែបើវាលាយឡំគ្នាខ្លាំង Entropy នឹងខ្ពស់។ ប្រៀបដូចជាការវាស់ថាតើផ្លែឈើនៅក្នុងកន្ត្រកមួយមានប្រភេទលាយឡំគ្នាខ្លាំងប៉ុណ្ណា (រញ៉េរញ៉ៃ) ឬមានតែមួយមុខ (សុទ្ធ)។
Gini Index គឺជាកម្រិតរង្វាស់ដែលប្រើដោយអាល់កូរីត CART ដើម្បីកំណត់ភាពមិនបរិសុទ្ធ (Impurity) នៃទិន្នន័យ។ វាគណនាឱកាសដែលទិន្នន័យមួយនឹងត្រូវចាត់ថ្នាក់ខុស ប្រសិនបើយើងជ្រើសរើសវាដោយចៃដន្យ។ តម្លៃ Gini កាន់តែទាបបង្ហាញថាការបំបែកនោះកាន់តែល្អ។ ដូចជាការព្យាយាមចាប់បាល់ចេញពីធុងមួយ; បើបាល់ទាំងអស់មានពណ៌ដូចគ្នា ឱកាសចាប់បានពណ៌ខុសគឺសូន្យ (Gini ទាបបំផុត)។
Pruning គឺជាបច្ចេកទេសកាត់បន្ថយទំហំនៃ Decision Tree ដោយដកចេញនូវមែក (Branches) ដែលមិនសូវសំខាន់ ឬដែលផ្តល់ព័ត៌មានលម្អិតពេក ដើម្បីការពារបញ្ហា Overfitting (ការរៀនចាំមាត់ពេក) និងធ្វើឱ្យម៉ូដែលដំណើរការល្អលើទិន្នន័យថ្មី។ ដូចជាការកាត់មែកឈើដែលស្ងួត ឬលើសចេញ ដើម្បីឱ្យដើមឈើមានរូបរាងស្អាត និងលូតលាស់បានល្អប្រសើរ។
Greedy Search គឺជាយុទ្ធសាស្ត្រដែលអាល់កូរីតប្រើដើម្បីធ្វើការសម្រេចចិត្ត។ នៅគ្រប់ជំហាន វាជ្រើសរើសជម្រើសដែលមើលទៅល្អបំផុតភ្លាមៗនៅពេលនោះ (Local Optimum) ដោយមិនគិតពីផលវិបាករយៈពេលវែង ដើម្បីសង្ឃឹមថានឹងរកឃើញដំណោះស្រាយល្អបំផុតនៅទីបញ្ចប់ (Global Optimum)។ ដូចជាការដើរឡើងភ្នំដោយជ្រើសរើសផ្លូវណាដែលចោតបំផុតនៅចំពោះមុខភ្លាមៗ ដោយសង្ឃឹមថាវានឹងនាំទៅដល់កំពូលភ្នំលឿនបំផុត។
Root Node គឺជាថ្នាំងកំពូលបំផុតនៃ Decision Tree ដែលតំណាងឱ្យសំណុំទិន្នន័យទាំងមូល។ វាគឺជាចំណុចចាប់ផ្តើមដែលទិន្នន័យត្រូវបានវាយតម្លៃ និងបំបែកជាលើកដំបូង។ ប្រៀបដូចជាបុព្វបុរសដើមគេបង្អស់នៅក្នុងប្លង់វង្សត្រកូល ដែលបែកខ្នែងទៅកូនចៅជំនាន់ក្រោយៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖