Original Title: A Survey on Decision Tree Algorithms of Classification in Data Mining
Source: www.ijsr.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាកម្រងអំពីអាល់កូរីត Decision Tree សម្រាប់ការធ្វើចំណាត់ថ្នាក់ក្នុងការជីកយកទិន្នន័យ (Data Mining)

ចំណងជើងដើម៖ A Survey on Decision Tree Algorithms of Classification in Data Mining

អ្នកនិពន្ធ៖ Himani Sharma (SRM University, Chennai, India), Sunil Kumar (SRM University, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2016 (International Journal of Science and Research)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជាមួយនឹងការកើនឡើងនៃទិន្នន័យនៅក្នុងវិស័យព័ត៌មានវិទ្យា ការទាញយកចំណេះដឹងដែលមានប្រយោជន៍ពីសំណុំទិន្នន័យដ៏ធំ មិនពេញលេញ និងមានភាពស្មុគស្មាញ គឺជាបញ្ហាប្រឈមដែលតម្រូវឱ្យមានបច្ចេកទេសធ្វើចំណាត់ថ្នាក់ (Classification) ដ៏មានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើឡើងដោយការប្រៀបធៀបលក្ខណៈសម្បត្តិ ចំណុចខ្លាំង និងចំណុចខ្សោយនៃអាល់កូរីត Decision Tree ចំនួនបីគឺ ID3, C4.5, និង CART ព្រមទាំងពិនិត្យមើលកម្មវិធីដែលប្រើប្រាស់អាល់កូរីតទាំងនេះ។

ការវិភាគអាល់កូរីត ID3 ដោយប្រើគោលការណ៍ Information Gain (ចំណេញព័ត៌មាន)
ការវាយតម្លៃអាល់កូរីត C4.5 ដែលប្រើប្រាស់ Gain Ratio និងបច្ចេកទេសកាត់មែក (Pruning)
ការសិក្សាលើអាល់កូរីត CART ដោយប្រើ Gini Index និងការបំបែកជាពីរ (Binary Splitting)
ការពិនិត្យលើកម្មវិធីវិភាគទិន្នន័យដូចជា WEKA និង See5/C5.0

លទ្ធផលសំខាន់ៗ (The Verdict)៖

អាល់កូរីត ID3 មានល្បឿនយឺត និងមិនអាចដោះស្រាយទិន្នន័យដែលមានតម្លៃបាត់បង់ (Missing Values) ឬទិន្នន័យជាលេខ (Continuous data) បានល្អឡើយ។
អាល់កូរីត C4.5 គឺជាការកែលម្អលើ ID3 ដែលមានល្បឿនលឿនជាង និងអាចដោះស្រាយទិន្នន័យមិនពេញលេញបានតាមរយៈការប្រើប្រាស់ Gain Ratio។
អាល់កូរីត CART អាចប្រើបានទាំងសម្រាប់ការធ្វើចំណាត់ថ្នាក់ និងការវិភាគតំរិះ (Regression) ដោយប្រើ Gini Index ដែលជួយកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
ID3 (Iterative Dichotomiser 3) អាល់កូរីតដែលបង្កើតដើមឈើសម្រេចចិត្ត (Decision Tree) ដោយប្រើវិធីសាស្ត្រស្វែងរកបែបលោភលន់ (Greedy Search) ពីលើចុះក្រោម។	ងាយស្រួលយល់ និងអនុវត្តសម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាប្រភេទ (Categorical Data)។	មានល្បឿនយឺត មិនអាចដោះស្រាយទិន្នន័យដែលមានតម្លៃបាត់បង់ (Missing Values) ឬទិន្នន័យជាលេខ (Continuous Data) បានទេ ហើយងាយនឹងជួបបញ្ហា Overfitting។	ប្រើប្រាស់ Information Gain (ការចំណេញព័ត៌មាន) និង Entropy ដើម្បីជ្រើសរើស Attribute សម្រាប់បំបែក។
C4.5 ជាជំនាន់ដែលកែលម្អចេញពី ID3 ដោយអាចដោះស្រាយទាំងទិន្នន័យជាលេខ និងទិន្នន័យជាប្រភេទ។	លឿនជាង ID3 អាចដោះស្រាយទិន្នន័យដែលបាត់បង់ (Missing Values) និងមានសមត្ថភាពកាត់មែក (Pruning) ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ។	នៅតែមានការប្រើប្រាស់អង្គចងចាំច្រើននៅពេលដែលដើមឈើមានទំហំធំ។	ប្រើប្រាស់ Gain Ratio និងផ្តល់លទ្ធផលត្រឹមត្រូវជាង ID3 ព្រមទាំងអាចបំបែកជាច្រើនសាខា (Multi-way splits)។
CART (Classification and Regression Trees) អាល់កូរីតដែលអាចបង្កើតបានទាំងដើមឈើចំណាត់ថ្នាក់ (Classification Tree) និងដើមឈើតំរិះ (Regression Tree)។	អាចដោះស្រាយទិន្នន័យចម្រុះ (លេខ និងអក្សរ) ធ្វើការកាត់មែកក្រោយពេលបង្កើត (Post-pruning) និងអាចប្រើសម្រាប់ព្យាករណ៍តម្លៃ (Regression)។	ធ្វើការបំបែកបានតែពីរផ្លូវប៉ុណ្ណោះ (Binary Split) សម្រាប់រាល់ថ្នាំង (Node)។	ប្រើប្រាស់ Gini Index (សន្ទស្សន៍ Gini) ដែលមានល្បឿនមធ្យម និងគាំទ្រការធ្វើ Cross-validation។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តអាល់កូរីតទាំងនេះមិនតម្រូវឱ្យមានធនធានខ្ពស់ហួសហេតុនោះទេ ប៉ុន្តែប្រសិទ្ធភាពអាស្រ័យលើទំហំទិន្នន័យ និងកម្មវិធីដែលប្រើប្រាស់។

Software: អាចប្រើប្រាស់កម្មវិធីដូចជា WEKA (មាន J48 ដែលជា C4.5), See5/C5.0, ឬ GATree។ កម្មវិធី WEKA គឺឥតគិតថ្លៃ និងពេញនិយមសម្រាប់ការសិក្សា។
Hardware: កុំព្យូទ័រទូទៅអាចដំណើរការបាន ប៉ុន្តែសម្រាប់កម្មវិធី See5/C5.0 អាចទាញយកអត្ថប្រយោជន៍ពី CPU ដែលមានច្រើន Core ដើម្បីបង្កើនល្បឿនវិភាគ។
Dataset: ទិន្នន័យត្រូវមានការសម្អាតជាមុន (Pre-processing) ពិសេសសម្រាប់ ID3 ដែលមិនអាចទទួលទិន្នន័យរំខាន (Noisy data) បានល្អ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការសិក្សាសរុប (Survey Paper) ដែលមិនបានផ្អែកលើទិន្នន័យជាក់លាក់ណាមួយរបស់ប្រទេសណាមួយឡើយ ប៉ុន្តែវាបានលើកឡើងពីការប្រើប្រាស់ទិន្នន័យសិស្ស (Student Performance) និងទិន្នន័យសុខាភិបាលជាឧទាហរណ៍។ នេះជាចំណុចល្អព្រោះវាផ្តល់នូវមូលដ្ឋានទ្រឹស្តីដែលអាចយកមកអនុវត្តបានគ្រប់បរិបទ រួមទាំងនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Decision Tree ពិតជាមានសារៈសំខាន់ណាស់សម្រាប់កម្ពុជា ដោយសារវាជាបច្ចេកទេសមូលដ្ឋាននៃ Data Mining ដែលអាចអនុវត្តបានក្នុងវិស័យជាច្រើនដែលកំពុងរីកចម្រើន។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Credit Scoring): ប្រើប្រាស់ Decision Tree ដើម្បីវាយតម្លៃហានិភ័យនៃកម្ចី (Credit Risk) សម្រាប់អតិថិជននៅតាមបណ្តាខេត្ត ដោយផ្អែកលើប្រវត្តិហិរញ្ញវត្ថុ។
វិស័យអប់រំ (Educational Data Mining): គ្រឹះស្ថានឧត្តមសិក្សានៅភ្នំពេញ អាចប្រើ C4.5 ដើម្បីវិភាគទិន្នន័យនិស្សិត និងព្យាករណ៍ពីអត្រាបោះបង់ការសិក្សា ឬលទ្ធផលប្រឡង។
វិស័យកសិកម្ម (Agriculture & Remote Sensing): ការប្រើប្រាស់ Decision Tree ក្នុងការវិភាគរូបភាពពីផ្កាយរណប ដើម្បីកំណត់ប្រភេទដី និងដំណាំនៅតាមតំបន់ជនបទនៃកម្ពុជា។

សរុបមក នេះគឺជាបច្ចេកទេសដែលមានតម្លៃទាបតែផ្តល់ប្រសិទ្ធភាពខ្ពស់ ក្នុងការជួយដល់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការទាញយកចំណេះដឹងពីទិន្នន័យដើម្បីគាំទ្រការសម្រេចចិត្ត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១: សិក្សាមូលដ្ឋានគ្រឹះនៃ Information Theory: និស្សិតគួរចាប់ផ្តើមពីការយល់អំពី Entropy និង Information Gain ដែលជាស្នូលនៃអាល់កូរីត ID3 និង C4.5។
ជំហានទី ២: ដំឡើងនិងប្រើប្រាស់កម្មវិធី WEKA: ទាញយកកម្មវិធី (WEKA) ហើយសាកល្បងប្រើប្រាស់មុខងារ J48 (ដែលជា C4.5) ជាមួយទិន្នន័យគំរូដែលមានស្រាប់ក្នុងកម្មវិធី ដើម្បីមើលពីរបៀបបង្កើតដើមឈើ។
ជំហានទី ៣: ការប្រៀបធៀបអាល់កូរីត: ធ្វើការពិសោធន៍ដោយប្រើទិន្នន័យតែមួយ (ឧទាហរណ៍ទិន្នន័យអាកាសធាតុ) ជាមួយអាល់កូរីតផ្សេងៗគ្នា (ID3, J48/C4.5, CART) ក្នុង (WEKA) ដើម្បីប្រៀបធៀបលទ្ធផល Accuracy។
ជំហានទី ៤: អនុវត្តលើគម្រោងជាក់ស្តែង: ប្រមូលទិន្នន័យជាក់ស្តែង (ឧទាហរណ៍ ទិន្នន័យលក់ផលិតផល ឬទិន្នន័យសិស្សក្នុងថ្នាក់) រួចបង្កើត Decision Tree ដើម្បីទាញយក Rule សម្រាប់ធ្វើការព្យាករណ៍។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Information Gain	គឺជាការវាស់វែងបរិមាណព័ត៌មានដែលទទួលបានអំពីអថេរគោលដៅ (Target Variable) បន្ទាប់ពីបំបែកសំណុំទិន្នន័យដោយប្រើលក្ខណៈសម្បត្តិ (Attribute) ណាមួយ។ នៅក្នុងអាល់កូរីត ID3 វាត្រូវបានប្រើដើម្បីកំណត់ថា តើលក្ខណៈសម្បត្តិមួយណាគួរត្រូវបានជ្រើសរើសដើម្បីបំបែកទិន្នន័យនៅជំហានបន្ទាប់។	ដូចជាការសួរសំណួរដែលឆ្លាតវៃបំផុត ដើម្បីកាត់បន្ថយជម្រើសចម្លើយដែលមិនត្រឹមត្រូវឱ្យបានច្រើនបំផុតក្នុងការទស្សន៍ទាយអ្វីមួយ។
Entropy	នៅក្នុងបរិបទនៃ Decision Tree នេះគឺជាការវាស់វែងកម្រិតនៃភាពមិនច្បាស់លាស់ ឬភាពរញ៉េរញ៉ៃ (Impurity) នៅក្នុងសំណុំទិន្នន័យ។ ប្រសិនបើទិន្នន័យទាំងអស់ជាប្រភេទដូចគ្នា Entropy គឺសូន្យ (ស្អាត) ប៉ុន្តែបើវាលាយឡំគ្នាខ្លាំង Entropy នឹងខ្ពស់។	ប្រៀបដូចជាការវាស់ថាតើផ្លែឈើនៅក្នុងកន្ត្រកមួយមានប្រភេទលាយឡំគ្នាខ្លាំងប៉ុណ្ណា (រញ៉េរញ៉ៃ) ឬមានតែមួយមុខ (សុទ្ធ)។
Gini Index	គឺជាកម្រិតរង្វាស់ដែលប្រើដោយអាល់កូរីត CART ដើម្បីកំណត់ភាពមិនបរិសុទ្ធ (Impurity) នៃទិន្នន័យ។ វាគណនាឱកាសដែលទិន្នន័យមួយនឹងត្រូវចាត់ថ្នាក់ខុស ប្រសិនបើយើងជ្រើសរើសវាដោយចៃដន្យ។ តម្លៃ Gini កាន់តែទាបបង្ហាញថាការបំបែកនោះកាន់តែល្អ។	ដូចជាការព្យាយាមចាប់បាល់ចេញពីធុងមួយ; បើបាល់ទាំងអស់មានពណ៌ដូចគ្នា ឱកាសចាប់បានពណ៌ខុសគឺសូន្យ (Gini ទាបបំផុត)។
Pruning	គឺជាបច្ចេកទេសកាត់បន្ថយទំហំនៃ Decision Tree ដោយដកចេញនូវមែក (Branches) ដែលមិនសូវសំខាន់ ឬដែលផ្តល់ព័ត៌មានលម្អិតពេក ដើម្បីការពារបញ្ហា Overfitting (ការរៀនចាំមាត់ពេក) និងធ្វើឱ្យម៉ូដែលដំណើរការល្អលើទិន្នន័យថ្មី។	ដូចជាការកាត់មែកឈើដែលស្ងួត ឬលើសចេញ ដើម្បីឱ្យដើមឈើមានរូបរាងស្អាត និងលូតលាស់បានល្អប្រសើរ។
Greedy Search	គឺជាយុទ្ធសាស្ត្រដែលអាល់កូរីតប្រើដើម្បីធ្វើការសម្រេចចិត្ត។ នៅគ្រប់ជំហាន វាជ្រើសរើសជម្រើសដែលមើលទៅល្អបំផុតភ្លាមៗនៅពេលនោះ (Local Optimum) ដោយមិនគិតពីផលវិបាករយៈពេលវែង ដើម្បីសង្ឃឹមថានឹងរកឃើញដំណោះស្រាយល្អបំផុតនៅទីបញ្ចប់ (Global Optimum)។	ដូចជាការដើរឡើងភ្នំដោយជ្រើសរើសផ្លូវណាដែលចោតបំផុតនៅចំពោះមុខភ្លាមៗ ដោយសង្ឃឹមថាវានឹងនាំទៅដល់កំពូលភ្នំលឿនបំផុត។
Root Node	គឺជាថ្នាំងកំពូលបំផុតនៃ Decision Tree ដែលតំណាងឱ្យសំណុំទិន្នន័យទាំងមូល។ វាគឺជាចំណុចចាប់ផ្តើមដែលទិន្នន័យត្រូវបានវាយតម្លៃ និងបំបែកជាលើកដំបូង។	ប្រៀបដូចជាបុព្វបុរសដើមគេបង្អស់នៅក្នុងប្លង់វង្សត្រកូល ដែលបែកខ្នែងទៅកូនចៅជំនាន់ក្រោយៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖