Original Title: COMPARISON OF DATA MINING CLASSIFICATION ALGORITHMS: C5.0 AND CART FOR CAR EVALUATION AND CREDIT CARD INFORMATION DATASETS
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រៀបធៀបក្បួនដោះស្រាយចំណាត់ថ្នាក់ទិន្នន័យ (Data Mining)៖ C5.0 និង CART សម្រាប់សំណុំទិន្នន័យវាយតម្លៃរថយន្ត និងព័ត៌មានកាតឥណទាន

ចំណងជើងដើម៖ COMPARISON OF DATA MINING CLASSIFICATION ALGORITHMS: C5.0 AND CART FOR CAR EVALUATION AND CREDIT CARD INFORMATION DATASETS

អ្នកនិពន្ធ៖ Ei Thinzar Win Maung (University of Computer Studies, Yangon)

ឆ្នាំបោះពុម្ព៖ 2020

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការស្វែងរកវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពដើម្បីធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (Data Classification) ក្នុងសំណុំទិន្នន័យធំៗ ដោយធ្វើការប្រៀបធៀបក្បួនដោះស្រាយពីរគឺ C5.0 និង CART លើទិន្នន័យជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតប្រព័ន្ធមួយដោយប្រើភាសា C# និង SQL Server ដើម្បីអនុវត្តក្បួនដោះស្រាយ Decision Tree ទាំងពីរ និងវាយតម្លៃលទ្ធផលតាមរយៈវិធីសាស្ត្រ Holdout Method។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
C5.0 Algorithm
ក្បួនដោះស្រាយ C5.0 (ប្រើប្រាស់ Information Gain)
មានល្បឿនលឿនខ្លាំងក្នុងការបង្កើតម៉ូដែល និងគាំទ្រការបំបែកជាច្រើនសាខា (Multi-way splitting)។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលមានលក្ខណៈជាប្រភេទ (Categorical data) ដូចជាទិន្នន័យរថយន្ត។ អាចជួបបញ្ហា Overfitting (ការបង្រៀនលើសកម្រិត) លើទិន្នន័យដែលមានសំឡេងរំខាន (Noisy data) និងបង្កើតវិធាន (Rules) ច្រើនពេកដែលធ្វើឱ្យស្មុគស្មាញ។ ប្រើពេលខ្លីត្រឹមតែ ១០-១៣ វិនាទីក្នុងការបង្កើតម៉ូដែល និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងសម្រាប់ទិន្នន័យរថយន្ត (Car Evaluation)។
CART Algorithm
ក្បួនដោះស្រាយ CART (ប្រើប្រាស់ Gini Index)
មានភាពរឹងមាំ (Robust) ជាងក្នុងការដោះស្រាយជាមួយទិន្នន័យដែលមានចន្លោះខ្វះខាត (Missing values) និងទិន្នន័យមិនប្រក្រតី (Outliers)។ វាកាត់បន្ថយហានិភ័យនៃកំហុសក្នុងការចាត់ថ្នាក់សម្រាប់ទិន្នន័យហិរញ្ញវត្ថុ។ ដំណើរការយឺតជាង C5.0 យ៉ាងខ្លាំងដោយសារវាត្រូវគណនាការបំបែកជាពីរ (Binary split) សម្រាប់គ្រប់លក្ខណៈវិនិច្ឆ័យ។ ចំណាយពេលយូររហូតដល់ ៧១ វិនាទីសម្រាប់ទិន្នន័យឥណទាន ប៉ុន្តែផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាង C5.0 លើទិន្នន័យឥណទាន (Credit Card Dataset)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រទូទៅ ដោយមិនតម្រូវឱ្យមានផ្នែករឹង (Hardware) កម្រិតខ្ពស់នោះទេ ប៉ុន្តែតម្រូវឱ្យមានការរៀបចំប្រព័ន្ធទិន្នន័យដែលត្រឹមត្រូវ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ UCI Machine Learning Repository (German Credit Data និង Car Evaluation) ដែលឆ្លុះបញ្ចាំងពីបរិបទអឺរ៉ុប និងអាមេរិក។ សម្រាប់កម្ពុជា ការប្រើប្រាស់ទិន្នន័យឥណទានរបស់អាល្លឺម៉ង់អាចមិនឆ្លុះបញ្ចាំងពេញលេញពីឥរិយាបថរបស់អ្នកខ្ចីប្រាក់ ឬលក្ខខណ្ឌសេដ្ឋកិច្ចក្នុងស្រុកនោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យធនាគារ និងពាណិជ្ជកម្មនៅកម្ពុជា ដែលកំពុងត្រូវការប្រព័ន្ធស្វ័យប្រវត្តិកម្មក្នុងការវាយតម្លៃហានិភ័យ។

ទោះបីជាលទ្ធផលបង្ហាញថា CART ល្អសម្រាប់ហិរញ្ញវត្ថុ និង C5.0 ល្អសម្រាប់ទំនិញក៏ដោយ ការអនុវត្តជាក់ស្តែងនៅកម្ពុជាទាមទារឱ្យមានការបង្រៀនម៉ូដែល (Retraining) ជាមួយទិន្នន័យក្នុងស្រុកជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការសិក្សាទ្រឹស្តីគ្រឹះ: ស្វែងយល់ឱ្យច្បាស់ពីភាពខុសគ្នារវាង Entropy (សម្រាប់ C5.0) និង Gini Index (សម្រាប់ CART) ដើម្បីដឹងថាពេលណាគួរប្រើក្បួនមួយណា។
  2. ការរៀបចំទិន្នន័យ (Data Preparation): សាកល្បងប្រមូលទិន្នន័យជាក់ស្តែងពីស្ថាប័នក្នុងស្រុក ឬប្រើប្រាស់ទិន្នន័យបើកចំហ (Open Data) និងសម្អាតទិន្នន័យដោយប្រើ Python (Pandas) ជំនួសឱ្យការប្រើ Excel ដើម្បីប្រសិទ្ធភាព។
  3. ការជ្រើសរើសឧបករណ៍បច្ចេកវិទ្យា: ទោះបីឯកសារប្រើ C# ក៏ដោយ និស្សិតគួរងាកមកប្រើ Python ជាមួយបណ្ណាល័យ Scikit-learn ដែលជាស្តង់ដារបច្ចុប្បន្នសម្រាប់ការងារ Data Mining និង Machine Learning។
  4. ការវាយតម្លៃម៉ូដែល (Evaluation): កុំពឹងផ្អែកតែលើ Accuracy តែមួយមុខ។ ត្រូវសិក្សាលើ Confusion Matrix និង ROC Curve ដើម្បីមើលកម្រិតនៃការទស្សន៍ទាយខុស (Misclassification rate) ជាពិសេសសម្រាប់ទិន្នន័យឥណទាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Data Mining ជាដំណើរការនៃការរុករកនិងវិភាគទិន្នន័យក្នុងបរិមាណដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីស្វែងរកលំនាំ (Patterns) ឬចំណេះដឹងដែលលាក់កំបាំង ដែលមានប្រយោជន៍សម្រាប់ការសម្រេចចិត្តអាជីវកម្ម ឬការព្យាករណ៍។ ដូចជាការជីកកកាយដីរ៉ែរាប់តោន ដើម្បីស្វែងរកគ្រាប់ពេជ្រ ឬមាសដែលមានតម្លៃ។
Classification ជាបច្ចេកទេសមួយក្នុង Data Mining ដែលរៀបចំទិន្នន័យទៅជាក្រុម ឬថ្នាក់ (Classes) ដែលបានកំណត់ទុកជាមុន ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ ដើម្បីទស្សន៍ទាយលទ្ធផលនៃទិន្នន័យថ្មី។ ដូចជាការបែងចែកសំបុត្រដែលចូលមកក្នុងប្រអប់អ៊ីមែល ថាជាសំបុត្រសំខាន់ ឬជាសំបុត្រឥតប្រយោជន៍ (Spam)។
Decision Tree ជាគំរូនៃក្បួនដោះស្រាយដែលមានរចនាសម្ព័ន្ធដូចដើមឈើ ដែលប្រើសម្រាប់ធ្វើការសម្រេចចិត្ត។ វាបំបែកទិន្នន័យតាមលក្ខខណ្ឌជាបន្តបន្ទាប់ពីគល់ (Root) ទៅដល់ស្លឹក (Leaf) ដែលជាលទ្ធផលចុងក្រោយ។ ដូចជាគំនូសបំព្រួញ (Flowchart) ដែលសួរសំណួរ 'បាទ/ទេ' ជាបន្តបន្ទាប់ ដើម្បីឈានទៅរកចម្លើយចុងក្រោយ។
Information Gain ជារង្វាស់ដែលប្រើក្នុងក្បួនដោះស្រាយ C5.0 ដើម្បីវាស់វែងថាតើការបំបែកទិន្នន័យត្រង់ចំណុចណាមួយ ផ្តល់ព័ត៌មានច្បាស់លាស់បំផុត និងកាត់បន្ថយភាពមិនប្រាកដប្រជា (Entropy) បានច្រើនបំផុត។ ដូចជាការជ្រើសរើសសួរសំណួរដែលឆ្លាតបំផុតនៅក្នុងល្បែងទាយឈ្មោះ ដើម្បីឆាប់រកឃើញចម្លើយត្រឹមត្រូវ។
Gini Index ជារង្វាស់ដែលប្រើក្នុងក្បួនដោះស្រាយ CART ដើម្បីគណនា 'ភាពមិនសុទ្ធ' (Impurity) នៃទិន្នន័យ។ ក្បួននេះជ្រើសរើសការបំបែកណាដែលធ្វើឱ្យ Gini Index មានតម្លៃទាបបំផុត (មានន័យថាទិន្នន័យកាន់តែសុទ្ធ ឬដូចគ្នា)។ ដូចជាការពិនិត្យមើលថង់គ្រាប់ឃ្លីចម្រុះពណ៌ បើសិនជាក្នុងថង់មានតែពណ៌មួយមុខគត់ នោះវាមានភាពសុទ្ធល្អ (Gini ទាប)។
Holdout Method ជាវិធីសាស្ត្រវាយតម្លៃម៉ូដែល ដោយបែងចែកសំណុំទិន្នន័យជាពីរផ្នែកដាច់ដោយឡែកពីគ្នា គឺមួយផ្នែកសម្រាប់បង្រៀន (Training set) និងមួយផ្នែកទៀតសម្រាប់ធ្វើតេស្ត (Testing set) ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវ។ ដូចជាគ្រូឱ្យសិស្សធ្វើលំហាត់ក្នុងសៀវភៅពុម្ពដើម្បីរៀន (Training) ប៉ុន្តែពេលប្រឡង គ្រូដាក់លំហាត់ថ្មីដែលមិនធ្លាប់ធ្វើ (Testing) ដើម្បីដឹងថាសិស្សចេះពិតឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖