បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការស្វែងរកវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពដើម្បីធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (Data Classification) ក្នុងសំណុំទិន្នន័យធំៗ ដោយធ្វើការប្រៀបធៀបក្បួនដោះស្រាយពីរគឺ C5.0 និង CART លើទិន្នន័យជាក់ស្តែង។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតប្រព័ន្ធមួយដោយប្រើភាសា C# និង SQL Server ដើម្បីអនុវត្តក្បួនដោះស្រាយ Decision Tree ទាំងពីរ និងវាយតម្លៃលទ្ធផលតាមរយៈវិធីសាស្ត្រ Holdout Method។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| C5.0 Algorithm ក្បួនដោះស្រាយ C5.0 (ប្រើប្រាស់ Information Gain) |
មានល្បឿនលឿនខ្លាំងក្នុងការបង្កើតម៉ូដែល និងគាំទ្រការបំបែកជាច្រើនសាខា (Multi-way splitting)។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលមានលក្ខណៈជាប្រភេទ (Categorical data) ដូចជាទិន្នន័យរថយន្ត។ | អាចជួបបញ្ហា Overfitting (ការបង្រៀនលើសកម្រិត) លើទិន្នន័យដែលមានសំឡេងរំខាន (Noisy data) និងបង្កើតវិធាន (Rules) ច្រើនពេកដែលធ្វើឱ្យស្មុគស្មាញ។ | ប្រើពេលខ្លីត្រឹមតែ ១០-១៣ វិនាទីក្នុងការបង្កើតម៉ូដែល និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងសម្រាប់ទិន្នន័យរថយន្ត (Car Evaluation)។ |
| CART Algorithm ក្បួនដោះស្រាយ CART (ប្រើប្រាស់ Gini Index) |
មានភាពរឹងមាំ (Robust) ជាងក្នុងការដោះស្រាយជាមួយទិន្នន័យដែលមានចន្លោះខ្វះខាត (Missing values) និងទិន្នន័យមិនប្រក្រតី (Outliers)។ វាកាត់បន្ថយហានិភ័យនៃកំហុសក្នុងការចាត់ថ្នាក់សម្រាប់ទិន្នន័យហិរញ្ញវត្ថុ។ | ដំណើរការយឺតជាង C5.0 យ៉ាងខ្លាំងដោយសារវាត្រូវគណនាការបំបែកជាពីរ (Binary split) សម្រាប់គ្រប់លក្ខណៈវិនិច្ឆ័យ។ | ចំណាយពេលយូររហូតដល់ ៧១ វិនាទីសម្រាប់ទិន្នន័យឥណទាន ប៉ុន្តែផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាង C5.0 លើទិន្នន័យឥណទាន (Credit Card Dataset)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រទូទៅ ដោយមិនតម្រូវឱ្យមានផ្នែករឹង (Hardware) កម្រិតខ្ពស់នោះទេ ប៉ុន្តែតម្រូវឱ្យមានការរៀបចំប្រព័ន្ធទិន្នន័យដែលត្រឹមត្រូវ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ UCI Machine Learning Repository (German Credit Data និង Car Evaluation) ដែលឆ្លុះបញ្ចាំងពីបរិបទអឺរ៉ុប និងអាមេរិក។ សម្រាប់កម្ពុជា ការប្រើប្រាស់ទិន្នន័យឥណទានរបស់អាល្លឺម៉ង់អាចមិនឆ្លុះបញ្ចាំងពេញលេញពីឥរិយាបថរបស់អ្នកខ្ចីប្រាក់ ឬលក្ខខណ្ឌសេដ្ឋកិច្ចក្នុងស្រុកនោះទេ។
វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យធនាគារ និងពាណិជ្ជកម្មនៅកម្ពុជា ដែលកំពុងត្រូវការប្រព័ន្ធស្វ័យប្រវត្តិកម្មក្នុងការវាយតម្លៃហានិភ័យ។
ទោះបីជាលទ្ធផលបង្ហាញថា CART ល្អសម្រាប់ហិរញ្ញវត្ថុ និង C5.0 ល្អសម្រាប់ទំនិញក៏ដោយ ការអនុវត្តជាក់ស្តែងនៅកម្ពុជាទាមទារឱ្យមានការបង្រៀនម៉ូដែល (Retraining) ជាមួយទិន្នន័យក្នុងស្រុកជាមុនសិន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Data Mining | ជាដំណើរការនៃការរុករកនិងវិភាគទិន្នន័យក្នុងបរិមាណដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីស្វែងរកលំនាំ (Patterns) ឬចំណេះដឹងដែលលាក់កំបាំង ដែលមានប្រយោជន៍សម្រាប់ការសម្រេចចិត្តអាជីវកម្ម ឬការព្យាករណ៍។ | ដូចជាការជីកកកាយដីរ៉ែរាប់តោន ដើម្បីស្វែងរកគ្រាប់ពេជ្រ ឬមាសដែលមានតម្លៃ។ |
| Classification | ជាបច្ចេកទេសមួយក្នុង Data Mining ដែលរៀបចំទិន្នន័យទៅជាក្រុម ឬថ្នាក់ (Classes) ដែលបានកំណត់ទុកជាមុន ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ ដើម្បីទស្សន៍ទាយលទ្ធផលនៃទិន្នន័យថ្មី។ | ដូចជាការបែងចែកសំបុត្រដែលចូលមកក្នុងប្រអប់អ៊ីមែល ថាជាសំបុត្រសំខាន់ ឬជាសំបុត្រឥតប្រយោជន៍ (Spam)។ |
| Decision Tree | ជាគំរូនៃក្បួនដោះស្រាយដែលមានរចនាសម្ព័ន្ធដូចដើមឈើ ដែលប្រើសម្រាប់ធ្វើការសម្រេចចិត្ត។ វាបំបែកទិន្នន័យតាមលក្ខខណ្ឌជាបន្តបន្ទាប់ពីគល់ (Root) ទៅដល់ស្លឹក (Leaf) ដែលជាលទ្ធផលចុងក្រោយ។ | ដូចជាគំនូសបំព្រួញ (Flowchart) ដែលសួរសំណួរ 'បាទ/ទេ' ជាបន្តបន្ទាប់ ដើម្បីឈានទៅរកចម្លើយចុងក្រោយ។ |
| Information Gain | ជារង្វាស់ដែលប្រើក្នុងក្បួនដោះស្រាយ C5.0 ដើម្បីវាស់វែងថាតើការបំបែកទិន្នន័យត្រង់ចំណុចណាមួយ ផ្តល់ព័ត៌មានច្បាស់លាស់បំផុត និងកាត់បន្ថយភាពមិនប្រាកដប្រជា (Entropy) បានច្រើនបំផុត។ | ដូចជាការជ្រើសរើសសួរសំណួរដែលឆ្លាតបំផុតនៅក្នុងល្បែងទាយឈ្មោះ ដើម្បីឆាប់រកឃើញចម្លើយត្រឹមត្រូវ។ |
| Gini Index | ជារង្វាស់ដែលប្រើក្នុងក្បួនដោះស្រាយ CART ដើម្បីគណនា 'ភាពមិនសុទ្ធ' (Impurity) នៃទិន្នន័យ។ ក្បួននេះជ្រើសរើសការបំបែកណាដែលធ្វើឱ្យ Gini Index មានតម្លៃទាបបំផុត (មានន័យថាទិន្នន័យកាន់តែសុទ្ធ ឬដូចគ្នា)។ | ដូចជាការពិនិត្យមើលថង់គ្រាប់ឃ្លីចម្រុះពណ៌ បើសិនជាក្នុងថង់មានតែពណ៌មួយមុខគត់ នោះវាមានភាពសុទ្ធល្អ (Gini ទាប)។ |
| Holdout Method | ជាវិធីសាស្ត្រវាយតម្លៃម៉ូដែល ដោយបែងចែកសំណុំទិន្នន័យជាពីរផ្នែកដាច់ដោយឡែកពីគ្នា គឺមួយផ្នែកសម្រាប់បង្រៀន (Training set) និងមួយផ្នែកទៀតសម្រាប់ធ្វើតេស្ត (Testing set) ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវ។ | ដូចជាគ្រូឱ្យសិស្សធ្វើលំហាត់ក្នុងសៀវភៅពុម្ពដើម្បីរៀន (Training) ប៉ុន្តែពេលប្រឡង គ្រូដាក់លំហាត់ថ្មីដែលមិនធ្លាប់ធ្វើ (Testing) ដើម្បីដឹងថាសិស្សចេះពិតឬអត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖