Original Title: Decision Tree: Compatibility of Techniques for Handling Missing Values at Training and Testing
Source: doi.org/10.5013/IJSSST.a.17.34.10
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ដើមឈើសម្រេចចិត្ត៖ ភាពឆបគ្នានៃបច្ចេកទេសសម្រាប់ការដោះស្រាយតម្លៃដែលបាត់បង់នៅពេលបណ្តុះបណ្តាល និងពេលសាកល្បង

ចំណងជើងដើម៖ Decision Tree: Compatibility of Techniques for Handling Missing Values at Training and Testing

អ្នកនិពន្ធ៖ Sachin Gavankar (Datta Meghe College of Engineering, Mumbai University), Sudhirkumar Sawarkar (Datta Meghe College of Engineering, Mumbai University)

ឆ្នាំបោះពុម្ព៖ 2016

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បញ្ហាចម្បងនៅក្នុងគុណភាពទិន្នន័យសម្រាប់ការរៀនរបស់ម៉ាស៊ីន (Machine Learning) គឺវត្តមាននៃតម្លៃដែលបាត់បង់ (Missing Values) ទាំងនៅក្នុងដំណាក់កាលបណ្តុះបណ្តាល និងដំណាក់កាលសាកល្បង ដែលប៉ះពាល់យ៉ាងខ្លាំងដល់ភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការពិសោធន៍ដោយប្រើសំណុំទិន្នន័យពី UCI Repository ដើម្បីវិភាគភាពឆបគ្នារវាងវិធីសាស្ត្រផ្សេងៗក្នុងការដោះស្រាយតម្លៃដែលបាត់បង់។

ការប្រើប្រាស់ក្បួនដោះស្រាយ C4.5 (C4.5 Algorithm) និងវិធីសាស្ត្របំពេញតម្លៃ (Imputation) លើសំណុំទិន្នន័យចំនួន ៤ (Breast, Credit, Diabetes, Iris)។
ការបង្កើតទិន្នន័យបាត់បង់សិប្បនិម្មិតចំនួន ១០% ដើម្បីប្រៀបធៀបប្រសិទ្ធភាពនៃយុទ្ធសាស្ត្រ Null Value និង Lazy Decision Tree។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

យុទ្ធសាស្ត្រតម្លៃដែលស្គាល់ (Known Value Strategy) នៅពេលសាកល្បង ទទួលបានលទ្ធផលល្អបំផុតនៅពេលប្រើជាមួយបច្ចេកទេសបណ្តុះបណ្តាលផ្សេងៗ។
ក្បួនដោះស្រាយ C4.5 នៅពេលសាកល្បង មានភាពឆបគ្នាខ្ពស់ជាមួយនឹងការប្រើប្រាស់ C4.5 និង Imputation នៅពេលបណ្តុះបណ្តាល។
ការលុបចោលកំណត់ត្រាដែលមានតម្លៃបាត់បង់ (Delete Records) ត្រូវបានរកឃើញថាជាយុទ្ធសាស្ត្រដែលមិនមានប្រសិទ្ធភាពសម្រាប់ការដោះស្រាយបញ្ហានេះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Delete Records (Complete Case Analysis) ការលុបចោលកំណត់ត្រាដែលមានទិន្នន័យបាត់បង់	ងាយស្រួលអនុវត្តបំផុត និងមិនត្រូវការការគណនាស្មុគស្មាញ។	បាត់បង់ទិន្នន័យសំខាន់ៗជាច្រើន និងអាចធ្វើឱ្យលទ្ធផលលំអៀង (Bias) ប្រសិនបើទិន្នន័យមិនបាត់បង់ដោយចៃដន្យ (Not MCAR)។	ទទួលបានលទ្ធផលទាបជាងគេក្នុងការពិសោធន៍ ជាពិសេសលើសំណុំទិន្នន័យ Credit (ធ្លាក់ចុះដល់ ៦៤%)។
Imputation (Mean/Mode) ការបំពេញតម្លៃដែលបាត់ដោយប្រើមធ្យមភាគ ឬតម្លៃដែលញឹកញាប់បំផុត	រក្សាចំនួនទិន្នន័យបានពេញលេញ និងងាយស្រួលក្នុងការអនុវត្តមុនពេលបង្កើតម៉ូដែល។	អាចបង្កើតទំនាក់ទំនងមិនពិតរវាងអថេរ និងកាត់បន្ថយភាពប្រែប្រួលនៃទិន្នន័យ។	មានប្រសិទ្ធភាពល្អបង្គួរ និងមានភាពឆបគ្នា (Compatible) ជាមួយ C4.5 ក្នុងការបង្កើនភាពត្រឹមត្រូវ។
C4.5 Strategy (Probabilistic Split) យុទ្ធសាស្ត្ររបស់ C4.5 (បំបែកទិន្នន័យតាមប្រូបាប៊ីលីតេ)	ប្រើប្រាស់ព័ត៌មានដែលមានស្រាប់ទាំងអស់ដោយមិនបាច់បំពេញតម្លៃក្លែងក្លាយ។	មានភាពស្មុគស្មាញក្នុងការគណនាជាងការបំពេញតម្លៃធម្មតា។	ផ្តល់លទ្ធផលខ្ពស់ និងមានស្ថេរភាពលើសំណុំទិន្នន័យភាគច្រើន (ឧទាហរណ៍ ៧៨% លើ Breast Cancer)។
Known Value Strategy (Lazy Decision Tree) យុទ្ធសាស្ត្រតម្លៃដែលស្គាល់ (ប្រើតែអថេរដែលមានតម្លៃនៅពេលសាកល្បង)	ដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់នៅពេលសាកល្បង (Testing phase) បានយ៉ាងល្អតាមធម្មជាតិ។	ចំណាយធនធានគណនាខ្ពស់ (High Computational Cost) ព្រោះត្រូវបង្កើតដើមឈើថ្មីសម្រាប់ករណីសាកល្បងនីមួយៗ។	ជាយុទ្ធសាស្ត្រដែលមានប្រសិទ្ធភាពបំផុតនៅពេលធ្វើតេស្តសាកល្បង (Testing)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រទូទៅសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល C4.5 ប៉ុន្តែវិធីសាស្ត្រ Lazy Decision Tree ទាមទារថាមពលគណនាខ្ពស់ជាងគេ។

Software: ប្រើប្រាស់កម្មវិធី WEKA (J48 Classifier) ដែលជាកូដចំហ (Open Source) ងាយស្រួលសម្រាប់អ្នកស្រាវជ្រាវ។
Dataset: ទាមទារសំណុំទិន្នន័យដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់ (Structured Data) ពី UCI Repository។
Computing Power: កុំព្យូទ័រធម្មតាអាចដំណើរការបាន លើកលែងតែវិធីសាស្ត្រ Lazy Approach ដែលអាចត្រូវការពេលវេលាវែងជាងប្រសិនបើសំណុំទិន្នន័យធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារពី UCI (ដូចជា Breast Cancer, Credit, Diabetes) ដែលជាទិន្នន័យរបស់បរទេស។ នេះអាចជាចំណុចខ្វះខាតសម្រាប់កម្ពុជា ប្រសិនបើយើងអនុវត្តលើទិន្នន័យដែលមានលក្ខណៈពិសេសក្នុងស្រុក ដូចជាទិន្នន័យកសិកម្ម ឬសេដ្ឋកិច្ចក្រៅប្រព័ន្ធ ដែលអាចមានទម្រង់នៃការបាត់បង់ទិន្នន័យ (Missingness pattern) ខុសគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ដោយសារបញ្ហាទិន្នន័យមិនពេញលេញគឺជាបញ្ហាប្រឈមទូទៅនៅក្នុងស្ថាប័នជាច្រើន។

វិស័យមីក្រូហិរញ្ញវត្ថុ (Microfinance): ការវាយតម្លៃឥណទាន (Credit Scoring) សម្រាប់ប្រជាជននៅជនបទដែលជារឿយៗខ្វះឯកសារហិរញ្ញវត្ថុ ឬប្រវត្តិការបង់ប្រាក់មិនពេញលេញ។
សុខាភិបាលសាធារណៈ (Public Health): ការវិភាគទិន្នន័យអ្នកជំងឺនៅតាមមន្ទីរពេទ្យរដ្ឋ ដែលជារឿយៗមានការកត់ត្រាមិនគ្រប់គ្រាន់ ឬបាត់បង់ចន្លោះពេលបញ្ជូនទិន្នន័យ។
ការស្ទង់មតិសង្គម (Social Survey): ការវិភាគទិន្នន័យជំរឿន ឬការស្ទង់មតិរបស់អង្គការក្រៅរដ្ឋាភិបាល ដែលអ្នកផ្តល់សម្ភាសន៍អាចបដិសេធមិនឆ្លើយសំណួរមួយចំនួន។

ការប្រើប្រាស់វិធីសាស្ត្រ Imputation ជាមួយនឹង C4.5 គឺជាដំណោះស្រាយដែលមានប្រសិទ្ធភាព និងចំណាយតិចសម្រាប់ស្ថាប័ននៅកម្ពុជាដែលមិនទាន់មានប្រព័ន្ធប្រមូលទិន្នន័យទំនើប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ C4.5: និស្សិតគួរស្វែងយល់ពីរបៀបដែលក្បួនដោះស្រាយ C4.5 (J48) គណនា Information Gain និងរបៀបដែលវាបំបែកទិន្នន័យនៅពេលជួបតម្លៃដែលបាត់ (Missing Values)។
ការប្រើប្រាស់ឧបករណ៍ WEKA: ដំឡើងកម្មវិធី WEKA និងអនុវត្តការប្រើប្រាស់ J48 classifier។ សាកល្បងប្រើមុខងារ 'ReplaceMissingValues' filter នៅក្នុង WEKA ដើម្បីប្រៀបធៀបលទ្ធផល។
ការពិសោធន៍ជាមួយទិន្នន័យជាក់ស្តែង: ប្រមូលទិន្នន័យក្នុងស្រុកដែលមានចន្លោះខ្វះខាត (ឧទាហរណ៍ ទិន្នន័យអាកាសធាតុពីក្រសួងធនធានទឹក ឬទិន្នន័យអង្កេតសេដ្ឋកិច្ច) ហើយអនុវត្តវិធីសាស្ត្រ Imputation ប្រៀបធៀបនឹងការលុបទិន្នន័យចោល។
ការអភិវឌ្ឍន៍ប្រព័ន្ធវាយតម្លៃ: សរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Scikit-learn (IterativeImputer ឬ SimpleImputer) ដើម្បីបង្កើតបំពង់ទិន្នន័យ (Data Pipeline) ស្វ័យប្រវត្តិសម្រាប់ដោះស្រាយទិន្នន័យដែលបាត់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Imputation	ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Values) ដោយតម្លៃប៉ាន់ស្មាន ដូចជាមធ្យមភាគ (Mean) ឬតម្លៃដែលកើតឡើងញឹកញាប់បំផុត (Mode) ដើម្បីឱ្យសំណុំទិន្នន័យមានភាពពេញលេញសម្រាប់យកទៅវិភាគ ឬបណ្តុះបណ្តាលម៉ូដែល។	ដូចជាការយកឥដ្ឋថ្មីទៅដាក់ជំនួសកន្លែងដែលបាក់បែកនៅជញ្ជាំង ដើម្បីឱ្យជញ្ជាំងនោះពេញលេញឡើងវិញ។
Lazy Decision Tree	វិធីសាស្ត្រដែលមិនបង្កើតម៉ូដែលទុកជាមុន (No pre-built model) ប៉ុន្តែវាបង្កើតដើមឈើសម្រេចចិត្តនៅពេលមានទិន្នន័យថ្មីចូលមកភ្លាមៗ ដើម្បីធ្វើការទស្សន៍ទាយ ដោយប្រើតែព័ត៌មានដែលមានជាក់ស្តែងនៅពេលនោះប៉ុណ្ណោះ។	ដូចជាចុងភៅដែលមិនចំអិនម្ហូបទុកចោល តែចាប់ផ្តើមចំអិនភ្លាមៗនៅពេលមានភ្ញៀវកម្មង់ ដោយមើលតាមគ្រឿងផ្សំដែលមានជាក់ស្តែង។
Missing Completely At Random (MCAR)	ស្ថានភាពដែលទិន្នន័យបាត់បង់ដោយចៃដន្យសុទ្ធសាធ ដោយមិនមានទំនាក់ទំនងជាមួយតម្លៃនៃទិន្នន័យនោះ ឬទិន្នន័យផ្សេងទៀតឡើយ ដែលអនុញ្ញាតឱ្យអ្នកវិភាគលុបវាចោលបានដោយមិនធ្វើឱ្យលទ្ធផលលំអៀង (Bias)។	ដូចជាសំបុត្រដែលបាត់ដោយសារឡានប្រៃសណីយ៍ខូចតាមផ្លូវដោយចៃដន្យ មិនមែនដោយសារគេលាក់បាំង ឬខ្លឹមសារសំបុត្រនោះទេ។
C4.5 Strategy	ក្បួនដោះស្រាយសម្រាប់បង្កើតដើមឈើសម្រេចចិត្ត ដែលដោះស្រាយទិន្នន័យបាត់បង់ដោយបំបែកទិន្នន័យនោះទៅគ្រប់សាខាដែលអាចទៅរួច ដោយផ្តល់ទម្ងន់តាមភាគរយ (Probabilistic Split) ជំនួសឱ្យការជ្រើសរើសផ្លូវតែមួយ។	ដូចជាការបែងចែកក្រុមរុករកទៅគ្រប់ផ្លូវបំបែកទាំងអស់ ដើម្បីស្វែងរកចម្លើយ នៅពេលដែលយើងមិនដឹងច្បាស់ថាត្រូវទៅផ្លូវណា។
Expectation-Maximization (EM)	វិធីសាស្ត្រស្ថិតិដ៏ស្មុគស្មាញមួយដែលធ្វើការប៉ាន់ស្មានតម្លៃដែលបាត់ និងកែតម្រូវម៉ូដែលឆ្លាស់គ្នាម្ដងហើយម្ដងទៀត (Iterative process) រហូតដល់ទទួលបានតម្លៃដែលទំនងបំផុតសម្រាប់ទិន្នន័យដែលបាត់នោះ។	ដូចជាការទាយចម្លើយនៃល្បែងផ្គុំរូប ដោយដាក់បំណែកសាកល្បង រួចកែតម្រូវបន្តិចម្តងៗរហូតដល់រូបភាពនោះត្រឹមត្រូវ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖