Original Title: Handling Missing Values when Applying Classification Models
Source: journal of machine learning research 8 (2007) 1625-1657
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការដោះស្រាយតម្លៃដែលបាត់បង់នៅពេលអនុវត្តគំរូចំណាត់ថ្នាក់ (Classification Models)

ចំណងជើងដើម៖ Handling Missing Values when Applying Classification Models

អ្នកនិពន្ធ៖ Maytal Saar-Tsechansky (The University of Texas at Austin), Foster Provost (New York University)

ឆ្នាំបោះពុម្ព៖ 2007, Journal of Machine Learning Research

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាជាក់លាក់ទាក់ទងនឹងការបាត់បង់តម្លៃទិន្នន័យ (Missing Values) នៅដំណាក់កាលធ្វើការទស្សន៍ទាយ (Prediction Time) ដែលខុសពីការសិក្សាភាគច្រើនដែលផ្តោតតែលើការបាត់បង់ទិន្នន័យនៅពេលបណ្តុះបណ្តាលគំរូ (Induction Time)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការប្រៀបធៀបពិសោធន៍យ៉ាងទូលំទូលាយទៅលើវិធីសាស្ត្រចំនួន ៣ និងបានណែនាំវិធីសាស្ត្រកូនកាត់ (Hybrid approaches) ដើម្បីថ្លឹងថ្លែងរវាងភាពត្រឹមត្រូវ និងតម្លៃនៃការគណនា។

ការបំពេញតម្លៃដោយការទស្សន៍ទាយ (Predictive Value Imputation - PVI)
ការបំពេញតម្លៃដោយផ្អែកលើការបែងចែកដូចក្នុង C4.5 (Distribution-based Imputation - DBI)
គំរូដែលកាត់បន្ថយលក្ខណៈសម្បត្តិ (Reduced-Feature Models)
ការពិសោធន៍លើសំណុំទិន្នន័យស្តង់ដារចំនួន ១៥ (15 Benchmark Datasets)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្របង្កើតគំរូដែលកាត់បន្ថយលក្ខណៈ (Reduced-Feature Models) ផ្តល់លទ្ធផលល្អប្រសើរជាងវិធីសាស្ត្រ Imputation ទាំងពីរយ៉ាងដាច់ ដោយកាត់បន្ថយការធ្លាក់ចុះនៃភាពត្រឹមត្រូវបានយ៉ាងច្រើន។
ការបំពេញតម្លៃដោយការទស្សន៍ទាយ (PVI) មានប្រសិទ្ធភាពជាងនៅពេលដែលលក្ខណៈទិន្នន័យអាចទស្សន៍ទាយបានខ្ពស់ (High Imputability) ខណៈដែលវិធីសាស្ត្រ DBI ល្អជាងនៅពេលដែលលក្ខណៈទិន្នន័យមិនអាចទស្សន៍ទាយបាន។
វិធីសាស្ត្រកូនកាត់ (Hybrid Models) ដែលអ្នកនិពន្ធបានណែនាំ អាចផ្តល់នូវតុល្យភាពល្អរវាងការចំណាយលើការគណនា/ការផ្ទុកទិន្នន័យ និងភាពត្រឹមត្រូវ ដោយវាមានសមត្ថភាពល្អជាងការធ្វើ Imputation សុទ្ធសាធ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Reduced-Feature Models គំរូកាត់បន្ថយលក្ខណៈ (Reduced-Feature Models)	មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថេរភាព (Robust) លើគ្រប់កម្រិតនៃការទស្សន៍ទាយលក្ខណៈ (Feature Imputability)។	ទាមទារធនធានផ្ទុកទិន្នន័យ និងការគណនាខ្ពស់ ដោយសារត្រូវបង្កើតគំរូជាច្រើនសម្រាប់ករណីបាត់បង់ទិន្នន័យនីមួយៗ។	ដំណើរការល្អជាងគេលើសំណុំទិន្នន័យចំនួន ១៥ ដោយកាត់បន្ថយអត្រាខុសឆ្គងបានយ៉ាងច្រើនបើធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត។
Predictive Value Imputation (PVI) ការបំពេញតម្លៃដោយការទស្សន៍ទាយ (PVI)	មានប្រសិទ្ធភាពខ្ពស់នៅពេលដែលលក្ខណៈទិន្នន័យ (Features) មានទំនាក់ទំនងខ្លាំងនឹងគ្នា។	ដំណើរការមិនល្អនៅពេលដែលលក្ខណៈទិន្នន័យមានទំនាក់ទំនងខ្សោយ ហើយអាចបង្កើតភាពលំអៀង (Bias) ដល់គំរូ។	ល្អជាង DBI នៅពេលដែលលក្ខណៈទិន្នន័យអាចទស្សន៍ទាយបានខ្ពស់ (High Imputability) ប៉ុន្តែនៅតែចាញ់ Reduced-Feature Models។
Distribution-based Imputation (DBI - C4.5) ការបំពេញតម្លៃដោយផ្អែកលើការបែងចែក (DBI - វិធីសាស្ត្រ C4.5)	ជាស្តង់ដារនៅក្នុងកម្មវិធី C4.5 និងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងខ្សោយ។	បរាជ័យធ្ងន់ធ្ងរនៅពេលដែលលក្ខណៈទិន្នន័យមានទំនាក់ទំនងខ្លាំង (Redundant features) ដោយសារវាព្យាយាមបែងចែកទម្ងន់។	ដំណើរការល្អជាង PVI ក្នុងករណីដែលលក្ខណៈទិន្នន័យមិនសូវមានទំនាក់ទំនងគ្នា (Low Feature Imputability)។
Hybrid Models គំរូកូនកាត់ (Hybrid Models)	ផ្តល់នូវតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពនៃការប្រើប្រាស់ធនធាន។	មានភាពស្មុគស្មាញក្នុងការអនុវត្តជាងវិធីសាស្ត្រ Imputation ធម្មតា ដោយត្រូវកំណត់យុទ្ធសាស្ត្រជ្រើសរើសគំរូ។	ផ្តល់លទ្ធផលល្អប្រសើរជាង Imputation សុទ្ធសាធ ទោះបីជាប្រើប្រាស់ធនធានផ្ទុកទិន្នន័យបន្ថែមបន្តិចបន្តួចក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រដែលមានប្រសិទ្ធភាពបំផុត (Reduced-Feature Models) ទាមទារការចំណាយខ្ពស់លើការផ្ទុកទិន្នន័យ (Storage) និងពេលវេលាគណនា (Computation Time) ខណៈដែលវិធីសាស្ត្រ Imputation មានតម្លៃទាបជាង។

Computational Cost: ខ្ពស់សម្រាប់ Reduced-Feature Models (ត្រូវបណ្តុះបណ្តាលគំរូជាច្រើន ឬប្រើ Lazy Learning) ទាបសម្រាប់ PVI និង DBI។
Storage Space: កើនឡើងយ៉ាងខ្លាំង (Exponentially) សម្រាប់ Reduced-Feature Models ប្រសិនបើមិនប្រើវិធីសាស្ត្រ Lazy Learning ឬ Hybrid។
Software: អាចអនុវត្តបានដោយប្រើ Weka (ដូចក្នុងក្រដាសស្រាវជ្រាវ) ឬបណ្ណាល័យ Python ដូចជា Scikit-learn សម្រាប់ការអនុវត្តទំនើប។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារពី UCI Machine Learning Repository និងទិន្នន័យអាជីវកម្មមួយចំនួន ដែលភាគច្រើនតំណាងឱ្យបរិបទលោកខាងលិច។ សម្រាប់កម្ពុជា លក្ខណៈនៃការបាត់បង់ទិន្នន័យ (Missingness Pattern) អាចមានភាពខុសគ្នា ដោយសារកត្តាវប្បធម៌ក្នុងការឆ្លើយសំណួរ ឬប្រព័ន្ធកត់ត្រាទិន្នន័យដែលមិនទាន់មានស្តង់ដារ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ដោយសារបញ្ហាទិន្នន័យមិនពេញលេញគឺជាឧបសគ្គចម្បងក្នុងការវិភាគទិន្នន័យនៅតាមស្ថាប័ននានា។

វិស័យមីក្រូហិរញ្ញវត្ថុ និងធនាគារ: ការវាយតម្លៃឥណទាន (Credit Scoring) សម្រាប់អតិថិជននៅតំបន់ជនបទដែលមានប្រវត្តិហិរញ្ញវត្ថុមិនពេញលេញ ទាមទារឱ្យមានគំរូដែលមិនបោះបង់ចោលអតិថិជនគ្រាន់តែដោយសារខ្វះទិន្នន័យមួយចំនួន។
វិស័យសុខាភិបាលសាធារណៈ: ទិន្នន័យអ្នកជំងឺនៅតាមមណ្ឌលសុខភាពដាច់ស្រយាលតែងតែមានចន្លោះខ្វះខាត។ ការប្រើប្រាស់ Reduced-Feature Models អាចជួយឱ្យគ្រូពេទ្យធ្វើរោគវិនិច្ឆ័យបានត្រឹមត្រូវជាងមុន ទោះបីជាគ្មានលទ្ធផលតេស្តគ្រប់មុខក៏ដោយ។
ការស្ទង់មតិសេដ្ឋកិច្ចសង្គម: ទិន្នន័យជំរឿន ឬការស្ទង់មតិថ្នាក់ជាតិ (National Surveys) តែងតែជួបប្រទះការមិនឆ្លើយតប (Non-response) លើសំណួររសើបដូចជាប្រាក់ចំណូល ដែលវិធីសាស្ត្រ Hybrid អាចដោះស្រាយបានល្អ។

ការអនុវត្តវិធីសាស្ត្រ Reduced-Feature Models ឬ Hybrid នឹងជួយបង្កើនភាពជឿជាក់នៃប្រព័ន្ធសម្រេចចិត្តស្វ័យប្រវត្តិ (Decision Support Systems) នៅកម្ពុជា ដែលបច្ចុប្បន្នច្រើនតែជួបបញ្ហាដោយសារគុណភាពទិន្នន័យទាប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះនៃការបាត់បង់ទិន្នន័យ: និស្សិតគួរស្វែងយល់ពីប្រភេទនៃការបាត់បង់ទិន្នន័យ (MCAR, MAR, MNAR) ដើម្បីដឹងថាពេលណាគួរប្រើវិធីសាស្ត្រណាមួយ។ ប្រើប្រាស់ឯកសារយោងពី Little & Rubin (1987)។
ការពិសោធន៍ជាមួយវិធីសាស្ត្រ Imputation: អនុវត្តវិធីសាស្ត្រ Simple Imputation (Mean/Mode) និង Predictive Imputation ដោយប្រើ Python library (Scikit-learn SimpleImputer និង IterativeImputer) លើទិន្នន័យដែលមានស្រាប់។
ការបង្កើតគំរូ Reduced-Feature: សាកល្បងសរសេរកូដដើម្បីបង្កើតគំរូដាច់ដោយឡែកសម្រាប់ករណីបាត់បង់ទិន្នន័យសំខាន់ៗ (ឧទាហរណ៍៖ ករណីបាត់ទិន្នន័យប្រាក់ចំណូល vs ករណីមានទិន្នន័យពេញលេញ) និងប្រៀបធៀបលទ្ធផល។
ការអភិវឌ្ឍន៍យុទ្ធសាស្ត្រកូនកាត់ (Hybrid Strategy): សម្រាប់ប្រព័ន្ធធំៗ រចនាយន្តការដែលប្រើ Reduced Models សម្រាប់តែករណីបាត់បង់ទិន្នន័យដែលកើតឡើងញឹកញាប់ (Common Missing Patterns) និងប្រើ Imputation សម្រាប់ករណីកម្រ ដើម្បីសន្សំសំចៃធនធាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reduced-feature Models	ជាវិធីសាស្ត្រមួយដែលមិនព្យាយាមបំពេញតម្លៃដែលបាត់បង់នោះទេ ប៉ុន្តែផ្ទុយទៅវិញវាប្រើប្រាស់គំរូ (Model) ថ្មីមួយដែលត្រូវបានបណ្តុះបណ្តាលដោយប្រើតែលក្ខណៈ (Features) ដែលមានស្រាប់ប៉ុណ្ណោះ។ សម្រាប់រាល់ទម្រង់នៃការបាត់បង់ទិន្នន័យ វាប្រើគំរូដាច់ដោយឡែកមួយដែលសមស្របនឹងទិន្នន័យដែលនៅសល់។	ដូចជាការចម្អិនម្ហូបដោយប្រើរូបមន្តថ្មីដែលមិនត្រូវការគ្រឿងផ្សំដែលអ្នកកំពុងខ្វះ ជាជាងព្យាយាមដាក់របស់ផ្សេងជំនួស។
Predictive Value Imputation (PVI)	ជាបច្ចេកទេសដែលប្រើប្រាស់គំរូស្ថិតិដាច់ដោយឡែកមួយ ដើម្បីទស្សន៍ទាយតម្លៃដែលបាត់បង់ដោយផ្អែកលើទិន្នន័យផ្សេងទៀតដែលមានក្នុងប្រព័ន្ធ។ បន្ទាប់ពីទស្សន៍ទាយបានតម្លៃហើយ វានឹងយកតម្លៃនោះទៅបំពេញកន្លែងដែលខ្វះ ហើយដំណើរការគំរូដើមដូចធម្មតា។	ដូចជាការទាយពាក្យដែលរលុបបាត់នៅក្នុងប្រយោគមួយ ដោយផ្អែកលើអត្ថន័យនៃពាក្យផ្សេងទៀតដែលនៅជុំវិញវា។
Distribution-based Imputation (DBI)	ជាវិធីសាស្ត្រដែលប្រើក្នុងក្បួនដោះស្រាយ C4.5 (Decision Trees)។ ជំនួសឱ្យការជ្រើសរើសតម្លៃតែមួយដើម្បីបំពេញកន្លែងដែលបាត់ វាបំបែកទិន្នន័យនោះជាផ្នែកតូចៗ (Fractional Instances) ទៅតាមប្រូបាប៊ីលីតេនៃតម្លៃដែលអាចកើតមាន រួចគណនាលទ្ធផលចុងក្រោយដោយបូកសរុបទម្ងន់នៃផ្នែកទាំងនោះ។	ដូចជាការភ្នាល់លើសេះគ្រប់ក្បាលទាំងអស់ដោយដាក់លុយតាមសមាមាត្រនៃឱកាសឈ្នះ ព្រោះអ្នកមិនដឹងថាសេះមួយណាពិតជានឹងឈ្នះ។
Feature Imputability	ជាគោលគំនិតដែលវាស់វែងថាតើលក្ខណៈ (Feature) មួយងាយស្រួលទស្សន៍ទាយបានកម្រិតណា ដោយពឹងផ្អែកលើលក្ខណៈផ្សេងទៀត។ ប្រសិនបើ Feature Imputability ខ្ពស់ មានន័យថាទិន្នន័យនោះមានទំនាក់ទំនងខ្លាំងជាមួយទិន្នន័យផ្សេងទៀត ហើយងាយស្រួលបំពេញ។	ដូចជាប្រសិនបើអ្នកដឹងថាថ្ងៃនេះជាថ្ងៃអាទិត្យ អ្នកអាចទាយបាន ១០០% ថាថ្ងៃស្អែកគឺជាថ្ងៃច័ន្ទ (នេះហៅថា Imputability ខ្ពស់)។
Missing Completely At Random (MCAR)	ជាសម្មតិកម្មដែលចាត់ទុកថា ការបាត់បង់ទិន្នន័យគឺកើតឡើងដោយចៃដន្យសុទ្ធសាធ និងមិនមានទំនាក់ទំនងអ្វីទាំងអស់ទៅនឹងតម្លៃនៃទិន្នន័យខ្លួនឯង ឬទិន្នន័យផ្សេងទៀត។	ដូចជាសន្លឹកសៀវភៅមួយទំព័រដែលរហែកបាត់ដោយចៃដន្យ មិនមែនបាត់ដោយសារតែនរណាម្នាក់ហែកវាចោលព្រោះមិនចង់ឱ្យគេឃើញខ្លឹមសារនោះទេ។
Bagging (Bootstrap Aggregating)	ជាបច្ចេកទេសបង្កើតគំរូច្រើន (Ensemble) ដោយប្រើសំណុំទិន្នន័យដែលជ្រើសរើសដោយចៃដន្យ (Random Sampling) រួចយកលទ្ធផលពីគំរូទាំងអស់មកបូកបញ្ចូលគ្នា (Average/Vote) ដើម្បីកាត់បន្ថយភាពលំអៀង និងបង្កើនភាពត្រឹមត្រូវ។	ដូចជាការសួរយោបល់ពីគណៈកម្មការដែលមានសមាជិកច្រើននាក់ ជាជាងជឿជាក់លើការសម្រេចចិត្តរបស់មនុស្សតែម្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖