Original Title: Handling Missing Values when Applying Classification Models
Source: journal of machine learning research 8 (2007) 1625-1657
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការដោះស្រាយតម្លៃដែលបាត់បង់នៅពេលអនុវត្តគំរូចំណាត់ថ្នាក់ (Classification Models)

ចំណងជើងដើម៖ Handling Missing Values when Applying Classification Models

អ្នកនិពន្ធ៖ Maytal Saar-Tsechansky (The University of Texas at Austin), Foster Provost (New York University)

ឆ្នាំបោះពុម្ព៖ 2007, Journal of Machine Learning Research

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាជាក់លាក់ទាក់ទងនឹងការបាត់បង់តម្លៃទិន្នន័យ (Missing Values) នៅដំណាក់កាលធ្វើការទស្សន៍ទាយ (Prediction Time) ដែលខុសពីការសិក្សាភាគច្រើនដែលផ្តោតតែលើការបាត់បង់ទិន្នន័យនៅពេលបណ្តុះបណ្តាលគំរូ (Induction Time)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការប្រៀបធៀបពិសោធន៍យ៉ាងទូលំទូលាយទៅលើវិធីសាស្ត្រចំនួន ៣ និងបានណែនាំវិធីសាស្ត្រកូនកាត់ (Hybrid approaches) ដើម្បីថ្លឹងថ្លែងរវាងភាពត្រឹមត្រូវ និងតម្លៃនៃការគណនា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Reduced-Feature Models
គំរូកាត់បន្ថយលក្ខណៈ (Reduced-Feature Models)
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថេរភាព (Robust) លើគ្រប់កម្រិតនៃការទស្សន៍ទាយលក្ខណៈ (Feature Imputability)។ ទាមទារធនធានផ្ទុកទិន្នន័យ និងការគណនាខ្ពស់ ដោយសារត្រូវបង្កើតគំរូជាច្រើនសម្រាប់ករណីបាត់បង់ទិន្នន័យនីមួយៗ។ ដំណើរការល្អជាងគេលើសំណុំទិន្នន័យចំនួន ១៥ ដោយកាត់បន្ថយអត្រាខុសឆ្គងបានយ៉ាងច្រើនបើធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត។
Predictive Value Imputation (PVI)
ការបំពេញតម្លៃដោយការទស្សន៍ទាយ (PVI)
មានប្រសិទ្ធភាពខ្ពស់នៅពេលដែលលក្ខណៈទិន្នន័យ (Features) មានទំនាក់ទំនងខ្លាំងនឹងគ្នា។ ដំណើរការមិនល្អនៅពេលដែលលក្ខណៈទិន្នន័យមានទំនាក់ទំនងខ្សោយ ហើយអាចបង្កើតភាពលំអៀង (Bias) ដល់គំរូ។ ល្អជាង DBI នៅពេលដែលលក្ខណៈទិន្នន័យអាចទស្សន៍ទាយបានខ្ពស់ (High Imputability) ប៉ុន្តែនៅតែចាញ់ Reduced-Feature Models។
Distribution-based Imputation (DBI - C4.5)
ការបំពេញតម្លៃដោយផ្អែកលើការបែងចែក (DBI - វិធីសាស្ត្រ C4.5)
ជាស្តង់ដារនៅក្នុងកម្មវិធី C4.5 និងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងខ្សោយ។ បរាជ័យធ្ងន់ធ្ងរនៅពេលដែលលក្ខណៈទិន្នន័យមានទំនាក់ទំនងខ្លាំង (Redundant features) ដោយសារវាព្យាយាមបែងចែកទម្ងន់។ ដំណើរការល្អជាង PVI ក្នុងករណីដែលលក្ខណៈទិន្នន័យមិនសូវមានទំនាក់ទំនងគ្នា (Low Feature Imputability)។
Hybrid Models
គំរូកូនកាត់ (Hybrid Models)
ផ្តល់នូវតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពនៃការប្រើប្រាស់ធនធាន។ មានភាពស្មុគស្មាញក្នុងការអនុវត្តជាងវិធីសាស្ត្រ Imputation ធម្មតា ដោយត្រូវកំណត់យុទ្ធសាស្ត្រជ្រើសរើសគំរូ។ ផ្តល់លទ្ធផលល្អប្រសើរជាង Imputation សុទ្ធសាធ ទោះបីជាប្រើប្រាស់ធនធានផ្ទុកទិន្នន័យបន្ថែមបន្តិចបន្តួចក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រដែលមានប្រសិទ្ធភាពបំផុត (Reduced-Feature Models) ទាមទារការចំណាយខ្ពស់លើការផ្ទុកទិន្នន័យ (Storage) និងពេលវេលាគណនា (Computation Time) ខណៈដែលវិធីសាស្ត្រ Imputation មានតម្លៃទាបជាង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារពី UCI Machine Learning Repository និងទិន្នន័យអាជីវកម្មមួយចំនួន ដែលភាគច្រើនតំណាងឱ្យបរិបទលោកខាងលិច។ សម្រាប់កម្ពុជា លក្ខណៈនៃការបាត់បង់ទិន្នន័យ (Missingness Pattern) អាចមានភាពខុសគ្នា ដោយសារកត្តាវប្បធម៌ក្នុងការឆ្លើយសំណួរ ឬប្រព័ន្ធកត់ត្រាទិន្នន័យដែលមិនទាន់មានស្តង់ដារ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ដោយសារបញ្ហាទិន្នន័យមិនពេញលេញគឺជាឧបសគ្គចម្បងក្នុងការវិភាគទិន្នន័យនៅតាមស្ថាប័ននានា។

ការអនុវត្តវិធីសាស្ត្រ Reduced-Feature Models ឬ Hybrid នឹងជួយបង្កើនភាពជឿជាក់នៃប្រព័ន្ធសម្រេចចិត្តស្វ័យប្រវត្តិ (Decision Support Systems) នៅកម្ពុជា ដែលបច្ចុប្បន្នច្រើនតែជួបបញ្ហាដោយសារគុណភាពទិន្នន័យទាប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការសិក្សាមូលដ្ឋានគ្រឹះនៃការបាត់បង់ទិន្នន័យ: និស្សិតគួរស្វែងយល់ពីប្រភេទនៃការបាត់បង់ទិន្នន័យ (MCAR, MAR, MNAR) ដើម្បីដឹងថាពេលណាគួរប្រើវិធីសាស្ត្រណាមួយ។ ប្រើប្រាស់ឯកសារយោងពី Little & Rubin (1987)។
  2. ការពិសោធន៍ជាមួយវិធីសាស្ត្រ Imputation: អនុវត្តវិធីសាស្ត្រ Simple Imputation (Mean/Mode) និង Predictive Imputation ដោយប្រើ Python library (Scikit-learn SimpleImputer និង IterativeImputer) លើទិន្នន័យដែលមានស្រាប់។
  3. ការបង្កើតគំរូ Reduced-Feature: សាកល្បងសរសេរកូដដើម្បីបង្កើតគំរូដាច់ដោយឡែកសម្រាប់ករណីបាត់បង់ទិន្នន័យសំខាន់ៗ (ឧទាហរណ៍៖ ករណីបាត់ទិន្នន័យប្រាក់ចំណូល vs ករណីមានទិន្នន័យពេញលេញ) និងប្រៀបធៀបលទ្ធផល។
  4. ការអភិវឌ្ឍន៍យុទ្ធសាស្ត្រកូនកាត់ (Hybrid Strategy): សម្រាប់ប្រព័ន្ធធំៗ រចនាយន្តការដែលប្រើ Reduced Models សម្រាប់តែករណីបាត់បង់ទិន្នន័យដែលកើតឡើងញឹកញាប់ (Common Missing Patterns) និងប្រើ Imputation សម្រាប់ករណីកម្រ ដើម្បីសន្សំសំចៃធនធាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Reduced-feature Models ជាវិធីសាស្ត្រមួយដែលមិនព្យាយាមបំពេញតម្លៃដែលបាត់បង់នោះទេ ប៉ុន្តែផ្ទុយទៅវិញវាប្រើប្រាស់គំរូ (Model) ថ្មីមួយដែលត្រូវបានបណ្តុះបណ្តាលដោយប្រើតែលក្ខណៈ (Features) ដែលមានស្រាប់ប៉ុណ្ណោះ។ សម្រាប់រាល់ទម្រង់នៃការបាត់បង់ទិន្នន័យ វាប្រើគំរូដាច់ដោយឡែកមួយដែលសមស្របនឹងទិន្នន័យដែលនៅសល់។ ដូចជាការចម្អិនម្ហូបដោយប្រើរូបមន្តថ្មីដែលមិនត្រូវការគ្រឿងផ្សំដែលអ្នកកំពុងខ្វះ ជាជាងព្យាយាមដាក់របស់ផ្សេងជំនួស។
Predictive Value Imputation (PVI) ជាបច្ចេកទេសដែលប្រើប្រាស់គំរូស្ថិតិដាច់ដោយឡែកមួយ ដើម្បីទស្សន៍ទាយតម្លៃដែលបាត់បង់ដោយផ្អែកលើទិន្នន័យផ្សេងទៀតដែលមានក្នុងប្រព័ន្ធ។ បន្ទាប់ពីទស្សន៍ទាយបានតម្លៃហើយ វានឹងយកតម្លៃនោះទៅបំពេញកន្លែងដែលខ្វះ ហើយដំណើរការគំរូដើមដូចធម្មតា។ ដូចជាការទាយពាក្យដែលរលុបបាត់នៅក្នុងប្រយោគមួយ ដោយផ្អែកលើអត្ថន័យនៃពាក្យផ្សេងទៀតដែលនៅជុំវិញវា។
Distribution-based Imputation (DBI) ជាវិធីសាស្ត្រដែលប្រើក្នុងក្បួនដោះស្រាយ C4.5 (Decision Trees)។ ជំនួសឱ្យការជ្រើសរើសតម្លៃតែមួយដើម្បីបំពេញកន្លែងដែលបាត់ វាបំបែកទិន្នន័យនោះជាផ្នែកតូចៗ (Fractional Instances) ទៅតាមប្រូបាប៊ីលីតេនៃតម្លៃដែលអាចកើតមាន រួចគណនាលទ្ធផលចុងក្រោយដោយបូកសរុបទម្ងន់នៃផ្នែកទាំងនោះ។ ដូចជាការភ្នាល់លើសេះគ្រប់ក្បាលទាំងអស់ដោយដាក់លុយតាមសមាមាត្រនៃឱកាសឈ្នះ ព្រោះអ្នកមិនដឹងថាសេះមួយណាពិតជានឹងឈ្នះ។
Feature Imputability ជាគោលគំនិតដែលវាស់វែងថាតើលក្ខណៈ (Feature) មួយងាយស្រួលទស្សន៍ទាយបានកម្រិតណា ដោយពឹងផ្អែកលើលក្ខណៈផ្សេងទៀត។ ប្រសិនបើ Feature Imputability ខ្ពស់ មានន័យថាទិន្នន័យនោះមានទំនាក់ទំនងខ្លាំងជាមួយទិន្នន័យផ្សេងទៀត ហើយងាយស្រួលបំពេញ។ ដូចជាប្រសិនបើអ្នកដឹងថាថ្ងៃនេះជាថ្ងៃអាទិត្យ អ្នកអាចទាយបាន ១០០% ថាថ្ងៃស្អែកគឺជាថ្ងៃច័ន្ទ (នេះហៅថា Imputability ខ្ពស់)។
Missing Completely At Random (MCAR) ជាសម្មតិកម្មដែលចាត់ទុកថា ការបាត់បង់ទិន្នន័យគឺកើតឡើងដោយចៃដន្យសុទ្ធសាធ និងមិនមានទំនាក់ទំនងអ្វីទាំងអស់ទៅនឹងតម្លៃនៃទិន្នន័យខ្លួនឯង ឬទិន្នន័យផ្សេងទៀត។ ដូចជាសន្លឹកសៀវភៅមួយទំព័រដែលរហែកបាត់ដោយចៃដន្យ មិនមែនបាត់ដោយសារតែនរណាម្នាក់ហែកវាចោលព្រោះមិនចង់ឱ្យគេឃើញខ្លឹមសារនោះទេ។
Bagging (Bootstrap Aggregating) ជាបច្ចេកទេសបង្កើតគំរូច្រើន (Ensemble) ដោយប្រើសំណុំទិន្នន័យដែលជ្រើសរើសដោយចៃដន្យ (Random Sampling) រួចយកលទ្ធផលពីគំរូទាំងអស់មកបូកបញ្ចូលគ្នា (Average/Vote) ដើម្បីកាត់បន្ថយភាពលំអៀង និងបង្កើនភាពត្រឹមត្រូវ។ ដូចជាការសួរយោបល់ពីគណៈកម្មការដែលមានសមាជិកច្រើននាក់ ជាជាងជឿជាក់លើការសម្រេចចិត្តរបស់មនុស្សតែម្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖