Original Title: Missing Data Imputation: A Comprehensive Review
Source: doi.org/10.4236/jcc.2024.1211004
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំពេញទិន្នន័យដែលបាត់៖ ការពិនិត្យឡើងវិញដ៏ទូលំទូលាយ

ចំណងជើងដើម៖ Missing Data Imputation: A Comprehensive Review

អ្នកនិពន្ធ៖ Majed Alwateer (Taibah University, Saudi Arabia), El-Sayed Atlam (Taibah University, Saudi Arabia / Tanta University, Egypt), Mahmoud Mohammed Abd El-Raouf (Arab Academy for Science and Technology, Egypt), Osama A. Ghoneim (Tanta University, Egypt), Ibrahim Gad (Tanta University, Egypt)

ឆ្នាំបោះពុម្ព៖ 2024, Journal of Computer and Communications

វិស័យសិក្សា៖ Computer Science / Data Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទិន្នន័យដែលបាត់ (Missing Data) គឺជាបញ្ហាប្រឈមដ៏ធំមួយក្នុងការវិភាគស្ថិតិ និងការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលអាចនាំឱ្យលទ្ធផលមានភាពលម្អៀង និងកាត់បន្ថយប្រសិទ្ធភាពនៃការទស្សន៍ទាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ និងវាយតម្លៃលើបច្ចេកទេសបំពេញទិន្នន័យផ្សេងៗ ដោយបែងចែកជាវិធីសាស្ត្រកំណត់ (Deterministic), គំរូប្រូបាប៊ីលីតេ និងក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Mean/Median Imputation
ការជំនួសដោយមធ្យមភាគ ឬមេដ្យាន
ងាយស្រួលអនុវត្ត និងចំណាយពេលគណនតិចបំផុត ល្អសម្រាប់ទិន្នន័យដែលមានការបែងចែកធម្មតា (Normal Distribution)។ អាចបង្កឱ្យមានភាពលម្អៀង (Bias) ខ្ពស់ និងមិនបានគិតគូរពីទំនាក់ទំនងរវាងអថេរផ្សេងៗ ដែលធ្វើឱ្យកាត់បន្ថយភាពប្រែប្រួល (Variance) នៃទិន្នន័យ។ មានប្រសិទ្ធភាពចំពោះទិន្នន័យបាត់តិចតួច ប៉ុន្តែផ្តល់លទ្ធផលមិនល្អចំពោះទិន្នន័យស្មុគស្មាញ បើធៀបនឹងវិធីសាស្ត្រ Machine Learning។
K-Nearest Neighbors (KNN)
ការជំនួសដោយផ្អែកលើទិន្នន័យជិតខាងបំផុត (KNN)
អាចប្រើបានទាំងទិន្នន័យលេខ និងប្រភេទ (Categorical) ដោយគិតគូរពីទំនាក់ទំនងរវាងអថេរជិតខាង។ ចំណាយពេលគណនាយូរ (Computationally expensive) ចំពោះសំណុំទិន្នន័យធំ និងងាយរងផលប៉ះពាល់ដោយទិន្នន័យមិនប្រក្រតី (Outliers)។ ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងការជំនួសដោយមធ្យមភាគ ជាពិសេសនៅពេលមានទំនាក់ទំនងខ្លាំងរវាងអថេរ។
Multiple Imputation by Chained Equations (MICE)
ការជំនួសទិន្នន័យច្រើនដងតាមសមីការច្រវាក់ (MICE)
គិតគូរពីភាពមិនច្បាស់លាស់ (Uncertainty) នៃទិន្នន័យដែលបាត់ និងផ្តល់នូវការប៉ាន់ប្រមាណដែលមានស្ថេរភាពជាងមុន។ ទាមទារការសន្មតថាទិន្នន័យបាត់ដោយចៃដន្យ (MAR) និងត្រូវការធនធានគណនាច្រើនជាងវិធីសាស្ត្រសាមញ្ញ។ ជាវិធីសាស្ត្រស្តង់ដារមាស (Gold Standard) សម្រាប់ការវិភាគស្ថិតិដែលផ្តល់លទ្ធផលគួរឱ្យទុកចិត្តជាងវិធីសាស្ត្រជំនួសតែមួយដង (Single Imputation)។
Generative Adversarial Networks (GANs)
បណ្តាញសរសៃប្រសាទបង្កើតទិន្នន័យ (GANs)
មានសមត្ថភាពបង្កើតទិន្នន័យជំនួសដែលមានភាពប្រាកដនិយមខ្ពស់ និងចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear) ដ៏ស្មុគស្មាញ។ ពិបាកក្នុងការបង្វឹក (Training) ទាមទារទិន្នន័យច្រើន និងត្រូវការថាមពលកុំព្យូទ័រខ្លាំង (High computational power)។ វិធីសាស្ត្រ GAIN (ដែលផ្អែកលើ GAN) បង្ហាញប្រសិទ្ធភាពខ្ពស់បំផុតចំពោះទិន្នន័យដែលមានភាគរយនៃការបាត់ខ្ពស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថា វិធីសាស្ត្រប្រពៃណីត្រូវការធនធានតិចតួច ប៉ុន្តែវិធីសាស្ត្រ Deep Learning ទាមទារធនធានខ្ពស់ទាំងផ្នែករឹង និងទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Review Paper) ដែលប្រមូលផ្តុំលទ្ធផលពីការសិក្សាជាច្រើន (ដូចជាទិន្នន័យអាកាសធាតុ NCDC ទិន្នន័យសុខភាព និងការអប់រំ)។ សម្រាប់កម្ពុជា ការប្រុងប្រយ័ត្នគឺចាំបាច់ព្រោះយន្តការនៃការបាត់ទិន្នន័យ (Missing Mechanism) នៅកម្ពុជាអាចខុសគ្នាដោយសារកត្តាបច្ចេកវិទ្យា និងការបញ្ចូលទិន្នន័យដោយដៃដែលងាយមានកំហុស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលបានលើកឡើងគឺមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាទិន្នន័យមិនពេញលេញនៅក្នុងវិស័យសាធារណៈ និងឯកជន។

ការអនុវត្តវិធីសាស្ត្របំពេញទិន្នន័យត្រឹមត្រូវនឹងជួយឱ្យអ្នកស្រាវជ្រាវ និងអ្នកបង្កើតគោលនយោបាយនៅកម្ពុជា អាចធ្វើការសម្រេចចិត្តដោយផ្អែកលើទិន្នន័យ (Data-driven decision) ដែលមានគុណភាព និងភាពជឿជាក់ខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ ការវិភាគយន្តការនៃការបាត់ទិន្នន័យ (Identify Missing Mechanism): និស្សិតត្រូវប្រើប្រាស់ Python library ដូចជា missingno ដើម្បីមើលឃើញគំរូនៃការបាត់ទិន្នន័យ និងកំណត់ថាវាជាប្រភេទ MCAR, MAR, ឬ MNAR មុននឹងជ្រើសរើសវិធីសាស្ត្រ។
  2. ជំហានទី ២៖ ការអនុវត្តវិធីសាស្ត្រមូលដ្ឋាន (Baseline Imputation): ចាប់ផ្តើមពិសោធន៍ជាមួយ SimpleImputer នៃ scikit-learn ដោយប្រើ Mean ឬ Median ដើម្បីបង្កើតជាចំណុចគោល (Baseline) សម្រាប់ប្រៀបធៀប។
  3. ជំហានទី ៣៖ ការប្រើប្រាស់វិធីសាស្ត្រកម្រិតខ្ពស់ (Advanced Techniques): អនុវត្តវិធីសាស្ត្រ IterativeImputer (MICE) ឬ KNNImputer សម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងគ្នាខ្លាំង។ សម្រាប់ទិន្នន័យជាស៊េរីពេលវេលា (Time Series) គួរប្រើ pandas (fillna with ffill/bfill) ឬ ARIMA។
  4. ជំហានទី ៤៖ ការវាយតម្លៃម៉ូដែល (Performance Evaluation): ធ្វើការវាយតម្លៃប្រសិទ្ធភាពដោយដកទិន្នន័យមួយចំនួនចេញដោយចេតនា រួចធ្វើការបំពេញ និងវាស់វែងកំហុសដោយប្រើរង្វាស់ RMSE ឬ MAE ដើម្បីជ្រើសរើសវិធីសាស្ត្រដែលល្អបំផុតសម្រាប់ទិន្នន័យជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Imputation ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់នៅក្នុងសំណុំទិន្នន័យ (Dataset) ដោយតម្លៃប៉ាន់ស្មានដែលមានភាពសមហេតុផល ដើម្បីឱ្យទិន្នន័យពេញលេញ និងអាចយកទៅវិភាគបន្តបានដោយមិនមានកំហុស។ ដូចជាការប៉ះអាវដែលរហែកដោយប្រើបំណែកក្រណាត់ដែលមានពណ៌ និងសាច់ក្រណាត់ស្រដៀងគ្នា ដើម្បីឱ្យអាវនោះអាចប្រើប្រាស់បានវិញ។
Missing Completely at Random (MCAR) ជាប្រភេទនៃការបាត់ទិន្នន័យដែលកើតឡើងដោយចៃដន្យសុទ្ធសាធ ដោយមិនមានទំនាក់ទំនងជាមួយតម្លៃនៃទិន្នន័យខ្លួនឯង ឬទិន្នន័យផ្សេងទៀតឡើយ គឺដូចជាការចាប់ឆ្នោត។ ដូចជាសន្លឹកឯកសារមួយដែលរបូតធ្លាក់ពីសៀវភៅដោយចៃដន្យ មិនមែនដោយសារមានគេលាក់ ឬហែកចេញនោះទេ។
Missing Not at Random (MNAR) ជាការបាត់ទិន្នន័យដែលមូលហេតុនៃការបាត់គឺទាក់ទងផ្ទាល់ទៅនឹងតម្លៃពិតនៃទិន្នន័យនោះ។ ឧទាហរណ៍៖ អ្នកដែលមានប្រាក់ខែខ្ពស់ មិនព្រមផ្តល់ព័ត៌មានអំពីប្រាក់ខែរបស់ពួកគេ។ ដូចជាសិស្សដែលមិនមកប្រឡង ព្រោះពួកគេដឹងថាខ្លួនឯងមិនចេះមេរៀន (ការបាត់ខ្លួនទាក់ទងនឹងហេតុផលផ្ទាល់ខ្លួន)។
K-Nearest Neighbors (KNN) ជាក្បួនដោះស្រាយដែលស្វែងរកចំណុចទិន្នន័យផ្សេងទៀតដែលមានលក្ខណៈស្រដៀងបំផុត (ជិតខាង) នឹងទិន្នន័យដែលបាត់ រួចយកតម្លៃមធ្យម ឬតម្លៃដែលជួបញឹកញាប់របស់ពួកគេមកបំពេញកន្លែងដែលបាត់។ ដូចជាការទស្សន៍ទាយតម្លៃផ្ទះមួយ ដោយមើលទៅលើតម្លៃផ្ទះរបស់អ្នកជិតខាងដែលនៅក្បែរៗនោះ។
Multiple Imputation ជាបច្ចេកទេសស្ថិតិដែលបង្កើតសំណុំទិន្នន័យពេញលេញជាច្រើនច្បាប់ (ដោយប្រើតម្លៃប៉ាន់ស្មានផ្សេងៗគ្នាសម្រាប់កន្លែងដែលបាត់) រួចធ្វើការវិភាគរួមគ្នា ដើម្បីកាត់បន្ថយភាពលម្អៀង និងគិតគូរពីភាពមិនច្បាស់លាស់។ ដូចជាការសួរយោបល់ពីអ្នកជំនាញ ៥ នាក់ផ្សេងគ្នាអំពីចម្លើយដែលបាត់ រួចយកមធ្យមភាគនៃចម្លើយទាំងនោះមកប្រើ ដើម្បីឱ្យកាន់តែសុក្រឹត។
Generative Adversarial Networks (GANs) ជាប្រព័ន្ធបញេ្ញាសិប្បនិម្មិត (AI) ដែលមានម៉ូដែលពីរប្រកួតប្រជែងគ្នា៖ មួយព្យាយាមបង្កើតទិន្នន័យក្លែងក្លាយឱ្យដូចពិត (Generator) និងមួយទៀតព្យាយាមចាប់កំហុស (Discriminator) រហូតទាល់តែទិន្នន័យដែលបង្កើតថ្មីនោះល្អឥតខ្ចោះ។ ដូចជាអ្នកក្លែងបន្លំគំនូរម្នាក់ព្យាយាមគូរឱ្យដូចដើមបំផុត ខណៈដែលអ្នកជំនាញព្យាយាមចាប់កំហុស រហូតទាល់តែគំនូរនោះមើលទៅដូចរបស់ពិត ១០០%។
Autoencoder ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលរៀនបង្រួមទិន្នន័យ (Encode) ហើយពន្លាវាវិញ (Decode)។ ដំណើរការនេះជួយឱ្យវាចេះពីទម្រង់នៃទិន្នន័យ និងអាចបង្កើតផ្នែកដែលបាត់ឡើងវិញបាន។ ដូចជាការរៀនសង្ខេបសាច់រឿងសៀវភៅមួយក្បាល ហើយអាចសរសេរទំព័រដែលបាត់ឡើងវិញបាន ដោយផ្អែកលើការយល់ដឹងពីសាច់រឿងរួម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖