Original Title: Missing Value Imputation-A Review
Source: doi.org/10.26438/ijcse/v7i4.548558
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំពេញតម្លៃដែលបាត់បង់៖ ការពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Missing Value Imputation-A Review

អ្នកនិពន្ធ៖ Dipalika Das (Department of MCA, TACT, BBSR, Odisha India), Maya Nayak (Dept. of Computer Science and Engineering, OEC, BBSR, Odisha, India), Subhendu Kumar Pani (Dept. of Computer Science and Engineering, OEC, BBSR, Odisha, India)

ឆ្នាំបោះពុម្ព៖ 2019, International Journal of Computer Sciences and Engineering

វិស័យសិក្សា៖ Computer Science / Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បញ្ហានៃតម្លៃដែលបាត់បង់ (Missing Values) នៅក្នុងសំណុំទិន្នន័យ (Data Sets) បណ្តាលឱ្យមានការថយចុះនូវភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពក្នុងការវិភាគទិន្នន័យ ដែលតម្រូវឱ្យមានបច្ចេកទេសសមស្របដើម្បីដោះស្រាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញនូវអក្សរសិល្ប៍ដែលមានស្រាប់តាមលំដាប់ឆ្នាំ (Year-wise study) ដើម្បីស្វែងយល់ពីបច្ចេកទេសបំពេញទិន្នន័យផ្សេងៗ និងប្រៀបធៀបប្រសិទ្ធភាពរបស់វា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Mean/Mode Imputation
ការជំនួសដោយតម្លៃមធ្យម ឬតម្លៃដែលញឹកញាប់បំផុត
ងាយស្រួលអនុវត្ត និងមានល្បឿនលឿនក្នុងការគណនា។ អាចបង្កើតភាពលំអៀង (Bias) ខ្ពស់ និងកាត់បន្ថយបម្រែបម្រួលនៃទិន្នន័យ ដែលធ្វើឱ្យលទ្ធផលវិភាគមិនសូវសុក្រឹត។ ជាវិធីសាស្ត្រមូលដ្ឋាន ប៉ុន្តែផ្តល់លទ្ធផលមិនល្អស្មើនឹងវិធីសាស្ត្រទំនើប ជាពិសេសនៅពេលទិន្នន័យបាត់បង់មានចំនួនច្រើន។
K-Nearest Neighbors (KNN) Imputation
ការជំនួសដោយប្រើវិធីសាស្ត្រអ្នកជិតខាងដែលនៅជិតបំផុតចំនួន K
មានភាពធន់ (Robust) និងផ្តល់សុក្រឹតភាពខ្ពស់ជាងវិធីសាស្ត្រ Mean/Mode ដោយផ្អែកលើភាពស្រដៀងគ្នានៃទិន្នន័យ។ ចំណាយពេលគណនាយូរ (Computationally expensive) សម្រាប់សំណុំទិន្នន័យធំៗ។ ត្រូវបានរកឃើញថាមានប្រសិទ្ធភាពជាង Mean/Mode និង Case Deletion នៅក្នុងការពិសោធន៍ភាគច្រើន។
Deep Learning / Neural Networks
ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ដូចជា Autoencoders)
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងស្មុគស្មាញនៅក្នុងទិន្នន័យ ជាពិសេសសម្រាប់ការទស្សន៍ទាយចរាចរណ៍ ឬទិន្នន័យដែលមានលក្ខណៈមិនលីនេអ៊ែរ។ តម្រូវឱ្យមានទិន្នន័យច្រើនសម្រាប់បង្ហាត់ និងធនធានកុំព្យូទ័រខ្លាំង។ ផ្តល់លទ្ធផលល្អប្រសើរក្នុងការកាត់បន្ថយការបាត់បង់ទិន្នន័យចរាចរណ៍ (Traffic data) និងរក្សាសុក្រឹតភាពនៃការទស្សន៍ទាយ។
Fuzzy Clustering Approaches
វិធីសាស្ត្រចង្កោមស្រពិចស្រពិល (Fuzzy C-Means)
ល្អសម្រាប់ការដោះស្រាយភាពមិនច្បាស់លាស់នៅក្នុងទិន្នន័យវេជ្ជសាស្ត្រ ឬទិន្នន័យដែលមានព្រំដែនមិនច្បាស់លាស់។ មានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ឱ្យបានត្រឹមត្រូវ។ ធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ (Classification accuracy) លើសពីវិធីសាស្ត្រស្តង់ដារ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ទេ ប៉ុន្តែបានបង្ហាញពីតម្រូវការធនធានបច្ចេកទេស និងកម្លាំងគណនា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើការពិនិត្យឡើងវិញនូវឯកសារស្រាវជ្រាវដែលភាគច្រើនប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (UCI Machine Learning Repository) និងទិន្នន័យវេជ្ជសាស្ត្រលោកខាងលិច។ នេះអាចជាចំណុចខ្វះខាតសម្រាប់កម្ពុជា ដែលទិន្នន័យជាក់ស្តែងអាចមានភាពរញ៉េរញ៉ៃជាង (Noisy) ឬមានទម្រង់នៃការបាត់បង់ទិន្នន័យខុសគ្នាដោយសារបញ្ហាបច្ចេកទេស ឬកត្តាមនុស្ស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសដែលបានរៀបរាប់នៅក្នុងឯកសារនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដែលកំពុងស្ថិតក្នុងដំណាក់កាលបរិវត្តកម្មឌីជីថល និងប្រមូលទិន្នន័យ។

ការជ្រើសរើសវិធីសាស្ត្របំពេញទិន្នន័យឱ្យបានត្រឹមត្រូវនឹងជួយឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាទទួលបានការវិភាគដែលមានគុណភាពខ្ពស់ ទោះបីជាប្រព័ន្ធប្រមូលទិន្នន័យបច្ចុប្បន្ននៅមានកម្រិតក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យដែលបាត់បង់: និស្សិតត្រូវស្វែងយល់ពីប្រភេទនៃការបាត់បង់ទិន្នន័យ (MCAR, MAR, MNAR) ដើម្បីដឹងថាគួរប្រើវិធីសាស្ត្រណា។ សូមប្រើប្រាស់បណ្ណាល័យ Pandas នៅក្នុង Python ដើម្បីវិភាគមើលគំរូនៃទិន្នន័យដែលបាត់។
  2. ការអនុវត្តវិធីសាស្ត្រមូលដ្ឋាន: សាកល្បងប្រើវិធីសាស្ត្រ SimpleImputer (Mean/Median) ពីបណ្ណាល័យ Scikit-learn លើសំណុំទិន្នន័យតូចៗ ដើម្បីមើលពីផលប៉ះពាល់នៃការបំពេញទិន្នន័យបែបនេះ។
  3. ការពិសោធន៍ជាមួយវិធីសាស្ត្រកម្រិតខ្ពស់: អនុវត្តវិធីសាស្ត្រ KNNImputer ឬ IterativeImputer (MICE) លើទិន្នន័យដែលមានភាពស្មុគស្មាញ ហើយប្រៀបធៀបប្រសិទ្ធភាពជាមួយវិធីសាស្ត្រមូលដ្ឋាន។
  4. ការវាយតម្លៃម៉ូដែល: ប្រើប្រាស់រង្វាស់ដូចជា RMSE (Root Mean Square Error) ដើម្បីវាស់វែងថាតើវិធីសាស្ត្រមួយណាផ្តល់តម្លៃបំពេញដែលជិតនឹងការពិតបំផុត ដោយបង្កើតការបាត់បង់ទិន្នន័យសិប្បនិម្មិតលើទិន្នន័យពេញលេញ។
  5. ការអនុវត្តលើទិន្នន័យជាក់ស្តែងនៅកម្ពុជា: ស្វែងរកសំណុំទិន្នន័យពី Open Development Cambodia ឬទិន្នន័យជំរឿន ហើយអនុវត្តបច្ចេកទេសទាំងនេះដើម្បីសម្អាតទិន្នន័យមុននឹងធ្វើការវិភាគ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Imputation ដំណើរការបច្ចេកទេសនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយតម្លៃដែលបានប៉ាន់ស្មានថ្មីមួយ ដោយផ្អែកលើការវិភាគនៃទិន្នន័យផ្សេងទៀតដែលមានស្រាប់ ដើម្បីឱ្យសំណុំទិន្នន័យមានភាពពេញលេញសម្រាប់ការវិភាគបន្ត។ ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើពាក្យផ្សេងទៀតដែលនៅជុំវិញវា ដើម្បីឱ្យប្រយោគនោះមានន័យពេញលេញ។
K-Nearest Neighbor (KNN) ជាអាល់កូរីតដែលប៉ាន់ស្មានតម្លៃដែលបាត់ ដោយស្វែងរកចំណុចទិន្នន័យចំនួន K ដែលមានលក្ខណៈស្រដៀងបំផុត (នៅជិតបំផុត) នឹងទិន្នន័យដែលបាត់នោះ ហើយយកមធ្យមភាគ ឬលក្ខណៈរបស់ពួកវាវាមកជំនួស។ ប្រៀបបាននឹងការសួរមនុស្ស ៥ នាក់ដែលនៅជិតផ្ទះអ្នក ដើម្បីប៉ាន់ស្មានតម្លៃផ្ទះរបស់អ្នក ដោយសន្មតថាផ្ទះនៅជិតគ្នាមានតម្លៃប្រហាក់ប្រហែលគ្នា។
Root Mean Square Error (RMSE) រង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល ដោយគណនាគម្លាតស្តង់ដារនៃកំហុសរវាងតម្លៃដែលបានទស្សន៍ទាយ (Predicted values) និងតម្លៃជាក់ស្តែង (Actual values)។ តម្លៃ RMSE កាន់តែទាប បញ្ជាក់ថាម៉ូដែលកាន់តែមានសុក្រឹតភាព។ ដូចជាការវាស់ថាតើការទស្សន៍ទាយរបស់អ្នកខុសពីការពិតប៉ុន្មានជាមធ្យម; បើលេខនេះកាន់តែតូច មានន័យថាការទាយរបស់អ្នកកាន់តែត្រឹមត្រូវ។
Fuzzy Clustering វិធីសាស្ត្របែងចែកទិន្នន័យជាក្រុម ដែលអនុញ្ញាតឱ្យទិន្នន័យមួយអាចជាសមាជិកនៃក្រុមច្រើនក្នុងពេលតែមួយ (Partial membership) ផ្ទុយពីការបែងចែកដាច់ស្រេច (Hard clustering)។ វាមានប្រយោជន៍សម្រាប់ទិន្នន័យដែលមានភាពមិនច្បាស់លាស់។ ដូចជាការចាត់ថ្នាក់ពណ៌មួយថាជា 'ពណ៌ទឹកក្រូច' ដែលមានជាតិក្រហម ៦០% និងលឿង ៤០% ជាជាងការកំណត់ថាវាជាពណ៌ក្រហម ឬលឿងដាច់ខាត។
Maximum Likelihood Estimation (MLE) វិធីសាស្ត្រស្ថិតិដើម្បីប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រនៃគំរូទិន្នន័យ ដោយជ្រើសរើសតម្លៃណាដែលធ្វើឱ្យទិន្នន័យដែលបានសង្កេតឃើញមានឱកាសកើតឡើងខ្ពស់បំផុត (Highest Probability)។ ដូចជាការសន្និដ្ឋានថា មេឃទំនងជាភ្លៀង នៅពេលអ្នកឃើញផ្លូវសើម ព្រោះវាជាហេតុផលដែលសមហេតុផលបំផុតចំពោះអ្វីដែលអ្នកកំពុងឃើញ។
Multilayer Perceptrons (MLP) ប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានស្រទាប់ច្រើន (Input, Hidden, Output) សម្រាប់រៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៅក្នុងទិន្នន័យ ដើម្បីធ្វើការទស្សន៍ទាយ ឬបំពេញតម្លៃ។ ប្រៀបដូចជាប្រព័ន្ធខួរក្បាលសិប្បនិម្មិតដែលមានស្រទាប់សម្រេចចិត្តជាច្រើនដំណាក់កាល ដើម្បីដោះស្រាយបញ្ហាដែលស្មុគស្មាញ។
Genetic Algorithm វិធីសាស្ត្រដោះស្រាយបញ្ហាដែលយកគំរូតាមដំណើរការនៃការវិវត្តន៍ធម្មជាតិ (Natural Selection) ដោយបង្កើត ចម្រាញ់ និងផ្លាស់ប្តូរដំណោះស្រាយជាច្រើនជំនាន់ ដើម្បីស្វែងរកដំណោះស្រាយដែលល្អបំផុត (Optimization)។ ដូចជាការបង្កាត់ពូជដំណាំ ដើម្បីទទួលបានគ្រាប់ពូជដែលល្អបំផុតតាមរយៈការជ្រើសរើសពូជដែលខ្លាំងជាងគេពីមួយជំនាន់ទៅមួយជំនាន់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖