Original Title: Performance Analysis of Machine Learning Algorithms for Missing Value Imputation
Source: www.ijacsa.thesai.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគលើសមត្ថភាពនៃក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីនសម្រាប់ការបំពេញតម្លៃដែលបាត់បង់

ចំណងជើងដើម៖ Performance Analysis of Machine Learning Algorithms for Missing Value Imputation

អ្នកនិពន្ធ៖ Nadzurah Zainal Abidin (International Islamic University Malaysia), Amelia Ritahani Ismail (International Islamic University Malaysia), Nurul A. Emran (Universiti Teknikal Malaysia Melaka)

ឆ្នាំបោះពុម្ព៖ 2018, (IJACSA) International Journal of Advanced Computer Science and Applications

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ តម្លៃដែលបាត់បង់ (Missing values) គឺជាបញ្ហាទូទៅនៅក្នុងការជីកយកទិន្នន័យ (Data Mining) ដែលអាចនាំឱ្យមានការវិភាគលំអៀង និងការសន្និដ្ឋានមិនត្រឹមត្រូវ ជាពិសេសនៅក្នុងវិស័យស្រាវជ្រាវវេជ្ជសាស្ត្រ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការប្រៀបធៀបប្រសិទ្ធភាពនៃក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ចំនួនបី ដើម្បីបំពេញទិន្នន័យដែលបាត់បង់ ដោយធ្វើការពិសោធន៍លើសំណុំទិន្នន័យជាក់ស្តែងចំនួនដប់។

ក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីនចំនួន ៣ (Machine Learning Classifiers: KNN, Decision Tree, Bayesian Networks)
សំណុំទិន្នន័យវេជ្ជសាស្ត្រចំនួន ១០ (Medical Datasets) ដែលប្រមូលពីប្រភពដូចជា WHO និង UCI Machine Learning Repository
រង្វាស់វាយតម្លៃកំហុស (Evaluation Metrics) រួមមាន MAE, MSE, និង RMSE ដើម្បីផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

បណ្តាញ Bayesian (Bayesian Networks) ផ្តល់លទ្ធផលល្អបំផុតដែលមានកំហុសទាបជាងគេ ជាពិសេសសម្រាប់សំណុំទិន្នន័យតូចដែលមានការបាត់បង់ទិន្នន័យតិចជាង ២០ភាគរយ។
Decision Tree គឺជាជម្រើសល្អទីពីរ និងមានភាពសមស្របសម្រាប់សំណុំទិន្នន័យធំៗដែលមានភាគរយនៃតម្លៃបាត់បង់ខ្ពស់។
ទោះបីជា K-Nearest Neighbors (KNN) មានភាពសាមញ្ញក៏ដោយ វាចំណាយពេលគណនាច្រើន និងមានប្រសិទ្ធភាពទាបលើទិន្នន័យធំ បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រផ្សេងទៀត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Bayesian Networks បណ្តាញបេ (Bayesian Networks)	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) ដោយរក្សាទំនាក់ទំនងរវាងអថេរ និងការចែកចាយប្រូបាប៊ីលីតេរួម (Joint Probability Distribution)។	ទាមទារការគណនាស្មុគស្មាញ និងចំណាយធនធានច្រើនសម្រាប់សំណុំទិន្នន័យធំ ហើយតម្រូវឱ្យមានការបំបែកទិន្នន័យ (Discretization)។	មានកំហុសទាបបំផុត (Lowest MAE, MSE, RMSE) ក្នុងចំណោមវិធីសាស្ត្រទាំងបី ជាពិសេសលើទិន្នន័យតូចដែលមានការបាត់បង់តិចជាង ២០%។
Decision Tree ដើមឈើសម្រេចចិត្ត (Decision Tree)	មានតម្លាភាពក្នុងការធ្វើសេចក្តីសម្រេចចិត្ត និងដំណើរការបានល្អសម្រាប់សំណុំទិន្នន័យធំដែលមានភាគរយនៃតម្លៃបាត់បង់ខ្ពស់។	ចំណាយពេលយូរក្នុងការសាងសង់រចនាសម្ព័ន្ធដើមឈើ (Training time) និងអាចមានភាពលំអៀងប្រសិនបើមិនមានការគ្រប់គ្រងល្អ។	ជាជម្រើសល្អទីពីរ (Second best) និងមានស្ថេរភាពក្នុងការបំពេញទិន្នន័យសម្រាប់សំណុំទិន្នន័យធំៗ។
K-Nearest Neighbors (KNN) K-អ្នកជិតខាងដែលនៅជិតបំផុត (K-Nearest Neighbors)	ជាវិធីសាស្ត្រសាមញ្ញ និងងាយស្រួលយល់ ដោយផ្អែកលើចម្ងាយរវាងទិន្នន័យ (Euclidean distance)។	ដំណើរការយឺតខ្លាំងលើទិន្នន័យធំ ដោយសារត្រូវស្កេនទិន្នន័យទាំងមូល និងងាយរងផលប៉ះពាល់ដោយទិន្នន័យមិនប្រក្រតី (Noise/Outliers)។	មានកំហុសខ្ពស់ជាងគេ និងមិនអាចទស្សន៍ទាយតម្លៃដែលនៅក្រៅដែនកំណត់នៃទិន្នន័យដែលមានស្រាប់បានទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថាការចំណាយលើការគណនា (Computational Cost) គឺជាកត្តាសំខាន់ ដោយវិធីសាស្ត្រខ្លះត្រូវការធនធានច្រើនជាងវិធីសាស្ត្រផ្សេងទៀត។

Computational Power: KNN ទាមទារថាមពលគណនាខ្ពស់នៅពេលស្វែងរកទិន្នន័យក្នុង Dataset ធំ ខណៈដែល Bayesian Networks ទាមទារធនធានក្នុងការរៀនរចនាសម្ព័ន្ធបណ្តាញ។
Software: ត្រូវការកម្មវិធីសម្រាប់បង្កើតម៉ូដែលដូចជា Python (Scikit-learn) ឬ Weka ដើម្បីដំណើរការក្បួនដោះស្រាយទាំងនេះ។
Data Pre-processing: ត្រូវការពេលវេលាក្នុងការសម្អាតទិន្នន័យ (Data Cleaning) និងបង្កើតតម្លៃបាត់បង់សិប្បនិម្មិតដើម្បីធ្វើការពិសោធន៍។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យវេជ្ជសាស្ត្រមកពីចក្រភពអង់គ្លេស (data.gov.uk), កាណាដា, និង WHO ដែលមិនឆ្លុះបញ្ចាំងពីបរិបទសុខភាពនៅកម្ពុជា។ លក្ខណៈនៃទិន្នន័យអ្នកជំងឺ និងប្រភេទជំងឺអាចខុសគ្នាពីប្រព័ន្ធសុខាភិបាលក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងបរិបទដែលប្រព័ន្ធទិន្នន័យឌីជីថលកំពុងចាប់ផ្តើមរីកចម្រើន ប៉ុន្តែនៅមានចន្លោះខ្វះខាតច្រើន។

Public Health (សុខភាពសាធារណៈ): ក្រសួងសុខាភិបាលអាចប្រើវិធីសាស្ត្រ Bayesian ឬ Decision Tree ដើម្បីបំពេញទិន្នន័យអ្នកជំងឺដែលបាត់បង់នៅតាមមណ្ឌលសុខភាពដាច់ស្រយាល។
National Statistics (ស្ថិតិជាតិ): វិទ្យាស្ថានជាតិស្ថិតិ (NIS) អាចអនុវត្តបច្ចេកទេសនេះដើម្បីកែលម្អគុណភាពទិន្នន័យជំរឿន ឬការអង្កេតសេដ្ឋកិច្ចសង្គមដែលមិនពេញលេញ។
Agriculture (កសិកម្ម): ការបំពេញទិន្នន័យអាកាសធាតុ ឬទិន្នន័យទិន្នផលដំណាំដែលបាត់បង់ដោយសារកង្វះឧបករណ៍វាស់វែងនៅតាមខេត្តមួយចំនួន។

ការអនុវត្តក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) នឹងជួយកាត់បន្ថយភាពមិនច្បាស់លាស់ក្នុងការវិភាគទិន្នន័យ និងជួយឱ្យអ្នកធ្វើគោលនយោបាយនៅកម្ពុជាទទួលបានព័ត៌មានដែលគួរឱ្យទុកចិត្តជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យដែលបាត់បង់: ស្វែងយល់ពីប្រភេទនៃការបាត់បង់ទិន្នន័យ៖ MCAR (Missing Completely at Random), MAR (Missing at Random), និង MNAR (Missing Not at Random) ដើម្បីជ្រើសរើសវិធីសាស្ត្រត្រឹមត្រូវ។
រៀនប្រើប្រាស់ឧបករណ៍ Python libraries: អនុវត្តការសរសេរកូដដោយប្រើបណ្ណាល័យ Python ដូចជា Pandas សម្រាប់ការគ្រប់គ្រងទិន្នន័យ និង Scikit-learn សម្រាប់បង្កើតម៉ូដែល KNN និង Decision Tree។
ពិសោធន៍ជាមួយសំណុំទិន្នន័យបើកចំហ: ទាញយកទិន្នន័យពី Open Development Cambodia (ODC) ដែលមានតម្លៃបាត់បង់ ហើយសាកល្បងប្រើវិធីសាស្ត្រ Imputation ផ្សេងៗដើម្បីប្រៀបធៀបលទ្ធផល។
ការវាយតម្លៃម៉ូដែល (Model Evaluation): រៀនគណនា និងវិភាគរង្វាស់កំហុសដូចជា RMSE និង MAE ដើម្បីដឹងថាវិធីសាស្ត្រមួយណាមានប្រសិទ្ធភាពបំផុតសម្រាប់ទិន្នន័យជាក់ស្តែងរបស់អ្នក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Data Imputation	ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយតម្លៃប៉ាន់ស្មានដែលសមស្រប ដើម្បីធ្វើឱ្យសំណុំទិន្នន័យពេញលេញ និងអាចយកទៅវិភាគបានដោយមិនមានកំហុស ឬភាពលំអៀង។	ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើពាក្យផ្សេងទៀតដែលនៅជុំវិញវា ដើម្បីឱ្យប្រយោគនោះមានន័យពេញលេញ។
Bayesian Networks	ជាគំរូស្ថិតិដែលប្រើប្រូបាប៊ីលីតេ (Probability) ដើម្បីបង្ហាញពីទំនាក់ទំនងរវាងអថេរផ្សេងៗ។ វាគណនាឱកាសនៃតម្លៃដែលបាត់ ដោយផ្អែកលើចំណេះដឹងដែលមានស្រាប់ និងទំនាក់ទំនងហេតុផលរវាងទិន្នន័យ។	ដូចជាគ្រូពេទ្យដែលទាយថាអ្នកមានជំងឺអ្វី ដោយផ្អែកលើរោគសញ្ញាដែលអ្នកកំពុងមាន និងប្រវត្តិជំងឺពីមុន (ប្រើហេតុផលភ្ជាប់គ្នាជាបណ្តាញ)។
K-Nearest Neighbors (KNN)	ក្បួនដោះស្រាយដែលស្វែងរកចំណុចទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាបំផុត (ហៅថាអ្នកជិតខាង) ចំនួន 'k' ដើម្បីយកមកគណនារកតម្លៃមធ្យម ឬតម្លៃដែលដូចគ្នាសម្រាប់បំពេញចន្លោះដែលបាត់។	ដូចជាប្រសិនបើអ្នកមិនដឹងតម្លៃផ្ទះមួយ អ្នកអាចសាកសួរតម្លៃផ្ទះ ៣ ដែលនៅក្បែរនោះ ហើយយកតម្លៃមធ្យមរបស់ផ្ទះទាំងនោះមកកំណត់ជាតម្លៃផ្ទះរបស់អ្នក។
Root Mean Square Error (RMSE)	រង្វាស់ស្តង់ដារសម្រាប់វាស់កម្រិតនៃកំហុសរវាងតម្លៃដែលម៉ាស៊ីនទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ RMSE កាន់តែតូច បង្ហាញថាម៉ាស៊ីនធ្វើការកាន់តែត្រឹមត្រូវ និងមានកំហុសតិច។	ដូចជាការវាស់ចម្ងាយថាការទស្សន៍ទាយរបស់អ្នកខុសពីការពិតប៉ុន្មានម៉ែត្រ (លេខកាន់តែតូច គឺកាន់តែល្អ)។
Missing Completely at Random (MCAR)	ស្ថានភាពដែលទិន្នន័យបាត់បង់ដោយចៃដន្យសុទ្ធសាធ ដោយមិនមានការពាក់ព័ន្ធនឹងតម្លៃនៃទិន្នន័យនោះ ឬទិន្នន័យផ្សេងទៀតឡើយ ដែលធ្វើឱ្យការវិភាគមិនសូវមានភាពលំអៀង។	ដូចជាការធ្វើឱ្យកំពប់ទឹកលើឯកសារដោយអចេតនា ដែលធ្វើឱ្យអក្សរខ្លះរលុបបាត់ដោយគ្មានហេតុផលជាក់លាក់ ឬចេតនាលាក់បាំង។
Maximum Likelihood	វិធីសាស្ត្រស្ថិតិសម្រាប់ប៉ាន់ស្មានតម្លៃប៉ារ៉ាម៉ែត្រនៃគំរូមួយ ដោយស្វែងរកតម្លៃណាដែលទំនងបំផុតនឹងបង្កើតទិន្នន័យដែលយើងបានសង្កេតឃើញ។	ដូចជាការសន្និដ្ឋានថា មេឃនឹងភ្លៀង ដោយសារឃើញពពកខ្មៅ និងខ្យល់បក់ខ្លាំង (ព្រោះវាជាហេតុផលដែលទំនងបំផុតឱ្យកើតមានហេតុការណ៍នេះ)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖