Original Title: Data Pre-Processing Technique for Enhancing Healthcare Data Quality Using Artificial Intelligence
Source: doi.org/10.32628/IJSRST52411130
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសរៀបចំទិន្នន័យជាមុនសម្រាប់ការលើកកម្ពស់គុណភាពទិន្នន័យថែទាំសុខភាពដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត

ចំណងជើងដើម៖ Data Pre-Processing Technique for Enhancing Healthcare Data Quality Using Artificial Intelligence

អ្នកនិពន្ធ៖ Arati K Kale, Department of Computer Science and Engineering, Kalinga University, Naya Raipur, Chhattisgarh, India, Dr. Dev Ras Pandey, Department of Computer Science and Engineering, Kalinga University, Naya Raipur, Chhattisgarh, India

ឆ្នាំបោះពុម្ព៖ 2024, International Journal of Scientific Research in Science and Technology

វិស័យសិក្សា៖ Health Informatics / Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ សំណុំទិន្នន័យថែទាំសុខភាព (Healthcare datasets) ជារឿយៗមានទំហំធំ មានការខូចទ្រង់ទ្រាយ បាត់បង់តម្លៃ និងគ្មានតុល្យភាព ដែលបញ្ហាទាំងអស់នេះធ្វើឱ្យថយចុះប្រសិទ្ធភាព និងភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine learning algorithms)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុន (Data pre-processing) ដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត ដើម្បីលើកកម្ពស់គុណភាពទិន្នន័យ និងកែលម្អដំណើរការចំណាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តពិតប្រាកដ។

ការប៉ាន់ស្មាន និងបំពេញតម្លៃដែលបាត់បង់ដោយប្រើវិធីសាស្ត្រផ្អែកលើចម្ងាយ K-Nearest Neighbor (KNN-based Missing Value Imputation)
ការរកឃើញទិន្នន័យខុសប្រក្រតី ឬខុសពីគេដោយប្រើក្បួនដោះស្រាយផ្អែកលើការចង្កោម (Cluster-based Outlier Detection) តាមរយៈក្បួន SOM (Self Organization Map)
ការដោះស្រាយបញ្ហាទិន្នន័យអតុល្យភាព (Imbalanced data) ដោយប្រើប្រាស់បច្ចេកទេស SMOTE និងការយកគំរូឡើងវិញដោយចៃដន្យ (Random Resampling)
ការវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយប្រើក្បួនដោះស្រាយម៉ាស៊ីនរៀនចំនួន ៤ ដូចជា Naïve Bayes (NB), KNN, Random Forest (RF), និង Support Vector Machine (SVM)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់បច្ចេកទេសរៀបចំទិន្នន័យជាមុន បានបង្ហាញពីការធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវភាពត្រឹមត្រូវ (Accuracy) របស់ម៉ូដែល បើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ទិន្នន័យដែលមិនទាន់បានរៀបចំ។
បន្ទាប់ពីការដកចេញទិន្នន័យខុសប្រក្រតី (Outlier removal) ម៉ូដែល SVM ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៩៩.២៤% សម្រាប់សំណុំទិន្នន័យសើស្បែក (Dermatology) និង ៩៨.៩៧% សម្រាប់សំណុំទិន្នន័យ Ecoli។
ការអនុវត្តបច្ចេកទេសធ្វើឱ្យមានតុល្យភាពទិន្នន័យ (Over-sampling ជាមួយ SMOTE) បានជួយបង្កើនសមត្ថភាពព្យាករណ៍យ៉ាងមានប្រសិទ្ធភាព ដែលក្នុងនោះក្បួនដោះស្រាយ Random Forest ទទួលបានភាពត្រឹមត្រូវ ៩៧.០៧% និងម៉ូដែល SVM ទទួលបាន ៩៧.៨៧% លើទិន្នន័យសើស្បែក។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machine (SVM) + Pre-processing ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) រួមជាមួយការរៀបចំទិន្នន័យ	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថិរភាពល្អប្រសើរ ជាពិសេសបន្ទាប់ពីការអនុវត្តបច្ចេកទេសដកចេញទិន្នន័យខុសប្រក្រតី (Outlier removal) លើទិន្នន័យច្រើនវិមាត្រ។	អាចចំណាយពេលគណនាយូរ និងទាមទារធនធានកុំព្យូទ័រច្រើនជាងក្បួនដោះស្រាយសាមញ្ញ នៅពេលសំណុំទិន្នន័យមានទំហំធំខ្លាំង។	សម្រេចបានភាពត្រឹមត្រូវ ៩៩.២៤% លើសំណុំទិន្នន័យ Dermatology និង ៩៦.០៥% លើសំណុំទិន្នន័យ Stroke ក្រោយពេលដកទិន្នន័យខុសប្រក្រតីចេញ។
Random Forest (RF) + Pre-processing ព្រៃចៃដន្យ (Random Forest) រួមជាមួយការរៀបចំទិន្នន័យ	មានសមត្ថភាពខ្ពស់ក្នុងការទប់ទល់នឹងទិន្នន័យរំខាន (Noise) និងមានប្រសិទ្ធភាពខ្លាំងក្នុងការកសាងម៉ូដែលជាមួយទិន្នន័យដែលបានធ្វើតុល្យភាព (SMOTE)។	ម៉ូដែលដែលកសាងឡើងមានលក្ខណៈស្មុគស្មាញ (Black box) ដែលធ្វើឱ្យពិបាកក្នុងការបកស្រាយលទ្ធផលចុងក្រោយប្រាប់ដល់គ្រូពេទ្យ។	សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៨១% លើសំណុំទិន្នន័យ Dermatology និង ៩៧.៤២% លើសំណុំទិន្នន័យ Hepatitis C ក្រោយពេលធ្វើ Under-sampling។
Naïve Bayes (NB) + Pre-processing ណាយបាយយេស (Naïve Bayes) រួមជាមួយការរៀបចំទិន្នន័យ	ដំណើរការបានលឿនបំផុត ងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលគួរសមទោះបីជាសំណុំទិន្នន័យមានទំហំតូចក៏ដោយ។	មានការសន្មតថាអថេរទាំងអស់មានឯករាជ្យភាពពីគ្នា ដែលជាទូទៅវាមិនសូវពិតប្រាកដនៅក្នុងកម្រងទិន្នន័យវេជ្ជសាស្ត្រជាក់ស្តែង។	ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៧.៩៤% លើសំណុំទិន្នន័យ Ecoli បន្ទាប់ពីការកម្ចាត់ Outlier។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែបានបញ្ជាក់ថាការក្លែងធ្វើ និងការវាយតម្លៃត្រូវបានអនុវត្តដោយប្រើប្រាស់ភាសាប្រोग्राम Java ជាមួយនឹងក្បួនដោះស្រាយម៉ាស៊ីនរៀនកម្រិតស្តង់ដារ។

Software: បរិស្ថានសម្រាប់សរសេរកូដភាសា Java (Java Development Environment) និងបណ្ណាល័យសម្រាប់ដំណើរការក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Libraries)។
Dataset: សំណុំទិន្នន័យវេជ្ជសាស្ត្រពិតប្រាកដពី UCI Machine Learning Repository (ដូចជា Dermatology, Ecoli) និង Kaggle (ដូចជា Stroke, Hepatitis C) ដែលមានទំហំចាប់ពី ៣៣៦ ដល់ ៥១១០ កំណត់ត្រា។
Hardware: កុំព្យូទ័រយួរដៃ ឬកុំព្យូទ័រលើតុស្តង់ដារដែលមានស៊ីភីយូ (CPU) ធម្មតាអាចដំណើរការបាន ដោយមិនតម្រូវឱ្យមានអង្គគណនាក្រាហ្វិក (GPU) សម្រាប់ក្បួនដោះស្រាយប្រភេទនេះឡើយ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើសំណុំទិន្នន័យសាធារណៈពី UCI និង Kaggle ដែលភាគច្រើនប្រមូលផ្តុំពីប្រជាជននៅលោកខាងលិច ឬប្រទេសអភិវឌ្ឍន៍។ នេះជារឿងគួរឱ្យកត់សម្គាល់សម្រាប់ប្រទេសកម្ពុជា ពីព្រោះប្រវត្តិហ្សែន លក្ខខណ្ឌរស់នៅ និងអត្រាប្រេវ៉ាឡង់នៃជំងឺរបស់ប្រជាជនកម្ពុជាមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះផ្ទាល់ជាមួយសំណុំទិន្នន័យអ្នកជំងឺក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររៀបចំទិន្នន័យជាមុននេះមានភាពពាក់ព័ន្ធ និងផ្តល់អត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការដោះស្រាយបញ្ហាទិន្នន័យសុខាភិបាលនៅក្នុងប្រទេសកម្ពុជា។

ប្រព័ន្ធព័ត៌មានសុខាភិបាលថ្នាក់ជាតិ (National HMIS): មន្ទីរពេទ្យបង្អែក និងមណ្ឌលសុខភាពនៅតាមបណ្តាខេត្តនានាក្នុងប្រទេសកម្ពុជា ជារឿយៗជួបប្រទះបញ្ហាការបញ្ចូលទិន្នន័យមិនពេញលេញ ឬបាត់បង់តម្លៃ។ វិធីសាស្ត្រ KNN-based Imputation អាចជួយបំពេញទិន្នន័យទាំងនេះបានដោយស្វ័យប្រវត្តិ។
ការវិភាគជំងឺឆ្លង និងរ៉ាំរ៉ៃ (ឧ. ជំងឺទឹកនោមផ្អែម និងថ្លើម): ដោយសារអត្រាអ្នកកើតជំងឺទឹកនោមផ្អែម (Diabetes) និងរលាកថ្លើមមានការកើនឡើង ការប្រើប្រាស់បច្ចេកទេស SMOTE អាចជួយថ្លឹងថ្លែងទិន្នន័យរវាងអ្នកមានជំងឺ និងគ្មានជំងឺ ដើម្បីឱ្យម៉ូដែលទស្សន៍ទាយមានភាពសុក្រឹតខ្ពស់ មិនលម្អៀងទៅរកក្រុមដែលមានចំនួនច្រើន។
ការស្រាវជ្រាវនៅសាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល (UHS): និស្សិត និងអ្នកស្រាវជ្រាវវេជ្ជសាស្ត្រអាចអនុវត្តក្បួន Cluster-based Outlier Detection ដើម្បីច្រោះយកទិន្នន័យមិនប្រក្រតីចេញពីសំណាកគំរូតូចៗ (Small sample sizes) មុននឹងបោះពុម្ពផ្សាយលទ្ធផលស្រាវជ្រាវរបស់ពួកគេ។

សរុបមក ការចាប់យកបច្ចេកទេសសម្អាត និងរៀបចំទិន្នន័យ AI នេះ គឺជាជំហានដំបូងដ៏សំខាន់សម្រាប់ស្ថាប័នសុខាភិបាលកម្ពុជា ក្នុងការកសាងប្រព័ន្ធជំនួយការសម្រេចចិត្តវេជ្ជសាស្ត្រដែលគួរឱ្យទុកចិត្ត ទោះបីជាគុណភាពទិន្នន័យដើមនៅមានកម្រិតក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ការប្រមូលទិន្នន័យ និងការវិភាគបឋម (EDA): ចាប់ផ្តើមដោយការទាញយកសំណុំទិន្នន័យវេជ្ជសាស្ត្រពីប្រភពបើកចំហ (ឧ. Kaggle) ឬប្រើប្រាស់ទិន្នន័យអនាមិកពីមន្ទីរពេទ្យ។ ប្រើប្រាស់ Python Pandas ដើម្បីស្វែងយល់ពីរចនាសម្ព័ន្ធទិន្នន័យ និងគណនាភាគរយនៃទិន្នន័យដែលបាត់បង់ (Missing rate) ក្នុងជួរឈរនីមួយៗ។
ជំហានទី២៖ អនុវត្តការបំពេញទិន្នន័យដែលបាត់បង់ដោយប្រើ KNN: ប្រសិនបើជួរឈរមានអត្រាបាត់បង់លើសពី ៤០% សូមលុបវាចោល។ សម្រាប់ទិន្នន័យដែលនៅសល់ សូមប្រើប្រាស់ Scikit-Learn KNNImputer ដើម្បីប៉ាន់ស្មាន និងបំពេញចន្លោះទិន្នន័យទាំងនោះដោយផ្អែកលើចម្ងាយ Euclidean នៃអ្នកជំងឺដែលមានលក្ខណៈស្រដៀងគ្នា។
ជំហានទី៣៖ ចាប់យក និងលុបចោលទិន្នន័យខុសប្រក្រតី (Outlier Removal): ប្រើប្រាស់ក្បួនដោះស្រាយចង្កោម ដូចជា MiniSom (Self-Organizing Maps) ឬ DBSCAN ដើម្បីបែងចែកទិន្នន័យជាក្រុម។ គណនាចម្ងាយពីចំណុចទិន្នន័យនីមួយៗទៅកាន់កណ្តាលនៃចង្កោម (Centroid) ហើយលុបចោលចំណុចណាដែលស្ថិតនៅឆ្ងាយខុសពីធម្មតា (Outliers)។
ជំហានទី៤៖ ធ្វើតុល្យភាពទិន្នន័យចំណាត់ថ្នាក់ (Data Balancing): ដោះស្រាយបញ្ហាសំណុំទិន្នន័យអតុល្យភាព (ឧ. អ្នកជំងឺតិចជាងអ្នកជាសះស្បើយខ្លាំង) ដោយប្រើប្រាស់បណ្ណាល័យ imbalanced-learn ជាពិសេសអនុវត្តបច្ចេកទេស SMOTE ដើម្បីបង្កើតទិន្នន័យសំយោគបន្ថែមសម្រាប់ក្រុមទិន្នន័យភាគតិច (Minority class)។
ជំហានទី៥៖ បណ្តុះបណ្តាលម៉ូដែល និងប្រៀបធៀបប្រសិទ្ធភាព: បែងចែកទិន្នន័យដែលបានរៀបចំរួចជា Training និង Testing sets។ បង្កើតម៉ូដែលដោយប្រើ Support Vector Machine (SVM) និង Random Forest Classifier បន្ទាប់មកប្រៀបធៀបលទ្ធផលភាពត្រឹមត្រូវ (Accuracy), ភាពប្រាកដ (Precision), និងការរំលឹក (Recall) ដើម្បីជ្រើសរើសម៉ូដែលដែលល្អបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Data Pre-Processing	ដំណើរការសម្អាត កែតម្រូវ និងរៀបចំទិន្នន័យឆៅឱ្យមានរបៀបរៀបរយ មុននឹងបញ្ជូនវាទៅឱ្យកុំព្យូទ័រវិភាគ ដើម្បីធានាថាទិន្នន័យមានគុណភាពខ្ពស់ និងជួយឱ្យម៉ូដែលម៉ាស៊ីនរៀនដំណើរការបានត្រឹមត្រូវ។	ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានស្អាតបាត មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។
Missing Value Imputation	បច្ចេកទេសគណិតវិទ្យាក្នុងការប៉ាន់ស្មាន និងបំពេញចន្លោះទិន្នន័យដែលបាត់បង់ (ឧទាហរណ៍ ព័ត៌មានអ្នកជំងឺដែលមិនបានបំពេញ) ដោយប្រើប្រាស់ទិន្នន័យដទៃទៀតដែលមានស្រាប់ ដើម្បីកុំឱ្យបាត់បង់ព័ត៌មានសំខាន់ៗពេលវិភាគ។	ដូចជាការទស្សន៍ទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើអត្ថន័យនៃពាក្យនៅខាងមុខ និងខាងក្រោយវា។
Outlier Detection	ការស្វែងរក និងកំណត់សម្គាល់ទិន្នន័យដែលខុសប្រក្រតី ឬនៅឆ្ងាយដាច់ពីគេខ្លាំង ដែលទិន្នន័យទាំងនោះអាចជាកំហុសក្នុងការកត់ត្រា ឬជារោគសញ្ញាជំងឺកម្រណាមួយដែលត្រូវយកចិត្តទុកដាក់។	ដូចជាការកត់សម្គាល់ឃើញសត្វទាពណ៌ខ្មៅមួយក្បាល ដែលឈរនៅកណ្តាលហ្វូងសត្វទាពណ៌សរាប់រយក្បាល។
Class Imbalance	ស្ថានភាពដែលទិន្នន័យក្នុងក្រុមមួយមានចំនួនច្រើនលើសលប់ ធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍ ទិន្នន័យអ្នកជាសះស្បើយ ៩៩% និងអ្នកមានជំងឺ ១%) ដែលធ្វើឱ្យម៉ូដែលកុំព្យូទ័ររៀនបានតែម្ខាង និងទស្សន៍ទាយលម្អៀង។	ដូចជាការរៀបចំការប្រកួតទាញព្រ័ត្រដែលក្រុមម្ខាងមានមនុស្ស ១១នាក់ ឯក្រុមម្ខាងទៀតមានតែ ២នាក់ ដែលធ្វើឱ្យការប្រកួតមិនមានភាពយុត្តិធម៌។
SMOTE (Synthetic Minority Over-Sampling Technique)	បច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយបង្កើតទិន្នន័យក្លែងក្លាយ (សំយោគ) ថ្មីៗសម្រាប់ក្រុមដែលមានទិន្នន័យតិច ដោយផ្អែកលើលក្ខណៈនៃទិន្នន័យពិត ដើម្បីធ្វើឱ្យក្រុមទាំងពីរមានចំនួនស្មើគ្នា។	ដូចជាការយកកូនសិស្សពូកែដែលខ្វះខាតម្នាក់ ទៅបង្កើតជាសិស្សក្លែងកាយដែលមានចរិតស្រដៀងគ្នា ដើម្បីឱ្យក្រុមសិស្សពូកែមានចំនួនស្មើនឹងក្រុមសិស្សមធ្យម។
K-Nearest Neighbor (KNN)	ក្បួនដោះស្រាយដែលធ្វើចំណាត់ថ្នាក់ ឬទស្សន៍ទាយតម្លៃទិន្នន័យថ្មី ដោយស្វែងរកចំណុចទិន្នន័យចាស់ៗចំនួន K (ឧទាហរណ៍ ៥) ដែលមានលក្ខណៈស្រដៀងគ្នា (នៅក្បែរបំផុត) ទៅនឹងទិន្នន័យថ្មីនោះ។	ដូចជាការសន្និដ្ឋានពីចរិតលក្ខណៈរបស់មនុស្សម្នាក់ ដោយគ្រាន់តែមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ចំនួន ៥នាក់។
Self Organization Map (SOM)	ប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលបង្រួម និងរៀបចំទិន្នន័យច្រើនវិមាត្រឱ្យទៅជាផែនទី ឬចង្កោមសាមញ្ញ ដើម្បីងាយស្រួលរកមើលភាពស្រដៀងគ្នា និងទិន្នន័យខុសប្រក្រតី។	ដូចជាការរៀបចំសៀវភៅរាប់ពាន់ក្បាលក្នុងបណ្ណាល័យ ដោយស្វ័យប្រវត្តិដាក់សៀវភៅប្រភេទដូចគ្នានៅទូក្បែរៗគ្នា។
Support Vector Machine (SVM)	ក្បួនដោះស្រាយម៉ាស៊ីនរៀនដ៏មានអានុភាព ដែលព្យាយាមគូសបន្ទាត់ ឬប្លង់ព្រំដែនដ៏ល្អបំផុត ដើម្បីញែកក្រុមទិន្នន័យពីរ ឬច្រើនឱ្យដាច់ពីគ្នា ដោយរក្សាគម្លាតសុវត្ថិភាពឱ្យបានធំបំផុតតាមដែលអាចធ្វើទៅបាន។	ដូចជាការសង់របងនៅលើដី ដើម្បីខណ្ឌចែករវាងហ្វូងសត្វឆ្មា និងហ្វូងសត្វឆ្កែ ឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់ និងមានសុវត្ថិភាពបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖