Original Title: Data Pre-Processing Technique for Enhancing Healthcare Data Quality Using Artificial Intelligence
Source: doi.org/10.32628/IJSRST52411130
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសរៀបចំទិន្នន័យជាមុនសម្រាប់ការលើកកម្ពស់គុណភាពទិន្នន័យថែទាំសុខភាពដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត

ចំណងជើងដើម៖ Data Pre-Processing Technique for Enhancing Healthcare Data Quality Using Artificial Intelligence

អ្នកនិពន្ធ៖ Arati K Kale, Department of Computer Science and Engineering, Kalinga University, Naya Raipur, Chhattisgarh, India, Dr. Dev Ras Pandey, Department of Computer Science and Engineering, Kalinga University, Naya Raipur, Chhattisgarh, India

ឆ្នាំបោះពុម្ព៖ 2024, International Journal of Scientific Research in Science and Technology

វិស័យសិក្សា៖ Health Informatics / Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ សំណុំទិន្នន័យថែទាំសុខភាព (Healthcare datasets) ជារឿយៗមានទំហំធំ មានការខូចទ្រង់ទ្រាយ បាត់បង់តម្លៃ និងគ្មានតុល្យភាព ដែលបញ្ហាទាំងអស់នេះធ្វើឱ្យថយចុះប្រសិទ្ធភាព និងភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine learning algorithms)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុន (Data pre-processing) ដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត ដើម្បីលើកកម្ពស់គុណភាពទិន្នន័យ និងកែលម្អដំណើរការចំណាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តពិតប្រាកដ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machine (SVM) + Pre-processing
ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) រួមជាមួយការរៀបចំទិន្នន័យ
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថិរភាពល្អប្រសើរ ជាពិសេសបន្ទាប់ពីការអនុវត្តបច្ចេកទេសដកចេញទិន្នន័យខុសប្រក្រតី (Outlier removal) លើទិន្នន័យច្រើនវិមាត្រ។ អាចចំណាយពេលគណនាយូរ និងទាមទារធនធានកុំព្យូទ័រច្រើនជាងក្បួនដោះស្រាយសាមញ្ញ នៅពេលសំណុំទិន្នន័យមានទំហំធំខ្លាំង។ សម្រេចបានភាពត្រឹមត្រូវ ៩៩.២៤% លើសំណុំទិន្នន័យ Dermatology និង ៩៦.០៥% លើសំណុំទិន្នន័យ Stroke ក្រោយពេលដកទិន្នន័យខុសប្រក្រតីចេញ។
Random Forest (RF) + Pre-processing
ព្រៃចៃដន្យ (Random Forest) រួមជាមួយការរៀបចំទិន្នន័យ
មានសមត្ថភាពខ្ពស់ក្នុងការទប់ទល់នឹងទិន្នន័យរំខាន (Noise) និងមានប្រសិទ្ធភាពខ្លាំងក្នុងការកសាងម៉ូដែលជាមួយទិន្នន័យដែលបានធ្វើតុល្យភាព (SMOTE)។ ម៉ូដែលដែលកសាងឡើងមានលក្ខណៈស្មុគស្មាញ (Black box) ដែលធ្វើឱ្យពិបាកក្នុងការបកស្រាយលទ្ធផលចុងក្រោយប្រាប់ដល់គ្រូពេទ្យ។ សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៨១% លើសំណុំទិន្នន័យ Dermatology និង ៩៧.៤២% លើសំណុំទិន្នន័យ Hepatitis C ក្រោយពេលធ្វើ Under-sampling។
Naïve Bayes (NB) + Pre-processing
ណាយបាយយេស (Naïve Bayes) រួមជាមួយការរៀបចំទិន្នន័យ
ដំណើរការបានលឿនបំផុត ងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលគួរសមទោះបីជាសំណុំទិន្នន័យមានទំហំតូចក៏ដោយ។ មានការសន្មតថាអថេរទាំងអស់មានឯករាជ្យភាពពីគ្នា ដែលជាទូទៅវាមិនសូវពិតប្រាកដនៅក្នុងកម្រងទិន្នន័យវេជ្ជសាស្ត្រជាក់ស្តែង។ ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៧.៩៤% លើសំណុំទិន្នន័យ Ecoli បន្ទាប់ពីការកម្ចាត់ Outlier។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែបានបញ្ជាក់ថាការក្លែងធ្វើ និងការវាយតម្លៃត្រូវបានអនុវត្តដោយប្រើប្រាស់ភាសាប្រोग्राम Java ជាមួយនឹងក្បួនដោះស្រាយម៉ាស៊ីនរៀនកម្រិតស្តង់ដារ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើសំណុំទិន្នន័យសាធារណៈពី UCI និង Kaggle ដែលភាគច្រើនប្រមូលផ្តុំពីប្រជាជននៅលោកខាងលិច ឬប្រទេសអភិវឌ្ឍន៍។ នេះជារឿងគួរឱ្យកត់សម្គាល់សម្រាប់ប្រទេសកម្ពុជា ពីព្រោះប្រវត្តិហ្សែន លក្ខខណ្ឌរស់នៅ និងអត្រាប្រេវ៉ាឡង់នៃជំងឺរបស់ប្រជាជនកម្ពុជាមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះផ្ទាល់ជាមួយសំណុំទិន្នន័យអ្នកជំងឺក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររៀបចំទិន្នន័យជាមុននេះមានភាពពាក់ព័ន្ធ និងផ្តល់អត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការដោះស្រាយបញ្ហាទិន្នន័យសុខាភិបាលនៅក្នុងប្រទេសកម្ពុជា។

សរុបមក ការចាប់យកបច្ចេកទេសសម្អាត និងរៀបចំទិន្នន័យ AI នេះ គឺជាជំហានដំបូងដ៏សំខាន់សម្រាប់ស្ថាប័នសុខាភិបាលកម្ពុជា ក្នុងការកសាងប្រព័ន្ធជំនួយការសម្រេចចិត្តវេជ្ជសាស្ត្រដែលគួរឱ្យទុកចិត្ត ទោះបីជាគុណភាពទិន្នន័យដើមនៅមានកម្រិតក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ការប្រមូលទិន្នន័យ និងការវិភាគបឋម (EDA): ចាប់ផ្តើមដោយការទាញយកសំណុំទិន្នន័យវេជ្ជសាស្ត្រពីប្រភពបើកចំហ (ឧ. Kaggle) ឬប្រើប្រាស់ទិន្នន័យអនាមិកពីមន្ទីរពេទ្យ។ ប្រើប្រាស់ Python Pandas ដើម្បីស្វែងយល់ពីរចនាសម្ព័ន្ធទិន្នន័យ និងគណនាភាគរយនៃទិន្នន័យដែលបាត់បង់ (Missing rate) ក្នុងជួរឈរនីមួយៗ។
  2. ជំហានទី២៖ អនុវត្តការបំពេញទិន្នន័យដែលបាត់បង់ដោយប្រើ KNN: ប្រសិនបើជួរឈរមានអត្រាបាត់បង់លើសពី ៤០% សូមលុបវាចោល។ សម្រាប់ទិន្នន័យដែលនៅសល់ សូមប្រើប្រាស់ Scikit-Learn KNNImputer ដើម្បីប៉ាន់ស្មាន និងបំពេញចន្លោះទិន្នន័យទាំងនោះដោយផ្អែកលើចម្ងាយ Euclidean នៃអ្នកជំងឺដែលមានលក្ខណៈស្រដៀងគ្នា។
  3. ជំហានទី៣៖ ចាប់យក និងលុបចោលទិន្នន័យខុសប្រក្រតី (Outlier Removal): ប្រើប្រាស់ក្បួនដោះស្រាយចង្កោម ដូចជា MiniSom (Self-Organizing Maps)DBSCAN ដើម្បីបែងចែកទិន្នន័យជាក្រុម។ គណនាចម្ងាយពីចំណុចទិន្នន័យនីមួយៗទៅកាន់កណ្តាលនៃចង្កោម (Centroid) ហើយលុបចោលចំណុចណាដែលស្ថិតនៅឆ្ងាយខុសពីធម្មតា (Outliers)។
  4. ជំហានទី៤៖ ធ្វើតុល្យភាពទិន្នន័យចំណាត់ថ្នាក់ (Data Balancing): ដោះស្រាយបញ្ហាសំណុំទិន្នន័យអតុល្យភាព (ឧ. អ្នកជំងឺតិចជាងអ្នកជាសះស្បើយខ្លាំង) ដោយប្រើប្រាស់បណ្ណាល័យ imbalanced-learn ជាពិសេសអនុវត្តបច្ចេកទេស SMOTE ដើម្បីបង្កើតទិន្នន័យសំយោគបន្ថែមសម្រាប់ក្រុមទិន្នន័យភាគតិច (Minority class)។
  5. ជំហានទី៥៖ បណ្តុះបណ្តាលម៉ូដែល និងប្រៀបធៀបប្រសិទ្ធភាព: បែងចែកទិន្នន័យដែលបានរៀបចំរួចជា Training និង Testing sets។ បង្កើតម៉ូដែលដោយប្រើ Support Vector Machine (SVM) និង Random Forest Classifier បន្ទាប់មកប្រៀបធៀបលទ្ធផលភាពត្រឹមត្រូវ (Accuracy), ភាពប្រាកដ (Precision), និងការរំលឹក (Recall) ដើម្បីជ្រើសរើសម៉ូដែលដែលល្អបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Data Pre-Processing ដំណើរការសម្អាត កែតម្រូវ និងរៀបចំទិន្នន័យឆៅឱ្យមានរបៀបរៀបរយ មុននឹងបញ្ជូនវាទៅឱ្យកុំព្យូទ័រវិភាគ ដើម្បីធានាថាទិន្នន័យមានគុណភាពខ្ពស់ និងជួយឱ្យម៉ូដែលម៉ាស៊ីនរៀនដំណើរការបានត្រឹមត្រូវ។ ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានស្អាតបាត មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។
Missing Value Imputation បច្ចេកទេសគណិតវិទ្យាក្នុងការប៉ាន់ស្មាន និងបំពេញចន្លោះទិន្នន័យដែលបាត់បង់ (ឧទាហរណ៍ ព័ត៌មានអ្នកជំងឺដែលមិនបានបំពេញ) ដោយប្រើប្រាស់ទិន្នន័យដទៃទៀតដែលមានស្រាប់ ដើម្បីកុំឱ្យបាត់បង់ព័ត៌មានសំខាន់ៗពេលវិភាគ។ ដូចជាការទស្សន៍ទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើអត្ថន័យនៃពាក្យនៅខាងមុខ និងខាងក្រោយវា។
Outlier Detection ការស្វែងរក និងកំណត់សម្គាល់ទិន្នន័យដែលខុសប្រក្រតី ឬនៅឆ្ងាយដាច់ពីគេខ្លាំង ដែលទិន្នន័យទាំងនោះអាចជាកំហុសក្នុងការកត់ត្រា ឬជារោគសញ្ញាជំងឺកម្រណាមួយដែលត្រូវយកចិត្តទុកដាក់។ ដូចជាការកត់សម្គាល់ឃើញសត្វទាពណ៌ខ្មៅមួយក្បាល ដែលឈរនៅកណ្តាលហ្វូងសត្វទាពណ៌សរាប់រយក្បាល។
Class Imbalance ស្ថានភាពដែលទិន្នន័យក្នុងក្រុមមួយមានចំនួនច្រើនលើសលប់ ធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍ ទិន្នន័យអ្នកជាសះស្បើយ ៩៩% និងអ្នកមានជំងឺ ១%) ដែលធ្វើឱ្យម៉ូដែលកុំព្យូទ័ររៀនបានតែម្ខាង និងទស្សន៍ទាយលម្អៀង។ ដូចជាការរៀបចំការប្រកួតទាញព្រ័ត្រដែលក្រុមម្ខាងមានមនុស្ស ១១នាក់ ឯក្រុមម្ខាងទៀតមានតែ ២នាក់ ដែលធ្វើឱ្យការប្រកួតមិនមានភាពយុត្តិធម៌។
SMOTE (Synthetic Minority Over-Sampling Technique) បច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយបង្កើតទិន្នន័យក្លែងក្លាយ (សំយោគ) ថ្មីៗសម្រាប់ក្រុមដែលមានទិន្នន័យតិច ដោយផ្អែកលើលក្ខណៈនៃទិន្នន័យពិត ដើម្បីធ្វើឱ្យក្រុមទាំងពីរមានចំនួនស្មើគ្នា។ ដូចជាការយកកូនសិស្សពូកែដែលខ្វះខាតម្នាក់ ទៅបង្កើតជាសិស្សក្លែងកាយដែលមានចរិតស្រដៀងគ្នា ដើម្បីឱ្យក្រុមសិស្សពូកែមានចំនួនស្មើនឹងក្រុមសិស្សមធ្យម។
K-Nearest Neighbor (KNN) ក្បួនដោះស្រាយដែលធ្វើចំណាត់ថ្នាក់ ឬទស្សន៍ទាយតម្លៃទិន្នន័យថ្មី ដោយស្វែងរកចំណុចទិន្នន័យចាស់ៗចំនួន K (ឧទាហរណ៍ ៥) ដែលមានលក្ខណៈស្រដៀងគ្នា (នៅក្បែរបំផុត) ទៅនឹងទិន្នន័យថ្មីនោះ។ ដូចជាការសន្និដ្ឋានពីចរិតលក្ខណៈរបស់មនុស្សម្នាក់ ដោយគ្រាន់តែមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ចំនួន ៥នាក់។
Self Organization Map (SOM) ប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលបង្រួម និងរៀបចំទិន្នន័យច្រើនវិមាត្រឱ្យទៅជាផែនទី ឬចង្កោមសាមញ្ញ ដើម្បីងាយស្រួលរកមើលភាពស្រដៀងគ្នា និងទិន្នន័យខុសប្រក្រតី។ ដូចជាការរៀបចំសៀវភៅរាប់ពាន់ក្បាលក្នុងបណ្ណាល័យ ដោយស្វ័យប្រវត្តិដាក់សៀវភៅប្រភេទដូចគ្នានៅទូក្បែរៗគ្នា។
Support Vector Machine (SVM) ក្បួនដោះស្រាយម៉ាស៊ីនរៀនដ៏មានអានុភាព ដែលព្យាយាមគូសបន្ទាត់ ឬប្លង់ព្រំដែនដ៏ល្អបំផុត ដើម្បីញែកក្រុមទិន្នន័យពីរ ឬច្រើនឱ្យដាច់ពីគ្នា ដោយរក្សាគម្លាតសុវត្ថិភាពឱ្យបានធំបំផុតតាមដែលអាចធ្វើទៅបាន។ ដូចជាការសង់របងនៅលើដី ដើម្បីខណ្ឌចែករវាងហ្វូងសត្វឆ្មា និងហ្វូងសត្វឆ្កែ ឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់ និងមានសុវត្ថិភាពបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖