បញ្ហា (The Problem)៖ សំណុំទិន្នន័យថែទាំសុខភាព (Healthcare datasets) ជារឿយៗមានទំហំធំ មានការខូចទ្រង់ទ្រាយ បាត់បង់តម្លៃ និងគ្មានតុល្យភាព ដែលបញ្ហាទាំងអស់នេះធ្វើឱ្យថយចុះប្រសិទ្ធភាព និងភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine learning algorithms)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុន (Data pre-processing) ដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត ដើម្បីលើកកម្ពស់គុណភាពទិន្នន័យ និងកែលម្អដំណើរការចំណាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តពិតប្រាកដ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machine (SVM) + Pre-processing ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) រួមជាមួយការរៀបចំទិន្នន័យ |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថិរភាពល្អប្រសើរ ជាពិសេសបន្ទាប់ពីការអនុវត្តបច្ចេកទេសដកចេញទិន្នន័យខុសប្រក្រតី (Outlier removal) លើទិន្នន័យច្រើនវិមាត្រ។ | អាចចំណាយពេលគណនាយូរ និងទាមទារធនធានកុំព្យូទ័រច្រើនជាងក្បួនដោះស្រាយសាមញ្ញ នៅពេលសំណុំទិន្នន័យមានទំហំធំខ្លាំង។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៩.២៤% លើសំណុំទិន្នន័យ Dermatology និង ៩៦.០៥% លើសំណុំទិន្នន័យ Stroke ក្រោយពេលដកទិន្នន័យខុសប្រក្រតីចេញ។ |
| Random Forest (RF) + Pre-processing ព្រៃចៃដន្យ (Random Forest) រួមជាមួយការរៀបចំទិន្នន័យ |
មានសមត្ថភាពខ្ពស់ក្នុងការទប់ទល់នឹងទិន្នន័យរំខាន (Noise) និងមានប្រសិទ្ធភាពខ្លាំងក្នុងការកសាងម៉ូដែលជាមួយទិន្នន័យដែលបានធ្វើតុល្យភាព (SMOTE)។ | ម៉ូដែលដែលកសាងឡើងមានលក្ខណៈស្មុគស្មាញ (Black box) ដែលធ្វើឱ្យពិបាកក្នុងការបកស្រាយលទ្ធផលចុងក្រោយប្រាប់ដល់គ្រូពេទ្យ។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៨១% លើសំណុំទិន្នន័យ Dermatology និង ៩៧.៤២% លើសំណុំទិន្នន័យ Hepatitis C ក្រោយពេលធ្វើ Under-sampling។ |
| Naïve Bayes (NB) + Pre-processing ណាយបាយយេស (Naïve Bayes) រួមជាមួយការរៀបចំទិន្នន័យ |
ដំណើរការបានលឿនបំផុត ងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលគួរសមទោះបីជាសំណុំទិន្នន័យមានទំហំតូចក៏ដោយ។ | មានការសន្មតថាអថេរទាំងអស់មានឯករាជ្យភាពពីគ្នា ដែលជាទូទៅវាមិនសូវពិតប្រាកដនៅក្នុងកម្រងទិន្នន័យវេជ្ជសាស្ត្រជាក់ស្តែង។ | ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៧.៩៤% លើសំណុំទិន្នន័យ Ecoli បន្ទាប់ពីការកម្ចាត់ Outlier។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែបានបញ្ជាក់ថាការក្លែងធ្វើ និងការវាយតម្លៃត្រូវបានអនុវត្តដោយប្រើប្រាស់ភាសាប្រोग्राम Java ជាមួយនឹងក្បួនដោះស្រាយម៉ាស៊ីនរៀនកម្រិតស្តង់ដារ។
ការសិក្សានេះផ្អែកលើសំណុំទិន្នន័យសាធារណៈពី UCI និង Kaggle ដែលភាគច្រើនប្រមូលផ្តុំពីប្រជាជននៅលោកខាងលិច ឬប្រទេសអភិវឌ្ឍន៍។ នេះជារឿងគួរឱ្យកត់សម្គាល់សម្រាប់ប្រទេសកម្ពុជា ពីព្រោះប្រវត្តិហ្សែន លក្ខខណ្ឌរស់នៅ និងអត្រាប្រេវ៉ាឡង់នៃជំងឺរបស់ប្រជាជនកម្ពុជាមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះផ្ទាល់ជាមួយសំណុំទិន្នន័យអ្នកជំងឺក្នុងស្រុក។
វិធីសាស្ត្ររៀបចំទិន្នន័យជាមុននេះមានភាពពាក់ព័ន្ធ និងផ្តល់អត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការដោះស្រាយបញ្ហាទិន្នន័យសុខាភិបាលនៅក្នុងប្រទេសកម្ពុជា។
សរុបមក ការចាប់យកបច្ចេកទេសសម្អាត និងរៀបចំទិន្នន័យ AI នេះ គឺជាជំហានដំបូងដ៏សំខាន់សម្រាប់ស្ថាប័នសុខាភិបាលកម្ពុជា ក្នុងការកសាងប្រព័ន្ធជំនួយការសម្រេចចិត្តវេជ្ជសាស្ត្រដែលគួរឱ្យទុកចិត្ត ទោះបីជាគុណភាពទិន្នន័យដើមនៅមានកម្រិតក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Data Pre-Processing | ដំណើរការសម្អាត កែតម្រូវ និងរៀបចំទិន្នន័យឆៅឱ្យមានរបៀបរៀបរយ មុននឹងបញ្ជូនវាទៅឱ្យកុំព្យូទ័រវិភាគ ដើម្បីធានាថាទិន្នន័យមានគុណភាពខ្ពស់ និងជួយឱ្យម៉ូដែលម៉ាស៊ីនរៀនដំណើរការបានត្រឹមត្រូវ។ | ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានស្អាតបាត មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។ |
| Missing Value Imputation | បច្ចេកទេសគណិតវិទ្យាក្នុងការប៉ាន់ស្មាន និងបំពេញចន្លោះទិន្នន័យដែលបាត់បង់ (ឧទាហរណ៍ ព័ត៌មានអ្នកជំងឺដែលមិនបានបំពេញ) ដោយប្រើប្រាស់ទិន្នន័យដទៃទៀតដែលមានស្រាប់ ដើម្បីកុំឱ្យបាត់បង់ព័ត៌មានសំខាន់ៗពេលវិភាគ។ | ដូចជាការទស្សន៍ទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើអត្ថន័យនៃពាក្យនៅខាងមុខ និងខាងក្រោយវា។ |
| Outlier Detection | ការស្វែងរក និងកំណត់សម្គាល់ទិន្នន័យដែលខុសប្រក្រតី ឬនៅឆ្ងាយដាច់ពីគេខ្លាំង ដែលទិន្នន័យទាំងនោះអាចជាកំហុសក្នុងការកត់ត្រា ឬជារោគសញ្ញាជំងឺកម្រណាមួយដែលត្រូវយកចិត្តទុកដាក់។ | ដូចជាការកត់សម្គាល់ឃើញសត្វទាពណ៌ខ្មៅមួយក្បាល ដែលឈរនៅកណ្តាលហ្វូងសត្វទាពណ៌សរាប់រយក្បាល។ |
| Class Imbalance | ស្ថានភាពដែលទិន្នន័យក្នុងក្រុមមួយមានចំនួនច្រើនលើសលប់ ធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍ ទិន្នន័យអ្នកជាសះស្បើយ ៩៩% និងអ្នកមានជំងឺ ១%) ដែលធ្វើឱ្យម៉ូដែលកុំព្យូទ័ររៀនបានតែម្ខាង និងទស្សន៍ទាយលម្អៀង។ | ដូចជាការរៀបចំការប្រកួតទាញព្រ័ត្រដែលក្រុមម្ខាងមានមនុស្ស ១១នាក់ ឯក្រុមម្ខាងទៀតមានតែ ២នាក់ ដែលធ្វើឱ្យការប្រកួតមិនមានភាពយុត្តិធម៌។ |
| SMOTE (Synthetic Minority Over-Sampling Technique) | បច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយបង្កើតទិន្នន័យក្លែងក្លាយ (សំយោគ) ថ្មីៗសម្រាប់ក្រុមដែលមានទិន្នន័យតិច ដោយផ្អែកលើលក្ខណៈនៃទិន្នន័យពិត ដើម្បីធ្វើឱ្យក្រុមទាំងពីរមានចំនួនស្មើគ្នា។ | ដូចជាការយកកូនសិស្សពូកែដែលខ្វះខាតម្នាក់ ទៅបង្កើតជាសិស្សក្លែងកាយដែលមានចរិតស្រដៀងគ្នា ដើម្បីឱ្យក្រុមសិស្សពូកែមានចំនួនស្មើនឹងក្រុមសិស្សមធ្យម។ |
| K-Nearest Neighbor (KNN) | ក្បួនដោះស្រាយដែលធ្វើចំណាត់ថ្នាក់ ឬទស្សន៍ទាយតម្លៃទិន្នន័យថ្មី ដោយស្វែងរកចំណុចទិន្នន័យចាស់ៗចំនួន K (ឧទាហរណ៍ ៥) ដែលមានលក្ខណៈស្រដៀងគ្នា (នៅក្បែរបំផុត) ទៅនឹងទិន្នន័យថ្មីនោះ។ | ដូចជាការសន្និដ្ឋានពីចរិតលក្ខណៈរបស់មនុស្សម្នាក់ ដោយគ្រាន់តែមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ចំនួន ៥នាក់។ |
| Self Organization Map (SOM) | ប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលបង្រួម និងរៀបចំទិន្នន័យច្រើនវិមាត្រឱ្យទៅជាផែនទី ឬចង្កោមសាមញ្ញ ដើម្បីងាយស្រួលរកមើលភាពស្រដៀងគ្នា និងទិន្នន័យខុសប្រក្រតី។ | ដូចជាការរៀបចំសៀវភៅរាប់ពាន់ក្បាលក្នុងបណ្ណាល័យ ដោយស្វ័យប្រវត្តិដាក់សៀវភៅប្រភេទដូចគ្នានៅទូក្បែរៗគ្នា។ |
| Support Vector Machine (SVM) | ក្បួនដោះស្រាយម៉ាស៊ីនរៀនដ៏មានអានុភាព ដែលព្យាយាមគូសបន្ទាត់ ឬប្លង់ព្រំដែនដ៏ល្អបំផុត ដើម្បីញែកក្រុមទិន្នន័យពីរ ឬច្រើនឱ្យដាច់ពីគ្នា ដោយរក្សាគម្លាតសុវត្ថិភាពឱ្យបានធំបំផុតតាមដែលអាចធ្វើទៅបាន។ | ដូចជាការសង់របងនៅលើដី ដើម្បីខណ្ឌចែករវាងហ្វូងសត្វឆ្មា និងហ្វូងសត្វឆ្កែ ឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់ និងមានសុវត្ថិភាពបំផុត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖