បញ្ហា (The Problem)៖ បញ្ហាប្រឈមចម្បងគឺគំរូ Machine Learning ភាគច្រើនដំណើរការដូចជាប្រអប់ខ្មៅ (Black-box) ដែលខ្វះតម្លាភាពក្នុងការសម្រេចចិត្ត ធ្វើឱ្យគ្រូពេទ្យពិបាកក្នុងការទុកចិត្តលើលទ្ធផលរោគវិនិច្ឆ័យជំងឺបេះដូង។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌការងារមួយដែលប្រើប្រាស់ បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (XAI) ផ្សារភ្ជាប់ជាមួយគំរូ Machine Learning ដើម្បីធ្វើរោគវិនិច្ឆ័យ និងពន្យល់ពីមូលហេតុនៃលទ្ធផល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| XGBoost (Extreme Gradient Boosting) ម៉ូដែល XGBoost (ការរៀនម៉ាស៊ីនបែប Ensemble) |
មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគទិន្នន័យស្មុគស្មាញ និងផ្តល់លទ្ធផលច្បាស់លាស់ជាងគេ។ | អាចមានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ប្រសិនបើធៀបនឹងគំរូសាមញ្ញ។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩២% និងពិន្ទុ AUC-ROC ០.៩៣ (ខ្ពស់បំផុត)។ |
| LightGBM ម៉ូដែល LightGBM (Gradient Boosting ដែលមានល្បឿនលឿន) |
ដំណើរការលឿន និងមានប្រសិទ្ធភាពខ្ពស់ ជិតប្រហាក់ប្រហែលនឹង XGBoost។ | ត្រូវការទិន្នន័យច្រើនគួរសម ដើម្បីបង្ហាញប្រសិទ្ធភាពពេញលេញ។ | ទទួលបានភាពត្រឹមត្រូវ ៩១% និង AUC-ROC ០.៩២។ |
| SVM (Support Vector Machine) ម៉ូដែល SVM (ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ) |
ដំណើរការល្អចំពោះបញ្ហាចំណាត់ថ្នាក់ដែលមានវិមាត្រខ្ពស់ (High-dimensional)។ | ទទួលបានពិន្ទុ AUC-ROC ទាបជាងគេក្នុងការសិក្សានេះ ដែលបង្ហាញពីកម្រិតនៃការបែងចែកមិនសូវល្អ។ | ទទួលបានភាពត្រឹមត្រូវ ៨៥% និង AUC-ROC ០.៨៦។ |
| MLP (Multi-Layer Perceptron) ម៉ូដែល MLP (បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត) |
អាចចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear relationships) ក្នុងទិន្នន័យបានល្អ។ | មានលក្ខណៈជាប្រអប់ខ្មៅ (Black-box) ខ្លាំង ដែលទាមទារការប្រើប្រាស់ XAI ជាចាំបាច់ដើម្បីពន្យល់។ | ទទួលបានភាពត្រឹមត្រូវ ៨៧% និង AUC-ROC ០.៨៨។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ទិន្នន័យដែលមានទំហំតូច (៣០៣ ករណី) ដូច្នេះមិនទាមទារធនធានកុំព្យូទ័រធំដុំទេ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ Cleveland Dataset (សហរដ្ឋអាមេរិក) ដែលមានទំហំតូច (៣០៣ អ្នកជំងឺ) និងប្រហែលជាមិនឆ្លុះបញ្ចាំងពីលក្ខណៈជីវសាស្រ្ត ឬរបបអាហាររបស់ប្រជាជនកម្ពុជាទេ។ កត្តាដូចជាប្រភេទនៃជំងឺបេះដូងនៅក្នុងប្រទេសកម្ពុជាអាចមានភាពខុសគ្នាដោយសារកត្តាហ្សែន និងបរិស្ថាន។
វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ជាពិសេសក្នុងការបង្កើនទំនុកចិត្តរបស់គ្រូពេទ្យលើប្រព័ន្ធ AI។
ការដាក់បញ្ចូលប្រព័ន្ធ XAI នឹងជួយកាត់បន្ថយការសង្ស័យរបស់គ្រូពេទ្យមកលើបច្ចេកវិទ្យា ប៉ុន្តែចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បី പരിശឹក (Retrain) ម៉ូដែលឱ្យត្រូវនឹងបរិបទកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Explainable Artificial Intelligence (XAI) | គឺជាបណ្ដុំនៃដំណើរការនិងវិធីសាស្ត្រដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ (មនុស្ស) អាចយល់និងទុកចិត្តលើលទ្ធផលដែលបង្កើតឡើងដោយក្បួនដោះស្រាយ Machine Learning។ នៅក្នុងវិស័យសុខាភិបាល វាជួយឱ្យគ្រូពេទ្យដឹងថាហេតុអ្វីបានជា AI វិនិច្ឆ័យថាអ្នកជំងឺមានជំងឺ។ | ដូចជាសិស្សគណិតវិទ្យាដែលមិនត្រឹមតែសរសេរចម្លើយត្រូវប៉ុណ្ណោះទេ តែថែមទាំងបង្ហាញរបៀបធ្វើលំហាត់ដើម្បីឱ្យគ្រូយល់ពីវិធីគិតរបស់គាត់។ |
| Black-box systems | សំដៅលើប្រព័ន្ធ AI ឬ Machine Learning ដែលមានភាពស្មុគស្មាញខ្លាំង (ដូចជា Deep Learning) ដែលយើងអាចឃើញតែទិន្នន័យចូល និងលទ្ធផលចេញ ប៉ុន្តែមិនអាចមើលឃើញ ឬយល់ពីដំណើរការសម្រេចចិត្តខាងក្នុងរបស់វាបានទេ។ | ប្រៀបដូចជាប្រអប់វេទមន្តដែលយើងដាក់គ្រឿងផ្សំចូល ហើយទទួលបាននំខេកចេញមកវិញ ប៉ុន្តែយើងមិនដឹងថានំនោះត្រូវបានដុតយ៉ាងដូចម្តេចទេ។ |
| SHAP (SHapley Additive exPlanations) | គឺជាវិធីសាស្ត្រមួយដែលដកស្រង់ចេញពីទ្រឹស្តីហ្គេម (Game Theory) ដើម្បីគណនាថា តើលក្ខណៈនីមួយៗនៃទិន្នន័យ (ដូចជា អាយុ ឬកម្រិតកូឡេស្តេរ៉ុល) រួមចំណែកប៉ុន្មានភាគរយក្នុងការធ្វើឱ្យ AI សម្រេចចិត្តបែបនេះ។ | ដូចជាការបែងចែកឥណទាន (Credit) ទៅឱ្យកីឡាករបាល់ទាត់ម្នាក់ៗក្នុងក្រុម ដើម្បីដឹងថានរណាជាអ្នកជួយឱ្យក្រុមឈ្នះខ្លាំងជាងគេ។ |
| LIME (Local Interpretable Model-Agnostic Explanations) | គឺជាបច្ចេកទេសដែលប្រើដើម្បីពន្យល់ពីការទស្សន៍ទាយរបស់ AI សម្រាប់ករណីមួយជាក់លាក់ ដោយបង្កើតគំរូសាមញ្ញមួយនៅជុំវិញទិន្នន័យនោះ ដើម្បីបង្ហាញថាហេតុអ្វីបានជា AI ជ្រើសរើសចម្លើយនោះសម្រាប់បុគ្គលម្នាក់នោះ។ | ដូចជាការសួរគ្រូពេទ្យថា "ហេតុអ្វីបានជាអ្នកជំងឺ ម្នាក់នេះ ឈឺ?" (ការពន្យល់ជាក់លាក់) ជាជាងការសួរអំពីទ្រឹស្តីនៃជំងឺនោះជាទូទៅ។ |
| Gradient Boosting (e.g., XGBoost) | គឺជាបច្ចេកទេស Machine Learning ដែលបង្កើតគំរូទស្សន៍ទាយជាច្រើនជាបន្តបន្ទាប់គ្នា ដោយគំរូថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលគំរូមុនបានបង្កើត ដើម្បីឱ្យលទ្ធផលចុងក្រោយមានភាពត្រឹមត្រូវខ្ពស់បំផុត។ | ប្រៀបដូចជាការប្រឡងជាក្រុម ដែលសិស្សម្នាក់ៗចូលមកកែតម្រូវកំហុសរបស់សិស្សមុនៗ ដើម្បីឱ្យចម្លើយចុងក្រោយរបស់ក្រុមត្រឹមត្រូវល្អឥតខ្ចោះ។ |
| AUC-ROC (Area Under the Receiver Operating Characteristic Curve) | គឺជាមេគុណសម្រាប់វាស់វែងសមត្ថភាពរបស់គំរូក្នុងការបែងចែករវាងពីរក្រុម (ដូចជា អ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ)។ ពិន្ទុកាន់តែជិត 1 មានន័យថាគំរូពូកែបែងចែកដាច់ពីគ្នាបានល្អ។ | ដូចជាពិន្ទុដែលបញ្ជាក់ថា តើម៉ាស៊ីនរែងមួយពូកែញែកគ្រាប់ខ្សាច់ចេញពីគ្រាប់ថ្មបានល្អកម្រិតណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖