Original Title: An Explainable Artificial Intelligence (XAI) Methodology for Heart Disease Classification
Source: doi.org/10.47191/ijcsrr/V8-i2-28
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (XAI) សម្រាប់ការធ្វើចំណាត់ថ្នាក់ជំងឺបេះដូង

ចំណងជើងដើម៖ An Explainable Artificial Intelligence (XAI) Methodology for Heart Disease Classification

អ្នកនិពន្ធ៖ Omar Mahmood Yaseen (Ministry of Higher Education and Scientific Research, Iraq), Mohanad Mohammed Rashid (Northern Technical University, Iraq)

ឆ្នាំបោះពុម្ព៖ 2025 (International Journal of Current Science Research and Review)

វិស័យសិក្សា៖ Health Informatics / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បញ្ហាប្រឈមចម្បងគឺគំរូ Machine Learning ភាគច្រើនដំណើរការដូចជាប្រអប់ខ្មៅ (Black-box) ដែលខ្វះតម្លាភាពក្នុងការសម្រេចចិត្ត ធ្វើឱ្យគ្រូពេទ្យពិបាកក្នុងការទុកចិត្តលើលទ្ធផលរោគវិនិច្ឆ័យជំងឺបេះដូង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌការងារមួយដែលប្រើប្រាស់ បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (XAI) ផ្សារភ្ជាប់ជាមួយគំរូ Machine Learning ដើម្បីធ្វើរោគវិនិច្ឆ័យ និងពន្យល់ពីមូលហេតុនៃលទ្ធផល។

ការប្រើប្រាស់ទិន្នន័យ Cleveland Dataset ពី UCI ដែលមានកំណត់ត្រាអ្នកជំងឺចំនួន ៣០៣ នាក់។
ការវាយតម្លៃគំរូ Machine Learning ចំនួន ៥ រួមមាន SVM, Gradient Boosting, XGBoost, MLP និង LightGBM។
ការអនុវត្តបច្ចេកទេស XAI គឺ SHAP និង LIME ដើម្បីបកស្រាយលទ្ធផលព្យាករណ៍ឱ្យច្បាស់លាស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ XGBoost ទទួលបានលទ្ធផលល្អបំផុតដោយមានភាពត្រឹមត្រូវ (Accuracy) ៩២% និងពិន្ទុ AUC-ROC ០.៩៣។
កត្តាសំខាន់ៗបំផុតដែលជះឥទ្ធិពលដល់ការកើតជំងឺបេះដូងរួមមាន ប្រភេទនៃការឈឺទ្រូង (Chest Pain Type), ST Depression (Oldpeak) និង Thalassemia។
ការប្រើប្រាស់ SHAP និង LIME បានជួយបង្កើនតម្លាភាព ដោយបង្ហាញយ៉ាងច្បាស់ពីរបៀបដែលគំរូធ្វើការសម្រេចចិត្តលើអ្នកជំងឺម្នាក់ៗ ដែលជួយឱ្យគ្រូពេទ្យកាន់តែមានទំនុកចិត្ត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
XGBoost (Extreme Gradient Boosting) ម៉ូដែល XGBoost (ការរៀនម៉ាស៊ីនបែប Ensemble)	មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគទិន្នន័យស្មុគស្មាញ និងផ្តល់លទ្ធផលច្បាស់លាស់ជាងគេ។	អាចមានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ប្រសិនបើធៀបនឹងគំរូសាមញ្ញ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩២% និងពិន្ទុ AUC-ROC ០.៩៣ (ខ្ពស់បំផុត)។
LightGBM ម៉ូដែល LightGBM (Gradient Boosting ដែលមានល្បឿនលឿន)	ដំណើរការលឿន និងមានប្រសិទ្ធភាពខ្ពស់ ជិតប្រហាក់ប្រហែលនឹង XGBoost។	ត្រូវការទិន្នន័យច្រើនគួរសម ដើម្បីបង្ហាញប្រសិទ្ធភាពពេញលេញ។	ទទួលបានភាពត្រឹមត្រូវ ៩១% និង AUC-ROC ០.៩២។
SVM (Support Vector Machine) ម៉ូដែល SVM (ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ)	ដំណើរការល្អចំពោះបញ្ហាចំណាត់ថ្នាក់ដែលមានវិមាត្រខ្ពស់ (High-dimensional)។	ទទួលបានពិន្ទុ AUC-ROC ទាបជាងគេក្នុងការសិក្សានេះ ដែលបង្ហាញពីកម្រិតនៃការបែងចែកមិនសូវល្អ។	ទទួលបានភាពត្រឹមត្រូវ ៨៥% និង AUC-ROC ០.៨៦។
MLP (Multi-Layer Perceptron) ម៉ូដែល MLP (បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត)	អាចចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear relationships) ក្នុងទិន្នន័យបានល្អ។	មានលក្ខណៈជាប្រអប់ខ្មៅ (Black-box) ខ្លាំង ដែលទាមទារការប្រើប្រាស់ XAI ជាចាំបាច់ដើម្បីពន្យល់។	ទទួលបានភាពត្រឹមត្រូវ ៨៧% និង AUC-ROC ០.៨៨។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ទិន្នន័យដែលមានទំហំតូច (៣០៣ ករណី) ដូច្នេះមិនទាមទារធនធានកុំព្យូទ័រធំដុំទេ។

Hardware: អាចដំណើរការបានលើកុំព្យូទ័រយួរដៃធម្មតា (Standard Laptop) មិនចាំបាច់មាន GPU ខ្លាំងក្លាទេ។
Software / Tools: ត្រូវការចេះភាសា Python និងបណ្ណាល័យដូចជា Scikit-learn, XGBoost, SHAP និង LIME។
Dataset: ទិន្នន័យ Cleveland Dataset ពី UCI (ជាសាធារណៈ និងឥតគិតថ្លៃ)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ Cleveland Dataset (សហរដ្ឋអាមេរិក) ដែលមានទំហំតូច (៣០៣ អ្នកជំងឺ) និងប្រហែលជាមិនឆ្លុះបញ្ចាំងពីលក្ខណៈជីវសាស្រ្ត ឬរបបអាហាររបស់ប្រជាជនកម្ពុជាទេ។ កត្តាដូចជាប្រភេទនៃជំងឺបេះដូងនៅក្នុងប្រទេសកម្ពុជាអាចមានភាពខុសគ្នាដោយសារកត្តាហ្សែន និងបរិស្ថាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ជាពិសេសក្នុងការបង្កើនទំនុកចិត្តរបស់គ្រូពេទ្យលើប្រព័ន្ធ AI។

មន្ទីរពេទ្យបង្អែកតាមខេត្ត: អាចជួយគ្រូពេទ្យទូទៅនៅតាមខេត្តដាច់ស្រយាលក្នុងការធ្វើរោគវិនិច្ឆ័យបឋម មុននឹងបញ្ជូនអ្នកជំងឺទៅកាន់មន្ទីរពេទ្យធំនៅភ្នំពេញ។
ការបណ្តុះបណ្តាលនិស្សិតពេទ្យ: ការប្រើប្រាស់ SHAP និង LIME អាចជួយនិស្សិតពេទ្យឱ្យយល់ពីទំនាក់ទំនងរវាងរោគសញ្ញា (ដូចជា ការឈឺទ្រូង) និងហានិភ័យនៃជំងឺ។

ការដាក់បញ្ចូលប្រព័ន្ធ XAI នឹងជួយកាត់បន្ថយការសង្ស័យរបស់គ្រូពេទ្យមកលើបច្ចេកវិទ្យា ប៉ុន្តែចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បី പരിശឹក (Retrain) ម៉ូដែលឱ្យត្រូវនឹងបរិបទកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning: ចាប់ផ្តើមរៀនភាសា Python និងបណ្ណាល័យ Scikit-learn ដើម្បីយល់ពីរបៀបបង្កើតគំរូ Classification ដូចជា SVM និង Random Forest។
អនុវត្តបច្ចេកទេស Ensemble Learning: សិក្សាជម្រៅលើម៉ូដែល XGBoost និង LightGBM ដែលបង្ហាញប្រសិទ្ធភាពខ្ពស់ក្នុងការសិក្សានេះ ដោយប្រើប្រាស់ Google Colab។
ការប្រើប្រាស់ឧបករណ៍ XAI: រៀនប្រើប្រាស់បណ្ណាល័យ SHAP និង LIME ដើម្បីបង្កើតក្រាហ្វិកពន្យល់ពីមូលហេតុដែលម៉ូដែលធ្វើការទស្សន៍ទាយ (Feature Importance)។
ការពិសោធន៍ជាមួយទិន្នន័យ: ទាញយក Cleveland Dataset ពី UCI Repository ហើយព្យាយាមបង្កើតលទ្ធផលឡើងវិញ (Reproduce results) ដូចក្នុងឯកសារនេះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Explainable Artificial Intelligence (XAI)	គឺជាបណ្ដុំនៃដំណើរការនិងវិធីសាស្ត្រដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ (មនុស្ស) អាចយល់និងទុកចិត្តលើលទ្ធផលដែលបង្កើតឡើងដោយក្បួនដោះស្រាយ Machine Learning។ នៅក្នុងវិស័យសុខាភិបាល វាជួយឱ្យគ្រូពេទ្យដឹងថាហេតុអ្វីបានជា AI វិនិច្ឆ័យថាអ្នកជំងឺមានជំងឺ។	ដូចជាសិស្សគណិតវិទ្យាដែលមិនត្រឹមតែសរសេរចម្លើយត្រូវប៉ុណ្ណោះទេ តែថែមទាំងបង្ហាញរបៀបធ្វើលំហាត់ដើម្បីឱ្យគ្រូយល់ពីវិធីគិតរបស់គាត់។
Black-box systems	សំដៅលើប្រព័ន្ធ AI ឬ Machine Learning ដែលមានភាពស្មុគស្មាញខ្លាំង (ដូចជា Deep Learning) ដែលយើងអាចឃើញតែទិន្នន័យចូល និងលទ្ធផលចេញ ប៉ុន្តែមិនអាចមើលឃើញ ឬយល់ពីដំណើរការសម្រេចចិត្តខាងក្នុងរបស់វាបានទេ។	ប្រៀបដូចជាប្រអប់វេទមន្តដែលយើងដាក់គ្រឿងផ្សំចូល ហើយទទួលបាននំខេកចេញមកវិញ ប៉ុន្តែយើងមិនដឹងថានំនោះត្រូវបានដុតយ៉ាងដូចម្តេចទេ។
SHAP (SHapley Additive exPlanations)	គឺជាវិធីសាស្ត្រមួយដែលដកស្រង់ចេញពីទ្រឹស្តីហ្គេម (Game Theory) ដើម្បីគណនាថា តើលក្ខណៈនីមួយៗនៃទិន្នន័យ (ដូចជា អាយុ ឬកម្រិតកូឡេស្តេរ៉ុល) រួមចំណែកប៉ុន្មានភាគរយក្នុងការធ្វើឱ្យ AI សម្រេចចិត្តបែបនេះ។	ដូចជាការបែងចែកឥណទាន (Credit) ទៅឱ្យកីឡាករបាល់ទាត់ម្នាក់ៗក្នុងក្រុម ដើម្បីដឹងថានរណាជាអ្នកជួយឱ្យក្រុមឈ្នះខ្លាំងជាងគេ។
LIME (Local Interpretable Model-Agnostic Explanations)	គឺជាបច្ចេកទេសដែលប្រើដើម្បីពន្យល់ពីការទស្សន៍ទាយរបស់ AI សម្រាប់ករណីមួយជាក់លាក់ ដោយបង្កើតគំរូសាមញ្ញមួយនៅជុំវិញទិន្នន័យនោះ ដើម្បីបង្ហាញថាហេតុអ្វីបានជា AI ជ្រើសរើសចម្លើយនោះសម្រាប់បុគ្គលម្នាក់នោះ។	ដូចជាការសួរគ្រូពេទ្យថា "ហេតុអ្វីបានជាអ្នកជំងឺ ម្នាក់នេះ ឈឺ?" (ការពន្យល់ជាក់លាក់) ជាជាងការសួរអំពីទ្រឹស្តីនៃជំងឺនោះជាទូទៅ។
Gradient Boosting (e.g., XGBoost)	គឺជាបច្ចេកទេស Machine Learning ដែលបង្កើតគំរូទស្សន៍ទាយជាច្រើនជាបន្តបន្ទាប់គ្នា ដោយគំរូថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលគំរូមុនបានបង្កើត ដើម្បីឱ្យលទ្ធផលចុងក្រោយមានភាពត្រឹមត្រូវខ្ពស់បំផុត។	ប្រៀបដូចជាការប្រឡងជាក្រុម ដែលសិស្សម្នាក់ៗចូលមកកែតម្រូវកំហុសរបស់សិស្សមុនៗ ដើម្បីឱ្យចម្លើយចុងក្រោយរបស់ក្រុមត្រឹមត្រូវល្អឥតខ្ចោះ។
AUC-ROC (Area Under the Receiver Operating Characteristic Curve)	គឺជាមេគុណសម្រាប់វាស់វែងសមត្ថភាពរបស់គំរូក្នុងការបែងចែករវាងពីរក្រុម (ដូចជា អ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ)។ ពិន្ទុកាន់តែជិត 1 មានន័យថាគំរូពូកែបែងចែកដាច់ពីគ្នាបានល្អ។	ដូចជាពិន្ទុដែលបញ្ជាក់ថា តើម៉ាស៊ីនរែងមួយពូកែញែកគ្រាប់ខ្សាច់ចេញពីគ្រាប់ថ្មបានល្អកម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖