Original Title: CLINICAL IMPLICATIONS OF BIG DATA IN PREDICTING CARDIOVASCULAR DISEASE USING SMOTE FOR HANDLING IMBALANCED DATA
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ផលវិបាកតាមបែបគ្លីនិកនៃទិន្នន័យធំ (Big Data) ក្នុងការទស្សន៍ទាយជំងឺសរសៃឈាមបេះដូង ដោយប្រើប្រាស់បច្ចេកទេស SMOTE សម្រាប់ការដោះស្រាយទិន្នន័យមិនមានតុល្យភាព

ចំណងជើងដើម៖ CLINICAL IMPLICATIONS OF BIG DATA IN PREDICTING CARDIOVASCULAR DISEASE USING SMOTE FOR HANDLING IMBALANCED DATA

អ្នកនិពន្ធ៖ Koteswararao Dondapati (Everest Technologies, Ohio, USA)

ឆ្នាំបោះពុម្ព៖ 2020, Journal of Cardiovascular Disease Research

វិស័យសិក្សា៖ Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺសរសៃឈាមបេះដូង (CVDs) គឺជាមូលហេតុចម្បងនៃការស្លាប់នៅទូទាំងពិភពលោក ប៉ុន្តែការទស្សន៍ទាយមានការលំបាកដោយសារតែទិន្នន័យពេទ្យច្រើនតែមិនមានតុល្យភាព (Imbalanced datasets) ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីនរៀន (Machine learning) ព្យាករណ៍លម្អៀងទៅរកករណីទូទៅ។ ឯកសារនេះដោះស្រាយបញ្ហានេះដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយជំងឺសម្រាប់ករណីកម្រ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគទិន្នន័យធំ (Big Data Analytics) ដោយរួមបញ្ចូលបច្ចេកទេសដោះស្រាយទិន្នន័យមិនមានតុល្យភាព និងការជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យដើម្បីបង្កើនប្រសិទ្ធភាពម៉ូដែល។

ការជ្រើសរើសលក្ខណៈពិសេសដោយប្រើតេស្ត Chi-Square (Feature Selection Using Chi-Square Test)
បច្ចេកទេសបង្កើតទិន្នន័យគំរូសិប្បនិម្មិតដើម្បីថ្លឹងថ្លែងទិន្នន័យ (Synthetic Minority Over-sampling Technique - SMOTE)
ការគណនាចម្ងាយដើម្បីស្វែងរកទិន្នន័យជិតបំផុត (Euclidean Distance for Nearest Neighbor Calculation)
ម៉ូដែលម៉ាស៊ីនរៀនសម្រាប់ព្យាករណ៍ និងការវាយតម្លៃ (Machine Learning Prediction Models and Performance Metrics)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រដែលបានស្នើឡើងសម្រេចបាននូវភាពត្រឹមត្រូវរួម (Overall accuracy) រហូតដល់ ៩៣% ក្នុងការទស្សន៍ទាយជំងឺសរសៃឈាមបេះដូង ដែលដំណើរការល្អជាងម៉ូដែលប្រពៃណីផ្សេងទៀត។
ការប្រើប្រាស់បច្ចេកទេស SMOTE រួមជាមួយនឹងការជ្រើសរើសលក្ខណៈពិសេស (Feature selection) បានជួយកាត់បន្ថយភាពលម្អៀងនៃទិន្នន័យយ៉ាងមានប្រសិទ្ធភាព និងបង្កើនលទ្ធភាពក្នុងការចាប់យកករណីជំងឺដែលកម្រ។
លទ្ធផលនៃការសិក្សានេះបង្ហាញពីសារៈសំខាន់នៃការប្រើប្រាស់បច្ចេកទេសទាំងនេះក្នុងកម្មវិធីគ្លីនិកជាក់ស្តែង ដើម្បីជួយដល់ការធ្វើសេចក្តីសម្រេចចិត្ត និងកែលម្អលទ្ធផលការព្យាបាលអ្នកជំងឺកាន់តែប្រសើរឡើង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline/Traditional CAD Models (Malakar et al., 2019) ម៉ូដែលទស្សន៍ទាយជំងឺសរសៃឈាមបេះដូងប្រពៃណី (CAD)	ងាយស្រួលក្នុងការអនុវត្ត និងមានមូលដ្ឋានស្រាវជ្រាវយូរអង្វែងក្នុងការអនុវត្តតាមគ្លីនិក។	មានភាពត្រឹមត្រូវទាប និងងាយរងភាពលម្អៀងនៅពេលជួបប្រទះទិន្នន័យមិនមានតុល្យភាព (Imbalanced data)។	ទទួលបានភាពត្រឹមត្រូវរួម (Overall Accuracy) ត្រឹមតែ ៨៥% និង F1-Score ៨០% ប៉ុណ្ណោះ។
Internet of Medical Things (IoMT) (Kotronis et al., 2019) បណ្តាញឧបករណ៍វេជ្ជសាស្ត្រ (IoMT)	អាចប្រមូលទិន្នន័យបានច្រើន និងបន្តបន្ទាប់ពីឧបករណ៍វៃឆ្លាតផ្សេងៗរបស់អ្នកជំងឺ។	នៅតែមានបញ្ហាភាពលម្អៀងក្នុងការទស្សន៍ទាយនៅពេលដែលចំនួនករណីជំងឺជាក់ស្តែងមានតិចតួច។	ទទួលបានភាពត្រឹមត្រូវរួម ៨៨% និង AUC-ROC ៨៩%។
Clinical Prediction Models (CPMs) (Su et al., 2018) ម៉ូដែលទស្សន៍ទាយតាមបែបគ្លីនិក (CPMs)	ផ្តល់លទ្ធផលល្អប្រសើរជាងវិធីសាស្ត្រមុនៗ និងត្រូវបានរចនាឡើងសម្រាប់បរិបទគ្លីនិកជាក់ស្តែង។	មិនទាន់មានលទ្ធភាពគ្រប់គ្រាន់ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យដែលខ្វះតុល្យភាពខ្លាំងនោះទេ។	ទទួលបានភាពត្រឹមត្រូវរួម ៩០% និង AUC-ROC ៩១%។
Proposed Method (SMOTE + Feature Selection) វិធីសាស្ត្រស្នើឡើង (ការប្រើប្រាស់ SMOTE រួមជាមួយការជ្រើសរើសលក្ខណៈពិសេស)	ដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ និងបង្កើនភាពត្រឹមត្រូវក្នុងការចាប់យកករណីជំងឺកម្រដោយការបង្កើតទិន្នន័យសិប្បនិម្មិត។	ទាមទារការព្យាបាលទិន្នន័យជាមុន (Data preprocessing) និងកម្លាំងគណនាខ្ពស់ជាងមុនដើម្បីអនុវត្តក្បួនដោះស្រាយ។	សម្រេចបានភាពត្រឹមត្រូវរួមខ្ពស់បំផុតរហូតដល់ ៩៦% និង AUC-ROC ៩៤%។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃក៏ដោយ ក៏ការប្រើប្រាស់វិធីសាស្ត្រវិភាគទិន្នន័យធំ (Big Data Analytics) និងម៉ូដែល Machine Learning ទាមទារនូវធនធានផ្នែកទន់ រឹង និងទិន្នន័យដែលមានគុណភាព។

Software Frameworks: ត្រូវការកម្មវិធីភាសា Programming និងបណ្ណាល័យវិភាគទិន្នន័យ ដូចជា Python, Scikit-learn (សម្រាប់អនុវត្ត SMOTE), XGBoost, និងប្រព័ន្ធគ្រប់គ្រងទិន្នន័យធំៗ។
Hardware Infrastructure: ម៉ាស៊ីនមេ (Servers) ឬកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ (មាន CPU/GPU ល្អ) ដើម្បីដំណើរការទិន្នន័យវេជ្ជសាស្ត្រធំៗ និងបង្ហាត់ម៉ូដែល។
Dataset Requirements: ត្រូវការទិន្នន័យកំណត់ត្រាសុខភាពអេឡិចត្រូនិក (EHRs) ទិន្នន័យហ្សែន និងទិន្នន័យពីឧបករណ៍ពាក់ (Wearables) ដែលមានទំហំធំ ទោះបីជាមានភាពលម្អៀងក៏ដោយ។
Human Expertise: ចាំបាច់ត្រូវមានអ្នកវិទ្យាសាស្ត្រទិន្នន័យ (Data Scientists) ដើម្បីរៀបចំម៉ូដែល និងវេជ្ជបណ្ឌិតដើម្បីផ្ទៀងផ្ទាត់លក្ខណៈពិសេស (Feature Selection)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទោះបីជាឯកសារមិនបានបញ្ជាក់ច្បាស់ពីប្រភពនៃទិន្នន័យ ប៉ុន្តែការសិក្សាភាគច្រើនពឹងផ្អែកលើទិន្នន័យសុខភាពពីប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា របៀបរស់នៅ ហ្សែន និងកត្តាហានិភ័យនៃជំងឺសរសៃឈាមបេះដូងអាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីជៀសវាងភាពលម្អៀងក្នុងការទស្សន៍ទាយ (Predictive Bias)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស SMOTE និង Machine Learning នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យសុខាភិបាលរបស់ប្រទេសកម្ពុជា ដើម្បីជួយសម្រួលដល់ការធ្វើរោគវិនិច្ឆ័យជំងឺបេះដូងឱ្យបានលឿន និងច្បាស់លាស់។

មន្ទីរពេទ្យថ្នាក់ជាតិ (ឧទាហរណ៍៖ មន្ទីរពេទ្យកាល់ម៉ែត): អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីវិភាគប្រវត្តិជំងឺ និងទស្សន៍ទាយហានិភ័យជំងឺបេះដូងរបស់អ្នកជំងឺជាមុន ដែលជួយកាត់បន្ថយការខកខានក្នុងការរកឃើញជំងឺ។
ក្រសួងសុខាភិបាល (នាយកដ្ឋានប្រព័ន្ធព័ត៌មានសុខាភិបាល): អាចសមាហរណកម្មម៉ូដែលនេះទៅក្នុងប្រព័ន្ធគ្រប់គ្រងទិន្នន័យសុខភាព (Health Information System) ដើម្បីតាមដាននិន្នាការ និងរៀបចំយុទ្ធសាស្ត្រទប់ស្កាត់ជំងឺមិនឆ្លង (NCDs) ទូទាំងប្រទេស។
គ្លីនិកឯកជន និងការថែទាំសុខភាពតាមសហគមន៍កម្រិតខេត្ត: ជួយគ្រូពេទ្យនៅតាមខេត្តក្នុងការកំណត់អត្តសញ្ញាណអ្នកជំងឺដែលមានហានិភ័យខ្ពស់ ទោះបីជាមានទិន្នន័យកំណត់ត្រាជំងឺក្នុងប្រព័ន្ធតិចតួចក៏ដោយ តាមរយៈការប្រើប្រាស់បច្ចេកទេស Over-sampling។

ការសមាហរណកម្មបច្ចេកវិទ្យានេះនឹងជួយកាត់បន្ថយអត្រាស្លាប់ដោយសារជំងឺសរសៃឈាមបេះដូងនៅកម្ពុជា តាមរយៈការព្យាករណ៍បានត្រឹមត្រូវ និងការព្យាបាលទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងសម្អាតទិន្នន័យសុខភាព (Data Collection & Preprocessing): ចាប់ផ្តើមប្រមូលទិន្នន័យប្រវត្តិអ្នកជំងឺបេះដូងពីមន្ទីរពេទ្យដៃគូ ដោយសម្អាតទិន្នន័យ និងរៀបចំជាទម្រង់ស្តង់ដារដោយប្រើ Pandas នៅក្នុងភាសា Python ដើម្បីត្រៀមបញ្ចូលទៅក្នុងម៉ូដែល។
ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តការធ្វើតេស្ត Chi-Square ដូចក្នុងឯកសារស្រាវជ្រាវ ដោយប្រើប្រាស់បណ្ណាល័យ SciPy ឬ Scikit-learn ដើម្បីជ្រើសរើសកត្តាហានិភ័យសំខាន់ៗបំផុតដែលប៉ះពាល់ដល់ជំងឺបេះដូង។
ការថ្លឹងថ្លែងទិន្នន័យដោយប្រើបច្ចេកទេស SMOTE: ប្រើប្រាស់បណ្ណាល័យ imbalanced-learn (imblearn) ដើម្បីអនុវត្តបច្ចេកទេស SMOTE ក្នុងការបង្កើតទិន្នន័យគំរូសិប្បនិម្មិតសម្រាប់ក្រុមអ្នកជំងឺដែលកម្រ ដើម្បីឱ្យទិន្នន័យមានតុល្យភាពសម្រាប់ការបង្ហាត់។
ការបង្ហាត់ម៉ូដែល (Model Training & Cross-Validation): សាកល្បងបង្ហាត់ម៉ូដែល Machine Learning ផ្សេងៗដូចជា XGBoost, Random Forest, និង Support Vector Machines (SVM) លើទិន្នន័យដែលបានធ្វើតុល្យភាពរួច និងប្រើការផ្ទៀងផ្ទាត់ខ្វែង (Cross-Validation)។
ការវាយតម្លៃ និងការសាងសង់កម្មវិធី (Evaluation & Deployment): វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលតាមរយៈ Precision, Recall, F1-Score, និង AUC-ROC បន្ទាប់មកបង្កើតជា Web Application សាមញ្ញមួយដោយប្រើ Streamlit ដើម្បីឱ្យគ្រូពេទ្យអាចសាកល្បងបញ្ចូលទិន្នន័យ និងមើលលទ្ធផលព្យាករណ៍។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Synthetic Minority Oversampling Technique (SMOTE)	គឺជាបច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពរវាងក្រុមផ្សេងៗ ដែលជួយឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនស្គាល់ករណីជំងឺកម្របានកាន់តែច្បាស់ និងមិនមានភាពលម្អៀង។	ដូចជាការថតចម្លងឯកសារសំខាន់ៗដែលយើងមានតិចតួចឱ្យមានច្រើនសន្លឹក ដើម្បីកុំឱ្យវាបាត់បង់ ឬត្រូវគេមើលរំលងនៅពេលដាក់លាយជាមួយឯកសារផ្សេងៗដ៏ច្រើន។
Imbalanced Datasets	គឺជាបណ្តុំទិន្នន័យដែលមានភាពលម្អៀងខ្លាំងរវាងក្រុមគោលដៅ។ ឧទាហរណ៍៖ ទិន្នន័យមនុស្សអ្នកមានសុខភាពល្អមានច្រើនសន្ធឹកសន្ធាប់ ខណៈទិន្នន័យអ្នកមានជំងឺបេះដូងមានតិចតួចបំផុត ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រទាយលម្អៀងទៅរកមនុស្សជា និងរំលងមនុស្សឈឺ។	ដូចជាការព្យាយាមស្វែងរកម្ជុលក្នុងបាតសមុទ្រ ដែលរបស់ដែលយើងចង់រកមានចំនួនតិចតួចបំផុតធៀបនឹងបរិស្ថានជុំវិញដ៏ធំធេង។
Feature Selection	គឺជាដំណើរការនៃការច្រោះ និងជ្រើសរើសយកតែលក្ខណៈសម្បត្តិ ឬរោគសញ្ញាសំខាន់ៗបំផុតពីក្នុងទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកមកប្រើក្នុងការទស្សន៍ទាយជំងឺ ដោយជៀសវាងការប្រើទិន្នន័យឥតប្រយោជន៍ដែលធ្វើឱ្យម៉ូដែលដំណើរការយឺត ឬមិនសូវត្រឹមត្រូវ។	ដូចជាការរៀបចំបាលីវ៉ាលីទៅដើរលេង ដោយរើសយកតែខោអាវណាដែលចាំបាច់ពិតប្រាកដ និងទុករបស់ដែលមិនត្រូវការចោលដើម្បីកុំឱ្យធ្ងន់ និងងាយស្រួលធ្វើដំណើរ។
Chi-Square Test	ជារូបមន្តស្ថិតិដែលគេប្រើក្នុងវគ្គ Feature Selection ដើម្បីវាស់ស្ទង់ថា តើរោគសញ្ញាណាមួយ (ឧទាហរណ៍៖ កម្រិតកូឡេស្តេរ៉ុល) ពិតជាមានទំនាក់ទំនងផ្ទាល់ជាមួយការកើតជំងឺបេះដូងមែនឬអត់ មុននឹងសម្រេចចិត្តបញ្ចូលវាទៅក្នុងម៉ូដែលកុំព្យូទ័រ។	ដូចជាការព្យាយាមរកមើលថាតើការញ៉ាំស្ករគ្រាប់ច្រើន និងការឈឺធ្មេញ ពិតជាមានទំនាក់ទំនងនឹងគ្នាឬអត់ តាមរយៈការកត់ត្រា និងប្រៀបធៀបតួលេខ។
Euclidean Distance	គឺជារូបមន្តគណិតវិទ្យាសម្រាប់វាស់ចម្ងាយជាបន្ទាត់ត្រង់រវាងចំណុចទិន្នន័យពីរនៅក្នុងលំហ ដើម្បីរកមើលថាអ្នកជំងឺពីរនាក់មានរោគសញ្ញាស្រដៀងគ្នាដល់កម្រិតណា ដែលទិន្នន័យនេះជួយដល់បច្ចេកទេស SMOTE ក្នុងការបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីនៅចន្លោះអ្នកជំងឺទាំងពីរនោះ។	ដូចជាការយកបន្ទាត់ទៅវាស់ប្រវែងផ្លូវកាត់ជាបន្ទាត់ត្រង់ពីផ្ទះមួយទៅផ្ទះមួយទៀតនៅលើផែនទី ដើម្បីដឹងថាផ្ទះទាំងពីរនៅជិតគ្នាប៉ុនណា។
Precision and Recall	គឺជារង្វាស់សម្រាប់វាយតម្លៃម៉ូដែល។ Precision វាស់ថាក្នុងចំណោមអ្នកដែលប្រព័ន្ធថាមានជំងឺ តើមានប៉ុន្មានភាគរយដែលឈឺពិតប្រាកដ (កាត់បន្ថយការទាយខុសថាឈឺ)។ ចំណែក Recall វាស់ថាក្នុងចំណោមអ្នកឈឺពិតប្រាកដទាំងអស់ តើប្រព័ន្ធអាចរកឃើញប៉ុន្មាននាក់ (កាត់បន្ថយការរំលងអ្នកជំងឺ)។	Precision ដូចជាអ្នកបាញ់កាំភ្លើងដែលបាញ់ចំគោលដៅរាល់ដង ចំណែក Recall ដូចជាអ្នករើសផ្លែឈើដែលអាចបេះផ្លែទុំបានទាំងអស់ពីលើដើមដោយមិនឱ្យសល់។
AUC-ROC	ជារង្វាស់វាយតម្លៃម៉ូដែលជារួម (Area Under the Receiver Operating Characteristic Curve) ដែលបង្ហាញពីសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការបែងចែកឱ្យដាច់ស្រឡះរវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ ក្រុមអ្នកមានជំងឺសរសៃឈាមបេះដូង និងក្រុមអ្នកមានសុខភាពល្អ)។	ដូចជាការផ្តល់ពិន្ទុវាយតម្លៃជារួមទៅលើអ្នកកាត់ក្តីម្នាក់ ថាតើគាត់មានសមត្ថភាពអាចញែកដាច់រវាងជនល្មើសនិងជនស្លូតត្រង់បានច្បាស់លាស់កម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖