Original Title: CLINICAL IMPLICATIONS OF BIG DATA IN PREDICTING CARDIOVASCULAR DISEASE USING SMOTE FOR HANDLING IMBALANCED DATA
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ផលវិបាកតាមបែបគ្លីនិកនៃទិន្នន័យធំ (Big Data) ក្នុងការទស្សន៍ទាយជំងឺសរសៃឈាមបេះដូង ដោយប្រើប្រាស់បច្ចេកទេស SMOTE សម្រាប់ការដោះស្រាយទិន្នន័យមិនមានតុល្យភាព

ចំណងជើងដើម៖ CLINICAL IMPLICATIONS OF BIG DATA IN PREDICTING CARDIOVASCULAR DISEASE USING SMOTE FOR HANDLING IMBALANCED DATA

អ្នកនិពន្ធ៖ Koteswararao Dondapati (Everest Technologies, Ohio, USA)

ឆ្នាំបោះពុម្ព៖ 2020, Journal of Cardiovascular Disease Research

វិស័យសិក្សា៖ Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺសរសៃឈាមបេះដូង (CVDs) គឺជាមូលហេតុចម្បងនៃការស្លាប់នៅទូទាំងពិភពលោក ប៉ុន្តែការទស្សន៍ទាយមានការលំបាកដោយសារតែទិន្នន័យពេទ្យច្រើនតែមិនមានតុល្យភាព (Imbalanced datasets) ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីនរៀន (Machine learning) ព្យាករណ៍លម្អៀងទៅរកករណីទូទៅ។ ឯកសារនេះដោះស្រាយបញ្ហានេះដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយជំងឺសម្រាប់ករណីកម្រ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគទិន្នន័យធំ (Big Data Analytics) ដោយរួមបញ្ចូលបច្ចេកទេសដោះស្រាយទិន្នន័យមិនមានតុល្យភាព និងការជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យដើម្បីបង្កើនប្រសិទ្ធភាពម៉ូដែល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline/Traditional CAD Models (Malakar et al., 2019)
ម៉ូដែលទស្សន៍ទាយជំងឺសរសៃឈាមបេះដូងប្រពៃណី (CAD)
ងាយស្រួលក្នុងការអនុវត្ត និងមានមូលដ្ឋានស្រាវជ្រាវយូរអង្វែងក្នុងការអនុវត្តតាមគ្លីនិក។ មានភាពត្រឹមត្រូវទាប និងងាយរងភាពលម្អៀងនៅពេលជួបប្រទះទិន្នន័យមិនមានតុល្យភាព (Imbalanced data)។ ទទួលបានភាពត្រឹមត្រូវរួម (Overall Accuracy) ត្រឹមតែ ៨៥% និង F1-Score ៨០% ប៉ុណ្ណោះ។
Internet of Medical Things (IoMT) (Kotronis et al., 2019)
បណ្តាញឧបករណ៍វេជ្ជសាស្ត្រ (IoMT)
អាចប្រមូលទិន្នន័យបានច្រើន និងបន្តបន្ទាប់ពីឧបករណ៍វៃឆ្លាតផ្សេងៗរបស់អ្នកជំងឺ។ នៅតែមានបញ្ហាភាពលម្អៀងក្នុងការទស្សន៍ទាយនៅពេលដែលចំនួនករណីជំងឺជាក់ស្តែងមានតិចតួច។ ទទួលបានភាពត្រឹមត្រូវរួម ៨៨% និង AUC-ROC ៨៩%។
Clinical Prediction Models (CPMs) (Su et al., 2018)
ម៉ូដែលទស្សន៍ទាយតាមបែបគ្លីនិក (CPMs)
ផ្តល់លទ្ធផលល្អប្រសើរជាងវិធីសាស្ត្រមុនៗ និងត្រូវបានរចនាឡើងសម្រាប់បរិបទគ្លីនិកជាក់ស្តែង។ មិនទាន់មានលទ្ធភាពគ្រប់គ្រាន់ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យដែលខ្វះតុល្យភាពខ្លាំងនោះទេ។ ទទួលបានភាពត្រឹមត្រូវរួម ៩០% និង AUC-ROC ៩១%។
Proposed Method (SMOTE + Feature Selection)
វិធីសាស្ត្រស្នើឡើង (ការប្រើប្រាស់ SMOTE រួមជាមួយការជ្រើសរើសលក្ខណៈពិសេស)
ដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ និងបង្កើនភាពត្រឹមត្រូវក្នុងការចាប់យកករណីជំងឺកម្រដោយការបង្កើតទិន្នន័យសិប្បនិម្មិត។ ទាមទារការព្យាបាលទិន្នន័យជាមុន (Data preprocessing) និងកម្លាំងគណនាខ្ពស់ជាងមុនដើម្បីអនុវត្តក្បួនដោះស្រាយ។ សម្រេចបានភាពត្រឹមត្រូវរួមខ្ពស់បំផុតរហូតដល់ ៩៦% និង AUC-ROC ៩៤%។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃក៏ដោយ ក៏ការប្រើប្រាស់វិធីសាស្ត្រវិភាគទិន្នន័យធំ (Big Data Analytics) និងម៉ូដែល Machine Learning ទាមទារនូវធនធានផ្នែកទន់ រឹង និងទិន្នន័យដែលមានគុណភាព។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទោះបីជាឯកសារមិនបានបញ្ជាក់ច្បាស់ពីប្រភពនៃទិន្នន័យ ប៉ុន្តែការសិក្សាភាគច្រើនពឹងផ្អែកលើទិន្នន័យសុខភាពពីប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា របៀបរស់នៅ ហ្សែន និងកត្តាហានិភ័យនៃជំងឺសរសៃឈាមបេះដូងអាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីជៀសវាងភាពលម្អៀងក្នុងការទស្សន៍ទាយ (Predictive Bias)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស SMOTE និង Machine Learning នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យសុខាភិបាលរបស់ប្រទេសកម្ពុជា ដើម្បីជួយសម្រួលដល់ការធ្វើរោគវិនិច្ឆ័យជំងឺបេះដូងឱ្យបានលឿន និងច្បាស់លាស់។

ការសមាហរណកម្មបច្ចេកវិទ្យានេះនឹងជួយកាត់បន្ថយអត្រាស្លាប់ដោយសារជំងឺសរសៃឈាមបេះដូងនៅកម្ពុជា តាមរយៈការព្យាករណ៍បានត្រឹមត្រូវ និងការព្យាបាលទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូល និងសម្អាតទិន្នន័យសុខភាព (Data Collection & Preprocessing): ចាប់ផ្តើមប្រមូលទិន្នន័យប្រវត្តិអ្នកជំងឺបេះដូងពីមន្ទីរពេទ្យដៃគូ ដោយសម្អាតទិន្នន័យ និងរៀបចំជាទម្រង់ស្តង់ដារដោយប្រើ Pandas នៅក្នុងភាសា Python ដើម្បីត្រៀមបញ្ចូលទៅក្នុងម៉ូដែល។
  2. ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តការធ្វើតេស្ត Chi-Square ដូចក្នុងឯកសារស្រាវជ្រាវ ដោយប្រើប្រាស់បណ្ណាល័យ SciPyScikit-learn ដើម្បីជ្រើសរើសកត្តាហានិភ័យសំខាន់ៗបំផុតដែលប៉ះពាល់ដល់ជំងឺបេះដូង។
  3. ការថ្លឹងថ្លែងទិន្នន័យដោយប្រើបច្ចេកទេស SMOTE: ប្រើប្រាស់បណ្ណាល័យ imbalanced-learn (imblearn) ដើម្បីអនុវត្តបច្ចេកទេស SMOTE ក្នុងការបង្កើតទិន្នន័យគំរូសិប្បនិម្មិតសម្រាប់ក្រុមអ្នកជំងឺដែលកម្រ ដើម្បីឱ្យទិន្នន័យមានតុល្យភាពសម្រាប់ការបង្ហាត់។
  4. ការបង្ហាត់ម៉ូដែល (Model Training & Cross-Validation): សាកល្បងបង្ហាត់ម៉ូដែល Machine Learning ផ្សេងៗដូចជា XGBoost, Random Forest, និង Support Vector Machines (SVM) លើទិន្នន័យដែលបានធ្វើតុល្យភាពរួច និងប្រើការផ្ទៀងផ្ទាត់ខ្វែង (Cross-Validation)។
  5. ការវាយតម្លៃ និងការសាងសង់កម្មវិធី (Evaluation & Deployment): វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលតាមរយៈ Precision, Recall, F1-Score, និង AUC-ROC បន្ទាប់មកបង្កើតជា Web Application សាមញ្ញមួយដោយប្រើ Streamlit ដើម្បីឱ្យគ្រូពេទ្យអាចសាកល្បងបញ្ចូលទិន្នន័យ និងមើលលទ្ធផលព្យាករណ៍។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Synthetic Minority Oversampling Technique (SMOTE) គឺជាបច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពរវាងក្រុមផ្សេងៗ ដែលជួយឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនស្គាល់ករណីជំងឺកម្របានកាន់តែច្បាស់ និងមិនមានភាពលម្អៀង។ ដូចជាការថតចម្លងឯកសារសំខាន់ៗដែលយើងមានតិចតួចឱ្យមានច្រើនសន្លឹក ដើម្បីកុំឱ្យវាបាត់បង់ ឬត្រូវគេមើលរំលងនៅពេលដាក់លាយជាមួយឯកសារផ្សេងៗដ៏ច្រើន។
Imbalanced Datasets គឺជាបណ្តុំទិន្នន័យដែលមានភាពលម្អៀងខ្លាំងរវាងក្រុមគោលដៅ។ ឧទាហរណ៍៖ ទិន្នន័យមនុស្សអ្នកមានសុខភាពល្អមានច្រើនសន្ធឹកសន្ធាប់ ខណៈទិន្នន័យអ្នកមានជំងឺបេះដូងមានតិចតួចបំផុត ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រទាយលម្អៀងទៅរកមនុស្សជា និងរំលងមនុស្សឈឺ។ ដូចជាការព្យាយាមស្វែងរកម្ជុលក្នុងបាតសមុទ្រ ដែលរបស់ដែលយើងចង់រកមានចំនួនតិចតួចបំផុតធៀបនឹងបរិស្ថានជុំវិញដ៏ធំធេង។
Feature Selection គឺជាដំណើរការនៃការច្រោះ និងជ្រើសរើសយកតែលក្ខណៈសម្បត្តិ ឬរោគសញ្ញាសំខាន់ៗបំផុតពីក្នុងទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកមកប្រើក្នុងការទស្សន៍ទាយជំងឺ ដោយជៀសវាងការប្រើទិន្នន័យឥតប្រយោជន៍ដែលធ្វើឱ្យម៉ូដែលដំណើរការយឺត ឬមិនសូវត្រឹមត្រូវ។ ដូចជាការរៀបចំបាលីវ៉ាលីទៅដើរលេង ដោយរើសយកតែខោអាវណាដែលចាំបាច់ពិតប្រាកដ និងទុករបស់ដែលមិនត្រូវការចោលដើម្បីកុំឱ្យធ្ងន់ និងងាយស្រួលធ្វើដំណើរ។
Chi-Square Test ជារូបមន្តស្ថិតិដែលគេប្រើក្នុងវគ្គ Feature Selection ដើម្បីវាស់ស្ទង់ថា តើរោគសញ្ញាណាមួយ (ឧទាហរណ៍៖ កម្រិតកូឡេស្តេរ៉ុល) ពិតជាមានទំនាក់ទំនងផ្ទាល់ជាមួយការកើតជំងឺបេះដូងមែនឬអត់ មុននឹងសម្រេចចិត្តបញ្ចូលវាទៅក្នុងម៉ូដែលកុំព្យូទ័រ។ ដូចជាការព្យាយាមរកមើលថាតើការញ៉ាំស្ករគ្រាប់ច្រើន និងការឈឺធ្មេញ ពិតជាមានទំនាក់ទំនងនឹងគ្នាឬអត់ តាមរយៈការកត់ត្រា និងប្រៀបធៀបតួលេខ។
Euclidean Distance គឺជារូបមន្តគណិតវិទ្យាសម្រាប់វាស់ចម្ងាយជាបន្ទាត់ត្រង់រវាងចំណុចទិន្នន័យពីរនៅក្នុងលំហ ដើម្បីរកមើលថាអ្នកជំងឺពីរនាក់មានរោគសញ្ញាស្រដៀងគ្នាដល់កម្រិតណា ដែលទិន្នន័យនេះជួយដល់បច្ចេកទេស SMOTE ក្នុងការបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីនៅចន្លោះអ្នកជំងឺទាំងពីរនោះ។ ដូចជាការយកបន្ទាត់ទៅវាស់ប្រវែងផ្លូវកាត់ជាបន្ទាត់ត្រង់ពីផ្ទះមួយទៅផ្ទះមួយទៀតនៅលើផែនទី ដើម្បីដឹងថាផ្ទះទាំងពីរនៅជិតគ្នាប៉ុនណា។
Precision and Recall គឺជារង្វាស់សម្រាប់វាយតម្លៃម៉ូដែល។ Precision វាស់ថាក្នុងចំណោមអ្នកដែលប្រព័ន្ធថាមានជំងឺ តើមានប៉ុន្មានភាគរយដែលឈឺពិតប្រាកដ (កាត់បន្ថយការទាយខុសថាឈឺ)។ ចំណែក Recall វាស់ថាក្នុងចំណោមអ្នកឈឺពិតប្រាកដទាំងអស់ តើប្រព័ន្ធអាចរកឃើញប៉ុន្មាននាក់ (កាត់បន្ថយការរំលងអ្នកជំងឺ)។ Precision ដូចជាអ្នកបាញ់កាំភ្លើងដែលបាញ់ចំគោលដៅរាល់ដង ចំណែក Recall ដូចជាអ្នករើសផ្លែឈើដែលអាចបេះផ្លែទុំបានទាំងអស់ពីលើដើមដោយមិនឱ្យសល់។
AUC-ROC ជារង្វាស់វាយតម្លៃម៉ូដែលជារួម (Area Under the Receiver Operating Characteristic Curve) ដែលបង្ហាញពីសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការបែងចែកឱ្យដាច់ស្រឡះរវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ ក្រុមអ្នកមានជំងឺសរសៃឈាមបេះដូង និងក្រុមអ្នកមានសុខភាពល្អ)។ ដូចជាការផ្តល់ពិន្ទុវាយតម្លៃជារួមទៅលើអ្នកកាត់ក្តីម្នាក់ ថាតើគាត់មានសមត្ថភាពអាចញែកដាច់រវាងជនល្មើសនិងជនស្លូតត្រង់បានច្បាស់លាស់កម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖