បញ្ហា (The Problem)៖ ជំងឺសរសៃឈាមបេះដូង (CVDs) គឺជាមូលហេតុចម្បងនៃការស្លាប់នៅទូទាំងពិភពលោក ប៉ុន្តែការទស្សន៍ទាយមានការលំបាកដោយសារតែទិន្នន័យពេទ្យច្រើនតែមិនមានតុល្យភាព (Imbalanced datasets) ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីនរៀន (Machine learning) ព្យាករណ៍លម្អៀងទៅរកករណីទូទៅ។ ឯកសារនេះដោះស្រាយបញ្ហានេះដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយជំងឺសម្រាប់ករណីកម្រ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគទិន្នន័យធំ (Big Data Analytics) ដោយរួមបញ្ចូលបច្ចេកទេសដោះស្រាយទិន្នន័យមិនមានតុល្យភាព និងការជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យដើម្បីបង្កើនប្រសិទ្ធភាពម៉ូដែល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline/Traditional CAD Models (Malakar et al., 2019) ម៉ូដែលទស្សន៍ទាយជំងឺសរសៃឈាមបេះដូងប្រពៃណី (CAD) |
ងាយស្រួលក្នុងការអនុវត្ត និងមានមូលដ្ឋានស្រាវជ្រាវយូរអង្វែងក្នុងការអនុវត្តតាមគ្លីនិក។ | មានភាពត្រឹមត្រូវទាប និងងាយរងភាពលម្អៀងនៅពេលជួបប្រទះទិន្នន័យមិនមានតុល្យភាព (Imbalanced data)។ | ទទួលបានភាពត្រឹមត្រូវរួម (Overall Accuracy) ត្រឹមតែ ៨៥% និង F1-Score ៨០% ប៉ុណ្ណោះ។ |
| Internet of Medical Things (IoMT) (Kotronis et al., 2019) បណ្តាញឧបករណ៍វេជ្ជសាស្ត្រ (IoMT) |
អាចប្រមូលទិន្នន័យបានច្រើន និងបន្តបន្ទាប់ពីឧបករណ៍វៃឆ្លាតផ្សេងៗរបស់អ្នកជំងឺ។ | នៅតែមានបញ្ហាភាពលម្អៀងក្នុងការទស្សន៍ទាយនៅពេលដែលចំនួនករណីជំងឺជាក់ស្តែងមានតិចតួច។ | ទទួលបានភាពត្រឹមត្រូវរួម ៨៨% និង AUC-ROC ៨៩%។ |
| Clinical Prediction Models (CPMs) (Su et al., 2018) ម៉ូដែលទស្សន៍ទាយតាមបែបគ្លីនិក (CPMs) |
ផ្តល់លទ្ធផលល្អប្រសើរជាងវិធីសាស្ត្រមុនៗ និងត្រូវបានរចនាឡើងសម្រាប់បរិបទគ្លីនិកជាក់ស្តែង។ | មិនទាន់មានលទ្ធភាពគ្រប់គ្រាន់ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យដែលខ្វះតុល្យភាពខ្លាំងនោះទេ។ | ទទួលបានភាពត្រឹមត្រូវរួម ៩០% និង AUC-ROC ៩១%។ |
| Proposed Method (SMOTE + Feature Selection) វិធីសាស្ត្រស្នើឡើង (ការប្រើប្រាស់ SMOTE រួមជាមួយការជ្រើសរើសលក្ខណៈពិសេស) |
ដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ និងបង្កើនភាពត្រឹមត្រូវក្នុងការចាប់យកករណីជំងឺកម្រដោយការបង្កើតទិន្នន័យសិប្បនិម្មិត។ | ទាមទារការព្យាបាលទិន្នន័យជាមុន (Data preprocessing) និងកម្លាំងគណនាខ្ពស់ជាងមុនដើម្បីអនុវត្តក្បួនដោះស្រាយ។ | សម្រេចបានភាពត្រឹមត្រូវរួមខ្ពស់បំផុតរហូតដល់ ៩៦% និង AUC-ROC ៩៤%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃក៏ដោយ ក៏ការប្រើប្រាស់វិធីសាស្ត្រវិភាគទិន្នន័យធំ (Big Data Analytics) និងម៉ូដែល Machine Learning ទាមទារនូវធនធានផ្នែកទន់ រឹង និងទិន្នន័យដែលមានគុណភាព។
ទោះបីជាឯកសារមិនបានបញ្ជាក់ច្បាស់ពីប្រភពនៃទិន្នន័យ ប៉ុន្តែការសិក្សាភាគច្រើនពឹងផ្អែកលើទិន្នន័យសុខភាពពីប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា របៀបរស់នៅ ហ្សែន និងកត្តាហានិភ័យនៃជំងឺសរសៃឈាមបេះដូងអាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីជៀសវាងភាពលម្អៀងក្នុងការទស្សន៍ទាយ (Predictive Bias)។
បច្ចេកទេស SMOTE និង Machine Learning នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យសុខាភិបាលរបស់ប្រទេសកម្ពុជា ដើម្បីជួយសម្រួលដល់ការធ្វើរោគវិនិច្ឆ័យជំងឺបេះដូងឱ្យបានលឿន និងច្បាស់លាស់។
ការសមាហរណកម្មបច្ចេកវិទ្យានេះនឹងជួយកាត់បន្ថយអត្រាស្លាប់ដោយសារជំងឺសរសៃឈាមបេះដូងនៅកម្ពុជា តាមរយៈការព្យាករណ៍បានត្រឹមត្រូវ និងការព្យាបាលទាន់ពេលវេលា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Synthetic Minority Oversampling Technique (SMOTE) | គឺជាបច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពរវាងក្រុមផ្សេងៗ ដែលជួយឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនស្គាល់ករណីជំងឺកម្របានកាន់តែច្បាស់ និងមិនមានភាពលម្អៀង។ | ដូចជាការថតចម្លងឯកសារសំខាន់ៗដែលយើងមានតិចតួចឱ្យមានច្រើនសន្លឹក ដើម្បីកុំឱ្យវាបាត់បង់ ឬត្រូវគេមើលរំលងនៅពេលដាក់លាយជាមួយឯកសារផ្សេងៗដ៏ច្រើន។ |
| Imbalanced Datasets | គឺជាបណ្តុំទិន្នន័យដែលមានភាពលម្អៀងខ្លាំងរវាងក្រុមគោលដៅ។ ឧទាហរណ៍៖ ទិន្នន័យមនុស្សអ្នកមានសុខភាពល្អមានច្រើនសន្ធឹកសន្ធាប់ ខណៈទិន្នន័យអ្នកមានជំងឺបេះដូងមានតិចតួចបំផុត ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រទាយលម្អៀងទៅរកមនុស្សជា និងរំលងមនុស្សឈឺ។ | ដូចជាការព្យាយាមស្វែងរកម្ជុលក្នុងបាតសមុទ្រ ដែលរបស់ដែលយើងចង់រកមានចំនួនតិចតួចបំផុតធៀបនឹងបរិស្ថានជុំវិញដ៏ធំធេង។ |
| Feature Selection | គឺជាដំណើរការនៃការច្រោះ និងជ្រើសរើសយកតែលក្ខណៈសម្បត្តិ ឬរោគសញ្ញាសំខាន់ៗបំផុតពីក្នុងទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកមកប្រើក្នុងការទស្សន៍ទាយជំងឺ ដោយជៀសវាងការប្រើទិន្នន័យឥតប្រយោជន៍ដែលធ្វើឱ្យម៉ូដែលដំណើរការយឺត ឬមិនសូវត្រឹមត្រូវ។ | ដូចជាការរៀបចំបាលីវ៉ាលីទៅដើរលេង ដោយរើសយកតែខោអាវណាដែលចាំបាច់ពិតប្រាកដ និងទុករបស់ដែលមិនត្រូវការចោលដើម្បីកុំឱ្យធ្ងន់ និងងាយស្រួលធ្វើដំណើរ។ |
| Chi-Square Test | ជារូបមន្តស្ថិតិដែលគេប្រើក្នុងវគ្គ Feature Selection ដើម្បីវាស់ស្ទង់ថា តើរោគសញ្ញាណាមួយ (ឧទាហរណ៍៖ កម្រិតកូឡេស្តេរ៉ុល) ពិតជាមានទំនាក់ទំនងផ្ទាល់ជាមួយការកើតជំងឺបេះដូងមែនឬអត់ មុននឹងសម្រេចចិត្តបញ្ចូលវាទៅក្នុងម៉ូដែលកុំព្យូទ័រ។ | ដូចជាការព្យាយាមរកមើលថាតើការញ៉ាំស្ករគ្រាប់ច្រើន និងការឈឺធ្មេញ ពិតជាមានទំនាក់ទំនងនឹងគ្នាឬអត់ តាមរយៈការកត់ត្រា និងប្រៀបធៀបតួលេខ។ |
| Euclidean Distance | គឺជារូបមន្តគណិតវិទ្យាសម្រាប់វាស់ចម្ងាយជាបន្ទាត់ត្រង់រវាងចំណុចទិន្នន័យពីរនៅក្នុងលំហ ដើម្បីរកមើលថាអ្នកជំងឺពីរនាក់មានរោគសញ្ញាស្រដៀងគ្នាដល់កម្រិតណា ដែលទិន្នន័យនេះជួយដល់បច្ចេកទេស SMOTE ក្នុងការបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីនៅចន្លោះអ្នកជំងឺទាំងពីរនោះ។ | ដូចជាការយកបន្ទាត់ទៅវាស់ប្រវែងផ្លូវកាត់ជាបន្ទាត់ត្រង់ពីផ្ទះមួយទៅផ្ទះមួយទៀតនៅលើផែនទី ដើម្បីដឹងថាផ្ទះទាំងពីរនៅជិតគ្នាប៉ុនណា។ |
| Precision and Recall | គឺជារង្វាស់សម្រាប់វាយតម្លៃម៉ូដែល។ Precision វាស់ថាក្នុងចំណោមអ្នកដែលប្រព័ន្ធថាមានជំងឺ តើមានប៉ុន្មានភាគរយដែលឈឺពិតប្រាកដ (កាត់បន្ថយការទាយខុសថាឈឺ)។ ចំណែក Recall វាស់ថាក្នុងចំណោមអ្នកឈឺពិតប្រាកដទាំងអស់ តើប្រព័ន្ធអាចរកឃើញប៉ុន្មាននាក់ (កាត់បន្ថយការរំលងអ្នកជំងឺ)។ | Precision ដូចជាអ្នកបាញ់កាំភ្លើងដែលបាញ់ចំគោលដៅរាល់ដង ចំណែក Recall ដូចជាអ្នករើសផ្លែឈើដែលអាចបេះផ្លែទុំបានទាំងអស់ពីលើដើមដោយមិនឱ្យសល់។ |
| AUC-ROC | ជារង្វាស់វាយតម្លៃម៉ូដែលជារួម (Area Under the Receiver Operating Characteristic Curve) ដែលបង្ហាញពីសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការបែងចែកឱ្យដាច់ស្រឡះរវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ ក្រុមអ្នកមានជំងឺសរសៃឈាមបេះដូង និងក្រុមអ្នកមានសុខភាពល្អ)។ | ដូចជាការផ្តល់ពិន្ទុវាយតម្លៃជារួមទៅលើអ្នកកាត់ក្តីម្នាក់ ថាតើគាត់មានសមត្ថភាពអាចញែកដាច់រវាងជនល្មើសនិងជនស្លូតត្រង់បានច្បាស់លាស់កម្រិតណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖