Original Title: Machine learning approach on healthcare big data: a review
Source: doi.org/10.3934/bdia.2020005
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្ររៀនម៉ាស៊ីនលើទិន្នន័យធំផ្នែកថែទាំសុខភាព៖ ការរំលឹកឡើងវិញ

ចំណងជើងដើម៖ Machine learning approach on healthcare big data: a review

អ្នកនិពន្ធ៖ M Supriya (Anna University), AJ Deepa (Ponjesly Engineering College)

ឆ្នាំបោះពុម្ព៖ 2020, Big Data and Information Analytics

វិស័យសិក្សា៖ Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទនេះពិភាក្សាអំពីបញ្ហាប្រឈម និងឱកាសក្នុងការគ្រប់គ្រង ដំណើរការ និងទាញយកប្រយោជន៍ពីទិន្នន័យធំ (Big Data) ដ៏ស្មុគស្មាញក្នុងវិស័យថែទាំសុខភាព ដើម្បីកែលម្អការធ្វើរោគវិនិច្ឆ័យ និងការព្យាបាលជំងឺ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការរំលឹកឡើងវិញ (Review) ទៅលើក្បួនដោះស្រាយការរៀនម៉ាស៊ីនផ្សេងៗ ដែលត្រូវបានអនុវត្តលើទិន្នន័យថែទាំសុខភាពជាច្រើនប្រភេទសម្រាប់ការទស្សន៍ទាយជំងឺ។

ប្រភពទិន្នន័យធំផ្នែកថែទាំសុខភាព (Healthcare Big Data Sources) រួមមានកំណត់ត្រាសុខភាពអេឡិចត្រូនិក (EHR) និង IoT
ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនបឋម (Traditional Machine Learning) ដូចជា SVM, Naive Bayes និង Random Forest
បណ្តាញរៀនស៊ីជម្រៅ (Deep Learning Networks) រួមមាន CNN, RNN និង LSTM
រង្វាស់វាយតម្លៃដំណើរការម៉ូដែល (Performance Measures) ដូចជា Accuracy, AUC, Brier score, Precision និង Recall

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការអនុវត្តវិធីសាស្ត្ររៀនម៉ាស៊ីនលើកំណត់ត្រាសុខភាពអេឡិចត្រូនិក (EHR) ជួយបង្កើនភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយជំងឺរ៉ាំរ៉ៃដូចជា ជំងឺទឹកនោមផ្អែម និងជំងឺខ្សោយបេះដូង។
បច្ចេកវិទ្យារៀនស៊ីជម្រៅ (Deep Learning) ដូចជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (DL-ANN) អាចសម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៩៨.២៤% ក្នុងការទស្សន៍ទាយជំងឺមហារីកសុដន់។
ការរួមបញ្ចូលក្បួនដោះស្រាយរៀនម៉ាស៊ីនជាមួយនឹងស្ថាបត្យកម្មទិន្នន័យធំ អាចជួយដល់វេជ្ជបណ្ឌិតក្នុងការសម្រេចចិត្តគ្លីនិកបានកាន់តែប្រសើរ កាត់បន្ថយចំណាយ និងពង្រឹងការថែទាំអ្នកជំងឺផ្ទាល់ខ្លួន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Deep Learning-Artificial Neural Network (DL-ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតនៃការរៀនស៊ីជម្រៅ	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកលំនាំស្មុគស្មាញ និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការទស្សន៍ទាយលើទិន្នន័យធំ។	ទាមទារទិន្នន័យសម្រាប់ហ្វឹកហាត់ក្នុងទំហំធំខ្លាំង និងស៊ីថាមពលកុំព្យូទ័រ (Compute Power) ខ្ពស់។	ទទួលបានភាពត្រឹមត្រូវ ៩៨.២៤% ក្នុងការទស្សន៍ទាយជំងឺមហារីកសុដន់ (ប្រើប្រាស់ Wisconsin Breast Cancer Dataset)។
Convolutional Neural Networks (CNNs) បណ្តាញសរសៃប្រសាទខនវ៉ុលយូសិន	ពូកែក្នុងការវិភាគលើទិន្នន័យចម្រុះ (Multimodal) រួមទាំងទិន្នន័យរូបភាពវេជ្ជសាស្ត្រ (CT, MRI) និងអត្ថបទ។	ដំណើរការម៉ូដែលប្រៀបដូចជាប្រអប់ខ្មៅ (Black-box) ដែលពិបាកពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តទៅកាន់គ្រូពេទ្យជំនាញ។	ទទួលបានភាពត្រឹមត្រូវ ៩៤.៨% លើទិន្នន័យជាក់ស្តែងរបស់មន្ទីរពេទ្យសម្រាប់ការទស្សន៍ទាយហានិភ័យជំងឺពហុទម្រង់។
Naive Bayes (NB) ក្បួនដោះស្រាយ ណាយបេយ	ងាយស្រួលយល់ លឿនក្នុងការគណនា និងដំណើរការបានល្អលើសំណុំទិន្នន័យតូចៗឬទិន្នន័យប្រភេទតារាង (Tabular Data)។	សន្មតថាអថេរនីមួយៗឯករាជ្យពីគ្នា ដែលជាក់ស្តែងក្នុងវិស័យសុខាភិបាល រោគសញ្ញាជារឿយៗតែងមានទំនាក់ទំនងគ្នា ធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិត។	ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៧៦.៣០% ក្នុងការទស្សន៍ទាយជំងឺទឹកនោមផ្អែម (ប្រើប្រាស់ Pima Indians Diabetes Database)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃធនធានហិរញ្ញវត្ថុជាក់លាក់នោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់យ៉ាងច្បាស់លើតម្រូវការចាំបាច់នៃហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យធំ និងថាមពលកុំព្យូទ័រខ្ពស់សម្រាប់ដំណើរការម៉ូដែលរៀនស៊ីជម្រៅ។

Hardware: ទាមទារម៉ាស៊ីនមេ (Servers) ឬសេវា Cloud ដែលមានសមត្ថភាពគណនាខ្ពស់ (ឧទាហរណ៍ GPUs) ដើម្បីអាចរត់ម៉ូដែល Deep Learning លើទិន្នន័យកម្រិត Terabytes ទៅ Zettabytes បានលឿន។
Software: ត្រូវការប្រព័ន្ធគ្រប់គ្រងទិន្នន័យធំ ដូចជា Apache Hadoop និង Apache Spark សម្រាប់ការគណនាស្របគ្នា និងប្រព័ន្ធទិន្នន័យ NoSQL សម្រាប់ផ្ទុកទិន្នន័យមិនមានរចនាសម្ព័ន្ធ។
Dataset: ត្រូវការកំណត់ត្រាសុខភាពអេឡិចត្រូនិក (EHR) ដ៏ធំ និងទិន្នន័យរូបភាពវេជ្ជសាស្ត្រច្បាស់លាស់ ដែលត្រូវបានរៀបចំ ទាញយកលក្ខណៈសម្បត្តិ (Feature Engineering) និងសម្អាតរួចរាល់។
Expertise: ត្រូវការអ្នកវិទ្យាសាស្ត្រទិន្នន័យ (Data Scientists) ដើម្បីបង្កើតនិងអភិវឌ្ឍម៉ូដែល ក៏ដូចជាវេជ្ជបណ្ឌិតជំនាញ (Medical Experts) ដើម្បីផ្ទៀងផ្ទាត់និងបកស្រាយលទ្ធផលវិភាគ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាភាគច្រើនដែលបានលើកឡើង ប្រើប្រាស់សំណុំទិន្នន័យពីសហរដ្ឋអាមេរិក (ឧទាហរណ៍ MIMIC-III សម្រាប់ជំងឺ Sepsis, Mayo Clinic) និងទិន្នន័យពីមន្ទីរពេទ្យនៅប្រទេសចិន។ នេះជារឿងសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ដោយសារតែភាពខុសគ្នានៃហ្សែន របៀបរស់នៅ សភាពបរិស្ថាន និងកម្រិតនៃការកត់ត្រាសុខភាព ទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីហ្វឹកហាត់ម៉ូដែលឡើងវិញ (Retrain) ជៀសវាងភាពលម្អៀងក្នុងការធ្វើរោគវិនិច្ឆ័យ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យារៀនម៉ាស៊ីនលើទិន្នន័យធំទាំងនេះ មានសក្តានុពលខ្ពស់ខ្លាំងណាស់ក្នុងការជួយធ្វើទំនើបកម្មប្រព័ន្ធថែទាំសុខភាព និងការគាំពារសង្គមនៅប្រទេសកម្ពុជា។

មន្ទីរពេទ្យថ្នាក់ជាតិកម្រិតខ្ពស់ (ឧទាហរណ៍ មន្ទីរពេទ្យកាល់ម៉ែត): អាចប្រើប្រាស់ម៉ូដែលទស្សន៍ទាយដើម្បីស្វែងរកហានិភ័យនៃជំងឺរ៉ាំរ៉ៃ (ដូចជាជំងឺទឹកនោមផ្អែម និងខ្សោយបេះដូង) មុនពេលជំងឺវិវឌ្ឍទៅរកសភាពធ្ងន់ធ្ងរ តាមរយៈការវិភាគលើកំណត់ត្រាអ្នកជំងឺ។
នាយកដ្ឋានប្រយុទ្ធនឹងជំងឺឆ្លង (CDC កម្ពុជា): អាចអនុវត្តបច្ចេកវិទ្យារាតត្បាតវិទ្យាឌីជីថល (Digital Epidemiology) ដោយប្រមូលទិន្នន័យពីឧបករណ៍ IoT ដើម្បីតាមដាន និងទប់ស្កាត់ការផ្ទុះឡើងនៃជំងឺឆ្លងនានានៅតាមសហគមន៍បានទាន់ពេលវេលា។
បេឡាជាតិសន្តិសុខសង្គម (ប.ស.ស - NSSF): អាចប្រើប្រាស់ Predictive Analytics និង Deep Learning ដើម្បីវិភាគលើការទាមទារសំណងធានារ៉ាប់រងសុខភាព និងកំណត់អត្តសញ្ញាណការក្លែងបន្លំទាមទារប្រាក់ (Insurance Fraud Detection) ដោយស្វ័យប្រវត្តិ។

ទោះបីជាការចាប់ផ្តើមទាមទារការវិនិយោគច្រើនលើហេដ្ឋារចនាសម្ព័ន្ធប្រព័ន្ធកត់ត្រាសុខភាពអេឡិចត្រូនិក (EHR) ក៏ដោយ តែការអនុវត្តបច្ចេកវិទ្យាទាំងនេះនឹងជួយកាត់បន្ថយចំណាយការព្យាបាលយ៉ាងច្រើន និងសង្គ្រោះជីវិតប្រជាជនកម្ពុជាបានកាន់តែប្រសើរនាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំប្រព័ន្ធទិន្នន័យសុខភាពឌីជីថល: ចាប់ផ្តើមរៀបចំ និងអនុវត្តប្រព័ន្ធ EHR (Electronic Health Record) នៅតាមមន្ទីរពេទ្យគោលដៅ ដោយសិក្សាប្រើប្រាស់ប្រព័ន្ធទិន្នន័យ NoSQL ដូចជា MongoDB ដើម្បីផ្ទុកទិន្នន័យគ្លីនិកចម្រុះ និងគ្មានរចនាសម្ព័ន្ធ។
កសាងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យធំ: ស្វែងយល់ និងសាកល្បងដំឡើងប្រព័ន្ធកុំព្យូទ័រចង្កោម (Cluster Computing) ដោយប្រើប្រាស់ Apache Hadoop ឬ Apache Spark ដើម្បីត្រៀមខ្លួនក្នុងការវិភាគទិន្នន័យកម្រិតខ្ពស់ និងលឿនរហ័ស។
អនុវត្តម៉ូដែលរៀនម៉ាស៊ីនមូលដ្ឋានលើទិន្នន័យគ្លីនិក: ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ក្នុងភាសា Python ដើម្បីហ្វឹកហាត់ម៉ូដែល Random Forest និង Logistic Regression លើទិន្នន័យតារាង (Tabular Data) ដើម្បីទស្សន៍ទាយហានិភ័យជំងឺទឹកនោមផ្អែម។
សិក្សាស៊ីជម្រៅលើការវិភាគរូបភាពវេជ្ជសាស្ត្រ: ឈានទៅប្រើប្រាស់ Frameworks ដូចជា TensorFlow ឬ PyTorch ដើម្បីបង្កើតបណ្តាញ CNN (Convolutional Neural Networks) សម្រាប់វិភាគរូបភាពកាំរស្មីអ៊ិចសួត ឬស្កេនខួរក្បាល ដើម្បីរកមើលភាពមិនប្រក្រតីនៃកោសិកា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Electronic Health Record (EHR)	ជាប្រព័ន្ធកត់ត្រាឌីជីថលដែលផ្ទុកព័ត៌មានសុខភាពរបស់អ្នកជំងឺ រួមមានប្រវត្តិជំងឺ លទ្ធផលពិនិត្យឈាម ថ្នាំដែលធ្លាប់ប្រើ និងកំណត់ត្រាការព្យាបាល ដែលអនុញ្ញាតឱ្យគ្រូពេទ្យ និងប្រព័ន្ធកុំព្យូទ័រងាយស្រួលទាញយកមកវិភាគ។	ដូចជាសៀវភៅតាមដានសុខភាពប្រចាំកាយរបស់យើងដែរ ប៉ុន្តែវាត្រូវបានរក្សាទុកក្នុងកុំព្យូទ័រដោយស្វ័យប្រវត្តិ ដែលគ្រូពេទ្យអាចស្វែងរកទិន្នន័យចាស់ៗបានត្រឹមមួយប៉ប្រិចភ្នែក។
Convolution Neural Networks (CNN)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលពូកែខាងស្កេន វិភាគ និងចាប់យកលក្ខណៈពិសេសពីរូបភាព (ដូចជា CT Scan ឬ MRI) ដើម្បីធ្វើការចំណាត់ថ្នាក់ ឬទស្សន៍ទាយជំងឺ។	ដូចជាភ្នែកនិងខួរក្បាលរបស់កូនក្មេងដែលរៀនចំណាំរូបភាពសត្វឆ្កែ ដោយសម្លឹងមើលលក្ខណៈពិសេសដូចជាទម្រង់ត្រចៀក និងច្រមុះ។
Long Short Term Memory (LSTM)	ជាទម្រង់មួយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានសមត្ថភាពចងចាំព័ត៌មានរយៈពេលយូរ ស័ក្តិសមបំផុតសម្រាប់វិភាគទិន្នន័យដែលមានលំដាប់លំដោយពេលវេលា ដូចជាការវិវឌ្ឍនៃជំងឺរបស់អ្នកជំងឺពីមួយឆ្នាំទៅមួយឆ្នាំ។	ដូចជាអ្នកវិភាគរឿងក្តីដ៏ពូកែម្នាក់ដែលមិនត្រឹមតែមើលហេតុការណ៍ថ្មីៗទេ តែអាចភ្ជាប់សាច់រឿងកាលពីប៉ុន្មានឆ្នាំមុនមកពន្យល់ពីដើមចមនៃបញ្ហាបច្ចុប្បន្នបានយ៉ាងល្អ។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលព្យាយាមគូសបន្ទាត់ ឬបង្កើតព្រំដែនធរណីមាត្រដ៏ល្អបំផុត ដើម្បីបែងចែកទិន្នន័យជាក្រុមផ្សេងៗគ្នា (ឧទាហរណ៍៖ ក្រុមអ្នកជំងឺមហារីក និងក្រុមអ្នកមិនមានជំងឺ)។	ដូចជាការគូសបន្ទាត់របងនៅលើទីធ្លាធំមួយ ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។
Random Forest (RF)	ជាក្បួនដោះស្រាយដែលបង្កើតម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើនផ្អែកលើការទាញយកទិន្នន័យដោយចៃដន្យ ហើយយកលទ្ធផលរបស់វាទាំងអស់មកបោះឆ្នោតរួមគ្នា ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលចុងក្រោយ។	ដូចជាការប្រមូលគណៈកម្មការគ្រូពេទ្យ១០០នាក់មកវិនិច្ឆ័យរោគសញ្ញាតែមួយ រួចយកចម្លើយដែលវេជ្ជបណ្ឌិតភាគច្រើនយល់ស្របជាងគេធ្វើជាការសន្និដ្ឋានចុងក្រោយ។
NoSQL database	ជាប្រព័ន្ធរក្សាទុកទិន្នន័យដែលមិនប្រើប្រាស់រចនាសម្ព័ន្ធតារាងរឹងមាំដូចប្រព័ន្ធមុនៗ វាអាចផ្ទុកទិន្នន័យទំហំធំខ្លាំង និងមានទម្រង់ចម្រុះ (អត្ថបទកំណត់ត្រាពេទ្យ រូបភាព វីដេអូ) បានយ៉ាងងាយស្រួល។	ដូចជាឃ្លាំងស្តុកទំនិញដ៏ធំមួយដែលអ្នកអាចទុករបស់របរគ្រប់ទំហំ និងគ្រប់រូបរាងដោយសេរី ដោយមិនចាំបាច់រៀបចំទូដាក់ឱ្យមានប្រឡោះប៉ុនៗគ្នាជាមុននោះទេ។
Digital epidemiology	ជាការសិក្សាពីការរីករាលដាលនៃជំងឺ ដោយប្រមូលនិងប្រើប្រាស់ប្រភពទិន្នន័យឌីជីថលទំហំធំ (ដូចជាកំណត់ត្រាពេទ្យ ឧបករណ៍ IoT ឬការស្វែងរកលើអ៊ីនធឺណិត) ដើម្បីតាមដានជំងឺឆ្លងបានលឿនជាងមុន។	ដូចជាការទស្សន៍ទាយថានឹងមានភ្លៀងធ្លាក់នៅតំបន់ណា ដោយគ្រាន់តែតាមដានមើលចំនួនមនុស្សដែលបង្ហោះសាររកទិញឆ័ត្រនៅលើហ្វេសប៊ុកនៅតំបន់នោះ ជំនួសឱ្យការចុះទៅវាស់ស្ទង់ផ្ទាល់។
Radiomics	ជាវិធីសាស្ត្រទាញយកទិន្នន័យបរិមាណ (Quantitative features) រាប់ពាន់ពីរូបភាពវេជ្ជសាស្ត្រ (CT, MRI) តាមរយៈក្បួនដោះស្រាយកុំព្យូទ័រ ដែលភ្នែកមនុស្សមិនអាចមើលឃើញ ដើម្បីកំណត់ចរិតលក្ខណៈលម្អិតនៃដុំសាច់មហារីក។	ដូចជាការប្រើប្រាស់មីក្រូទស្សន៍ដ៏ទំនើបដើម្បីឆ្លុះមើលរចនាសម្ព័ន្ធសរសៃអំបោះនៃសាច់ក្រណាត់ ដែលភ្នែកទទេរបស់យើងមើលឃើញត្រឹមតែជាផ្ទាំងពណ៌មួយប៉ុណ្ណោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖