Original Title: Machine learning approach on healthcare big data: a review
Source: doi.org/10.3934/bdia.2020005
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្ររៀនម៉ាស៊ីនលើទិន្នន័យធំផ្នែកថែទាំសុខភាព៖ ការរំលឹកឡើងវិញ

ចំណងជើងដើម៖ Machine learning approach on healthcare big data: a review

អ្នកនិពន្ធ៖ M Supriya (Anna University), AJ Deepa (Ponjesly Engineering College)

ឆ្នាំបោះពុម្ព៖ 2020, Big Data and Information Analytics

វិស័យសិក្សា៖ Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទនេះពិភាក្សាអំពីបញ្ហាប្រឈម និងឱកាសក្នុងការគ្រប់គ្រង ដំណើរការ និងទាញយកប្រយោជន៍ពីទិន្នន័យធំ (Big Data) ដ៏ស្មុគស្មាញក្នុងវិស័យថែទាំសុខភាព ដើម្បីកែលម្អការធ្វើរោគវិនិច្ឆ័យ និងការព្យាបាលជំងឺ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការរំលឹកឡើងវិញ (Review) ទៅលើក្បួនដោះស្រាយការរៀនម៉ាស៊ីនផ្សេងៗ ដែលត្រូវបានអនុវត្តលើទិន្នន័យថែទាំសុខភាពជាច្រើនប្រភេទសម្រាប់ការទស្សន៍ទាយជំងឺ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Deep Learning-Artificial Neural Network (DL-ANN)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតនៃការរៀនស៊ីជម្រៅ
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកលំនាំស្មុគស្មាញ និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការទស្សន៍ទាយលើទិន្នន័យធំ។ ទាមទារទិន្នន័យសម្រាប់ហ្វឹកហាត់ក្នុងទំហំធំខ្លាំង និងស៊ីថាមពលកុំព្យូទ័រ (Compute Power) ខ្ពស់។ ទទួលបានភាពត្រឹមត្រូវ ៩៨.២៤% ក្នុងការទស្សន៍ទាយជំងឺមហារីកសុដន់ (ប្រើប្រាស់ Wisconsin Breast Cancer Dataset)។
Convolutional Neural Networks (CNNs)
បណ្តាញសរសៃប្រសាទខនវ៉ុលយូសិន
ពូកែក្នុងការវិភាគលើទិន្នន័យចម្រុះ (Multimodal) រួមទាំងទិន្នន័យរូបភាពវេជ្ជសាស្ត្រ (CT, MRI) និងអត្ថបទ។ ដំណើរការម៉ូដែលប្រៀបដូចជាប្រអប់ខ្មៅ (Black-box) ដែលពិបាកពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តទៅកាន់គ្រូពេទ្យជំនាញ។ ទទួលបានភាពត្រឹមត្រូវ ៩៤.៨% លើទិន្នន័យជាក់ស្តែងរបស់មន្ទីរពេទ្យសម្រាប់ការទស្សន៍ទាយហានិភ័យជំងឺពហុទម្រង់។
Naive Bayes (NB)
ក្បួនដោះស្រាយ ណាយបេយ
ងាយស្រួលយល់ លឿនក្នុងការគណនា និងដំណើរការបានល្អលើសំណុំទិន្នន័យតូចៗឬទិន្នន័យប្រភេទតារាង (Tabular Data)។ សន្មតថាអថេរនីមួយៗឯករាជ្យពីគ្នា ដែលជាក់ស្តែងក្នុងវិស័យសុខាភិបាល រោគសញ្ញាជារឿយៗតែងមានទំនាក់ទំនងគ្នា ធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិត។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៧៦.៣០% ក្នុងការទស្សន៍ទាយជំងឺទឹកនោមផ្អែម (ប្រើប្រាស់ Pima Indians Diabetes Database)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃធនធានហិរញ្ញវត្ថុជាក់លាក់នោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់យ៉ាងច្បាស់លើតម្រូវការចាំបាច់នៃហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យធំ និងថាមពលកុំព្យូទ័រខ្ពស់សម្រាប់ដំណើរការម៉ូដែលរៀនស៊ីជម្រៅ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាភាគច្រើនដែលបានលើកឡើង ប្រើប្រាស់សំណុំទិន្នន័យពីសហរដ្ឋអាមេរិក (ឧទាហរណ៍ MIMIC-III សម្រាប់ជំងឺ Sepsis, Mayo Clinic) និងទិន្នន័យពីមន្ទីរពេទ្យនៅប្រទេសចិន។ នេះជារឿងសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ដោយសារតែភាពខុសគ្នានៃហ្សែន របៀបរស់នៅ សភាពបរិស្ថាន និងកម្រិតនៃការកត់ត្រាសុខភាព ទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីហ្វឹកហាត់ម៉ូដែលឡើងវិញ (Retrain) ជៀសវាងភាពលម្អៀងក្នុងការធ្វើរោគវិនិច្ឆ័យ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យារៀនម៉ាស៊ីនលើទិន្នន័យធំទាំងនេះ មានសក្តានុពលខ្ពស់ខ្លាំងណាស់ក្នុងការជួយធ្វើទំនើបកម្មប្រព័ន្ធថែទាំសុខភាព និងការគាំពារសង្គមនៅប្រទេសកម្ពុជា។

ទោះបីជាការចាប់ផ្តើមទាមទារការវិនិយោគច្រើនលើហេដ្ឋារចនាសម្ព័ន្ធប្រព័ន្ធកត់ត្រាសុខភាពអេឡិចត្រូនិក (EHR) ក៏ដោយ តែការអនុវត្តបច្ចេកវិទ្យាទាំងនេះនឹងជួយកាត់បន្ថយចំណាយការព្យាបាលយ៉ាងច្រើន និងសង្គ្រោះជីវិតប្រជាជនកម្ពុជាបានកាន់តែប្រសើរនាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. រៀបចំប្រព័ន្ធទិន្នន័យសុខភាពឌីជីថល: ចាប់ផ្តើមរៀបចំ និងអនុវត្តប្រព័ន្ធ EHR (Electronic Health Record) នៅតាមមន្ទីរពេទ្យគោលដៅ ដោយសិក្សាប្រើប្រាស់ប្រព័ន្ធទិន្នន័យ NoSQL ដូចជា MongoDB ដើម្បីផ្ទុកទិន្នន័យគ្លីនិកចម្រុះ និងគ្មានរចនាសម្ព័ន្ធ។
  2. កសាងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យធំ: ស្វែងយល់ និងសាកល្បងដំឡើងប្រព័ន្ធកុំព្យូទ័រចង្កោម (Cluster Computing) ដោយប្រើប្រាស់ Apache HadoopApache Spark ដើម្បីត្រៀមខ្លួនក្នុងការវិភាគទិន្នន័យកម្រិតខ្ពស់ និងលឿនរហ័ស។
  3. អនុវត្តម៉ូដែលរៀនម៉ាស៊ីនមូលដ្ឋានលើទិន្នន័យគ្លីនិក: ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ក្នុងភាសា Python ដើម្បីហ្វឹកហាត់ម៉ូដែល Random Forest និង Logistic Regression លើទិន្នន័យតារាង (Tabular Data) ដើម្បីទស្សន៍ទាយហានិភ័យជំងឺទឹកនោមផ្អែម។
  4. សិក្សាស៊ីជម្រៅលើការវិភាគរូបភាពវេជ្ជសាស្ត្រ: ឈានទៅប្រើប្រាស់ Frameworks ដូចជា TensorFlowPyTorch ដើម្បីបង្កើតបណ្តាញ CNN (Convolutional Neural Networks) សម្រាប់វិភាគរូបភាពកាំរស្មីអ៊ិចសួត ឬស្កេនខួរក្បាល ដើម្បីរកមើលភាពមិនប្រក្រតីនៃកោសិកា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Electronic Health Record (EHR) ជាប្រព័ន្ធកត់ត្រាឌីជីថលដែលផ្ទុកព័ត៌មានសុខភាពរបស់អ្នកជំងឺ រួមមានប្រវត្តិជំងឺ លទ្ធផលពិនិត្យឈាម ថ្នាំដែលធ្លាប់ប្រើ និងកំណត់ត្រាការព្យាបាល ដែលអនុញ្ញាតឱ្យគ្រូពេទ្យ និងប្រព័ន្ធកុំព្យូទ័រងាយស្រួលទាញយកមកវិភាគ។ ដូចជាសៀវភៅតាមដានសុខភាពប្រចាំកាយរបស់យើងដែរ ប៉ុន្តែវាត្រូវបានរក្សាទុកក្នុងកុំព្យូទ័រដោយស្វ័យប្រវត្តិ ដែលគ្រូពេទ្យអាចស្វែងរកទិន្នន័យចាស់ៗបានត្រឹមមួយប៉ប្រិចភ្នែក។
Convolution Neural Networks (CNN) ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលពូកែខាងស្កេន វិភាគ និងចាប់យកលក្ខណៈពិសេសពីរូបភាព (ដូចជា CT Scan ឬ MRI) ដើម្បីធ្វើការចំណាត់ថ្នាក់ ឬទស្សន៍ទាយជំងឺ។ ដូចជាភ្នែកនិងខួរក្បាលរបស់កូនក្មេងដែលរៀនចំណាំរូបភាពសត្វឆ្កែ ដោយសម្លឹងមើលលក្ខណៈពិសេសដូចជាទម្រង់ត្រចៀក និងច្រមុះ។
Long Short Term Memory (LSTM) ជាទម្រង់មួយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានសមត្ថភាពចងចាំព័ត៌មានរយៈពេលយូរ ស័ក្តិសមបំផុតសម្រាប់វិភាគទិន្នន័យដែលមានលំដាប់លំដោយពេលវេលា ដូចជាការវិវឌ្ឍនៃជំងឺរបស់អ្នកជំងឺពីមួយឆ្នាំទៅមួយឆ្នាំ។ ដូចជាអ្នកវិភាគរឿងក្តីដ៏ពូកែម្នាក់ដែលមិនត្រឹមតែមើលហេតុការណ៍ថ្មីៗទេ តែអាចភ្ជាប់សាច់រឿងកាលពីប៉ុន្មានឆ្នាំមុនមកពន្យល់ពីដើមចមនៃបញ្ហាបច្ចុប្បន្នបានយ៉ាងល្អ។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលព្យាយាមគូសបន្ទាត់ ឬបង្កើតព្រំដែនធរណីមាត្រដ៏ល្អបំផុត ដើម្បីបែងចែកទិន្នន័យជាក្រុមផ្សេងៗគ្នា (ឧទាហរណ៍៖ ក្រុមអ្នកជំងឺមហារីក និងក្រុមអ្នកមិនមានជំងឺ)។ ដូចជាការគូសបន្ទាត់របងនៅលើទីធ្លាធំមួយ ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។
Random Forest (RF) ជាក្បួនដោះស្រាយដែលបង្កើតម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើនផ្អែកលើការទាញយកទិន្នន័យដោយចៃដន្យ ហើយយកលទ្ធផលរបស់វាទាំងអស់មកបោះឆ្នោតរួមគ្នា ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលចុងក្រោយ។ ដូចជាការប្រមូលគណៈកម្មការគ្រូពេទ្យ១០០នាក់មកវិនិច្ឆ័យរោគសញ្ញាតែមួយ រួចយកចម្លើយដែលវេជ្ជបណ្ឌិតភាគច្រើនយល់ស្របជាងគេធ្វើជាការសន្និដ្ឋានចុងក្រោយ។
NoSQL database ជាប្រព័ន្ធរក្សាទុកទិន្នន័យដែលមិនប្រើប្រាស់រចនាសម្ព័ន្ធតារាងរឹងមាំដូចប្រព័ន្ធមុនៗ វាអាចផ្ទុកទិន្នន័យទំហំធំខ្លាំង និងមានទម្រង់ចម្រុះ (អត្ថបទកំណត់ត្រាពេទ្យ រូបភាព វីដេអូ) បានយ៉ាងងាយស្រួល។ ដូចជាឃ្លាំងស្តុកទំនិញដ៏ធំមួយដែលអ្នកអាចទុករបស់របរគ្រប់ទំហំ និងគ្រប់រូបរាងដោយសេរី ដោយមិនចាំបាច់រៀបចំទូដាក់ឱ្យមានប្រឡោះប៉ុនៗគ្នាជាមុននោះទេ។
Digital epidemiology ជាការសិក្សាពីការរីករាលដាលនៃជំងឺ ដោយប្រមូលនិងប្រើប្រាស់ប្រភពទិន្នន័យឌីជីថលទំហំធំ (ដូចជាកំណត់ត្រាពេទ្យ ឧបករណ៍ IoT ឬការស្វែងរកលើអ៊ីនធឺណិត) ដើម្បីតាមដានជំងឺឆ្លងបានលឿនជាងមុន។ ដូចជាការទស្សន៍ទាយថានឹងមានភ្លៀងធ្លាក់នៅតំបន់ណា ដោយគ្រាន់តែតាមដានមើលចំនួនមនុស្សដែលបង្ហោះសាររកទិញឆ័ត្រនៅលើហ្វេសប៊ុកនៅតំបន់នោះ ជំនួសឱ្យការចុះទៅវាស់ស្ទង់ផ្ទាល់។
Radiomics ជាវិធីសាស្ត្រទាញយកទិន្នន័យបរិមាណ (Quantitative features) រាប់ពាន់ពីរូបភាពវេជ្ជសាស្ត្រ (CT, MRI) តាមរយៈក្បួនដោះស្រាយកុំព្យូទ័រ ដែលភ្នែកមនុស្សមិនអាចមើលឃើញ ដើម្បីកំណត់ចរិតលក្ខណៈលម្អិតនៃដុំសាច់មហារីក។ ដូចជាការប្រើប្រាស់មីក្រូទស្សន៍ដ៏ទំនើបដើម្បីឆ្លុះមើលរចនាសម្ព័ន្ធសរសៃអំបោះនៃសាច់ក្រណាត់ ដែលភ្នែកទទេរបស់យើងមើលឃើញត្រឹមតែជាផ្ទាំងពណ៌មួយប៉ុណ្ណោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖