Original Title: Multi-class Classification of Alzheimer’s Disease Using Deep Learning and Transfer Learning on 3D MRI Images
Source: doi.org/10.18280/ts.410328
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ចំណាត់ថ្នាក់ពហុថ្នាក់នៃជំងឺអាល់ហ្សៃមឺរដោយប្រើប្រាស់ Deep Learning និង Transfer Learning លើរូបភាព 3D MRI

ចំណងជើងដើម៖ Multi-class Classification of Alzheimer’s Disease Using Deep Learning and Transfer Learning on 3D MRI Images

អ្នកនិពន្ធ៖ Battula Srinivasa Rao, Mudiyala Aparna, Soma Sekhar Kolisetty, Hyma Janapana, Yannam Vasantha Koteswararao

ឆ្នាំបោះពុម្ព៖ 2024, Traitement du Signal

វិស័យសិក្សា៖ Machine Learning / Medical Imaging

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការរកឃើញ និងធ្វើចំណាត់ថ្នាក់ដំណាក់កាលនៃជំងឺអាល់ហ្សៃមឺរ (AD) ដែលវិធីសាស្ត្រវិភាគដោយដៃជាប្រពៃណីតែងតែចំណាយពេលយូរ ស៊ីកម្លាំងពលកម្ម និងងាយមានកំហុស។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតក្របខ័ណ្ឌ Deep Learning ថ្មីមួយដោយរួមបញ្ចូលបណ្តាញ 3D Convolutional ជាមួយនឹងបច្ចេកទេស Transfer Learning ដើម្បីវិភាគទិន្នន័យរូបភាពស្កេនខួរក្បាល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Proposed ResNet50V2 with Transfer Learning
ម៉ូដែល ResNet50V2 ជាមួយបច្ចេកទេសផ្ទេរចំណេះដឹង (Transfer Learning)
ដោះស្រាយបញ្ហា Vanishing gradient បានយ៉ាងល្អ និងសន្សំសំចៃពេលវេលាដោយមិនចាំបាច់បណ្តុះបណ្តាលពីចំណុចសូន្យ។ មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេសពីរូបភាព 3D MRI ស្មុគស្មាញ។ ទាមទារកម្លាំងគណនាខ្ពស់សម្រាប់ការប្រើប្រាស់ Batch size ធំ (512) និងពឹងផ្អែកខ្លាំងទៅលើទិន្នន័យ Pre-trained ពីមុន។ សម្រេចបានភាពត្រឹមត្រូវក្នុងការបណ្តុះបណ្តាល ៩២,១៥% និងភាពត្រឹមត្រូវក្នុងការធ្វើតេស្តជាក់ស្តែង ៩១,២៥%។
InceptionResNetV2
ម៉ូដែល InceptionResNetV2 ជាមួយ Transfer Learning
មានសមត្ថភាពក្នុងការកាត់បន្ថយបញ្ហា Overfitting បានល្អតាមរយៈការប្រើប្រាស់ Max Pooling និង Dropout layer។ ទោះបីជាមានភាពស្មុគស្មាញ ប៉ុន្តែផ្តល់លទ្ធផល និងភាពត្រឹមត្រូវទាបជាងម៉ូដែល ResNet50V2 បន្តិចក្នុងការធ្វើតេស្ត។ សម្រេចបានភាពត្រឹមត្រូវក្នុងការធ្វើតេស្ត ៩០,៧០%។
Other CNN Models (VGG16, MobileNetV2, DenseNet121, Xception)
ម៉ូដែល Deep Learning ជាមូលដ្ឋានផ្សេងៗទៀត (VGG16, MobileNetV2, ជាដើម)
ម៉ូដែលខ្លះដូចជា MobileNetV2 មានទំហំតូច ប្រើប្រាស់ធនធានកុំព្យូទ័រតិច និងដំណើរការបានលឿនជាង។ មិនអាចចាប់យកលក្ខណៈពិសេសលម្អិតនៃរូបភាព 3D MRI បានល្អដូចម៉ូដែលជំនាន់ថ្មី ធ្វើឱ្យអត្រានៃការរកឃើញមានកម្រិតទាប។ សម្រេចបានភាពត្រឹមត្រូវក្នុងការធ្វើតេស្តចន្លោះពី ៨៣,៨% (Xception) ទៅ ៨៧,៣% (MobileNetV2)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រ (Hardware) ដែលមានកម្លាំងខ្លាំងក្លា និងប្រភពទិន្នន័យវេជ្ជសាស្ត្រច្បាស់លាស់ សម្រាប់ការវិភាគរូបភាពប្រភេទ 3D។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យស្កេនខួរក្បាលពីគម្រោង ADNI ដែលភាគច្រើនតំណាងឱ្យប្រជាជននៅលោកខាងលិច (សហរដ្ឋអាមេរិក)។ សម្រាប់ប្រទេសកម្ពុជា កត្តានេះអាចជះឥទ្ធិពលខ្លះៗ ដោយសារភាពខុសគ្នានៃហ្សែន របបអាហារ និងទម្រង់ជីវសាស្រ្ត ហេតុនេះការសាកល្បងម៉ូដែលជាមួយទិន្នន័យអ្នកជំងឺក្នុងស្រុកគឺជារឿងចាំបាច់បំផុតមុននឹងដាក់ឱ្យប្រើប្រាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ក្នុងការជួយសម្រួលដល់វិស័យសុខាភិបាលនៅកម្ពុជា ស្របពេលដែលអត្រាប្រជាជនវ័យចំណាស់កំពុងមានការកើនឡើង។

ការប្រើប្រាស់វិធីសាស្ត្រ Transfer Learning ធ្វើឱ្យស្ថាប័នសុខាភិបាលនៅកម្ពុជាមិនចាំបាច់ចំណាយធនធានហួសហេតុក្នុងការបង្កើតម៉ូដែលពីសូន្យ ដែលនេះជាជម្រើសដ៏ស័ក្តិសម និងសន្សំសំចៃក្នុងការអភិវឌ្ឍប្រព័ន្ធ HealthTech ក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះបញ្ញាសិប្បនិម្មិតសម្រាប់ការមើលឃើញ (Computer Vision): ចាប់ផ្តើមដោយការរៀនសរសេរកូដ Python និងប្រើប្រាស់ Frameworks ដូចជា TensorFlowKeras ដើម្បីយល់ច្បាស់ពីរបៀបដំណើរការរបស់បណ្តាញសរសៃប្រសាទ Convolutional Neural Network (CNN)។
  2. ស្វែងយល់ពីបច្ចេកទេសកែច្នៃរូបភាពវេជ្ជសាស្ត្រ 3D: អនុវត្តការទាញយកទិន្នន័យ 3D MRI ពីប្រភពបើកទូលាយ (ដូចជា ADNI កម្រិតសាកល្បង) និងប្រើប្រាស់បណ្ណាល័យ NiBabel ដើម្បីរៀនពីវិធីសាស្ត្ររៀបចំទិន្នន័យ (Pre-processing) ដូចជា ការធ្វើមាត្រដ្ឋាន ការកែតម្រូវ B1 និង N3 Correction។
  3. អនុវត្តបច្ចេកទេសផ្ទេរចំណេះដឹង (Transfer Learning) ជាមួយ ResNet: ទាញយកម៉ូដែល ResNet50V2 ដែលមានស្រាប់នៅក្នុង Keras Applications មកធ្វើការផ្លាស់ប្តូរស្រទាប់ចុងក្រោយ (Fully Connected Layer និង Softmax) ដើម្បីតម្រូវទៅនឹងការបែងចែកថ្នាក់ចំនួន ៣ នៃជំងឺអាល់ហ្សៃមឺរ។
  4. បង្កើនប្រសិទ្ធភាព និងវាយតម្លៃម៉ូដែល (Optimization & Evaluation): ប្រើប្រាស់ Stochastic Gradient Descent with Momentum (SGDM) ដោយកំណត់ Learning rate ត្រឹម 1e-4 និងរៀនប្រើប្រាស់ Confusion Matrix ព្រមទាំង F1-Score តាមរយៈ Scikit-Learn ដើម្បីវាយតម្លៃភាពត្រឹមត្រូវ។
  5. អភិវឌ្ឍន៍ប្រព័ន្ធសាកល្បង (Prototype Development): បង្កើតជាកម្មវិធី Web App សាមញ្ញមួយដោយប្រើប្រាស់ FastAPIStreamlit ដើម្បីអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់អាចបញ្ចូលរូបភាព MRI (Upload NIfTI files) និងទទួលបានលទ្ធផលនៃការទស្សន៍ទាយ (AD, MCI, ឬ NC) ត្រលប់មកវិញដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Transfer learning គឺជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត (AI) ដែលយកម៉ូដែលធ្លាប់បានបណ្តុះបណ្តាលរួចរាល់លើកិច្ចការមួយ (ដូចជាចំណាត់ថ្នាក់រូបភាពទូទៅ) មកប្រើប្រាស់ជាមូលដ្ឋានគ្រឹះសម្រាប់ដោះស្រាយបញ្ហាថ្មីមួយទៀត (ដូចជាការរកឃើញជំងឺ) ដើម្បីចំណេញពេលវេលា និងកាត់បន្ថយតម្រូវការទិន្នន័យ។ ដូចជាមនុស្សដែលចេះជិះកង់ស្រាប់ ពេលទៅរៀនជិះម៉ូតូគឺងាយស្រួលនិងឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ចេះជិះអ្វីសោះ។
Convolutional Neural Network (CNN) គឺជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់ការវិភាគទិន្នន័យរូបភាព ដោយវាប្រើប្រាស់រ៉ាដាតម្រង (Filters) ដើម្បីទាញយកលក្ខណៈពិសេសពីរូបភាពដោយស្វ័យប្រវត្តិ។ ដូចជាភ្នែកនិងខួរក្បាលរបស់យើងដែលសម្លឹងមើលរូបភាពមួយ ហើយផ្តោតទៅលើចំណុចសំខាន់ៗ (ដូចជា គែម ទម្រង់ ពណ៌) ដើម្បីដឹងថារូបនោះជារូបអ្វី។
Vanishing gradient ជាបញ្ហាមួយនៅពេលបណ្តុះបណ្តាលម៉ូដែល AI ដែលមានស្រទាប់ (Layers) ជ្រៅពេក ធ្វើឱ្យតម្លៃនៃការកែតម្រូវកំហុស (Gradient) ធ្លាក់ចុះជាបន្តបន្ទាប់រហូតដល់កម្រិតសូន្យ ដែលបណ្តាលឱ្យស្រទាប់ដំបូងៗនៃម៉ូដែលឈប់រៀនសូត្របន្ត។ ដូចជាការខ្សឹបផ្ញើសារបន្តគ្នាតាមមនុស្ស១០០នាក់ សារនោះនឹងត្រូវបាត់បង់អត្ថន័យបន្តិចម្តងៗរហូតដល់អ្នកចុងក្រោយស្តាប់មិនយល់អ្វីទាំងអស់។
Stochastic Gradient Descent (SGD) ជាក្បួនដោះស្រាយសម្រាប់ស្វែងរកចំណុចកំហុសទាបបំផុត (Optimization) ក្នុងការបណ្តុះបណ្តាលម៉ូដែល AI ដោយវាធ្វើការប៉ាន់ស្មាននិងកែតម្រូវទម្ងន់របស់ម៉ូដែលបន្តិចម្តងៗរាល់ពេលវាអានទិន្នន័យរួច។ ដូចជាមនុស្សដែលត្រូវបិទភ្នែកដើរចុះពីលើភ្នំ គាត់ត្រូវស្ទាបដីម្តងបន្តិចៗដើម្បីរកមើលផ្លូវណាដែលចំណោតចុះក្រោមជាងគេដើម្បីទៅដល់បាតភ្នំ។
Voxel គឺជាឯកតាតូចបំផុតនៃទិន្នន័យក្រាហ្វិក 3D ដែលតំណាងឱ្យតម្លៃនៅលើបណ្តាញអវកាសបីវិមាត្រ (ប្រៀបដូចជា Pixel នៃរូបភាព 2D ដែរ ប៉ុន្តែវាមានកម្រាស់និងជម្រៅ) ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងរូបភាពពេទ្យ MRI។ ប្រសិនបើរូបភាពធម្មតាត្រូវបានបង្កើតឡើងពីចំណុចពណ៌តូចៗ (Pixels) នៅលើក្រដាស នោះ Voxel គឺជាដុំគូបពណ៌តូចៗ (ដូចដុំឡេហ្គោ) ដែលផ្គុំចូលគ្នាបង្កើតជារូបរាង 3D។
Mild Cognitive Impairment (MCI) ជាដំណាក់កាលចន្លោះកណ្តាលរវាងការចុះខ្សោយការចងចាំតាមវ័យធម្មតា និងជំងឺវង្វេង (Alzheimer's) ដែលអ្នកជំងឺចាប់ផ្តើមមានបញ្ហាភ្លេចភ្លាំងច្រើនខុសធម្មតា ប៉ុន្តែនៅអាចរស់នៅនិងធ្វើកិច្ចការប្រចាំថ្ងៃបានដោយខ្លួនឯង។ ដូចជាថ្មទូរស័ព្ទដែលចាប់ផ្តើមឆាប់អស់ថ្មជាងមុនបន្តិច វាមិនទាន់ខូចទាំងស្រុងទេ តែជាសញ្ញាព្រមានមុនពេលថ្មនោះលែងដំណើរការ។
SoftMax layer ជាស្រទាប់ចុងក្រោយនៅក្នុងម៉ូដែល AI សម្រាប់ធ្វើចំណាត់ថ្នាក់ ដែលវាបំប្លែងតម្លៃលទ្ធផលចុងក្រោយទាំងអស់ទៅជាភាគរយប្រូបាប៊ីលីតេ (ចន្លោះពី ០ ដល់ ១) ដើម្បីបង្ហាញថាតើទិន្នន័យនោះ належитទៅក្រុមណាជាងគេ។ ដូចជាគណៈកម្មការដាក់ពិន្ទុដែលគណនាសរុបភាគរយនៃបេក្ខជន ៣ នាក់ ដោយធានាថាផលបូកភាគរយរបស់អ្នកទាំង ៣ ត្រូវតែស្មើ ១០០% ជានិច្ច ដើម្បីងាយស្រួលប្រកាសអ្នកឈ្នះ។
Cross-Entropy គឺជាអនុគមន៍វាយតម្លៃកំហុស (Loss Function) ដ៏ពេញនិយមសម្រាប់ចំណាត់ថ្នាក់ប្រភេទ (Classification) ដែលវាវាស់ស្ទង់ថាតើការព្យាករណ៍ជាភាគរយរបស់ម៉ូដែលខុសឆ្ងាយពីលទ្ធផលពិតប្រាកដកម្រិតណា ដើម្បីទាមទារឱ្យម៉ូដែលកែតម្រូវ។ ដូចជាគ្រូបង្រៀនដែលដាក់ពិន្ទុពិន័យសិស្សខ្លាំងជាងមុន ប្រសិនបើសិស្សឆ្លើយខុសហើយថែមទាំងមានអំនួតថាចម្លើយខ្លួនឯងត្រូវ ១០០%។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖