Original Title: Biological Image Analysis Through Deep Learning Techniques
Source: tesidottorato.depositolegale.it
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគរូបភាពជីវសាស្ត្រតាមរយៈបច្ចេកទេស Deep Learning

ចំណងជើងដើម៖ Biological Image Analysis Through Deep Learning Techniques

អ្នកនិពន្ធ៖ Sergio Cannata (Politecnico di Torino)

ឆ្នាំបោះពុម្ព៖ 2024 Politecnico di Torino

វិស័យសិក្សា៖ Electrical, Electronics and Communications Engineering / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីដែនកំណត់របស់ Convolutional Neural Networks (CNNs) ក្នុងការចាប់យកទំនាក់ទំនងលំហសកល និងការចាត់ចែងសំណុំទិន្នន័យមិនស្មើគ្នាក្នុងការវិភាគ និងចាត់ថ្នាក់រូបភាពគ្លីនិកដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះវាយតម្លៃលើស្ថាបត្យកម្ម Vision Transformer (ViT) និងការបង្កើនទិន្នន័យផ្អែកលើការសាយភាយ (Diffusion-based data augmentation) តាមរយៈការសិក្សាករណីរូបភាពវេជ្ជសាស្ត្រចំនួនបីផ្សេងគ្នា។

ការចាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិចទ្រូងសម្រាប់ជំងឺកូវីដ-១៩ (COVID-19 Chest X-Ray Classification)
ការរកឃើញដំបៅស្បែកនិងជំងឺមហារីកស្បែកមេឡាណូម៉ា (Melanoma Skin Lesion Detection on Dermatoscopic Images)
ការវិភាគរូបភាពថតសុដន់ដើម្បីរកមហារីក (Mammographic Breast Cancer Analysis)
ការបង្កើតទិន្នន័យសំយោគដោយប្រើម៉ូដែល Diffusion (Synthetic Image Generation via Diffusion Models)
ការបកស្រាយយន្តការនៃការយកចិត្តទុកដាក់របស់ម៉ូដែល (Attention Mechanism Interpretability via MAD and CKA)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល ViT សម្រេចបានភាពត្រឹមត្រូវ ៩៩.៣០% ក្នុងការបែងចែកជំងឺកូវីដ-១៩ លើរូបភាពកាំរស្មីអ៊ិចទ្រូង ដែលដំណើរការល្អជាងម៉ូដែល CNN ដូចជា ResNet50 ដែលទទួលបានត្រឹមតែ ៨៥.៥៨%។
ការប្រើប្រាស់ម៉ូដែល Diffusion ដើម្បីបង្កើតរូបភាពសំយោគនៃជំងឺមហារីកស្បែកមេឡាណូម៉ា បានកាត់បន្ថយអត្រាវិនិច្ឆ័យអវិជ្ជមានខុស (False Negatives) ៤១% និងបង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់រួម។
ចំពោះការវិភាគមហារីកសុដន់ ការរួមបញ្ចូលគ្នានៃម៉ូដែល ViT ជាមួយបច្ចេកទេស Data Augmentation បែបធរណីមាត្រ និង Diffusion បានបង្កើនភាពត្រឹមត្រូវដល់ ៧៧.០១% ដែលខ្ពស់ជាងវិធីសាស្ត្រស្តង់ដារជាច្រើនក្នុងវិស័យនេះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Convolutional Neural Networks (ResNet50, InceptionV3, Xception) បណ្ដាញសរសៃប្រសាទ Convolutional (CNNs)	ដំណើរការបានល្អក្នុងការទាញយកលក្ខណៈពិសេសក្នុងតំបន់ (local features) និងជាវិធីសាស្ត្រស្តង់ដារដែលងាយស្រួលប្រើប្រាស់។	ពិបាកក្នុងការចាប់យកទំនាក់ទំនងលំហសកល (global spatial relationships) រវាងផ្នែកនានានៃរូបភាព ដែលនៅឆ្ងាយពីគ្នា។	សម្រេចបានភាពត្រឹមត្រូវអតិបរមា ៨៥.៥៨% (ដោយ ResNet50) លើការចាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិចសួតកូវីដ-១៩។
Vision Transformers (ViT) ម៉ូដែល Vision Transformers (ViT)	ប្រើប្រាស់យន្តការ Self-Attention ដែលអនុញ្ញាតឱ្យចាប់យកបរិបទរួមនៃរូបភាពបានយ៉ាងច្បាស់លាស់ និងមានភាពត្រឹមត្រូវខ្ពស់។	ត្រូវការទិន្នន័យទំហំធំដើម្បីបង្វឹក និងប្រើប្រាស់ធនធានគណនា (computational power) ច្រើន ប្រសិនបើមិនប្រើប្រាស់ Transfer Learning។	ទទួលបានភាពត្រឹមត្រូវ ៩៩.៣០% លើរូបភាព X-ray កូវីដ-១៩ លើសពីសមត្ថភាពរបស់ម៉ូដែល CNNs ឆ្ងាយ។
ViT + Diffuser-based Data Augmentation ViT រួមបញ្ចូលជាមួយការបង្កើនទិន្នន័យដោយម៉ូដែល Diffuser	ជួយដោះស្រាយបញ្ហាខ្វះខាត ឬទិន្នន័យមិនស្មើគ្នា ដោយបង្កើតរូបភាពសំយោគយ៉ាងពិតប្រាកដ បង្កើនភាពត្រឹមត្រូវ និងកាត់បន្ថយការធ្វើរោគវិនិច្ឆ័យខុស។	ទាមទារពេលវេលាយូរក្នុងការបង្រួម (longer convergence time) និងត្រូវការសមត្ថភាពកុំព្យូទ័រខ្ពស់បំផុតក្នុងការបង្វឹកម៉ូដែល Diffusion។	សម្រេចបានភាពត្រឹមត្រូវ ៧៧.០១% លើរូបភាពមហារីកសុដន់ និងជួយកាត់បន្ថយអត្រាវិនិច្ឆ័យអវិជ្ជមានខុស ៤១% លើជំងឺមហារីកស្បែក។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងផ្នែកទន់កម្រិតខ្ពស់សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ធំៗដូចជា ViT និងបណ្តាញ Diffusion។

Software: ប្រើប្រាស់ TensorFlow 2.5.0, Keras និងបណ្ណាល័យពី Hugging Face ដំណើរការក្នុងបរិស្ថាន Google Colab។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រមាន CPU@3.70GHz ព្រមទាំងតម្រូវការ GPU ល្បឿនលឿន (ដូចជា T4/A100 ក្នុង Colab) សម្រាប់គណនាម៉ូដែលដែលមានប៉ារ៉ាម៉ែត្ររហូតដល់ ៣០៧ លាន (ViT-Large)។
Dataset: ត្រូវការសំណុំទិន្នន័យរូបភាពវេជ្ជសាស្ត្រខ្នាតធំដូចជា COVID-19 CXR, ISIC 2017 (សម្រាប់ស្បែក), និង CBIS-DDSM (សម្រាប់សុដន់) ព្រមទាំងទិន្នន័យ ImageNet សម្រាប់ Pre-training។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅផ្នែក Computer Vision, ស្ថាបត្យកម្ម Transformers, និងបច្ចេកទេស Diffusion Models។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសាធារណៈអន្តរជាតិ (ដូចជា ISIC សម្រាប់ស្បែក និង CBIS-DDSM សម្រាប់សុដន់) ដែលភាគច្រើនប្រមូលផ្តុំពីប្រជាជនស្បែកស ឬតំបន់អឺរ៉ុប/អាមេរិក។ នេះអាចបង្កើតជាភាពលម្អៀង (Bias) ពីព្រោះលក្ខណៈជីវសាស្ត្រនៃស្បែក ឬដង់ស៊ីតេសុដន់របស់ប្រជាជនអាស៊ី ជាពិសេសនៅប្រទេសកម្ពុជា អាចមានលក្ខណៈខុសប្លែក ដែលទាមទារការបង្វឹកម៉ូដែលឡើងវិញជាមួយទិន្នន័យអ្នកជំងឺក្នុងស្រុក ដើម្បីធានាភាពត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដើម្បីជួយសម្រួលការងាររបស់គ្រូពេទ្យ និងពន្លឿនការធ្វើរោគវិនិច្ឆ័យ។

មន្ទីរពេទ្យថ្នាក់ជាតិ (National Hospitals): អាចដាក់ពង្រាយជាប្រព័ន្ធជំនួយស្មារតីវេជ្ជបណ្ឌិត (CAD Systems) នៅមន្ទីរពេទ្យកាល់ម៉ែត មន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត ឬមន្ទីរពេទ្យហ្លួងម៉ែ ដើម្បីបង្កើនល្បឿនក្នុងការវិនិច្ឆ័យជំងឺមហារីកសុដន់ និងជំងឺផ្លូវដង្ហើម។
គ្លីនិកចល័ត និងតំបន់ដាច់ស្រយាល (Rural Mobile Clinics): អាចប្រើប្រាស់បច្ចេកវិទ្យា ViT បញ្ចូលក្នុងកម្មវិធីទូរស័ព្ទដៃ (m-Health app) ដើម្បីថតពិនិត្យជំងឺសើស្បែកនៅតាមបណ្តាខេត្តឆ្ងាយៗ ដែលខ្វះខាតគ្រូពេទ្យជំនាញ រួចបញ្ជូនលទ្ធផលបឋមទៅកាន់អ្នកឯកទេសនៅទីក្រុងភ្នំពេញ។
វិស័យកសិកម្ម (Agriculture Sector): ដូចដែលឯកសារបានលើកឡើងនៅទំព័រចុងក្រោយ វិធីសាស្ត្រនេះក៏អាចយកមកកែច្នៃសម្រាប់វិភាគរកជំងឺលើស្លឹករុក្ខជាតិ (Plant diseases detection) ដើម្បីជួយកសិករកម្ពុជាការពារទិន្នផលរបស់ពួកគេផងដែរ។

ជារួម បច្ចេកវិទ្យាទាំងនេះអាចដើរតួនាទីយ៉ាងសំខាន់ក្នុងការកាត់បន្ថយគម្លាតសេវាកម្មសុខាភិបាលរវាងទីក្រុង និងជនបទកម្ពុជា ប្រសិនបើមានការស្រាវជ្រាវកែសម្រួលវាឱ្យសមស្របនឹងបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Computer Vision: និស្សិតគួរសិក្សាពីមុខងាររបស់ Convolutional Neural Networks (CNNs) និងការសរសេរកូដសម្រាប់ចាត់ថ្នាក់រូបភាព ដោយប្រើប្រាស់បណ្ណាល័យ TensorFlow ឬ PyTorch តាមរយៈភាសា Python។
ស្វែងយល់ពីស្ថាបត្យកម្ម Vision Transformers: សិក្សាស៊ីជម្រៅពីយន្តការ Self-Attention ព្រមទាំងសាកល្បងហៅយកម៉ូដែល ViT ដែលមានស្រាប់ (Pre-trained) យកមកប្រើប្រាស់ពី Hugging Face Transformers ជំនួសឱ្យការសរសេរកូដពីសូន្យ។
អនុវត្តលើទិន្នន័យរូបភាពវេជ្ជសាស្ត្រសាធារណៈ: ទាញយកសំណុំទិន្នន័យដូចជា Chest X-Ray Images ពី Kaggle រួចសាកល្បងបង្វឹកម៉ូដែល ViT ដោយឥតគិតថ្លៃតាមរយៈការប្រើប្រាស់ Google Colab GPU ដើម្បីប្រៀបធៀបលទ្ធផល។
រៀនបង្កើតទិន្នន័យសំយោគជាមួយ Generative AI: សិក្សាពីការប្រើប្រាស់ Denoising Diffusion Probabilistic Models (DDPMs) សម្រាប់ធ្វើ Data Augmentation ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យរូបភាពវេជ្ជសាស្ត្រកម្ពុជា ដែលមានចំនួនតិចតួច។
ការដាក់ពង្រាយជាកម្មវិធី m-Health: រៀនពីវិធីបំប្លែងម៉ូដែលឆ្លាតវៃទៅជាទម្រង់ស្រាល (Lightweight models) តាមរយៈ TensorFlow Lite ដើម្បីអាចដំណើរការលើទូរស័ព្ទដៃស្មាតហ្វូនដោយមិនចាំបាច់មានអ៊ីនធឺណិត ងាយស្រួលប្រើប្រាស់នៅតំបន់ដាច់ស្រយាល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformer (ViT)	ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Self-Attention ដើម្បីវិភាគរូបភាពដោយបំបែកវាជាបំណែកតូចៗ (Patches) រួចស្វែងយល់ពីទំនាក់ទំនងរវាងបំណែកទាំងនោះក្នុងបរិបទជារួមនៃរូបភាពទាំងមូល។	ដូចជាការលេងល្បែងតម្រៀបរូបភាព (Jigsaw puzzle) ដែលយើងពិនិត្យមើលបំណែកនីមួយៗ ព្រមទាំងប្រៀបធៀបវាជាមួយបំណែកដទៃទៀត ដើម្បីយល់ពីរូបភាពធំទាំងមូល។
Convolutional Neural Networks (CNNs)	ជាប្រភេទម៉ូដែល Deep Learning ជាស្តង់ដារចាស់ដែលពូកែខាងសម្គាល់លក្ខណៈពិសេសក្នុងតំបន់តូចៗនៃរូបភាព (ដូចជាគែម ឬរាង) តាមរយៈការប្រើប្រាស់តម្រង (Filters) ស្កេនពីលើរូបភាព ប៉ុន្តែពិបាកក្នុងការចាប់យកទំនាក់ទំនងលំហដែលនៅឆ្ងាយពីគ្នា។	ដូចជាការពាក់វ៉ែនតាពង្រីក (Magnifying glass) សម្លឹងមើលសម្លៀកបំពាក់ម្ដងមួយចំអាមៗ ដើម្បីរកមើលស្នាមប្រឡាក់ ដោយមើលមិនឃើញអាវទាំងមូល។
Self-Attention Mechanism	ជាយន្តការគណនាដែលអនុញ្ញាតឱ្យម៉ូដែល AI ថ្លឹងថ្លែងពីសារៈសំខាន់នៃចំណុចណាមួយនៃទិន្នន័យ (ឬរូបភាព) ធៀបនឹងចំណុចផ្សេងៗទៀត ដើម្បីដឹងថាត្រូវផ្ដោតការយកចិត្តទុកដាក់លើផ្នែកណាខ្លះក្នុងការធ្វើសេចក្តីសម្រេច។	ដូចជាពេលយើងអានសៀវភៅ ហើយយើងផ្ដោតភ្នែកលើពាក្យគន្លឹះសំខាន់ៗដែលភ្ជាប់អត្ថន័យទៅនឹងប្រយោគមុនៗ ដើម្បីអាចយល់ន័យជារួម។
Diffusion Models	ជាម៉ូដែល AI ប្រភេទ Generative ដែលរៀនបង្កើតទិន្នន័យថ្មី (ដូចជារូបភាពសិប្បនិម្មិត) ដោយចាប់ផ្ដើមពីការបន្ថែមគ្រាប់អុចៗ (Noise) ទៅលើរូបភាពដើមរហូតដល់ព្រិលមើលលែងយល់ រួចរៀនពីវិធីបន្សុទ្ធ (Denoise) វាត្រលប់មករកទម្រង់ដើមវិញ។	ដូចជាជាងចម្លាក់ដែលយកដីឥដ្ឋមួយដុំធំ (Noise) មកសូននិងកាត់តម្រឹមបន្តិចម្ដងៗ រហូតក្លាយជារូបសំណាកដ៏ស្រស់ស្អាតមានទម្រង់ច្បាស់លាស់។
Data Augmentation	ជាបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែមពីលើទិន្នន័យដែលមានស្រាប់ តាមរយៈការបង្វិល ត្រឡប់ ប្ដូរពន្លឺ ឬប្រើប្រាស់ AI ជំនួយ ដើម្បីផ្ដល់ទិន្នន័យកាន់តែច្រើនសម្រាប់បង្វឹកម៉ូដែលឱ្យកាន់តែឆ្លាតនិងមានភាពត្រឹមត្រូវខ្ពស់ជាងមុន។	ដូចជាការថតរូបមុខមិត្តភក្តិម្នាក់ពីច្រើនជ្រុង ច្រើនប្លង់ និងក្នុងពន្លឺខុសៗគ្នា ដើម្បីឱ្យអ្នកអាចចំណាំមុខគាត់បានទោះគាត់ងាកទៅម្ខាងក៏ដោយ។
Transfer Learning	ជាវិធីសាស្ត្រយកម៉ូដែល AI ដែលត្រូវបានបង្វឹកកម្រិតមូលដ្ឋានរួចរាល់លើទិន្នន័យរាប់លាន មកបង្វឹកបន្តបន្តិចបន្តួចលើទិន្នន័យវេជ្ជសាស្ត្រជាក់លាក់ ដើម្បីសន្សំពេលវេលា និងដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ។	ដូចជាការជួលចុងភៅដែលចេះធ្វើម្ហូបទូទៅរួចហើយ មកបង្រៀនបន្ថែមតែ២-៣ថ្ងៃពីរបៀបស្លម្ជូរគ្រឿង នោះគាត់នឹងចេះធ្វើតែម្ដង ដោយមិនបាច់បង្រៀនពីរបៀបកាន់កាំបិតពីដំបូងឡើយ។
Mean Attention Distance (MAD)	ជាសូចនាករសម្រាប់វាស់ស្ទង់ថាតើម៉ូដែល Vision Transformer ផ្ដោតការយកចិត្តទុកដាក់លើបំណែករូបភាពដែលនៅជិតៗគ្នា (Local context) ឬនៅឆ្ងាយពីគ្នា (Global context) ដើម្បីបកស្រាយពីរបៀបដែលម៉ូដែលនេះធ្វើការវិភាគ។	ដូចជាការវាស់ចម្ងាយរវាងភ្នែករបស់មនុស្សម្នាក់ទៅកាន់វត្ថុជុំវិញខ្លួន ដើម្បីដឹងថាគាត់កំពុងសម្លឹងមើលរបស់នៅក្បែរដៃ ឬសម្លឹងមើលទេសភាពដែលនៅឆ្ងាយ។
Attention Rollout	ជាបច្ចេកទេសបកស្រាយម៉ូដែល (Explainability) ដែលតាមដាននិងគណនាបូកបញ្ចូលគ្នានូវរាល់ចំណុចនៃការយកចិត្តទុកដាក់ (Attention) ពីគ្រប់ស្រទាប់នៃបណ្ដាញ ដើម្បីបង្ហាញជារូបភាពកម្ដៅ (Heatmap) ថា AI សម្រេចចិត្តដោយផ្អែកលើផ្នែកណានៃរូប។	ដូចជាការគូសផែនទីតាមដានចំណុចកម្ដៅនៃការសម្លឹងរបស់ភ្នែកកាមេរ៉ា (Eye-tracking) ដើម្បីដឹងថាវាបានសម្លឹងមើលនិងចាប់អារម្មណ៍លើទីតាំងណាខ្លះនៅលើផ្ទាំងរូបភាព។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖