Original Title: Biological Image Analysis Through Deep Learning Techniques
Source: tesidottorato.depositolegale.it
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគរូបភាពជីវសាស្ត្រតាមរយៈបច្ចេកទេស Deep Learning

ចំណងជើងដើម៖ Biological Image Analysis Through Deep Learning Techniques

អ្នកនិពន្ធ៖ Sergio Cannata (Politecnico di Torino)

ឆ្នាំបោះពុម្ព៖ 2024 Politecnico di Torino

វិស័យសិក្សា៖ Electrical, Electronics and Communications Engineering / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីដែនកំណត់របស់ Convolutional Neural Networks (CNNs) ក្នុងការចាប់យកទំនាក់ទំនងលំហសកល និងការចាត់ចែងសំណុំទិន្នន័យមិនស្មើគ្នាក្នុងការវិភាគ និងចាត់ថ្នាក់រូបភាពគ្លីនិកដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះវាយតម្លៃលើស្ថាបត្យកម្ម Vision Transformer (ViT) និងការបង្កើនទិន្នន័យផ្អែកលើការសាយភាយ (Diffusion-based data augmentation) តាមរយៈការសិក្សាករណីរូបភាពវេជ្ជសាស្ត្រចំនួនបីផ្សេងគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Convolutional Neural Networks (ResNet50, InceptionV3, Xception)
បណ្ដាញសរសៃប្រសាទ Convolutional (CNNs)
ដំណើរការបានល្អក្នុងការទាញយកលក្ខណៈពិសេសក្នុងតំបន់ (local features) និងជាវិធីសាស្ត្រស្តង់ដារដែលងាយស្រួលប្រើប្រាស់។ ពិបាកក្នុងការចាប់យកទំនាក់ទំនងលំហសកល (global spatial relationships) រវាងផ្នែកនានានៃរូបភាព ដែលនៅឆ្ងាយពីគ្នា។ សម្រេចបានភាពត្រឹមត្រូវអតិបរមា ៨៥.៥៨% (ដោយ ResNet50) លើការចាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិចសួតកូវីដ-១៩។
Vision Transformers (ViT)
ម៉ូដែល Vision Transformers (ViT)
ប្រើប្រាស់យន្តការ Self-Attention ដែលអនុញ្ញាតឱ្យចាប់យកបរិបទរួមនៃរូបភាពបានយ៉ាងច្បាស់លាស់ និងមានភាពត្រឹមត្រូវខ្ពស់។ ត្រូវការទិន្នន័យទំហំធំដើម្បីបង្វឹក និងប្រើប្រាស់ធនធានគណនា (computational power) ច្រើន ប្រសិនបើមិនប្រើប្រាស់ Transfer Learning។ ទទួលបានភាពត្រឹមត្រូវ ៩៩.៣០% លើរូបភាព X-ray កូវីដ-១៩ លើសពីសមត្ថភាពរបស់ម៉ូដែល CNNs ឆ្ងាយ។
ViT + Diffuser-based Data Augmentation
ViT រួមបញ្ចូលជាមួយការបង្កើនទិន្នន័យដោយម៉ូដែល Diffuser
ជួយដោះស្រាយបញ្ហាខ្វះខាត ឬទិន្នន័យមិនស្មើគ្នា ដោយបង្កើតរូបភាពសំយោគយ៉ាងពិតប្រាកដ បង្កើនភាពត្រឹមត្រូវ និងកាត់បន្ថយការធ្វើរោគវិនិច្ឆ័យខុស។ ទាមទារពេលវេលាយូរក្នុងការបង្រួម (longer convergence time) និងត្រូវការសមត្ថភាពកុំព្យូទ័រខ្ពស់បំផុតក្នុងការបង្វឹកម៉ូដែល Diffusion។ សម្រេចបានភាពត្រឹមត្រូវ ៧៧.០១% លើរូបភាពមហារីកសុដន់ និងជួយកាត់បន្ថយអត្រាវិនិច្ឆ័យអវិជ្ជមានខុស ៤១% លើជំងឺមហារីកស្បែក។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងផ្នែកទន់កម្រិតខ្ពស់សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ធំៗដូចជា ViT និងបណ្តាញ Diffusion។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសាធារណៈអន្តរជាតិ (ដូចជា ISIC សម្រាប់ស្បែក និង CBIS-DDSM សម្រាប់សុដន់) ដែលភាគច្រើនប្រមូលផ្តុំពីប្រជាជនស្បែកស ឬតំបន់អឺរ៉ុប/អាមេរិក។ នេះអាចបង្កើតជាភាពលម្អៀង (Bias) ពីព្រោះលក្ខណៈជីវសាស្ត្រនៃស្បែក ឬដង់ស៊ីតេសុដន់របស់ប្រជាជនអាស៊ី ជាពិសេសនៅប្រទេសកម្ពុជា អាចមានលក្ខណៈខុសប្លែក ដែលទាមទារការបង្វឹកម៉ូដែលឡើងវិញជាមួយទិន្នន័យអ្នកជំងឺក្នុងស្រុក ដើម្បីធានាភាពត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដើម្បីជួយសម្រួលការងាររបស់គ្រូពេទ្យ និងពន្លឿនការធ្វើរោគវិនិច្ឆ័យ។

ជារួម បច្ចេកវិទ្យាទាំងនេះអាចដើរតួនាទីយ៉ាងសំខាន់ក្នុងការកាត់បន្ថយគម្លាតសេវាកម្មសុខាភិបាលរវាងទីក្រុង និងជនបទកម្ពុជា ប្រសិនបើមានការស្រាវជ្រាវកែសម្រួលវាឱ្យសមស្របនឹងបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Computer Vision: និស្សិតគួរសិក្សាពីមុខងាររបស់ Convolutional Neural Networks (CNNs) និងការសរសេរកូដសម្រាប់ចាត់ថ្នាក់រូបភាព ដោយប្រើប្រាស់បណ្ណាល័យ TensorFlowPyTorch តាមរយៈភាសា Python
  2. ស្វែងយល់ពីស្ថាបត្យកម្ម Vision Transformers: សិក្សាស៊ីជម្រៅពីយន្តការ Self-Attention ព្រមទាំងសាកល្បងហៅយកម៉ូដែល ViT ដែលមានស្រាប់ (Pre-trained) យកមកប្រើប្រាស់ពី Hugging Face Transformers ជំនួសឱ្យការសរសេរកូដពីសូន្យ។
  3. អនុវត្តលើទិន្នន័យរូបភាពវេជ្ជសាស្ត្រសាធារណៈ: ទាញយកសំណុំទិន្នន័យដូចជា Chest X-Ray Images ពី Kaggle រួចសាកល្បងបង្វឹកម៉ូដែល ViT ដោយឥតគិតថ្លៃតាមរយៈការប្រើប្រាស់ Google Colab GPU ដើម្បីប្រៀបធៀបលទ្ធផល។
  4. រៀនបង្កើតទិន្នន័យសំយោគជាមួយ Generative AI: សិក្សាពីការប្រើប្រាស់ Denoising Diffusion Probabilistic Models (DDPMs) សម្រាប់ធ្វើ Data Augmentation ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យរូបភាពវេជ្ជសាស្ត្រកម្ពុជា ដែលមានចំនួនតិចតួច។
  5. ការដាក់ពង្រាយជាកម្មវិធី m-Health: រៀនពីវិធីបំប្លែងម៉ូដែលឆ្លាតវៃទៅជាទម្រង់ស្រាល (Lightweight models) តាមរយៈ TensorFlow Lite ដើម្បីអាចដំណើរការលើទូរស័ព្ទដៃស្មាតហ្វូនដោយមិនចាំបាច់មានអ៊ីនធឺណិត ងាយស្រួលប្រើប្រាស់នៅតំបន់ដាច់ស្រយាល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformer (ViT) ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Self-Attention ដើម្បីវិភាគរូបភាពដោយបំបែកវាជាបំណែកតូចៗ (Patches) រួចស្វែងយល់ពីទំនាក់ទំនងរវាងបំណែកទាំងនោះក្នុងបរិបទជារួមនៃរូបភាពទាំងមូល។ ដូចជាការលេងល្បែងតម្រៀបរូបភាព (Jigsaw puzzle) ដែលយើងពិនិត្យមើលបំណែកនីមួយៗ ព្រមទាំងប្រៀបធៀបវាជាមួយបំណែកដទៃទៀត ដើម្បីយល់ពីរូបភាពធំទាំងមូល។
Convolutional Neural Networks (CNNs) ជាប្រភេទម៉ូដែល Deep Learning ជាស្តង់ដារចាស់ដែលពូកែខាងសម្គាល់លក្ខណៈពិសេសក្នុងតំបន់តូចៗនៃរូបភាព (ដូចជាគែម ឬរាង) តាមរយៈការប្រើប្រាស់តម្រង (Filters) ស្កេនពីលើរូបភាព ប៉ុន្តែពិបាកក្នុងការចាប់យកទំនាក់ទំនងលំហដែលនៅឆ្ងាយពីគ្នា។ ដូចជាការពាក់វ៉ែនតាពង្រីក (Magnifying glass) សម្លឹងមើលសម្លៀកបំពាក់ម្ដងមួយចំអាមៗ ដើម្បីរកមើលស្នាមប្រឡាក់ ដោយមើលមិនឃើញអាវទាំងមូល។
Self-Attention Mechanism ជាយន្តការគណនាដែលអនុញ្ញាតឱ្យម៉ូដែល AI ថ្លឹងថ្លែងពីសារៈសំខាន់នៃចំណុចណាមួយនៃទិន្នន័យ (ឬរូបភាព) ធៀបនឹងចំណុចផ្សេងៗទៀត ដើម្បីដឹងថាត្រូវផ្ដោតការយកចិត្តទុកដាក់លើផ្នែកណាខ្លះក្នុងការធ្វើសេចក្តីសម្រេច។ ដូចជាពេលយើងអានសៀវភៅ ហើយយើងផ្ដោតភ្នែកលើពាក្យគន្លឹះសំខាន់ៗដែលភ្ជាប់អត្ថន័យទៅនឹងប្រយោគមុនៗ ដើម្បីអាចយល់ន័យជារួម។
Diffusion Models ជាម៉ូដែល AI ប្រភេទ Generative ដែលរៀនបង្កើតទិន្នន័យថ្មី (ដូចជារូបភាពសិប្បនិម្មិត) ដោយចាប់ផ្ដើមពីការបន្ថែមគ្រាប់អុចៗ (Noise) ទៅលើរូបភាពដើមរហូតដល់ព្រិលមើលលែងយល់ រួចរៀនពីវិធីបន្សុទ្ធ (Denoise) វាត្រលប់មករកទម្រង់ដើមវិញ។ ដូចជាជាងចម្លាក់ដែលយកដីឥដ្ឋមួយដុំធំ (Noise) មកសូននិងកាត់តម្រឹមបន្តិចម្ដងៗ រហូតក្លាយជារូបសំណាកដ៏ស្រស់ស្អាតមានទម្រង់ច្បាស់លាស់។
Data Augmentation ជាបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែមពីលើទិន្នន័យដែលមានស្រាប់ តាមរយៈការបង្វិល ត្រឡប់ ប្ដូរពន្លឺ ឬប្រើប្រាស់ AI ជំនួយ ដើម្បីផ្ដល់ទិន្នន័យកាន់តែច្រើនសម្រាប់បង្វឹកម៉ូដែលឱ្យកាន់តែឆ្លាតនិងមានភាពត្រឹមត្រូវខ្ពស់ជាងមុន។ ដូចជាការថតរូបមុខមិត្តភក្តិម្នាក់ពីច្រើនជ្រុង ច្រើនប្លង់ និងក្នុងពន្លឺខុសៗគ្នា ដើម្បីឱ្យអ្នកអាចចំណាំមុខគាត់បានទោះគាត់ងាកទៅម្ខាងក៏ដោយ។
Transfer Learning ជាវិធីសាស្ត្រយកម៉ូដែល AI ដែលត្រូវបានបង្វឹកកម្រិតមូលដ្ឋានរួចរាល់លើទិន្នន័យរាប់លាន មកបង្វឹកបន្តបន្តិចបន្តួចលើទិន្នន័យវេជ្ជសាស្ត្រជាក់លាក់ ដើម្បីសន្សំពេលវេលា និងដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ។ ដូចជាការជួលចុងភៅដែលចេះធ្វើម្ហូបទូទៅរួចហើយ មកបង្រៀនបន្ថែមតែ២-៣ថ្ងៃពីរបៀបស្លម្ជូរគ្រឿង នោះគាត់នឹងចេះធ្វើតែម្ដង ដោយមិនបាច់បង្រៀនពីរបៀបកាន់កាំបិតពីដំបូងឡើយ។
Mean Attention Distance (MAD) ជាសូចនាករសម្រាប់វាស់ស្ទង់ថាតើម៉ូដែល Vision Transformer ផ្ដោតការយកចិត្តទុកដាក់លើបំណែករូបភាពដែលនៅជិតៗគ្នា (Local context) ឬនៅឆ្ងាយពីគ្នា (Global context) ដើម្បីបកស្រាយពីរបៀបដែលម៉ូដែលនេះធ្វើការវិភាគ។ ដូចជាការវាស់ចម្ងាយរវាងភ្នែករបស់មនុស្សម្នាក់ទៅកាន់វត្ថុជុំវិញខ្លួន ដើម្បីដឹងថាគាត់កំពុងសម្លឹងមើលរបស់នៅក្បែរដៃ ឬសម្លឹងមើលទេសភាពដែលនៅឆ្ងាយ។
Attention Rollout ជាបច្ចេកទេសបកស្រាយម៉ូដែល (Explainability) ដែលតាមដាននិងគណនាបូកបញ្ចូលគ្នានូវរាល់ចំណុចនៃការយកចិត្តទុកដាក់ (Attention) ពីគ្រប់ស្រទាប់នៃបណ្ដាញ ដើម្បីបង្ហាញជារូបភាពកម្ដៅ (Heatmap) ថា AI សម្រេចចិត្តដោយផ្អែកលើផ្នែកណានៃរូប។ ដូចជាការគូសផែនទីតាមដានចំណុចកម្ដៅនៃការសម្លឹងរបស់ភ្នែកកាមេរ៉ា (Eye-tracking) ដើម្បីដឹងថាវាបានសម្លឹងមើលនិងចាប់អារម្មណ៍លើទីតាំងណាខ្លះនៅលើផ្ទាំងរូបភាព។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖