Original Title: Adversarial Vision Transformer for Medical Image Semantic Segmentation with Limited Annotations
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែល Vision Transformer បែបប្រឆាំងសម្រាប់ការកំណត់ផ្នែករូបភាពសេម៉ង់ទិចវេជ្ជសាស្រ្តជាមួយនឹងទិន្នន័យកត់សម្គាល់មានកំណត់

ចំណងជើងដើម៖ Adversarial Vision Transformer for Medical Image Semantic Segmentation with Limited Annotations

អ្នកនិពន្ធ៖ Ziyang Wang (University of Oxford), Chengkuan Zhao (Bucknell University), Zixuan Ni (University of Colorado Boulder)

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Computer Vision / Medical Image Analysis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវិភាគរូបភាពវេជ្ជសាស្ត្រទាមទារទិន្នន័យដែលមានការកត់សម្គាល់ (Annotations) ចំនួនច្រើន ដែលត្រូវចំណាយពេលវេលា និងកម្លាំងពលកម្មខ្ពស់។ ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ Vision Transformer (ViT) ដើម្បីដោះស្រាយបញ្ហានេះតាមរយៈការរៀនបែបពាក់កណ្តាលត្រួតពិនិត្យ (Semi-Supervised Learning) នៅតែមានភាពស្មុគស្មាញនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតនូវក្របខ័ណ្ឌរៀនបែបពាក់កណ្តាលត្រួតពិនិត្យថ្មីមួយហៅថា CAA-ViT ដោយរួមបញ្ចូលវិធីសាស្ត្រសំខាន់ៗដូចជា៖

ការហ្វឹកហាត់បែបប្រឆាំង (Adversarial Training) រវាងម៉ូដែលកំណត់ផ្នែករូបភាព sViT និងម៉ូដែលវាយតម្លៃ (Evaluation Model) ផ្អែកលើ CNN
ការហ្វឹកហាត់រក្សាភាពស្របគ្នាតាមរយៈការបង្កាត់ (MixUp-based Interpolation Consistency Training) ដើម្បីបង្កើនសមត្ថភាពទស្សន៍ទាយ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល CAA-ViT ទទួលបានលទ្ធផល mDice ០,៨៨២៤ លើសំណុំទិន្នន័យបេះដូង ACDC MRI ទោះបីជាប្រើប្រាស់ទិន្នន័យមានស្លាកត្រឹមតែ ១០% ក៏ដោយ។
ការរួមបញ្ចូលគ្នារវាងការហ្វឹកហាត់បែបប្រឆាំង និងបច្ចេកទេស MixUp ជួយឱ្យម៉ូដែល ViT អាចទាញយកអត្ថប្រយោជន៍បានយ៉ាងល្អពីទិន្នន័យរូបភាពដែលគ្មានស្លាកចំណាំ (Unlabeled data)។
ម៉ូដែលនេះបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ជាងម៉ូដែលពាក់កណ្តាលត្រួតពិនិត្យស្រដៀងគ្នាផ្សេងទៀត (ដូចជា MT, DAN, ICT, និង ADVENT) ក្រោមលក្ខខណ្ឌនៃការចែកចាយទិន្នន័យដូចគ្នា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
CAA-ViT (Ours) ម៉ូដែលស្នើឡើង (CAA-ViT)	ផ្តល់លទ្ធផលខ្ពស់បំផុតដោយទាមទារទិន្នន័យមានស្លាកត្រឹមតែ ១០% និងមានការរួមបញ្ចូលការហ្វឹកហាត់បែបប្រឆាំង (Adversarial) ជាមួយបច្ចេកទេស MixUp យ៉ាងមានប្រសិទ្ធភាព។	ទាមទារដំណើរការហ្វឹកហាត់ច្រើនដំណាក់កាល (៣ ដំណាក់កាល) ដែលមានភាពស្មុគស្មាញ និងចំណាយកម្លាំងកុំព្យូទ័រច្រើន។	ទទួលបានតម្លៃ mDice ០,៨៨២៤ និង mIOU ០,៧៩៨៤ នៅលើទិន្នន័យ ACDC (១០% Labels)។
ICT + ViT វិធីសាស្ត្រ ICT រួមជាមួយ ViT	ប្រើប្រាស់បច្ចេកទេស Interpolation Consistency បានយ៉ាងល្អ ដើម្បីទាញយកប្រយោជន៍ពីទិន្នន័យដែលគ្មានស្លាកចំណាំ។	មិនមានការវាយតម្លៃគុណភាពរូបភាពបែបប្រឆាំង (Adversarial Evaluation) ធ្វើឱ្យលទ្ធផលទាបជាង CAA-ViT។	ទទួលបានតម្លៃ mDice ០,៨៦៦៣ និង mIOU ០,៧៧៤៨។
MT + ViT វិធីសាស្ត្រ Mean Teacher រួមជាមួយ ViT	ជាវិធីសាស្ត្រស្តង់ដារ និងពេញនិយមបំផុតដែលងាយស្រួលអនុវត្តសម្រាប់ Semi-Supervised Learning។	ទទួលបានលទ្ធផលទាបជាងគេទីពីរធៀបនឹងម៉ូដែលដទៃទៀតនៅក្នុងការសាកល្បងនេះ។	ទទួលបានតម្លៃ mDice ០,៨៣៨៤ និង mIOU ០,៧៣៥៩។
DAN + ViT វិធីសាស្ត្រ DAN រួមជាមួយ ViT	ប្រើប្រាស់បណ្តាញ Adversarial Networks ក្នុងការវាយតម្លៃ និងបែងចែកទិន្នន័យវេជ្ជសាស្ត្រជាមូលដ្ឋាន។	មានកម្រិតភាពត្រឹមត្រូវទាបបំផុត (mDice និង mIOU ទាបជាងគេ) បើប្រៀបធៀបជាមួយម៉ូដែលផ្សេងៗទៀត។	ទទួលបានតម្លៃ mDice ០,៨២៣២ និង mIOU ០,៧១៦៥។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងប្រតិបត្តិការខ្ពស់ (GPU) សម្រាប់ដំណើរការហ្វឹកហាត់ម៉ូដែល Deep Learning ។

Hardware: ប្រើប្រាស់កាតក្រាហ្វិក Nvidia GeForce RTX 3090 GPU និងស៊ីភីយូ Intel Core i9-10900K។
Software: ដំណើរការលើប្រព័ន្ធប្រតិបត្តិការ Ubuntu 20.04 ដោយប្រើ Python 3.8.8, Pytorch 1.10 និង CUDA 11.3។
Time Requirement: ចំណាយពេលប្រហែល ៣,៥ ម៉ោងសម្រាប់ការហ្វឹកហាត់ចំនួន ៣ម៉ឺនជុំ (30,000 iterations)។
Dataset: សំណុំទិន្នន័យ ACDC MRI ពីកម្មវិធី MICCAI Challenge 2017 (ទិន្នន័យពីអ្នកជំងឺចំនួន ១០០នាក់)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ ACDC MRI ដែលប្រមូលបានពីអ្នកជំងឺនៅអឺរ៉ុប/អន្តរជាតិកាលពីឆ្នាំ ២០១៧។ នេះជាចំណុចសំខាន់សម្រាប់កម្ពុជា ព្រោះលក្ខណៈជីវសាស្ត្ររបស់អ្នកជំងឺ ព្រមទាំងគុណភាពម៉ាស៊ីនថត MRI នៅតាមមន្ទីរពេទ្យក្នុងស្រុក អាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររៀនបែបពាក់កណ្តាលត្រួតពិនិត្យ (Semi-Supervised Learning) នេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្លាំងណាស់សម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ដែលជួបបញ្ហាខ្វះខាតទិន្នន័យមានស្លាក។

មន្ទីរពេទ្យកាល់ម៉ែត និងមន្ទីរពេទ្យធំៗ (Calmette & Major Hospitals): អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីជួយគ្រូពេទ្យវិភាគរូបភាព MRI/CT ស្វែងរកភាពមិនប្រក្រតីនៃបេះដូង ឬសរីរាង្គផ្សេងៗ ដោយមិនតម្រូវឱ្យមានទិន្នន័យកត់សម្គាល់ (Labeled data) ច្រើនពីគ្រូពេទ្យជំនាញ។
ការអភិវឌ្ឍន៍បច្ចេកវិទ្យាសុខាភិបាល (HealthTech Development): ក្រុមហ៊ុន Startup ផ្នែកបច្ចេកវិទ្យាសុខាភិបាលនៅកម្ពុជា អាចយកកូដចំហ (Open-source) នេះទៅបង្កើតកម្មវិធីជំនួយការវិភាគរោគវិនិច្ឆ័យដែលមានតម្លៃទាបសម្រាប់គ្លីនិកតាមខេត្ត ឬតំបន់ដាច់ស្រយាល។
សាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល (UHS): អាចបញ្ចូលបច្ចេកវិទ្យា AI នេះទៅក្នុងកម្មវិធីសិក្សារបស់និស្សិតពេទ្យ ដើម្បីស្វែងយល់ពីរបៀបដែល AI ជួយក្នុងការកំណត់ផ្នែករូបភាពសេម៉ង់ទិច (Semantic Segmentation) ផ្នែកកាយវិភាគវិទ្យា។

ការកាត់បន្ថយការពឹងផ្អែកលើទិន្នន័យដែលមានការកត់សម្គាល់ដោយគ្រូពេទ្យឯកទេស ធ្វើឱ្យបច្ចេកវិទ្យា AI វេជ្ជសាស្ត្រកាន់តែមានភាពងាយស្រួល និងចំណាយតិចក្នុងការអនុវត្តនៅប្រទេសកំពុងអភិវឌ្ឍន៍ដូចជាកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Vision Transformer និង Semi-Supervised Learning: ចាប់ផ្តើមស្វែងយល់ពីរបៀបដំណើរការរបស់ Vision Transformer (ViT) ធៀបនឹង CNN និងទ្រឹស្តីនៃការបណ្តុះបណ្តាលម៉ូដែលដោយប្រើទិន្នន័យមានស្លាក និងគ្មានស្លាកបញ្ចូលគ្នា។
រៀបចំបរិស្ថានកុំព្យូទ័រសម្រាប់ការស្រាវជ្រាវ (Environment Setup): ដំឡើងប្រព័ន្ធប្រតិបត្តិការ Ubuntu 20.04, ភាសា Python 3.8+, PyTorch និងកំណត់រចនាសម្ព័ន្ធ CUDA 11.3 សម្រាប់ដំណើរការលើ GPU ដែលមានសមត្ថភាពខ្ពស់។
ទាញយកកូដ និងសំណុំទិន្នន័យមកសាកល្បង: ចូលទៅកាន់ GitHub repository របស់អ្នកស្រាវជ្រាវ ទាញយកកូដ និងសំណុំទិន្នន័យ ACDC ដើម្បីសាកល្បងដំណើរការ (Run) ម៉ូដែលមូលដ្ឋាន និងស្វែងយល់ពីរចនាសម្ព័ន្ធកូដ។
ហ្វឹកហាត់ និងវាយតម្លៃម៉ូដែល CAA-ViT: អនុវត្តការហ្វឹកហាត់ម៉ូដែលជា ៣ ដំណាក់កាលតាមឯកសារដោយប្រើ MixUp និង Adversarial Training រួចសង្កេតមើលលើរង្វាស់វាយតម្លៃដូចជា mDice និង mIOU។
អនុវត្តជាមួយទិន្នន័យវេជ្ជសាស្ត្រក្នុងស្រុក (Fine-tuning): សហការជាមួយមន្ទីរពេទ្យ ឬសាកលវិទ្យាល័យពេទ្យក្នុងស្រុក ដើម្បីប្រមូលរូបភាព MRI/CT (ទោះបីជាគ្មានការកត់សម្គាល់ក៏ដោយ) យកមកធ្វើការ Fine-tune ម៉ូដែលនេះសម្រាប់ការប្រើប្រាស់ជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformer (ViT)	បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Self-attention ដើម្បីរៀនពីទំនាក់ទំនងរវាងបំណែកតូចៗនៃរូបភាព (patches) និងស្វែងយល់ពីបរិបទជារួម ជំនួសឱ្យការប្រើប្រាស់ Convolutional layers ដូចវិធីសាស្ត្រចាស់។	ដូចជាការយកកញ្ចក់ផ្តុំរូបភាព (Jigsaw puzzle) មកមើលម្តងមួយដុំៗ រួចទាញការសន្និដ្ឋានដើម្បីយល់ពីទិដ្ឋភាពនៃរូបភាពនោះទាំងមូល។
Semantic Segmentation	ដំណើរការនៃកុំព្យូទ័រក្នុងការចាត់ថ្នាក់ភីកសែល (pixels) នីមួយៗនៅក្នុងរូបភាពថាតើវាជារបស់វត្ថុអ្វី ឬផ្នែកណាមួយឱ្យប្រាកដ (ឧទាហរណ៍៖ ការបែងចែកសាច់ដុំបេះដូង ពីផ្ទៃខាងក្រោយក្នុងរូបភាព MRI)។	ដូចជាការយកប៊ិចពណ៌ផ្សេងៗគ្នាទៅផាត់លើរូបភាពសខ្មៅ ដើម្បីបំបែកផ្នែកនីមួយៗឱ្យដាច់ពីគ្នា (ឧ. ផាត់ពណ៌ក្រហមលើបេះដូង ពណ៌ខៀវលើសួត)។
Semi-Supervised Learning (SSL)	វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែល Machine Learning ដោយប្រើប្រាស់ទិន្នន័យដែលមានស្លាកចំណាំ (Labeled data) ក្នុងបរិមាណតិចតួច រួមបញ្ចូលជាមួយទិន្នន័យដែលគ្មានស្លាកចំណាំ (Unlabeled data) ក្នុងបរិមាណច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្កើនប្រសិទ្ធភាព និងកាត់បន្ថយការចំណាយលើការរៀបចំទិន្នន័យ។	ដូចជាសិស្សដែលរៀនពីគ្រូបានតិចតួច (ទិន្នន័យមានស្លាក) ប៉ុន្តែយកចំណេះដឹងមូលដ្ឋាននោះទៅអនុវត្តនិងស្វែងយល់បន្ថែមដោយខ្លួនឯងលើលំហាត់ជាច្រើនទៀត (ទិន្នន័យគ្មានស្លាក)។
Adversarial Training	បច្ចេកទេសហ្វឹកហាត់ដែលប្រើម៉ូដែលពីរប្រកួតប្រជែងគ្នា គឺម៉ូដែលមួយព្យាយាមបង្កើតលទ្ធផល (Segmenter) និងម៉ូដែលមួយទៀតធ្វើការវាយតម្លៃឬចាប់កំហុស (Discriminator) ដើម្បីបង្ខំឱ្យម៉ូដែលទីមួយបង្កើតលទ្ធផលកាន់តែសុក្រឹតនិងជិតស្និទ្ធនឹងទិន្នន័យពិត។	ដូចជាការលេងលាក់រក ដែលអ្នកលាក់ខិតខំលាក់ខ្លួនឱ្យកាន់តែជិត ចំណែកអ្នករកខិតខំស្វែងរកឱ្យកាន់តែពូកែ ធ្វើឱ្យអ្នកទាំងពីរកាន់តែមានជំនាញខ្ពស់រៀងៗខ្លួនតាមរយៈការប្រកួតប្រជែង។
MixUp Interpolation	បច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation) ដោយយកទិន្នន័យពីរផ្សេងគ្នាមកច្របាច់បញ្ចូលគ្នាតាមសមាមាត្រជាក់លាក់ (បូកបញ្ចូលតម្លៃភីកសែល) ដើម្បីបង្កើតទិន្នន័យថ្មីមួយ ដែលជួយឱ្យម៉ូដែលរៀនសូត្របានកាន់តែរឹងមាំ (Robust) និងមិនងាយទន្ទេញចាំ (Overfitting)។	ដូចជាការលាយទឹកអប់ពីរប្រភេទបញ្ចូលគ្នាដើម្បីបង្កើតក្លិនថ្មីមួយ ជួយឱ្យអ្នកហិតក្លិនអាចបែងចែកភាពខុសគ្នានៃក្លិនកាន់តែច្បាស់ ទោះមានការប្រែប្រួល ឬច្របូកច្របល់ក៏ដោយ។
Pseudo-label	ស្លាកចំណាំសិប្បនិម្មិតដែលត្រូវបានទស្សន៍ទាយ និងបង្កើតឡើងដោយម៉ូដែលខ្លួនឯងសម្រាប់ទិន្នន័យដែលគ្មានស្លាក (Unlabeled data) រួចយកវាទៅប្រើជាទិន្នន័យគោលសម្រាប់ការហ្វឹកហាត់នៅជុំបន្ទាប់។	ដូចជាសិស្សដែលធ្វើលំហាត់ដោយខ្លួនឯង រួចសន្មតថាចម្លើយនោះត្រឹមត្រូវ ហើយយកវាជាគំរូសម្រាប់ដោះស្រាយលំហាត់ស្រដៀងគ្នានៅពេលក្រោយ។
Consistency Training	ការដាក់លក្ខខណ្ឌឱ្យម៉ូដែលព្យាករណ៍លទ្ធផលឱ្យបានថេរនិងត្រឹមត្រូវ ទោះបីជាទិន្នន័យបញ្ចូលត្រូវបានកែប្រែ រំខាន ឬបន្ថែម Noise ក៏ដោយ ដែលជាយន្តការទប់ស្កាត់ភាពប្រែប្រួលភ្លាមៗនៃលទ្ធផលទស្សន៍ទាយ។	ដូចជាការទាមទារឱ្យចុងភៅភ្លក់ស៊ុបដដែល ហើយប្រាប់ថារសជាតិនៅតែដូចគ្នា ទោះបីជាស៊ុបនោះត្រូវបានបន្ថែមទឹក ឬអំបិលបន្តិចបន្តួចក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖