Original Title: Adversarial Vision Transformer for Medical Image Semantic Segmentation with Limited Annotations
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែល Vision Transformer បែបប្រឆាំងសម្រាប់ការកំណត់ផ្នែករូបភាពសេម៉ង់ទិចវេជ្ជសាស្រ្តជាមួយនឹងទិន្នន័យកត់សម្គាល់មានកំណត់

ចំណងជើងដើម៖ Adversarial Vision Transformer for Medical Image Semantic Segmentation with Limited Annotations

អ្នកនិពន្ធ៖ Ziyang Wang (University of Oxford), Chengkuan Zhao (Bucknell University), Zixuan Ni (University of Colorado Boulder)

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Computer Vision / Medical Image Analysis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវិភាគរូបភាពវេជ្ជសាស្ត្រទាមទារទិន្នន័យដែលមានការកត់សម្គាល់ (Annotations) ចំនួនច្រើន ដែលត្រូវចំណាយពេលវេលា និងកម្លាំងពលកម្មខ្ពស់។ ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ Vision Transformer (ViT) ដើម្បីដោះស្រាយបញ្ហានេះតាមរយៈការរៀនបែបពាក់កណ្តាលត្រួតពិនិត្យ (Semi-Supervised Learning) នៅតែមានភាពស្មុគស្មាញនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតនូវក្របខ័ណ្ឌរៀនបែបពាក់កណ្តាលត្រួតពិនិត្យថ្មីមួយហៅថា CAA-ViT ដោយរួមបញ្ចូលវិធីសាស្ត្រសំខាន់ៗដូចជា៖

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
CAA-ViT (Ours)
ម៉ូដែលស្នើឡើង (CAA-ViT)
ផ្តល់លទ្ធផលខ្ពស់បំផុតដោយទាមទារទិន្នន័យមានស្លាកត្រឹមតែ ១០% និងមានការរួមបញ្ចូលការហ្វឹកហាត់បែបប្រឆាំង (Adversarial) ជាមួយបច្ចេកទេស MixUp យ៉ាងមានប្រសិទ្ធភាព។ ទាមទារដំណើរការហ្វឹកហាត់ច្រើនដំណាក់កាល (៣ ដំណាក់កាល) ដែលមានភាពស្មុគស្មាញ និងចំណាយកម្លាំងកុំព្យូទ័រច្រើន។ ទទួលបានតម្លៃ mDice ០,៨៨២៤ និង mIOU ០,៧៩៨៤ នៅលើទិន្នន័យ ACDC (១០% Labels)។
ICT + ViT
វិធីសាស្ត្រ ICT រួមជាមួយ ViT
ប្រើប្រាស់បច្ចេកទេស Interpolation Consistency បានយ៉ាងល្អ ដើម្បីទាញយកប្រយោជន៍ពីទិន្នន័យដែលគ្មានស្លាកចំណាំ។ មិនមានការវាយតម្លៃគុណភាពរូបភាពបែបប្រឆាំង (Adversarial Evaluation) ធ្វើឱ្យលទ្ធផលទាបជាង CAA-ViT។ ទទួលបានតម្លៃ mDice ០,៨៦៦៣ និង mIOU ០,៧៧៤៨។
MT + ViT
វិធីសាស្ត្រ Mean Teacher រួមជាមួយ ViT
ជាវិធីសាស្ត្រស្តង់ដារ និងពេញនិយមបំផុតដែលងាយស្រួលអនុវត្តសម្រាប់ Semi-Supervised Learning។ ទទួលបានលទ្ធផលទាបជាងគេទីពីរធៀបនឹងម៉ូដែលដទៃទៀតនៅក្នុងការសាកល្បងនេះ។ ទទួលបានតម្លៃ mDice ០,៨៣៨៤ និង mIOU ០,៧៣៥៩។
DAN + ViT
វិធីសាស្ត្រ DAN រួមជាមួយ ViT
ប្រើប្រាស់បណ្តាញ Adversarial Networks ក្នុងការវាយតម្លៃ និងបែងចែកទិន្នន័យវេជ្ជសាស្ត្រជាមូលដ្ឋាន។ មានកម្រិតភាពត្រឹមត្រូវទាបបំផុត (mDice និង mIOU ទាបជាងគេ) បើប្រៀបធៀបជាមួយម៉ូដែលផ្សេងៗទៀត។ ទទួលបានតម្លៃ mDice ០,៨២៣២ និង mIOU ០,៧១៦៥។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងប្រតិបត្តិការខ្ពស់ (GPU) សម្រាប់ដំណើរការហ្វឹកហាត់ម៉ូដែល Deep Learning ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ ACDC MRI ដែលប្រមូលបានពីអ្នកជំងឺនៅអឺរ៉ុប/អន្តរជាតិកាលពីឆ្នាំ ២០១៧។ នេះជាចំណុចសំខាន់សម្រាប់កម្ពុជា ព្រោះលក្ខណៈជីវសាស្ត្ររបស់អ្នកជំងឺ ព្រមទាំងគុណភាពម៉ាស៊ីនថត MRI នៅតាមមន្ទីរពេទ្យក្នុងស្រុក អាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររៀនបែបពាក់កណ្តាលត្រួតពិនិត្យ (Semi-Supervised Learning) នេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្លាំងណាស់សម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ដែលជួបបញ្ហាខ្វះខាតទិន្នន័យមានស្លាក។

ការកាត់បន្ថយការពឹងផ្អែកលើទិន្នន័យដែលមានការកត់សម្គាល់ដោយគ្រូពេទ្យឯកទេស ធ្វើឱ្យបច្ចេកវិទ្យា AI វេជ្ជសាស្ត្រកាន់តែមានភាពងាយស្រួល និងចំណាយតិចក្នុងការអនុវត្តនៅប្រទេសកំពុងអភិវឌ្ឍន៍ដូចជាកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Vision Transformer និង Semi-Supervised Learning: ចាប់ផ្តើមស្វែងយល់ពីរបៀបដំណើរការរបស់ Vision Transformer (ViT) ធៀបនឹង CNN និងទ្រឹស្តីនៃការបណ្តុះបណ្តាលម៉ូដែលដោយប្រើទិន្នន័យមានស្លាក និងគ្មានស្លាកបញ្ចូលគ្នា។
  2. រៀបចំបរិស្ថានកុំព្យូទ័រសម្រាប់ការស្រាវជ្រាវ (Environment Setup): ដំឡើងប្រព័ន្ធប្រតិបត្តិការ Ubuntu 20.04, ភាសា Python 3.8+, PyTorch និងកំណត់រចនាសម្ព័ន្ធ CUDA 11.3 សម្រាប់ដំណើរការលើ GPU ដែលមានសមត្ថភាពខ្ពស់។
  3. ទាញយកកូដ និងសំណុំទិន្នន័យមកសាកល្បង: ចូលទៅកាន់ GitHub repository របស់អ្នកស្រាវជ្រាវ ទាញយកកូដ និងសំណុំទិន្នន័យ ACDC ដើម្បីសាកល្បងដំណើរការ (Run) ម៉ូដែលមូលដ្ឋាន និងស្វែងយល់ពីរចនាសម្ព័ន្ធកូដ។
  4. ហ្វឹកហាត់ និងវាយតម្លៃម៉ូដែល CAA-ViT: អនុវត្តការហ្វឹកហាត់ម៉ូដែលជា ៣ ដំណាក់កាលតាមឯកសារដោយប្រើ MixUp និង Adversarial Training រួចសង្កេតមើលលើរង្វាស់វាយតម្លៃដូចជា mDice និង mIOU
  5. អនុវត្តជាមួយទិន្នន័យវេជ្ជសាស្ត្រក្នុងស្រុក (Fine-tuning): សហការជាមួយមន្ទីរពេទ្យ ឬសាកលវិទ្យាល័យពេទ្យក្នុងស្រុក ដើម្បីប្រមូលរូបភាព MRI/CT (ទោះបីជាគ្មានការកត់សម្គាល់ក៏ដោយ) យកមកធ្វើការ Fine-tune ម៉ូដែលនេះសម្រាប់ការប្រើប្រាស់ជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformer (ViT) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Self-attention ដើម្បីរៀនពីទំនាក់ទំនងរវាងបំណែកតូចៗនៃរូបភាព (patches) និងស្វែងយល់ពីបរិបទជារួម ជំនួសឱ្យការប្រើប្រាស់ Convolutional layers ដូចវិធីសាស្ត្រចាស់។ ដូចជាការយកកញ្ចក់ផ្តុំរូបភាព (Jigsaw puzzle) មកមើលម្តងមួយដុំៗ រួចទាញការសន្និដ្ឋានដើម្បីយល់ពីទិដ្ឋភាពនៃរូបភាពនោះទាំងមូល។
Semantic Segmentation ដំណើរការនៃកុំព្យូទ័រក្នុងការចាត់ថ្នាក់ភីកសែល (pixels) នីមួយៗនៅក្នុងរូបភាពថាតើវាជារបស់វត្ថុអ្វី ឬផ្នែកណាមួយឱ្យប្រាកដ (ឧទាហរណ៍៖ ការបែងចែកសាច់ដុំបេះដូង ពីផ្ទៃខាងក្រោយក្នុងរូបភាព MRI)។ ដូចជាការយកប៊ិចពណ៌ផ្សេងៗគ្នាទៅផាត់លើរូបភាពសខ្មៅ ដើម្បីបំបែកផ្នែកនីមួយៗឱ្យដាច់ពីគ្នា (ឧ. ផាត់ពណ៌ក្រហមលើបេះដូង ពណ៌ខៀវលើសួត)។
Semi-Supervised Learning (SSL) វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែល Machine Learning ដោយប្រើប្រាស់ទិន្នន័យដែលមានស្លាកចំណាំ (Labeled data) ក្នុងបរិមាណតិចតួច រួមបញ្ចូលជាមួយទិន្នន័យដែលគ្មានស្លាកចំណាំ (Unlabeled data) ក្នុងបរិមាណច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្កើនប្រសិទ្ធភាព និងកាត់បន្ថយការចំណាយលើការរៀបចំទិន្នន័យ។ ដូចជាសិស្សដែលរៀនពីគ្រូបានតិចតួច (ទិន្នន័យមានស្លាក) ប៉ុន្តែយកចំណេះដឹងមូលដ្ឋាននោះទៅអនុវត្តនិងស្វែងយល់បន្ថែមដោយខ្លួនឯងលើលំហាត់ជាច្រើនទៀត (ទិន្នន័យគ្មានស្លាក)។
Adversarial Training បច្ចេកទេសហ្វឹកហាត់ដែលប្រើម៉ូដែលពីរប្រកួតប្រជែងគ្នា គឺម៉ូដែលមួយព្យាយាមបង្កើតលទ្ធផល (Segmenter) និងម៉ូដែលមួយទៀតធ្វើការវាយតម្លៃឬចាប់កំហុស (Discriminator) ដើម្បីបង្ខំឱ្យម៉ូដែលទីមួយបង្កើតលទ្ធផលកាន់តែសុក្រឹតនិងជិតស្និទ្ធនឹងទិន្នន័យពិត។ ដូចជាការលេងលាក់រក ដែលអ្នកលាក់ខិតខំលាក់ខ្លួនឱ្យកាន់តែជិត ចំណែកអ្នករកខិតខំស្វែងរកឱ្យកាន់តែពូកែ ធ្វើឱ្យអ្នកទាំងពីរកាន់តែមានជំនាញខ្ពស់រៀងៗខ្លួនតាមរយៈការប្រកួតប្រជែង។
MixUp Interpolation បច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation) ដោយយកទិន្នន័យពីរផ្សេងគ្នាមកច្របាច់បញ្ចូលគ្នាតាមសមាមាត្រជាក់លាក់ (បូកបញ្ចូលតម្លៃភីកសែល) ដើម្បីបង្កើតទិន្នន័យថ្មីមួយ ដែលជួយឱ្យម៉ូដែលរៀនសូត្របានកាន់តែរឹងមាំ (Robust) និងមិនងាយទន្ទេញចាំ (Overfitting)។ ដូចជាការលាយទឹកអប់ពីរប្រភេទបញ្ចូលគ្នាដើម្បីបង្កើតក្លិនថ្មីមួយ ជួយឱ្យអ្នកហិតក្លិនអាចបែងចែកភាពខុសគ្នានៃក្លិនកាន់តែច្បាស់ ទោះមានការប្រែប្រួល ឬច្របូកច្របល់ក៏ដោយ។
Pseudo-label ស្លាកចំណាំសិប្បនិម្មិតដែលត្រូវបានទស្សន៍ទាយ និងបង្កើតឡើងដោយម៉ូដែលខ្លួនឯងសម្រាប់ទិន្នន័យដែលគ្មានស្លាក (Unlabeled data) រួចយកវាទៅប្រើជាទិន្នន័យគោលសម្រាប់ការហ្វឹកហាត់នៅជុំបន្ទាប់។ ដូចជាសិស្សដែលធ្វើលំហាត់ដោយខ្លួនឯង រួចសន្មតថាចម្លើយនោះត្រឹមត្រូវ ហើយយកវាជាគំរូសម្រាប់ដោះស្រាយលំហាត់ស្រដៀងគ្នានៅពេលក្រោយ។
Consistency Training ការដាក់លក្ខខណ្ឌឱ្យម៉ូដែលព្យាករណ៍លទ្ធផលឱ្យបានថេរនិងត្រឹមត្រូវ ទោះបីជាទិន្នន័យបញ្ចូលត្រូវបានកែប្រែ រំខាន ឬបន្ថែម Noise ក៏ដោយ ដែលជាយន្តការទប់ស្កាត់ភាពប្រែប្រួលភ្លាមៗនៃលទ្ធផលទស្សន៍ទាយ។ ដូចជាការទាមទារឱ្យចុងភៅភ្លក់ស៊ុបដដែល ហើយប្រាប់ថារសជាតិនៅតែដូចគ្នា ទោះបីជាស៊ុបនោះត្រូវបានបន្ថែមទឹក ឬអំបិលបន្តិចបន្តួចក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖