បញ្ហា (The Problem)៖ ការវិភាគរូបភាពវេជ្ជសាស្ត្រទាមទារទិន្នន័យដែលមានការកត់សម្គាល់ (Annotations) ចំនួនច្រើន ដែលត្រូវចំណាយពេលវេលា និងកម្លាំងពលកម្មខ្ពស់។ ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ Vision Transformer (ViT) ដើម្បីដោះស្រាយបញ្ហានេះតាមរយៈការរៀនបែបពាក់កណ្តាលត្រួតពិនិត្យ (Semi-Supervised Learning) នៅតែមានភាពស្មុគស្មាញនៅឡើយ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតនូវក្របខ័ណ្ឌរៀនបែបពាក់កណ្តាលត្រួតពិនិត្យថ្មីមួយហៅថា CAA-ViT ដោយរួមបញ្ចូលវិធីសាស្ត្រសំខាន់ៗដូចជា៖
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| CAA-ViT (Ours) ម៉ូដែលស្នើឡើង (CAA-ViT) |
ផ្តល់លទ្ធផលខ្ពស់បំផុតដោយទាមទារទិន្នន័យមានស្លាកត្រឹមតែ ១០% និងមានការរួមបញ្ចូលការហ្វឹកហាត់បែបប្រឆាំង (Adversarial) ជាមួយបច្ចេកទេស MixUp យ៉ាងមានប្រសិទ្ធភាព។ | ទាមទារដំណើរការហ្វឹកហាត់ច្រើនដំណាក់កាល (៣ ដំណាក់កាល) ដែលមានភាពស្មុគស្មាញ និងចំណាយកម្លាំងកុំព្យូទ័រច្រើន។ | ទទួលបានតម្លៃ mDice ០,៨៨២៤ និង mIOU ០,៧៩៨៤ នៅលើទិន្នន័យ ACDC (១០% Labels)។ |
| ICT + ViT វិធីសាស្ត្រ ICT រួមជាមួយ ViT |
ប្រើប្រាស់បច្ចេកទេស Interpolation Consistency បានយ៉ាងល្អ ដើម្បីទាញយកប្រយោជន៍ពីទិន្នន័យដែលគ្មានស្លាកចំណាំ។ | មិនមានការវាយតម្លៃគុណភាពរូបភាពបែបប្រឆាំង (Adversarial Evaluation) ធ្វើឱ្យលទ្ធផលទាបជាង CAA-ViT។ | ទទួលបានតម្លៃ mDice ០,៨៦៦៣ និង mIOU ០,៧៧៤៨។ |
| MT + ViT វិធីសាស្ត្រ Mean Teacher រួមជាមួយ ViT |
ជាវិធីសាស្ត្រស្តង់ដារ និងពេញនិយមបំផុតដែលងាយស្រួលអនុវត្តសម្រាប់ Semi-Supervised Learning។ | ទទួលបានលទ្ធផលទាបជាងគេទីពីរធៀបនឹងម៉ូដែលដទៃទៀតនៅក្នុងការសាកល្បងនេះ។ | ទទួលបានតម្លៃ mDice ០,៨៣៨៤ និង mIOU ០,៧៣៥៩។ |
| DAN + ViT វិធីសាស្ត្រ DAN រួមជាមួយ ViT |
ប្រើប្រាស់បណ្តាញ Adversarial Networks ក្នុងការវាយតម្លៃ និងបែងចែកទិន្នន័យវេជ្ជសាស្ត្រជាមូលដ្ឋាន។ | មានកម្រិតភាពត្រឹមត្រូវទាបបំផុត (mDice និង mIOU ទាបជាងគេ) បើប្រៀបធៀបជាមួយម៉ូដែលផ្សេងៗទៀត។ | ទទួលបានតម្លៃ mDice ០,៨២៣២ និង mIOU ០,៧១៦៥។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងប្រតិបត្តិការខ្ពស់ (GPU) សម្រាប់ដំណើរការហ្វឹកហាត់ម៉ូដែល Deep Learning ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ ACDC MRI ដែលប្រមូលបានពីអ្នកជំងឺនៅអឺរ៉ុប/អន្តរជាតិកាលពីឆ្នាំ ២០១៧។ នេះជាចំណុចសំខាន់សម្រាប់កម្ពុជា ព្រោះលក្ខណៈជីវសាស្ត្ររបស់អ្នកជំងឺ ព្រមទាំងគុណភាពម៉ាស៊ីនថត MRI នៅតាមមន្ទីរពេទ្យក្នុងស្រុក អាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។
វិធីសាស្ត្ររៀនបែបពាក់កណ្តាលត្រួតពិនិត្យ (Semi-Supervised Learning) នេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្លាំងណាស់សម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ដែលជួបបញ្ហាខ្វះខាតទិន្នន័យមានស្លាក។
ការកាត់បន្ថយការពឹងផ្អែកលើទិន្នន័យដែលមានការកត់សម្គាល់ដោយគ្រូពេទ្យឯកទេស ធ្វើឱ្យបច្ចេកវិទ្យា AI វេជ្ជសាស្ត្រកាន់តែមានភាពងាយស្រួល និងចំណាយតិចក្នុងការអនុវត្តនៅប្រទេសកំពុងអភិវឌ្ឍន៍ដូចជាកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Vision Transformer (ViT) | បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Self-attention ដើម្បីរៀនពីទំនាក់ទំនងរវាងបំណែកតូចៗនៃរូបភាព (patches) និងស្វែងយល់ពីបរិបទជារួម ជំនួសឱ្យការប្រើប្រាស់ Convolutional layers ដូចវិធីសាស្ត្រចាស់។ | ដូចជាការយកកញ្ចក់ផ្តុំរូបភាព (Jigsaw puzzle) មកមើលម្តងមួយដុំៗ រួចទាញការសន្និដ្ឋានដើម្បីយល់ពីទិដ្ឋភាពនៃរូបភាពនោះទាំងមូល។ |
| Semantic Segmentation | ដំណើរការនៃកុំព្យូទ័រក្នុងការចាត់ថ្នាក់ភីកសែល (pixels) នីមួយៗនៅក្នុងរូបភាពថាតើវាជារបស់វត្ថុអ្វី ឬផ្នែកណាមួយឱ្យប្រាកដ (ឧទាហរណ៍៖ ការបែងចែកសាច់ដុំបេះដូង ពីផ្ទៃខាងក្រោយក្នុងរូបភាព MRI)។ | ដូចជាការយកប៊ិចពណ៌ផ្សេងៗគ្នាទៅផាត់លើរូបភាពសខ្មៅ ដើម្បីបំបែកផ្នែកនីមួយៗឱ្យដាច់ពីគ្នា (ឧ. ផាត់ពណ៌ក្រហមលើបេះដូង ពណ៌ខៀវលើសួត)។ |
| Semi-Supervised Learning (SSL) | វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែល Machine Learning ដោយប្រើប្រាស់ទិន្នន័យដែលមានស្លាកចំណាំ (Labeled data) ក្នុងបរិមាណតិចតួច រួមបញ្ចូលជាមួយទិន្នន័យដែលគ្មានស្លាកចំណាំ (Unlabeled data) ក្នុងបរិមាណច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្កើនប្រសិទ្ធភាព និងកាត់បន្ថយការចំណាយលើការរៀបចំទិន្នន័យ។ | ដូចជាសិស្សដែលរៀនពីគ្រូបានតិចតួច (ទិន្នន័យមានស្លាក) ប៉ុន្តែយកចំណេះដឹងមូលដ្ឋាននោះទៅអនុវត្តនិងស្វែងយល់បន្ថែមដោយខ្លួនឯងលើលំហាត់ជាច្រើនទៀត (ទិន្នន័យគ្មានស្លាក)។ |
| Adversarial Training | បច្ចេកទេសហ្វឹកហាត់ដែលប្រើម៉ូដែលពីរប្រកួតប្រជែងគ្នា គឺម៉ូដែលមួយព្យាយាមបង្កើតលទ្ធផល (Segmenter) និងម៉ូដែលមួយទៀតធ្វើការវាយតម្លៃឬចាប់កំហុស (Discriminator) ដើម្បីបង្ខំឱ្យម៉ូដែលទីមួយបង្កើតលទ្ធផលកាន់តែសុក្រឹតនិងជិតស្និទ្ធនឹងទិន្នន័យពិត។ | ដូចជាការលេងលាក់រក ដែលអ្នកលាក់ខិតខំលាក់ខ្លួនឱ្យកាន់តែជិត ចំណែកអ្នករកខិតខំស្វែងរកឱ្យកាន់តែពូកែ ធ្វើឱ្យអ្នកទាំងពីរកាន់តែមានជំនាញខ្ពស់រៀងៗខ្លួនតាមរយៈការប្រកួតប្រជែង។ |
| MixUp Interpolation | បច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation) ដោយយកទិន្នន័យពីរផ្សេងគ្នាមកច្របាច់បញ្ចូលគ្នាតាមសមាមាត្រជាក់លាក់ (បូកបញ្ចូលតម្លៃភីកសែល) ដើម្បីបង្កើតទិន្នន័យថ្មីមួយ ដែលជួយឱ្យម៉ូដែលរៀនសូត្របានកាន់តែរឹងមាំ (Robust) និងមិនងាយទន្ទេញចាំ (Overfitting)។ | ដូចជាការលាយទឹកអប់ពីរប្រភេទបញ្ចូលគ្នាដើម្បីបង្កើតក្លិនថ្មីមួយ ជួយឱ្យអ្នកហិតក្លិនអាចបែងចែកភាពខុសគ្នានៃក្លិនកាន់តែច្បាស់ ទោះមានការប្រែប្រួល ឬច្របូកច្របល់ក៏ដោយ។ |
| Pseudo-label | ស្លាកចំណាំសិប្បនិម្មិតដែលត្រូវបានទស្សន៍ទាយ និងបង្កើតឡើងដោយម៉ូដែលខ្លួនឯងសម្រាប់ទិន្នន័យដែលគ្មានស្លាក (Unlabeled data) រួចយកវាទៅប្រើជាទិន្នន័យគោលសម្រាប់ការហ្វឹកហាត់នៅជុំបន្ទាប់។ | ដូចជាសិស្សដែលធ្វើលំហាត់ដោយខ្លួនឯង រួចសន្មតថាចម្លើយនោះត្រឹមត្រូវ ហើយយកវាជាគំរូសម្រាប់ដោះស្រាយលំហាត់ស្រដៀងគ្នានៅពេលក្រោយ។ |
| Consistency Training | ការដាក់លក្ខខណ្ឌឱ្យម៉ូដែលព្យាករណ៍លទ្ធផលឱ្យបានថេរនិងត្រឹមត្រូវ ទោះបីជាទិន្នន័យបញ្ចូលត្រូវបានកែប្រែ រំខាន ឬបន្ថែម Noise ក៏ដោយ ដែលជាយន្តការទប់ស្កាត់ភាពប្រែប្រួលភ្លាមៗនៃលទ្ធផលទស្សន៍ទាយ។ | ដូចជាការទាមទារឱ្យចុងភៅភ្លក់ស៊ុបដដែល ហើយប្រាប់ថារសជាតិនៅតែដូចគ្នា ទោះបីជាស៊ុបនោះត្រូវបានបន្ថែមទឹក ឬអំបិលបន្តិចបន្តួចក៏ដោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖