បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីដែនកំណត់របស់ Convolutional Neural Networks (CNNs) ក្នុងការចាប់យកទំនាក់ទំនងលំហសកល និងការចាត់ចែងសំណុំទិន្នន័យមិនស្មើគ្នាក្នុងការវិភាគ និងចាត់ថ្នាក់រូបភាពគ្លីនិកដោយស្វ័យប្រវត្តិ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះវាយតម្លៃលើស្ថាបត្យកម្ម Vision Transformer (ViT) និងការបង្កើនទិន្នន័យផ្អែកលើការសាយភាយ (Diffusion-based data augmentation) តាមរយៈការសិក្សាករណីរូបភាពវេជ្ជសាស្ត្រចំនួនបីផ្សេងគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Convolutional Neural Networks (ResNet50, InceptionV3, Xception) បណ្ដាញសរសៃប្រសាទ Convolutional (CNNs) |
ដំណើរការបានល្អក្នុងការទាញយកលក្ខណៈពិសេសក្នុងតំបន់ (local features) និងជាវិធីសាស្ត្រស្តង់ដារដែលងាយស្រួលប្រើប្រាស់។ | ពិបាកក្នុងការចាប់យកទំនាក់ទំនងលំហសកល (global spatial relationships) រវាងផ្នែកនានានៃរូបភាព ដែលនៅឆ្ងាយពីគ្នា។ | សម្រេចបានភាពត្រឹមត្រូវអតិបរមា ៨៥.៥៨% (ដោយ ResNet50) លើការចាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិចសួតកូវីដ-១៩។ |
| Vision Transformers (ViT) ម៉ូដែល Vision Transformers (ViT) |
ប្រើប្រាស់យន្តការ Self-Attention ដែលអនុញ្ញាតឱ្យចាប់យកបរិបទរួមនៃរូបភាពបានយ៉ាងច្បាស់លាស់ និងមានភាពត្រឹមត្រូវខ្ពស់។ | ត្រូវការទិន្នន័យទំហំធំដើម្បីបង្វឹក និងប្រើប្រាស់ធនធានគណនា (computational power) ច្រើន ប្រសិនបើមិនប្រើប្រាស់ Transfer Learning។ | ទទួលបានភាពត្រឹមត្រូវ ៩៩.៣០% លើរូបភាព X-ray កូវីដ-១៩ លើសពីសមត្ថភាពរបស់ម៉ូដែល CNNs ឆ្ងាយ។ |
| ViT + Diffuser-based Data Augmentation ViT រួមបញ្ចូលជាមួយការបង្កើនទិន្នន័យដោយម៉ូដែល Diffuser |
ជួយដោះស្រាយបញ្ហាខ្វះខាត ឬទិន្នន័យមិនស្មើគ្នា ដោយបង្កើតរូបភាពសំយោគយ៉ាងពិតប្រាកដ បង្កើនភាពត្រឹមត្រូវ និងកាត់បន្ថយការធ្វើរោគវិនិច្ឆ័យខុស។ | ទាមទារពេលវេលាយូរក្នុងការបង្រួម (longer convergence time) និងត្រូវការសមត្ថភាពកុំព្យូទ័រខ្ពស់បំផុតក្នុងការបង្វឹកម៉ូដែល Diffusion។ | សម្រេចបានភាពត្រឹមត្រូវ ៧៧.០១% លើរូបភាពមហារីកសុដន់ និងជួយកាត់បន្ថយអត្រាវិនិច្ឆ័យអវិជ្ជមានខុស ៤១% លើជំងឺមហារីកស្បែក។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងផ្នែកទន់កម្រិតខ្ពស់សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ធំៗដូចជា ViT និងបណ្តាញ Diffusion។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសាធារណៈអន្តរជាតិ (ដូចជា ISIC សម្រាប់ស្បែក និង CBIS-DDSM សម្រាប់សុដន់) ដែលភាគច្រើនប្រមូលផ្តុំពីប្រជាជនស្បែកស ឬតំបន់អឺរ៉ុប/អាមេរិក។ នេះអាចបង្កើតជាភាពលម្អៀង (Bias) ពីព្រោះលក្ខណៈជីវសាស្ត្រនៃស្បែក ឬដង់ស៊ីតេសុដន់របស់ប្រជាជនអាស៊ី ជាពិសេសនៅប្រទេសកម្ពុជា អាចមានលក្ខណៈខុសប្លែក ដែលទាមទារការបង្វឹកម៉ូដែលឡើងវិញជាមួយទិន្នន័យអ្នកជំងឺក្នុងស្រុក ដើម្បីធានាភាពត្រឹមត្រូវ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដើម្បីជួយសម្រួលការងាររបស់គ្រូពេទ្យ និងពន្លឿនការធ្វើរោគវិនិច្ឆ័យ។
ជារួម បច្ចេកវិទ្យាទាំងនេះអាចដើរតួនាទីយ៉ាងសំខាន់ក្នុងការកាត់បន្ថយគម្លាតសេវាកម្មសុខាភិបាលរវាងទីក្រុង និងជនបទកម្ពុជា ប្រសិនបើមានការស្រាវជ្រាវកែសម្រួលវាឱ្យសមស្របនឹងបរិបទក្នុងស្រុក។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Vision Transformer (ViT) | ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Self-Attention ដើម្បីវិភាគរូបភាពដោយបំបែកវាជាបំណែកតូចៗ (Patches) រួចស្វែងយល់ពីទំនាក់ទំនងរវាងបំណែកទាំងនោះក្នុងបរិបទជារួមនៃរូបភាពទាំងមូល។ | ដូចជាការលេងល្បែងតម្រៀបរូបភាព (Jigsaw puzzle) ដែលយើងពិនិត្យមើលបំណែកនីមួយៗ ព្រមទាំងប្រៀបធៀបវាជាមួយបំណែកដទៃទៀត ដើម្បីយល់ពីរូបភាពធំទាំងមូល។ |
| Convolutional Neural Networks (CNNs) | ជាប្រភេទម៉ូដែល Deep Learning ជាស្តង់ដារចាស់ដែលពូកែខាងសម្គាល់លក្ខណៈពិសេសក្នុងតំបន់តូចៗនៃរូបភាព (ដូចជាគែម ឬរាង) តាមរយៈការប្រើប្រាស់តម្រង (Filters) ស្កេនពីលើរូបភាព ប៉ុន្តែពិបាកក្នុងការចាប់យកទំនាក់ទំនងលំហដែលនៅឆ្ងាយពីគ្នា។ | ដូចជាការពាក់វ៉ែនតាពង្រីក (Magnifying glass) សម្លឹងមើលសម្លៀកបំពាក់ម្ដងមួយចំអាមៗ ដើម្បីរកមើលស្នាមប្រឡាក់ ដោយមើលមិនឃើញអាវទាំងមូល។ |
| Self-Attention Mechanism | ជាយន្តការគណនាដែលអនុញ្ញាតឱ្យម៉ូដែល AI ថ្លឹងថ្លែងពីសារៈសំខាន់នៃចំណុចណាមួយនៃទិន្នន័យ (ឬរូបភាព) ធៀបនឹងចំណុចផ្សេងៗទៀត ដើម្បីដឹងថាត្រូវផ្ដោតការយកចិត្តទុកដាក់លើផ្នែកណាខ្លះក្នុងការធ្វើសេចក្តីសម្រេច។ | ដូចជាពេលយើងអានសៀវភៅ ហើយយើងផ្ដោតភ្នែកលើពាក្យគន្លឹះសំខាន់ៗដែលភ្ជាប់អត្ថន័យទៅនឹងប្រយោគមុនៗ ដើម្បីអាចយល់ន័យជារួម។ |
| Diffusion Models | ជាម៉ូដែល AI ប្រភេទ Generative ដែលរៀនបង្កើតទិន្នន័យថ្មី (ដូចជារូបភាពសិប្បនិម្មិត) ដោយចាប់ផ្ដើមពីការបន្ថែមគ្រាប់អុចៗ (Noise) ទៅលើរូបភាពដើមរហូតដល់ព្រិលមើលលែងយល់ រួចរៀនពីវិធីបន្សុទ្ធ (Denoise) វាត្រលប់មករកទម្រង់ដើមវិញ។ | ដូចជាជាងចម្លាក់ដែលយកដីឥដ្ឋមួយដុំធំ (Noise) មកសូននិងកាត់តម្រឹមបន្តិចម្ដងៗ រហូតក្លាយជារូបសំណាកដ៏ស្រស់ស្អាតមានទម្រង់ច្បាស់លាស់។ |
| Data Augmentation | ជាបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែមពីលើទិន្នន័យដែលមានស្រាប់ តាមរយៈការបង្វិល ត្រឡប់ ប្ដូរពន្លឺ ឬប្រើប្រាស់ AI ជំនួយ ដើម្បីផ្ដល់ទិន្នន័យកាន់តែច្រើនសម្រាប់បង្វឹកម៉ូដែលឱ្យកាន់តែឆ្លាតនិងមានភាពត្រឹមត្រូវខ្ពស់ជាងមុន។ | ដូចជាការថតរូបមុខមិត្តភក្តិម្នាក់ពីច្រើនជ្រុង ច្រើនប្លង់ និងក្នុងពន្លឺខុសៗគ្នា ដើម្បីឱ្យអ្នកអាចចំណាំមុខគាត់បានទោះគាត់ងាកទៅម្ខាងក៏ដោយ។ |
| Transfer Learning | ជាវិធីសាស្ត្រយកម៉ូដែល AI ដែលត្រូវបានបង្វឹកកម្រិតមូលដ្ឋានរួចរាល់លើទិន្នន័យរាប់លាន មកបង្វឹកបន្តបន្តិចបន្តួចលើទិន្នន័យវេជ្ជសាស្ត្រជាក់លាក់ ដើម្បីសន្សំពេលវេលា និងដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ។ | ដូចជាការជួលចុងភៅដែលចេះធ្វើម្ហូបទូទៅរួចហើយ មកបង្រៀនបន្ថែមតែ២-៣ថ្ងៃពីរបៀបស្លម្ជូរគ្រឿង នោះគាត់នឹងចេះធ្វើតែម្ដង ដោយមិនបាច់បង្រៀនពីរបៀបកាន់កាំបិតពីដំបូងឡើយ។ |
| Mean Attention Distance (MAD) | ជាសូចនាករសម្រាប់វាស់ស្ទង់ថាតើម៉ូដែល Vision Transformer ផ្ដោតការយកចិត្តទុកដាក់លើបំណែករូបភាពដែលនៅជិតៗគ្នា (Local context) ឬនៅឆ្ងាយពីគ្នា (Global context) ដើម្បីបកស្រាយពីរបៀបដែលម៉ូដែលនេះធ្វើការវិភាគ។ | ដូចជាការវាស់ចម្ងាយរវាងភ្នែករបស់មនុស្សម្នាក់ទៅកាន់វត្ថុជុំវិញខ្លួន ដើម្បីដឹងថាគាត់កំពុងសម្លឹងមើលរបស់នៅក្បែរដៃ ឬសម្លឹងមើលទេសភាពដែលនៅឆ្ងាយ។ |
| Attention Rollout | ជាបច្ចេកទេសបកស្រាយម៉ូដែល (Explainability) ដែលតាមដាននិងគណនាបូកបញ្ចូលគ្នានូវរាល់ចំណុចនៃការយកចិត្តទុកដាក់ (Attention) ពីគ្រប់ស្រទាប់នៃបណ្ដាញ ដើម្បីបង្ហាញជារូបភាពកម្ដៅ (Heatmap) ថា AI សម្រេចចិត្តដោយផ្អែកលើផ្នែកណានៃរូប។ | ដូចជាការគូសផែនទីតាមដានចំណុចកម្ដៅនៃការសម្លឹងរបស់ភ្នែកកាមេរ៉ា (Eye-tracking) ដើម្បីដឹងថាវាបានសម្លឹងមើលនិងចាប់អារម្មណ៍លើទីតាំងណាខ្លះនៅលើផ្ទាំងរូបភាព។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖