បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាការបាត់បង់គុណភាពបង្ហាញរូបភាព (Resolution loss) នៅក្នុងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNNs) បញ្ហាអតុល្យភាពនៃថ្នាក់ទិន្នន័យកម្រិតភីកសែល (Pixel-level class imbalance) និងកង្វះភាពអាចពន្យល់បាន (Explainability) នៅក្នុងប្រព័ន្ធកាត់បំបែករូបភាពវេជ្ជសាស្ត្រ ជាពិសេសសម្រាប់ការកាត់បំបែកដុំសាច់មហារីកសុដន់ (Mammogram Tumor Segmentation)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតវិធីសាស្ត្រថ្មីមួយដោយកែច្នៃរចនាសម្ព័ន្ធបណ្ដាញសរសៃប្រសាទ ស្វែងរកអនុគមន៍បាត់បង់ដែលស័ក្តិសមបំផុត និងរួមបញ្ចូលបច្ចេកទេសបកស្រាយ AI លើសំណុំទិន្នន័យរូបភាពមហារីកសុដន់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline DeepLabv3+ (with Tversky Loss) ម៉ូដែល DeepLabv3+ ដើម (ហ្វឹកហាត់ជាមួយ Tversky Loss) |
មានសមត្ថភាពល្អជាងទម្រង់ដើមក្នុងការកាត់បន្ថយការទស្សន៍ទាយខុស (False Positives) ដោយសារការប្រើ Tversky loss ដើម្បីដោះស្រាយភាពអតុល្យភាពទិន្នន័យ។ | នៅមានអត្រាមើលរំលងដុំសាច់ (Miss Detection) ខ្ពស់គួរសម ដោយសារការបាត់បង់គុណភាពបង្ហាញរូបភាពក្នុងតំបន់តូចៗនៅពេលធ្វើ Dilated Convolution ធម្មតា។ | អត្រាមើលរំលងដុំសាច់ (Miss Detection Rate) ០.០៨ និងភាពត្រឹមត្រូវកម្រិតភីកសែល (Dice Similarity) ០.៧៨។ |
| Double-Dilated DeepLabv3+ (Proposed) ម៉ូដែល DeepLabv3+ ដែលកែច្នៃប្រើម៉ូឌុល Double-Dilated Convolution |
អាចរក្សាគុណភាពបង្ហាញរូបភាពក្នុងតំបន់បានល្អ (Preserved Local Resolution) ដែលជួយចាប់យកលក្ខណៈលម្អិតនៃដុំសាច់តូចៗបានយ៉ាងច្បាស់លាស់។ | ទាមទារធនធានកុំព្យូទ័រ និងអង្គចងចាំខ្ពស់ជាងមុន ដោយសារមានការគណនាស្មុគស្មាញលើមុខងារ Convolution ស្របគ្នាពីរ។ | អត្រាមើលរំលងដុំសាច់ថយចុះមកត្រឹម ០.០៤ (ល្អជាងមុន២ដង) និងភាពត្រឹមត្រូវកម្រិតភីកសែល (Dice Similarity) កើនដល់ ០.៨១។ |
| Grad-CAM (Gradient-weighted Class Activation Map) បច្ចេកទេសពន្យល់ AI ប្រភេទ Grad-CAM |
ផ្តល់រូបភាពពន្យល់ (Heatmaps) ដែលផ្តោតចំគោលដៅបានល្អ មានភាពច្បាស់លាស់ និងមានកម្រិតភាពច្របូកច្របល់ទាបបំផុត បើធៀបនឹងវិធីសាស្ត្រដទៃ។ | ពឹងផ្អែកខ្លាំងលើទិន្នន័យពីស្រទាប់ Convolution ចុងក្រោយ ដែលអាចមើលរំលងលក្ខណៈលម្អិតៗនៃស្រទាប់ដំបូងៗនៃបណ្តាញ។ | ទទួលបានពិន្ទុភាពច្របូកច្របល់ (Average Entropy) ទាបបំផុតត្រឹម ០.១១៩ (សម្រាប់ម៉ូដែលដើម) បង្ហាញពីការពន្យល់ដ៏មានប្រសិទ្ធភាព។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងកម្មវិធីជាក់លាក់សម្រាប់ដំណើរការទិន្នន័យរូបភាពវេជ្ជសាស្ត្រកម្រិតភាពច្បាស់ខ្ពស់ (FFDM) និងការប្រើប្រាស់បច្ចេកទេស XAI។
ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យ INBreast ដែលប្រមូលបានពីមន្ទីរពេទ្យក្នុងប្រទេសព័រទុយហ្កាល់ (អឺរ៉ុប)។ លក្ខណៈជីវសាស្ត្រ ទំហំ និងដង់ស៊ីតេសុដន់របស់ស្ត្រីខ្មែរ អាចមានលក្ខណៈខុសប្លែកពីស្ត្រីនៅអឺរ៉ុប ហើយឧបករណ៍ថតរូបភាពតាមមន្ទីរពេទ្យនៅកម្ពុជាមួយចំនួននៅមានកម្រិតនៅឡើយ។ ដូច្នេះដើម្បីយកមកប្រើប្រាស់នៅកម្ពុជា ម៉ូដែលនេះចាំបាច់ត្រូវមានការហ្វឹកហាត់បន្ថែម (Fine-tuning) ជាមួយនឹងទិន្នន័យអ្នកជំងឺក្នុងស្រុក។
បច្ចេកទេសកាត់បំបែករូបភាពវេជ្ជសាស្ត្រដែលអាចពន្យល់បាននេះ មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងប្រព័ន្ធសុខាភិបាលកម្ពុជា ជាពិសេសសម្រាប់ការពិនិត្យរកជំងឺមហារីកសុដន់ឱ្យបានទាន់ពេលវេលា។
ជារួម ការអភិវឌ្ឍប្រព័ន្ធ AI ដែលរឹងមាំ និងមានតម្លាភាពក្នុងការសម្រេចចិត្ត នឹងក្លាយជាកាតាលីករដ៏សំខាន់ក្នុងការលើកកម្ពស់គុណភាពនៃការធ្វើរោគវិនិច្ឆ័យជំងឺមហារីក និងដោះស្រាយបញ្ហាកង្វះខាតធនធានមនុស្សផ្នែកវេជ្ជសាស្ត្រនៅប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Double-dilated convolution | ជាបច្ចេកទេសគណនាគណិតវិទ្យាក្នុងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលប្រើប្រាស់កម្រិតពង្រីក (Dilation factors) ពីរផ្សេងគ្នាក្នុងពេលតែមួយ គឺកម្រិតញឹកនៅកណ្តាល និងកម្រិតរង្វើលនៅគែម ដើម្បីពង្រីកវិសាលភាពនៃការចាប់យកទិន្នន័យរូបភាព ដោយមិនបាត់បង់ភាពច្បាស់នៃចំណុចតូចៗក្នុងតំបន់គោលដៅ។ | ប្រៀបដូចជាការប្រើប្រាស់កែវពង្រីកពិសេសមួយដែលអាចផ្តោតមើលផ្ទៃទូលាយផង និងអាចរក្សាភាពច្បាស់លាស់នៃចំណុចកណ្តាលបានយ៉ាងល្អក្នុងពេលតែមួយ។ |
| Grad-CAM | ជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI) ដែលបង្កើតជារូបភាពបង្ហាញកម្តៅ (Heatmap) ដោយប្រើប្រាស់តម្លៃ Gradient ដើម្បីបញ្ជាក់ប្រាប់ថា តើកុំព្យូទ័របានផ្តោតទៅលើចំណុចភីកសែលណាមួយនៃរូបភាពពិតប្រាកដ ទើបឈានដល់ការសម្រេចចិត្តវាយតម្លៃរូបភាពនោះជាដុំសាច់។ | ដូចជាការគូសរំលេចពណ៌ (Highlight) លើពាក្យគន្លឹះក្នុងសៀវភៅ ដើម្បីប្រាប់គ្រូថាយើងរកឃើញចម្លើយនេះដោយសារការអានត្រង់ចំណុចណា។ |
| Pixel-level class imbalance | គឺជាបញ្ហាអតុល្យភាពទិន្នន័យនៅក្នុងការកាត់បំបែករូបភាពវេជ្ជសាស្ត្រ ដែលចំនួនភីកសែល (Pixels) នៃតំបន់ដែលយើងចង់រក (ឧទាហរណ៍៖ ដុំសាច់មហារីក) មានចំនួនតិចតួចមែនទែន បើប្រៀបធៀបទៅនឹងចំនួនភីកសែលនៃផ្ទៃខាងក្រោយរូបភាព (ជាលិកាសុដន់ធម្មតា) ដែលធ្វើឱ្យម៉ូដែល AI ងាយនឹងទស្សន៍ទាយលម្អៀងទៅរកផ្ទៃខាងក្រោយ។ | ដូចជាការស្វែងរកម្ជុលក្នុងបាតសមុទ្រ ដែលធ្វើឱ្យអ្នកស្វែងរកងាយនឹងសន្និដ្ឋានថាគ្មានម្ជុលសោះ ព្រោះសម្លឹងទៅមើលឃើញតែទឹកគ្រប់ទីកន្លែង។ |
| Tversky loss | ជាអនុគមន៍គណិតវិទ្យាមួយ (Loss function) ប្រើសម្រាប់វាយតម្លៃកំហុសរបស់ម៉ូដែលកុំព្យូទ័រពេលកំពុងហ្វឹកហាត់។ វាត្រូវបានរចនាឡើងយ៉ាងពិសេសដើម្បីដោះស្រាយបញ្ហាទិន្នន័យអតុល្យភាព ដោយអាចកំណត់ទម្ងន់ពិន័យខ្ពស់រាល់ពេលដែលម៉ូដែលទស្សន៍ទាយខកខានមិនបានរកឃើញដុំសាច់មហារីក (False Negatives)។ | ដូចជាច្បាប់ពិន័យសិស្ស ដោយផ្តល់ទណ្ឌកម្មធ្ងន់ធ្ងរជាងមុននៅពេលសិស្សធ្វើខុសលើលំហាត់សំខាន់ៗ ដើម្បីបង្ខំឱ្យសិស្សខិតខំយកចិត្តទុកដាក់លើលំហាត់ប្រភេទនោះជាពិសេស។ |
| Receptive field | គឺជាទំហំនៃតំបន់នៅលើរូបភាពដើម ដែលស្រទាប់នីមួយៗនៃបណ្ដាញសរសៃប្រសាទ (CNN) អាច "មើលឃើញ" ឬទាញយកព័ត៌មានបាន ដើម្បីយកមកធ្វើការវិភាគនៅដំណាក់កាលនោះ។ បើវាកាន់តែធំ ម៉ូដែលកាន់តែយល់ពីបរិបទជុំវិញនៃរូបភាព។ | ដូចជាទំហំនៃរន្ធបង្អួចដែលយើងសម្លឹងមើលចេញទៅក្រៅ បើបង្អួចកាន់តែធំ យើងអាចឃើញទេសភាពបានកាន់តែច្រើន និងយល់ពីស្ថានភាពទីធ្លាជុំវិញបានកាន់តែច្បាស់។ |
| Gridding phenomenon | ជាបញ្ហាបាត់បង់ព័ត៌មានដែលកើតឡើងនៅពេលប្រើបច្ចេកទេស Dilated Convolution ដែលបណ្តាលមកពីការរំលងភីកសែល (Zero padding) ធ្វើឱ្យកុំព្យូទ័រចាប់យកទិន្នន័យជារាងសំណាញ់កាត់ៗ (Checkerboard pattern) ជំនួសឱ្យការចាប់យកព័ត៌មានលម្អិតដែលនៅជាប់ៗគ្នា។ | ដូចជាការមើលរូបភាពតាមរយៈសំណាញ់មុង ដែលធ្វើឱ្យយើងបាត់បង់ការមើលឃើញនូវចំណុចតូចៗមួយចំនួនដែលត្រូវបាំងដោយខ្សែសំណាញ់នោះ។ |
| Occlusion Sensitivity | ជាវិធីសាស្ត្រពន្យល់ AI មួយទៀត ដែលវាធ្វើការបិទបាំង (Occlude) ផ្នែកខ្លះនៃរូបភាពជាបន្តបន្ទាប់ដោយប្រព័ន្ធស្វ័យប្រវត្តិ ដើម្បីសាកល្បងមើលថាតើការសម្រេចចិត្តរបស់ម៉ូដែលផ្លាស់ប្តូរឬអត់។ ប្រសិនបើពិន្ទុទស្សន៍ទាយធ្លាក់ចុះខ្លាំងពេលបាំងត្រង់ណា មានន័យថាផ្នែកនោះមានសារៈសំខាន់បំផុត។ | ដូចជាការយកដៃបាំងភ្នែកម្ខាងរបស់វេជ្ជបណ្ឌិតពេលកំពុងពិនិត្យរូបថតសួត បើគាត់លែងដឹងថាមានរោគសញ្ញា មានន័យថាចំណុចដែលត្រូវបាំងនោះហើយគឺជារោគសញ្ញាផ្ទាល់តែម្តង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖