Original Title: An Explainable AI System for Medical Image Segmentation With Preserved Local Resolution: Mammogram Tumor Segmentation
Source: doi.org/10.1109/ACCESS.2023.3330465
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធ AI ដែលអាចពន្យល់បានសម្រាប់ការកាត់បំបែករូបភាពវេជ្ជសាស្ត្រជាមួយនឹងការរក្សាគុណភាពបង្ហាញក្នុងតំបន់៖ ការកាត់បំបែកដុំសាច់មហារីកសុដន់

ចំណងជើងដើម៖ An Explainable AI System for Medical Image Segmentation With Preserved Local Resolution: Mammogram Tumor Segmentation

អ្នកនិពន្ធ៖ AYA FARRAG, Lakehead University, GAD GAD, Western University, ZUBAIR MD. FADLULLAH, Western University, MOSTAFA M. FOUDA, Idaho State University, MAAZEN ALSABAAN, King Saud University

ឆ្នាំបោះពុម្ព៖ 2023 IEEE Access

វិស័យសិក្សា៖ Artificial Intelligence in Medicine

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាការបាត់បង់គុណភាពបង្ហាញរូបភាព (Resolution loss) នៅក្នុងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNNs) បញ្ហាអតុល្យភាពនៃថ្នាក់ទិន្នន័យកម្រិតភីកសែល (Pixel-level class imbalance) និងកង្វះភាពអាចពន្យល់បាន (Explainability) នៅក្នុងប្រព័ន្ធកាត់បំបែករូបភាពវេជ្ជសាស្ត្រ ជាពិសេសសម្រាប់ការកាត់បំបែកដុំសាច់មហារីកសុដន់ (Mammogram Tumor Segmentation)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតវិធីសាស្ត្រថ្មីមួយដោយកែច្នៃរចនាសម្ព័ន្ធបណ្ដាញសរសៃប្រសាទ ស្វែងរកអនុគមន៍បាត់បង់ដែលស័ក្តិសមបំផុត និងរួមបញ្ចូលបច្ចេកទេសបកស្រាយ AI លើសំណុំទិន្នន័យរូបភាពមហារីកសុដន់។

ការបង្កើតម៉ូឌុល Convolution ថ្មី (Double-dilated convolution module) ដើម្បីរក្សាគុណភាពបង្ហាញក្នុងតំបន់ និងដោះស្រាយបញ្ហាបាត់បង់ទិន្នន័យ (Gridding effect)។
ការប្រៀបធៀបអនុគមន៍បាត់បង់ចំនួន ៤ គឺ BCE, WCE, Dice និង Tversky Loss ក្នុងគោលបំណងដោះស្រាយភាពអតុល្យភាពនៃទិន្នន័យកម្រិតភីកសែល។
ការប្រើប្រាស់បច្ចេកទេសពន្យល់ AI (Explainable AI - XAI) ដូចជា Grad-CAM និង Occlusion Sensitivity ដើម្បីបង្ហាញពីមូលហេតុនៃការសម្រេចចិត្តរបស់ម៉ូដែល។
ការហ្វឹកហាត់ និងការវាយតម្លៃម៉ូដែល (5-Fold Cross-Validation) ដោយប្រើប្រាស់សំណុំទិន្នន័យរូបភាពមហារីកសុដន់ INBreast (INBreast dataset)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលថ្មីដែលប្រើប្រាស់ម៉ូឌុល Double-dilated convolution បានបង្កើនភាពត្រឹមត្រូវនៃការកាត់បំបែកដុំសាច់ ដោយទទួលបានពិន្ទុ Dice similarity ៨១% និងកាត់បន្ថយអត្រានៃការខកខានរកមិនឃើញ (Miss Detection Rate) មកត្រឹម ០.០៤ (ឬ ៤%)។
អនុគមន៍ Tversky Loss ត្រូវបានបង្ហាញថាជាជម្រើសដ៏ល្អបំផុតសម្រាប់ការហ្វឹកហាត់លើទិន្នន័យរូបភាពដែលលម្អៀងខ្លាំង ដោយផ្តល់នូវអត្រាវិជ្ជមានមិនពិត (False Positive Rate) ទាបជាងគេត្រឹម ០.២០។
បច្ចេកទេស Grad-CAM បានផ្តល់នូវការពន្យល់ដែលត្រឹមត្រូវ និងមានភាពស្មុគស្មាញទាបបំផុត (កម្រិតភាពច្របូកច្របល់ ឬ Entropy ទាបត្រឹម ០.១២) ដែលជួយឱ្យការវិភាគរបស់ប្រព័ន្ធ CAD កាន់តែមានតម្លាភាព និងគួរឱ្យទុកចិត្តសម្រាប់វេជ្ជបណ្ឌិត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline DeepLabv3+ (with Tversky Loss) ម៉ូដែល DeepLabv3+ ដើម (ហ្វឹកហាត់ជាមួយ Tversky Loss)	មានសមត្ថភាពល្អជាងទម្រង់ដើមក្នុងការកាត់បន្ថយការទស្សន៍ទាយខុស (False Positives) ដោយសារការប្រើ Tversky loss ដើម្បីដោះស្រាយភាពអតុល្យភាពទិន្នន័យ។	នៅមានអត្រាមើលរំលងដុំសាច់ (Miss Detection) ខ្ពស់គួរសម ដោយសារការបាត់បង់គុណភាពបង្ហាញរូបភាពក្នុងតំបន់តូចៗនៅពេលធ្វើ Dilated Convolution ធម្មតា។	អត្រាមើលរំលងដុំសាច់ (Miss Detection Rate) ០.០៨ និងភាពត្រឹមត្រូវកម្រិតភីកសែល (Dice Similarity) ០.៧៨។
Double-Dilated DeepLabv3+ (Proposed) ម៉ូដែល DeepLabv3+ ដែលកែច្នៃប្រើម៉ូឌុល Double-Dilated Convolution	អាចរក្សាគុណភាពបង្ហាញរូបភាពក្នុងតំបន់បានល្អ (Preserved Local Resolution) ដែលជួយចាប់យកលក្ខណៈលម្អិតនៃដុំសាច់តូចៗបានយ៉ាងច្បាស់លាស់។	ទាមទារធនធានកុំព្យូទ័រ និងអង្គចងចាំខ្ពស់ជាងមុន ដោយសារមានការគណនាស្មុគស្មាញលើមុខងារ Convolution ស្របគ្នាពីរ។	អត្រាមើលរំលងដុំសាច់ថយចុះមកត្រឹម ០.០៤ (ល្អជាងមុន២ដង) និងភាពត្រឹមត្រូវកម្រិតភីកសែល (Dice Similarity) កើនដល់ ០.៨១។
Grad-CAM (Gradient-weighted Class Activation Map) បច្ចេកទេសពន្យល់ AI ប្រភេទ Grad-CAM	ផ្តល់រូបភាពពន្យល់ (Heatmaps) ដែលផ្តោតចំគោលដៅបានល្អ មានភាពច្បាស់លាស់ និងមានកម្រិតភាពច្របូកច្របល់ទាបបំផុត បើធៀបនឹងវិធីសាស្ត្រដទៃ។	ពឹងផ្អែកខ្លាំងលើទិន្នន័យពីស្រទាប់ Convolution ចុងក្រោយ ដែលអាចមើលរំលងលក្ខណៈលម្អិតៗនៃស្រទាប់ដំបូងៗនៃបណ្តាញ។	ទទួលបានពិន្ទុភាពច្របូកច្របល់ (Average Entropy) ទាបបំផុតត្រឹម ០.១១៩ (សម្រាប់ម៉ូដែលដើម) បង្ហាញពីការពន្យល់ដ៏មានប្រសិទ្ធភាព។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងកម្មវិធីជាក់លាក់សម្រាប់ដំណើរការទិន្នន័យរូបភាពវេជ្ជសាស្ត្រកម្រិតភាពច្បាស់ខ្ពស់ (FFDM) និងការប្រើប្រាស់បច្ចេកទេស XAI។

Software: កម្មវិធី MATLAB R2022b ព្រមទាំងមុខងារភ្ជាប់ស្រាប់សម្រាប់ AI Explainability ដូចជា gradCAM(), occlusionSensitivity() និង ImageDatastore/PixelLabelDatastore។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ (High computational resources ជាមួយ GPU) សម្រាប់ការហ្វឹកហាត់ម៉ូឌុល Double-dilated convolution និងការដំណើរការសំណុំទិន្នន័យធំ។
Dataset: សំណុំទិន្នន័យសាធារណៈ INBreast ដែលមានរូបភាព Mammogram ប្រភេទ Full-field Digital (FFDM) ចំនួន ៤១០ សន្លឹក និងទិន្នន័យចំណារ (Annotations) កម្រិតភីកសែលដោយគ្រូពេទ្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យ INBreast ដែលប្រមូលបានពីមន្ទីរពេទ្យក្នុងប្រទេសព័រទុយហ្កាល់ (អឺរ៉ុប)។ លក្ខណៈជីវសាស្ត្រ ទំហំ និងដង់ស៊ីតេសុដន់របស់ស្ត្រីខ្មែរ អាចមានលក្ខណៈខុសប្លែកពីស្ត្រីនៅអឺរ៉ុប ហើយឧបករណ៍ថតរូបភាពតាមមន្ទីរពេទ្យនៅកម្ពុជាមួយចំនួននៅមានកម្រិតនៅឡើយ។ ដូច្នេះដើម្បីយកមកប្រើប្រាស់នៅកម្ពុជា ម៉ូដែលនេះចាំបាច់ត្រូវមានការហ្វឹកហាត់បន្ថែម (Fine-tuning) ជាមួយនឹងទិន្នន័យអ្នកជំងឺក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកាត់បំបែករូបភាពវេជ្ជសាស្ត្រដែលអាចពន្យល់បាននេះ មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងប្រព័ន្ធសុខាភិបាលកម្ពុជា ជាពិសេសសម្រាប់ការពិនិត្យរកជំងឺមហារីកសុដន់ឱ្យបានទាន់ពេលវេលា។

មន្ទីរពេទ្យថ្នាក់ជាតិ និងមជ្ឈមណ្ឌលមហារីក (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត): អាចប្រើប្រាស់ប្រព័ន្ធនេះជាឧបករណ៍ជំនួយ (CAD System) សម្រាប់ផ្តល់ជាមតិទីពីរ (Second opinion) ជូនគ្រូពេទ្យឯកទេសរ៉ាឌីយ៉ូឡូស៊ី ជួយកាត់បន្ថយពេលវេលាពិនិត្យ និងបង្កើនភាពច្បាស់លាស់។
មន្ទីរពេទ្យបង្អែកកម្រិតខេត្ត (ឧ. ខេត្តបាត់ដំបង កំពង់ចាម): ជួយសម្រួលដល់គ្រូពេទ្យទូទៅដែលមិនមានជំនាញឯកទេសរូបភាពវេជ្ជសាស្ត្រស៊ីជម្រៅ ឱ្យមានសមត្ថភាពកំណត់សម្គាល់ដុំសាច់សង្ស័យ មុននឹងសម្រេចចិត្តបញ្ជូនអ្នកជំងឺមកកាន់រាជធានីភ្នំពេញ។
ការកសាងទំនុកចិត្តជាមួយគ្រូពេទ្យកម្ពុជា (Clinical Trust): ការបញ្ចូលបច្ចេកទេសពន្យល់ AI (XAI ដូចជា Grad-CAM) ជួយឱ្យគ្រូពេទ្យយល់ដឹងពីមូលហេតុដែលកុំព្យូទ័រវាយតម្លៃតំបន់ណាមួយថាមានដុំសាច់ ដែលធ្វើឱ្យពួកគេងាយស្រួលទទួលយក និងជឿទុកចិត្តលើបច្ចេកវិទ្យាថ្មីនេះ។

ជារួម ការអភិវឌ្ឍប្រព័ន្ធ AI ដែលរឹងមាំ និងមានតម្លាភាពក្នុងការសម្រេចចិត្ត នឹងក្លាយជាកាតាលីករដ៏សំខាន់ក្នុងការលើកកម្ពស់គុណភាពនៃការធ្វើរោគវិនិច្ឆ័យជំងឺមហារីក និងដោះស្រាយបញ្ហាកង្វះខាតធនធានមនុស្សផ្នែកវេជ្ជសាស្ត្រនៅប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ Medical Image Segmentation: និស្សិតត្រូវចាប់ផ្តើមស្វែងយល់ពីរចនាសម្ព័ន្ធបណ្តាញ CNNs ដូចជា U-Net និង DeepLabv3+ ដោយប្រើប្រាស់ PyTorch ឬ TensorFlow ដើម្បីយល់ពីរបៀបចាប់យករូបភាពកម្រិតភីកសែល។
ជំហានទី២៖ អនុវត្តការប្រើប្រាស់ Loss Functions សម្រាប់ទិន្នន័យអតុល្យភាព: សរសេរកូដសាកល្បងអនុគមន៍ Tversky Loss និង Dice Loss ដើម្បីដោះស្រាយបញ្ហា Pixel-level class imbalance ដែលតែងតែជួបប្រទះញឹកញាប់ក្នុងការវិភាគរូបភាពវេជ្ជសាស្ត្រ (តំបន់ដុំសាច់មានទំហំតូចជាងផ្ទៃខាងក្រោយរាប់សិបដង)។
ជំហានទី៣៖ អភិវឌ្ឍកូដសម្រាប់ Double-Dilated Convolution: សិក្សាពីកូដ (Custom layer) ដើម្បីកែច្នៃស្រទាប់ Dilated Convolution ធម្មតា ទៅជា Double-Dilated ដើម្បីស្វែងយល់ពីអត្ថប្រយោជន៍ក្នុងការរក្សា Local Spatial Resolution ដូចដែលបានបង្ហាញនៅក្នុងឯកសារស្រាវជ្រាវនេះ។
ជំហានទី៤៖ រួមបញ្ចូលប្រព័ន្ធ Explainable AI (XAI): ប្រើប្រាស់បណ្ណាល័យ AI Explainability ដូចជា Captum (PyTorch) ឬប្រើមុខងារ gradCAM() នៅក្នុង MATLAB ដើម្បីបង្កើត Heatmaps ដែលបង្ហាញពណ៌លេចធ្លោត្រង់ទីតាំងដែលម៉ូដែលផ្តោតការវិភាគ។
ជំហានទី៥៖ ធ្វើការតេស្តលើទិន្នន័យជាក់ស្តែង និងសហការជាមួយមន្ទីរពេទ្យ: ទាញយកសំណុំទិន្នន័យសាធារណៈដូចជា INBreast ឬ CBIS-DDSM មកហ្វឹកហាត់ បន្ទាប់មកព្យាយាមសហការជាមួយមន្ទីរពេទ្យក្នុងស្រុកដើម្បីធ្វើតេស្តម៉ូដែលនេះជាមួយទិន្នន័យរូបភាព Mammogram របស់អ្នកជំងឺកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Double-dilated convolution	ជាបច្ចេកទេសគណនាគណិតវិទ្យាក្នុងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលប្រើប្រាស់កម្រិតពង្រីក (Dilation factors) ពីរផ្សេងគ្នាក្នុងពេលតែមួយ គឺកម្រិតញឹកនៅកណ្តាល និងកម្រិតរង្វើលនៅគែម ដើម្បីពង្រីកវិសាលភាពនៃការចាប់យកទិន្នន័យរូបភាព ដោយមិនបាត់បង់ភាពច្បាស់នៃចំណុចតូចៗក្នុងតំបន់គោលដៅ។	ប្រៀបដូចជាការប្រើប្រាស់កែវពង្រីកពិសេសមួយដែលអាចផ្តោតមើលផ្ទៃទូលាយផង និងអាចរក្សាភាពច្បាស់លាស់នៃចំណុចកណ្តាលបានយ៉ាងល្អក្នុងពេលតែមួយ។
Grad-CAM	ជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI) ដែលបង្កើតជារូបភាពបង្ហាញកម្តៅ (Heatmap) ដោយប្រើប្រាស់តម្លៃ Gradient ដើម្បីបញ្ជាក់ប្រាប់ថា តើកុំព្យូទ័របានផ្តោតទៅលើចំណុចភីកសែលណាមួយនៃរូបភាពពិតប្រាកដ ទើបឈានដល់ការសម្រេចចិត្តវាយតម្លៃរូបភាពនោះជាដុំសាច់។	ដូចជាការគូសរំលេចពណ៌ (Highlight) លើពាក្យគន្លឹះក្នុងសៀវភៅ ដើម្បីប្រាប់គ្រូថាយើងរកឃើញចម្លើយនេះដោយសារការអានត្រង់ចំណុចណា។
Pixel-level class imbalance	គឺជាបញ្ហាអតុល្យភាពទិន្នន័យនៅក្នុងការកាត់បំបែករូបភាពវេជ្ជសាស្ត្រ ដែលចំនួនភីកសែល (Pixels) នៃតំបន់ដែលយើងចង់រក (ឧទាហរណ៍៖ ដុំសាច់មហារីក) មានចំនួនតិចតួចមែនទែន បើប្រៀបធៀបទៅនឹងចំនួនភីកសែលនៃផ្ទៃខាងក្រោយរូបភាព (ជាលិកាសុដន់ធម្មតា) ដែលធ្វើឱ្យម៉ូដែល AI ងាយនឹងទស្សន៍ទាយលម្អៀងទៅរកផ្ទៃខាងក្រោយ។	ដូចជាការស្វែងរកម្ជុលក្នុងបាតសមុទ្រ ដែលធ្វើឱ្យអ្នកស្វែងរកងាយនឹងសន្និដ្ឋានថាគ្មានម្ជុលសោះ ព្រោះសម្លឹងទៅមើលឃើញតែទឹកគ្រប់ទីកន្លែង។
Tversky loss	ជាអនុគមន៍គណិតវិទ្យាមួយ (Loss function) ប្រើសម្រាប់វាយតម្លៃកំហុសរបស់ម៉ូដែលកុំព្យូទ័រពេលកំពុងហ្វឹកហាត់។ វាត្រូវបានរចនាឡើងយ៉ាងពិសេសដើម្បីដោះស្រាយបញ្ហាទិន្នន័យអតុល្យភាព ដោយអាចកំណត់ទម្ងន់ពិន័យខ្ពស់រាល់ពេលដែលម៉ូដែលទស្សន៍ទាយខកខានមិនបានរកឃើញដុំសាច់មហារីក (False Negatives)។	ដូចជាច្បាប់ពិន័យសិស្ស ដោយផ្តល់ទណ្ឌកម្មធ្ងន់ធ្ងរជាងមុននៅពេលសិស្សធ្វើខុសលើលំហាត់សំខាន់ៗ ដើម្បីបង្ខំឱ្យសិស្សខិតខំយកចិត្តទុកដាក់លើលំហាត់ប្រភេទនោះជាពិសេស។
Receptive field	គឺជាទំហំនៃតំបន់នៅលើរូបភាពដើម ដែលស្រទាប់នីមួយៗនៃបណ្ដាញសរសៃប្រសាទ (CNN) អាច "មើលឃើញ" ឬទាញយកព័ត៌មានបាន ដើម្បីយកមកធ្វើការវិភាគនៅដំណាក់កាលនោះ។ បើវាកាន់តែធំ ម៉ូដែលកាន់តែយល់ពីបរិបទជុំវិញនៃរូបភាព។	ដូចជាទំហំនៃរន្ធបង្អួចដែលយើងសម្លឹងមើលចេញទៅក្រៅ បើបង្អួចកាន់តែធំ យើងអាចឃើញទេសភាពបានកាន់តែច្រើន និងយល់ពីស្ថានភាពទីធ្លាជុំវិញបានកាន់តែច្បាស់។
Gridding phenomenon	ជាបញ្ហាបាត់បង់ព័ត៌មានដែលកើតឡើងនៅពេលប្រើបច្ចេកទេស Dilated Convolution ដែលបណ្តាលមកពីការរំលងភីកសែល (Zero padding) ធ្វើឱ្យកុំព្យូទ័រចាប់យកទិន្នន័យជារាងសំណាញ់កាត់ៗ (Checkerboard pattern) ជំនួសឱ្យការចាប់យកព័ត៌មានលម្អិតដែលនៅជាប់ៗគ្នា។	ដូចជាការមើលរូបភាពតាមរយៈសំណាញ់មុង ដែលធ្វើឱ្យយើងបាត់បង់ការមើលឃើញនូវចំណុចតូចៗមួយចំនួនដែលត្រូវបាំងដោយខ្សែសំណាញ់នោះ។
Occlusion Sensitivity	ជាវិធីសាស្ត្រពន្យល់ AI មួយទៀត ដែលវាធ្វើការបិទបាំង (Occlude) ផ្នែកខ្លះនៃរូបភាពជាបន្តបន្ទាប់ដោយប្រព័ន្ធស្វ័យប្រវត្តិ ដើម្បីសាកល្បងមើលថាតើការសម្រេចចិត្តរបស់ម៉ូដែលផ្លាស់ប្តូរឬអត់។ ប្រសិនបើពិន្ទុទស្សន៍ទាយធ្លាក់ចុះខ្លាំងពេលបាំងត្រង់ណា មានន័យថាផ្នែកនោះមានសារៈសំខាន់បំផុត។	ដូចជាការយកដៃបាំងភ្នែកម្ខាងរបស់វេជ្ជបណ្ឌិតពេលកំពុងពិនិត្យរូបថតសួត បើគាត់លែងដឹងថាមានរោគសញ្ញា មានន័យថាចំណុចដែលត្រូវបាំងនោះហើយគឺជារោគសញ្ញាផ្ទាល់តែម្តង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖