Original Title: ENHANCED BREAST CANCER CLASSIFICATION USING GAN-DRIVEN STAIN NORMALIZATION AND GRAPH-BASED TRANSFORMER NETWORKS
Source: doi.org/10.21917/ijdsml.2025.0177
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពង្រឹងការធ្វើចំណាត់ថ្នាក់ជំងឺមហារីកសុដន់ ដោយប្រើប្រាស់ការធ្វើប្រក្រតីភាពស្នាមពណ៌ជំរុញដោយ GAN និងបណ្តាញ Transformer ផ្អែកលើក្រាហ្វ

ចំណងជើងដើម៖ ENHANCED BREAST CANCER CLASSIFICATION USING GAN-DRIVEN STAIN NORMALIZATION AND GRAPH-BASED TRANSFORMER NETWORKS

អ្នកនិពន្ធ៖ S. Shiny (Mepco Schlenk Engineering College, India), G. Vaishnavi, R. Kavya Lakshmi

ឆ្នាំបោះពុម្ព៖ 2025 (CTACT Journal on Data Science and Machine Learning)

វិស័យសិក្សា៖ Artificial Intelligence in Medicine

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការធ្វើចំណាត់ថ្នាក់ជំងឺមហារីកសុដន់តាមរយៈរូបភាពជាលិកា (Histopathology) ជួបប្រទះនឹងបញ្ហាភាពខុសគ្នានៃពណ៌ស្នាមពីមន្ទីរពិសោធន៍ផ្សេងៗគ្នា និងកង្វល់ផ្នែកឯកជនភាពនៅពេលចែករំលែកទិន្នន័យអ្នកជំងឺទៅកាន់មជ្ឈមណ្ឌលកណ្តាល។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខណ្ឌបច្ចេកវិទ្យាបញ្ញាសិប្បនិមិត្ត (AI) ថ្មីមួយដែលរួមបញ្ចូលការវិភាគក្រាហ្វ និងការការពារទិន្នន័យដើម្បីដោះស្រាយបញ្ហាទាំងនេះយ៉ាងមានប្រសិទ្ធភាព។

ការធ្វើប្រក្រតីភាពស្នាមពណ៌ដោយប្រើប្រាស់ GAN (GAN-driven Stain Normalization)
ការបែងចែក និងសាងសង់ក្រាហ្វជាលិកា (Tissue Graph Construction using SLIC)
ការទាញយកលក្ខណៈពិសេសតាមរយៈបណ្តាញ (Connectivity-Aware Graph Transformer)
ការហ្វឹកហាត់ម៉ូដែលរួមគ្នាដោយរក្សាឯកជនភាពតាមរយៈ (Federated Learning)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានស្នើឡើងទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៧,២២% និងពិន្ទុ F1-Score ៨៥,៩% លើសំណុំទិន្នន័យ CRC-VAL-HE-7K ដែលបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការវិភាគ។
វាដំណើរការបានល្អជាងម៉ូដែលសិក្សាជ្រៅ (Deep Learning) ផ្សេងទៀត ដូចជា ResNet50 ដែលមានភាពត្រឹមត្រូវត្រឹមតែ ៧៧,៧៨% និង Swin Transformer ដែលមាន ៨០,៩៥%។
ការអនុវត្ត Federated Learning អនុញ្ញាតឱ្យស្ថាប័នវេជ្ជសាស្ត្រអាចសហការអភិវឌ្ឍម៉ូដែលដោយមិនចាំបាច់បញ្ចេញទិន្នន័យរសើបរបស់អ្នកជំងឺឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
ResNet50 ម៉ូដែលរៀនស៊ីជម្រៅបែបប្រពៃណី (CNN)	ងាយស្រួលក្នុងការអនុវត្ត និងមានការប្រើប្រាស់ទូលំទូលាយសម្រាប់ការវិភាគរូបភាព។	មិនអាចចាប់យកទំនាក់ទំនងនៃរចនាសម្ព័ន្ធលំហ (spatial relationships) រវាងផ្នែកផ្សេងៗនៃជាលិកាបានល្អនោះទេ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៧៧,៧៨% និងពិន្ទុ F1-Score ៧៥,៦%។
Swin Transformer បណ្តាញ Vision Transformer ផ្អែកលើការយកចិត្តទុកដាក់	ដំណើរការល្អជាង CNN ក្នុងការចាប់យកព័ត៌មានលម្អិតនៃរូបភាពតាមរយៈរចនាសម្ព័ន្ធឋានានុក្រម (hierarchical structure)។	នៅតែមានកម្រិតក្នុងការវិភាគទំនាក់ទំនងនៃទម្រង់លំហរវាងជាលិកាស្មុគស្មាញ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨០,៩៥% និងពិន្ទុ F1-Score ៨៥,៨%។
Proposed Framework (GAN + CGT + FL) ក្របខណ្ឌរួមបញ្ចូល GAN, Graph Transformer និងក្បួនរៀនសូត្របែបសហព័ន្ធ	អាចដោះស្រាយបញ្ហាពណ៌ស្នាមខុសគ្នា ការពារឯកជនភាពទិន្នន័យ និងចាប់យកទំនាក់ទំនងរវាងជាលិកាបានយ៉ាងល្អឥតខ្ចោះ។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធ។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៨៧,២២% និងពិន្ទុ F1-Score ៨៥,៩%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តម៉ូដែលនេះទាមទារធនធានកុំព្យូទ័រខ្លាំង ជាពិសេសផ្នែកក្រាហ្វិក (GPU) ដោយសារតែទំហំទិន្នន័យរូបភាពធំ និងភាពស្មុគស្មាញនៃបណ្តាញក្រាហ្វ។

Hardware: ត្រូវការ GPU កម្រិតខ្ពស់ ដូចជា NVIDIA GeForce RTX 3090 ដែលមានទំហំអង្គចងចាំ 36 GB ដើម្បីដំណើរការ។
Software: ប្រើប្រាស់បណ្ណាល័យកូដ PyTorch សម្រាប់សាងសង់ម៉ូដែល និង Deep Graph Library (DGL) សម្រាប់ដំណើរការទិន្នន័យក្រាហ្វ។
Dataset: ទាមទារទំហំផ្ទុកទិន្នន័យធំ សម្រាប់សំណុំរូបភាពគុណភាពខ្ពស់ (High-resolution WSI) ដូចជា BRACS និង CRC-VAL-HE-7K។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យអន្តរជាតិ (BRACS, CRC-VAL-HE-7K) ដែលអាចមិនឆ្លុះបញ្ចាំងទាំងស្រុងពីលក្ខណៈជីវសាស្ត្រ ឬបច្ចេកទេសលាបពណ៌ស្នាម (staining) នៅមន្ទីរពេទ្យកម្ពុជាឡើយ។ សម្រាប់បរិបទកម្ពុជា ការធ្វើតេស្តបន្ថែមលើទិន្នន័យអ្នកជំងឺក្នុងស្រុកគឺជារឿងចាំបាច់ ដើម្បីធានាប្រសិទ្ធភាព និងកាត់បន្ថយភាពលម្អៀងនៃម៉ូដែល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធវិភាគជំងឺមហារីកនៅកម្ពុជា ជាពិសេសតាមរយៈការតភ្ជាប់មន្ទីរពេទ្យធំៗដោយសុវត្ថិភាព។

មន្ទីរពេទ្យថ្នាក់ជាតិ (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត និងមន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត): អាចប្រើប្រាស់បច្ចេកវិទ្យា Federated Learning ដើម្បីសហការហ្វឹកហាត់ម៉ូដែល AI រួមគ្នា ដោយមិនចាំបាច់បញ្ជូន ឬចែករំលែកទិន្នន័យរសើបរបស់អ្នកជំងឺចេញពីមន្ទីរពេទ្យរបស់ខ្លួនឡើយ។
មន្ទីរពិសោធន៍វេជ្ជសាស្ត្រតាមខេត្ត (Provincial Medical Labs): អាចប្រើប្រាស់មុខងារ GAN ក្នុងប្រព័ន្ធនេះដើម្បីធ្វើប្រក្រតីភាព (Normalize) ពណ៌នៃកញ្ចក់ជាលិកា ដែលជួយដោះស្រាយបញ្ហាគុណភាពរូបភាពមិនស្មើគ្នាដោយសារការខ្វះខាតឧបករណ៍ស្តង់ដារកម្រិតខ្ពស់។

ជារួម ក្របខណ្ឌនេះផ្តល់នូវដំណោះស្រាយប្រកបដោយភាពច្នៃប្រឌិត ដែលអាចជួយពង្រឹងការធ្វើរោគវិនិច្ឆ័យជំងឺមហារីកសុដន់នៅកម្ពុជា ដោយរក្សាបាននូវឯកជនភាពទិន្នន័យ និងដោះស្រាយបញ្ហាបច្ចេកទេសពណ៌ស្នាមខុសគ្នា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ Deep Learning ទាក់ទងនឹងវិស័យសុខាភិបាល: ចាប់ផ្តើមរៀនសាងសង់ម៉ូដែលចំណាត់ថ្នាក់រូបភាពធម្មតា (Image Classification) ដោយប្រើប្រាស់ PyTorch ដើម្បីយល់ពីរបៀបទាញយកលក្ខណៈពិសេសពីរូបភាពជាលិកាវេជ្ជសាស្ត្រ។
ស្វែងយល់ពីបច្ចេកវិទ្យា GAN សម្រាប់កែច្នៃរូបភាព: សិក្សាអំពី Generative Adversarial Networks (GANs) ជាពិសេសបច្ចេកទេស PatchGAN និង U-Net សម្រាប់ការធ្វើប្រក្រតីភាពពណ៌ស្នាម (Stain Normalization)។
អនុវត្តការវិភាគទិន្នន័យបែបក្រាហ្វ (Graph Neural Networks): រៀនបំប្លែងរូបភាពទៅជាក្រាហ្វតាមរយៈបច្ចេកទេស SLIC Segmentation និងប្រើប្រាស់កញ្ចប់កូដ Deep Graph Library (DGL) ដើម្បីចាប់យកទំនាក់ទំនងរវាងកោសិកាផ្សេងៗ។
ស្រាវជ្រាវអំពីក្បួនរៀនសូត្របែបសហព័ន្ធ (Federated Learning): សិក្សា និងសាកល្បងកសាងប្រព័ន្ធគំរូតូចមួយ (Prototype) ដើម្បីយល់ពីរបៀបដែលម៉ូដែលអាចហ្វឹកហាត់លើម៉ាស៊ីន Client ច្រើន ( Decentralized Setup) ដោយមិនផ្លាស់ប្តូរទិន្នន័យដើមទៅកាន់ Server កណ្តាលឡើយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Stain Normalization	ដំណើរការកែសម្រួលពណ៌នៃរូបភាពកោសិកាដែលបានលាបពណ៌ពីមន្ទីរពិសោធន៍ផ្សេងៗគ្នា ឱ្យមានស្តង់ដារពណ៌តែមួយ ដើម្បីលុបបំបាត់ភាពខុសគ្នានៃពណ៌ដែលធ្វើឱ្យម៉ូដែល AI ភាន់ច្រឡំក្នុងការវិភាគ។	ដូចជាការប្រើហ្វៀលទ័រ (Filter) លើរូបថតដើម្បីឱ្យរូបភាពដែលថតពីកាមេរ៉ាខុសៗគ្នា មើលទៅមានពណ៌ស្រដៀងគ្នាក្នុងអាល់ប៊ុមតែមួយ។
Federated Learning	បច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដែលអនុញ្ញាតឱ្យស្ថាប័នវេជ្ជសាស្ត្រច្រើនអាចចូលរួមបង្រៀនម៉ូដែលរួមគ្នា ដោយគ្រាន់តែបញ្ជូនលទ្ធផលនៃការរៀន (Model Updates) តែមិនតម្រូវឱ្យបញ្ជូន ឬចែករំលែកទិន្នន័យឯកជនរបស់អ្នកជំងឺចេញពីស្ថាប័នឡើយ។	ដូចជាសិស្សច្រើននាក់រៀនមេរៀនរៀងៗខ្លួននៅផ្ទះ ហើយយកតែចំណេះដឹងដែលខ្លួនយល់ទៅប្រាប់គ្រូ ដោយមិនចាំបាច់ឱ្យគ្រូមើលសៀវភៅកំណត់ហេតុផ្ទាល់ខ្លួនរបស់ពួកគេ។
Generative Adversarial Network (GAN)	ប្រព័ន្ធ AI ដែលមានបណ្តាញសរសៃប្រសាទពីរប្រកួតប្រជែងគ្នា (មួយជាអ្នកបង្កើតទិន្នន័យថ្មី មួយទៀតជាអ្នកចាប់កំហុស) ដែលក្នុងបរិបទនៃការសិក្សានេះ វាត្រូវបានប្រើដើម្បីបង្កើតរូបភាពជាលិកាវេជ្ជសាស្ត្រដែលមានពណ៌ស្តង់ដារ។	ដូចជាអ្នកហាត់លាយពណ៌គំនូរព្យាយាមលាយពណ៌ឱ្យដូចជាងគំនូរអាជីព ចំណែកជាងអាជីពជាអ្នកពិនិត្យ និងប្រាប់ពីកំហុស រហូតទាល់តែអ្នកហាត់អាចលាយពណ៌បានល្អឥតខ្ចោះ។
Connectivity-Aware Graph Transformer	បណ្តាញ AI ជំនាន់ថ្មីដែលអាចវិភាគមិនត្រឹមតែលក្ខណៈរបស់តំបន់កោសិកានីមួយៗប៉ុណ្ណោះទេ ថែមទាំងអាចចាប់យកព័ត៌មានពីទំនាក់ទំនង និងទីតាំងរបស់កោសិកាទាំងនោះក្នុងទម្រង់ជាក្រាហ្វ ដើម្បីសម្រេចការទស្សន៍ទាយជំងឺមហារីកបានកាន់តែច្បាស់។	ដូចជាអ្នកស៊ើបអង្កេតដែលមិនត្រឹមតែមើលប្រវត្តិរបស់ជនសង្ស័យម្នាក់ៗទេ តែថែមទាំងមើលថាតើពួកគេមានទំនាក់ទំនងគ្នា និងរស់នៅជិតគ្នាប៉ុណ្ណា ដើម្បីរកមុខសញ្ញាបណ្តាញឧក្រិដ្ឋជន។
Superpixel-based Tissue Segmentation	ការបំបែករូបភាពវេជ្ជសាស្ត្រដែលមានទំហំធំ ទៅជាបំណែកតូចៗ (Superpixels) ដែលមានពណ៌ និងសាច់កោសិកាស្រដៀងគ្នា ដើម្បីងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស ជាជាងការគណនាលើចំណុចភីកសែល (pixels) នីមួយៗរាប់លាន។	ដូចជាការកាត់ផែនទីប្រទេសមួយជាបំណែកៗតាមព្រំប្រទល់ខេត្តនីមួយៗ ដើម្បីងាយស្រួលក្នុងការសិក្សាពីខេត្តនីមួយៗ ជាជាងការសិក្សាពីដីមួយម៉ែត្រការ៉េម្តងៗ។
Whole-Slide Images (WSIs)	រូបភាពឌីជីថលដែលមានទំហំធំ និងគុណភាពច្បាស់ខ្លាំង (High-resolution) ដែលបានមកពីការស្កេនកញ្ចក់ស្លាយជាលិកាវេជ្ជសាស្ត្រទាំងមូល ដើម្បីឱ្យគ្រូពេទ្យ ឬ AI អាចពង្រីកមើលកោសិកាតូចៗបានលម្អិត។	ដូចជារូបថតផ្កាយរណបនៃទីក្រុងមួយទាំងមូល ដែលអ្នកអាចពង្រីកមើលផ្ទះនីមួយៗ និងដំបូលផ្ទះបានយ៉ាងច្បាស់។
Region Adjacency Graph (RAG)	ការតំណាងរូបភាពជាទម្រង់ក្រាហ្វ ដែលចំណុច (Nodes) នីមួយៗតំណាងឱ្យតំបន់នៃកោសិកា ហើយខ្សែភ្ជាប់ (Edges) រវាងចំណុចទាំងនោះបង្ហាញថាតំបន់ទាំងនោះស្ថិតនៅជាប់គ្នា ឬមានព្រំប្រទល់ទាក់ទងគ្នា។	ដូចជាការគូសផែនទីបណ្តាញផ្លូវរថភ្លើង ដែលស្ថានីយនីមួយៗគឺជាតំបន់ ហើយខ្សែរថភ្លើងគឺជាខ្សែភ្ជាប់ដែលតភ្ជាប់ស្ថានីយទាំងនោះចូលគ្នា។
Self-Attention	យន្តការគណនាក្នុងម៉ូដែល AI ដែលជួយឱ្យវាចេះវាយតម្លៃ និងផ្តោតការយកចិត្តទុកដាក់ខ្ពស់ទៅលើផ្នែកណាមួយនៃទិន្នន័យ (ឬកោសិកាណា) ដែលសំខាន់ជាងគេ និងមានឥទ្ធិពលខ្លាំងជាមួយផ្នែកផ្សេងទៀតក្នុងពេលវិភាគ។	ដូចជាពេលយើងអានសៀវភៅ យើងដឹងថាត្រូវផ្តោតលើពាក្យគន្លឹះណាខ្លះក្នុងប្រយោគ ដើម្បីយល់អត្ថន័យទាំងមូល ជាជាងការផ្តល់តម្លៃស្មើៗគ្នាដល់គ្រប់ពាក្យទាំងអស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖