Original Title: SSGTN: Spectral–Spatial Graph Transformer Network for Hyperspectral Image Classification
Source: doi.org/10.3390/rs18020199
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

SSGTN: បណ្តាញបម្លែងក្រាហ្វតាមលំហ-វិសាលគម សម្រាប់ការធ្វើចំណាត់ថ្នាក់រូបភាពដែលមានវិសាលគមច្រើន

ចំណងជើងដើម៖ SSGTN: Spectral–Spatial Graph Transformer Network for Hyperspectral Image Classification

អ្នកនិពន្ធ៖ Haotian Shi (Guangzhou University), Zihang Luo (Guangzhou University), Yiyang Ma (Guangzhou University), Guanquan Zhu (Guangzhou University), Xin Dai (Guangzhou University)

ឆ្នាំបោះពុម្ព៖ 2026, Remote Sensing

វិស័យសិក្សា៖ Remote Sensing / Deep Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការធ្វើចំណាត់ថ្នាក់រូបភាពដែលមានវិសាលគមច្រើន (Hyperspectral Image Classification) ដែលជួបការលំបាកក្នុងការបង្កើតគំរូនៃទំនាក់ទំនងរវាងទិន្នន័យឆ្ងាយៗ និងរចនាសម្ព័ន្ធលម្អិត ជាពិសេសនៅពេលដែលមានទិន្នន័យសម្រាប់បង្រៀន (Labeled training data) តិចតួចត្រឹម ១%។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវបណ្តាញ SSGTN ដែលជាស្ថាបត្យកម្មមានពីរផ្នែក (Dual-branch architecture) រួមបញ្ចូលគ្នារវាងការបង្កើតគំរូក្រាហ្វផ្អែកលើ Superpixel និងការប្រើប្រាស់ Transformer សម្រាប់ការវែកញែកបរិបទសកល។

ការសាងសង់ក្រាហ្វ Superpixel ដោយប្រើ LDA-SLIC (LDA-SLIC Superpixel Graph Construction) ដើម្បីបង្កើតតំបន់ដែលមានលក្ខណៈដូចគ្នា។
ម៉ូឌុលកាត់បន្ថយសំឡេងរំខាននៃវិសាលគម (Spectral Denoising Module) ដើម្បីកម្ចាត់ទិន្នន័យដែលមិនចាំបាច់។
ម៉ូឌុលផ្លាស់ប្តូរលំហ-វិសាលគម (Spectral-Spatial Shift Module - SSSM) សម្រាប់ការលាយបញ្ចូលគ្នានៃលក្ខណៈពិសេសពហុកម្រិត។
ប្លុក GCN-Transformer ពីរផ្នែក (Dual-branch GCN-Transformer) ដែលធ្វើការគំរូទាំងរចនាសម្ព័ន្ធមូលដ្ឋាន និងទំនាក់ទំនងសកល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ជាមួយនឹងការប្រើប្រាស់គំរូទិន្នន័យបង្រៀនត្រឹមតែ ១% វិធីសាស្ត្រនេះទទួលបានលទ្ធផលល្អបំផុត (State-of-the-art) លើសំណុំទិន្នន័យស្តង់ដារចំនួនបីគឺ Indian Pines, WHU-Hi-LongKou និង Houston2018។
លទ្ធផលបង្ហាញថាការរួមបញ្ចូលគ្នានៃការបង្កើតគំរូរចនាសម្ព័ន្ធកម្រិតតំបន់ជាមួយនឹងការវែកញែកសកល មានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ។
បណ្តាញ SSGTN មានសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយផលប៉ះពាល់ពីសំឡេងរំខាន (Noise) និងភាពស្មុគស្មាញនៃវិមាត្រទិន្នន័យ ដោយរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់នៃការធ្វើចំណាត់ថ្នាក់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SSGTN (Proposed Method) បណ្តាញបម្លែងក្រាហ្វតាមលំហ-វិសាលគម (SSGTN)	មានសមត្ថភាពខ្ពស់ក្នុងការធ្វើចំណាត់ថ្នាក់ទោះបីមានទិន្នន័យបង្រៀនតិចតួច (១%) និងអាចចាប់យកទំនាក់ទំនងទាំងតំបន់ (Local) និងសកល (Global) បានល្អ។	មានចំនួនប៉ារ៉ាម៉ែត្រ (Parameters) ច្រើនជាងវិធីសាស្ត្រ GCN ធម្មតាបន្តិច ទោះបីជាចំនួនប្រតិបត្តិការ (FLOPs) ទាបក៏ដោយ។	ទទួលបានភាពត្រឹមត្រូវសរុប (OA) ៩៧.១២% លើទិន្នន័យ Indian Pines ដោយប្រើសំណាកបង្រៀនត្រឹម ១%។
HybridSN បណ្តាញ CNN កូនកាត់ (Hybrid Spectral-Spatial 3D-CNN)	មានប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈពិសេសតាមលំហ និងវិសាលគមដោយប្រើ Convolution 3D និង 2D។	ត្រូវការកម្លាំងគណនាខ្ពស់ (High FLOPs) និងមានកម្រិតក្នុងការចាប់យកទំនាក់ទំនងចម្ងាយឆ្ងាយ (Long-range dependencies)។	ទទួលបាន OA ៩០.១៧% លើទិន្នន័យ Indian Pines។
MorphFormer បណ្តាញ Transformer ផ្អែកលើ Morphological	ល្អក្នុងការចាប់យកបរិបទសកល និងប្រើប្រាស់ប្រតិបត្តិការ Morphological ដើម្បីកែលម្អរចនាសម្ព័ន្ធ។	អាចជួបបញ្ហាក្នុងការរក្សាលម្អិតនៃរចនាសម្ព័ន្ធតូចៗ និងត្រូវការទិន្នន័យច្រើនដើម្បីបង្រៀនឱ្យមានប្រសិទ្ធភាព។	ទទួលបាន OA ៩០.៦៤% លើទិន្នន័យ Indian Pines។
CEGCN បណ្តាញ CNN គួបផ្សំជាមួយ GCN	មានប្រសិទ្ធភាពជាង GCN ធម្មតាដោយសារការបន្ថែមលក្ខណៈពិសេសពី CNN ទៅក្នុងក្រាហ្វ Superpixel។	នៅតែមានកម្រិតក្នុងការធ្វើសមាហរណកម្មទំនាក់ទំនងសកលបើធៀបនឹង Transformer។	ទទួលបាន OA ៩៥.៨១% លើទិន្នន័យ Indian Pines។
MambaHSI គំរូ State Space Models (Mamba)	មានល្បឿនគណនាលឿន (Linear complexity) និងប្រើប្រាស់ធនធានតិចជាង Transformer។	ងាយរងផលប៉ះពាល់ដោយសំឡេងរំខាន (Spectral noise) និងមិនសូវល្អក្នុងការចាប់យកទំនាក់ទំនងលំហដែលមិនទៀងទាត់។	ទទួលបាន OA ៩០.៥៩% លើទិន្នន័យ Indian Pines។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការបង្រៀនគំរូ ប៉ុន្តែគំរូនេះត្រូវបានរចនាឡើងដើម្បីកាត់បន្ថយការចំណាយលើការគណនា (Low FLOPs) នៅពេលអនុវត្តជាក់ស្តែង។

Hardware: ការពិសោធន៍ត្រូវបានធ្វើឡើងដោយប្រើ NVIDIA GeForce RTX 4090 GPU និង Intel Xeon Silver 4310 CPU។
Software: ត្រូវការចេះប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ PyTorch សម្រាប់ការសរសេរកូដ។
Dataset: ត្រូវការទិន្នន័យរូបភាព Hyperspectral (ដូចជា Indian Pines, Houston2018) ដែលជាទូទៅមានទំហំធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារចំនួនបីមកពីសហរដ្ឋអាមេរិក (Indian Pines, Houston) និងប្រទេសចិន (LongKou)។ នេះអាចជាចំណុចលំអៀងមួយព្រោះលក្ខណៈនៃដំណាំ និងដីនៅប្រទេសកម្ពុជាអាចមានភាពខុសគ្នាផ្នែកវិសាលគម (Spectral signatures) ដោយសារអាកាសធាតុត្រូពិច និងប្រភេទដី។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានអត្ថប្រយោជន៍ខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ជាពិសេសដោយសារសមត្ថភាពរបស់វាក្នុងការផ្តល់លទ្ធផលល្អទោះបីជាមានទិន្នន័យដែលបានកំណត់ស្លាក (Labeled data) តិចតួចក៏ដោយ។

Precision Agriculture (ខេត្តបាត់ដំបង និងព្រៃវែង): អាចប្រើប្រាស់ដើម្បីបែងចែកប្រភេទដំណាំ (ស្រូវ ពោត ដំឡូង) និងតាមដានសុខភាពដំណាំដោយប្រើរូបភាពពី Drone ឬផ្កាយរណប ដោយមិនចាំបាច់ចុះវាស់វែងផ្ទាល់ច្រើនពេក។
Environmental Monitoring (បឹងទន្លេសាប): ការធ្វើចំណាត់ថ្នាក់ប្រភេទព្រៃលិចទឹក និងការតាមដានគុណភាពទឹក ដែលជាធម្មតាពិបាកទទួលបានទិន្នន័យវាស់វែងផ្ទាល់គ្រប់គ្រាន់សម្រាប់ការបង្រៀន AI។
Urban Planning (រាជធានីភ្នំពេញ): ការធ្វើផែនទីប្រើប្រាស់ដី (Land Use/Land Cover) ក្នុងទីក្រុងដែលមានការរីកចម្រើនលឿន ដោយប្រើរូបភាពដែលមានកម្រិតភាពច្បាស់ខ្ពស់។

បច្ចេកវិទ្យានេះសក្តិសមសម្រាប់ការស្រាវជ្រាវ និងការអនុវត្តនៅកម្ពុជា ដែលជាញឹកញាប់ជួបបញ្ហាខ្វះខាតទិន្នន័យ Ground Truth សម្រាប់បង្រៀនប្រព័ន្ធ AI ក្នុងវិស័យ Remote Sensing។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១: សិក្សាមូលដ្ឋានគ្រឹះនៃ HSI និង Graph Theory: និស្សិតគួរចាប់ផ្តើមពីការយល់ដឹងអំពី Hyperspectral Imaging (HSI) និងមូលដ្ឋានគ្រឹះនៃ Graph Convolutional Networks (GCNs)។ ប្រើប្រាស់ធនធានដូចជា Coursera ឬឯកសារពី IEEE GRSS។
ជំហានទី ២: ការអនុវត្ត Superpixel Segmentation: រៀនអនុវត្តកូដ Python សម្រាប់បច្ចេកទេស SLIC (Simple Linear Iterative Clustering) ដើម្បីបែងចែករូបភាពជាតំបន់តូចៗ។ អាចប្រើបណ្ណាល័យ Scikit-image សម្រាប់ SLIC។
ជំហានទី ៣: ការកសាងនិងបង្រៀនគំរូ SSGTN: ទាញយកកូដ ឬព្យាយាមសរសេរឡើងវិញនូវរចនាសម្ព័ន្ធ SSGTN ដោយប្រើ PyTorch។ ផ្តោតលើការយល់ដឹងអំពី Dual-branch architecture និង Spectral-Spatial Shift Module (SSSM)។
ជំហានទី ៤: ការពិសោធន៍ជាមួយទិន្នន័យកម្ពុជា: សាកល្បងអនុវត្តគំរូនេះជាមួយទិន្នន័យផ្កាយរណប Sentinel-2 (ដែលមាន bands ច្រើន) លើតំបន់កសិកម្មនៅកម្ពុជា ដោយកំណត់ចំនួន samples សម្រាប់បង្រៀនឱ្យតិចបំផុតដើម្បីតេស្តប្រសិទ្ធភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hyperspectral Image (HSI)	ជារូបភាពដែលមានផ្ទុកព័ត៌មានពណ៌ (Spectral bands) រាប់រយជាន់គ្នា ដែលភ្នែកមនុស្សមើលមិនឃើញ។ វាអនុញ្ញាតឱ្យកុំព្យូទ័រអាចបែងចែកប្រភេទវត្ថុដែលមានពណ៌ស្រដៀងគ្នាខ្លាំង (ដូចជាស្លឹកឈើពិត និងស្លឹកឈើជ័រ) ដោយផ្អែកលើហត្ថលេខានៃពន្លឺ។	ដូចជាកាមេរ៉ាវិសេសដែលអាចមើលឃើញពណ៌រាប់រយប្រភេទ មិនមែនត្រឹមតែ ក្រហម បៃតង និងខៀវ នោះទេ។
Superpixel	គឺជាការប្រមូលផ្តុំចំណុចរូបភាព (Pixels) ដែលនៅជិតគ្នា និងមានលក្ខណៈស្រដៀងគ្នាឱ្យទៅជាតំបន់តែមួយ (Region)។ ការធ្វើបែបនេះជួយកាត់បន្ថយចំនួនទិន្នន័យដែលត្រូវគណនា និងរក្សារចនាសម្ព័ន្ធរូបរាងរបស់វត្ថុបានល្អជាងការគណនាម្តងមួយចំណុច។	ដូចជាការបែងចែករូបភាពជាបំណែកតូចៗ (Mosaic tiles) ជំនួសឱ្យការពិនិត្យមើលចំណុចតូចៗរាប់លាន។
Graph Convolutional Network (GCN)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលត្រូវបានរចនាឡើងដើម្បីធ្វើការលើទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាបណ្តាញ (Graph)។ នៅក្នុងអត្ថបទនេះ វាត្រូវបានប្រើដើម្បីវិភាគទំនាក់ទំនងរវាង Superpixels ដែលនៅជិតគ្នា។	ដូចជាការវិភាគពីចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ ដោយផ្អែកលើទំនាក់ទំនងជាមួយមិត្តភក្តិរបស់ពួកគេក្នុងបណ្តាញសង្គម។
Transformer	ជាគំរូ Deep Learning ដែលប្រើប្រាស់យន្តការ 'Attention' ដើម្បីចាប់យកទំនាក់ទំនងរវាងផ្នែកផ្សេងៗនៃទិន្នន័យ ទោះបីជាវាស្ថិតនៅឆ្ងាយពីគ្នាក៏ដោយ។ ក្នុង HSI វាជួយផ្សារភ្ជាប់ព័ត៌មានពីតំបន់ឆ្ងាយៗក្នុងរូបភាព។	ដូចជាការអានសៀវភៅហើយចេះផ្សារភ្ជាប់ព្រឹត្តិការណ៍នៅទំព័រដើម ទៅនឹងព្រឹត្តិការណ៍នៅទំព័រចុងក្រោយ ដើម្បីយល់ន័យរួម។
Spectral–Spatial Shift Module (SSSM)	ជាបច្ចេកទេសថ្មីដែលអ្នកស្រាវជ្រាវបង្កើតឡើង ដើម្បីលាយបញ្ចូលព័ត៌មានរវាងលំហ (Spatial) និងវិសាលគម (Spectral) ដោយគ្រាន់តែរុញទីតាំងទិន្នន័យបន្តិចបន្តួច។ វាជួយឱ្យម៉ូដែលរៀនបានល្អដោយមិនចំណាយធនធានគណនាច្រើន។	ដូចជាការសាប់សន្លឹកបៀដើម្បីឱ្យវាលាយគ្នា ដោយមិនចាំបាច់ប្រើឧបករណ៍ស្មុគស្មាញ។
Linear Discriminant Analysis (LDA)	ជាវិធីសាស្ត្រស្ថិតិសម្រាប់កាត់បន្ថយចំនួនវិមាត្រនៃទិន្នន័យ ដោយព្យាយាមស្វែងរកប្លង់ (Projection) ណាដែលធ្វើឱ្យក្រុមទិន្នន័យផ្សេងគ្នា (Classes) នៅដាច់ពីគ្នាឆ្ងាយបំផុតតាមដែលអាចធ្វើបាន។	ដូចជាការថតរូបក្រុមមនុស្សពីរក្រុមពីមុំមួយ ដែលធ្វើឱ្យយើងឃើញពួកគេដាច់ពីគ្នាយ៉ាងច្បាស់ មិនឈរជាន់គ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖