បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការធ្វើចំណាត់ថ្នាក់រូបភាពដែលមានវិសាលគមច្រើន (Hyperspectral Image Classification) ដែលជួបការលំបាកក្នុងការបង្កើតគំរូនៃទំនាក់ទំនងរវាងទិន្នន័យឆ្ងាយៗ និងរចនាសម្ព័ន្ធលម្អិត ជាពិសេសនៅពេលដែលមានទិន្នន័យសម្រាប់បង្រៀន (Labeled training data) តិចតួចត្រឹម ១%។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវបណ្តាញ SSGTN ដែលជាស្ថាបត្យកម្មមានពីរផ្នែក (Dual-branch architecture) រួមបញ្ចូលគ្នារវាងការបង្កើតគំរូក្រាហ្វផ្អែកលើ Superpixel និងការប្រើប្រាស់ Transformer សម្រាប់ការវែកញែកបរិបទសកល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| SSGTN (Proposed Method) បណ្តាញបម្លែងក្រាហ្វតាមលំហ-វិសាលគម (SSGTN) |
មានសមត្ថភាពខ្ពស់ក្នុងការធ្វើចំណាត់ថ្នាក់ទោះបីមានទិន្នន័យបង្រៀនតិចតួច (១%) និងអាចចាប់យកទំនាក់ទំនងទាំងតំបន់ (Local) និងសកល (Global) បានល្អ។ | មានចំនួនប៉ារ៉ាម៉ែត្រ (Parameters) ច្រើនជាងវិធីសាស្ត្រ GCN ធម្មតាបន្តិច ទោះបីជាចំនួនប្រតិបត្តិការ (FLOPs) ទាបក៏ដោយ។ | ទទួលបានភាពត្រឹមត្រូវសរុប (OA) ៩៧.១២% លើទិន្នន័យ Indian Pines ដោយប្រើសំណាកបង្រៀនត្រឹម ១%។ |
| HybridSN បណ្តាញ CNN កូនកាត់ (Hybrid Spectral-Spatial 3D-CNN) |
មានប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈពិសេសតាមលំហ និងវិសាលគមដោយប្រើ Convolution 3D និង 2D។ | ត្រូវការកម្លាំងគណនាខ្ពស់ (High FLOPs) និងមានកម្រិតក្នុងការចាប់យកទំនាក់ទំនងចម្ងាយឆ្ងាយ (Long-range dependencies)។ | ទទួលបាន OA ៩០.១៧% លើទិន្នន័យ Indian Pines។ |
| MorphFormer បណ្តាញ Transformer ផ្អែកលើ Morphological |
ល្អក្នុងការចាប់យកបរិបទសកល និងប្រើប្រាស់ប្រតិបត្តិការ Morphological ដើម្បីកែលម្អរចនាសម្ព័ន្ធ។ | អាចជួបបញ្ហាក្នុងការរក្សាលម្អិតនៃរចនាសម្ព័ន្ធតូចៗ និងត្រូវការទិន្នន័យច្រើនដើម្បីបង្រៀនឱ្យមានប្រសិទ្ធភាព។ | ទទួលបាន OA ៩០.៦៤% លើទិន្នន័យ Indian Pines។ |
| CEGCN បណ្តាញ CNN គួបផ្សំជាមួយ GCN |
មានប្រសិទ្ធភាពជាង GCN ធម្មតាដោយសារការបន្ថែមលក្ខណៈពិសេសពី CNN ទៅក្នុងក្រាហ្វ Superpixel។ | នៅតែមានកម្រិតក្នុងការធ្វើសមាហរណកម្មទំនាក់ទំនងសកលបើធៀបនឹង Transformer។ | ទទួលបាន OA ៩៥.៨១% លើទិន្នន័យ Indian Pines។ |
| MambaHSI គំរូ State Space Models (Mamba) |
មានល្បឿនគណនាលឿន (Linear complexity) និងប្រើប្រាស់ធនធានតិចជាង Transformer។ | ងាយរងផលប៉ះពាល់ដោយសំឡេងរំខាន (Spectral noise) និងមិនសូវល្អក្នុងការចាប់យកទំនាក់ទំនងលំហដែលមិនទៀងទាត់។ | ទទួលបាន OA ៩០.៥៩% លើទិន្នន័យ Indian Pines។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការបង្រៀនគំរូ ប៉ុន្តែគំរូនេះត្រូវបានរចនាឡើងដើម្បីកាត់បន្ថយការចំណាយលើការគណនា (Low FLOPs) នៅពេលអនុវត្តជាក់ស្តែង។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារចំនួនបីមកពីសហរដ្ឋអាមេរិក (Indian Pines, Houston) និងប្រទេសចិន (LongKou)។ នេះអាចជាចំណុចលំអៀងមួយព្រោះលក្ខណៈនៃដំណាំ និងដីនៅប្រទេសកម្ពុជាអាចមានភាពខុសគ្នាផ្នែកវិសាលគម (Spectral signatures) ដោយសារអាកាសធាតុត្រូពិច និងប្រភេទដី។
វិធីសាស្ត្រនេះមានអត្ថប្រយោជន៍ខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ជាពិសេសដោយសារសមត្ថភាពរបស់វាក្នុងការផ្តល់លទ្ធផលល្អទោះបីជាមានទិន្នន័យដែលបានកំណត់ស្លាក (Labeled data) តិចតួចក៏ដោយ។
បច្ចេកវិទ្យានេះសក្តិសមសម្រាប់ការស្រាវជ្រាវ និងការអនុវត្តនៅកម្ពុជា ដែលជាញឹកញាប់ជួបបញ្ហាខ្វះខាតទិន្នន័យ Ground Truth សម្រាប់បង្រៀនប្រព័ន្ធ AI ក្នុងវិស័យ Remote Sensing។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hyperspectral Image (HSI) | ជារូបភាពដែលមានផ្ទុកព័ត៌មានពណ៌ (Spectral bands) រាប់រយជាន់គ្នា ដែលភ្នែកមនុស្សមើលមិនឃើញ។ វាអនុញ្ញាតឱ្យកុំព្យូទ័រអាចបែងចែកប្រភេទវត្ថុដែលមានពណ៌ស្រដៀងគ្នាខ្លាំង (ដូចជាស្លឹកឈើពិត និងស្លឹកឈើជ័រ) ដោយផ្អែកលើហត្ថលេខានៃពន្លឺ។ | ដូចជាកាមេរ៉ាវិសេសដែលអាចមើលឃើញពណ៌រាប់រយប្រភេទ មិនមែនត្រឹមតែ ក្រហម បៃតង និងខៀវ នោះទេ។ |
| Superpixel | គឺជាការប្រមូលផ្តុំចំណុចរូបភាព (Pixels) ដែលនៅជិតគ្នា និងមានលក្ខណៈស្រដៀងគ្នាឱ្យទៅជាតំបន់តែមួយ (Region)។ ការធ្វើបែបនេះជួយកាត់បន្ថយចំនួនទិន្នន័យដែលត្រូវគណនា និងរក្សារចនាសម្ព័ន្ធរូបរាងរបស់វត្ថុបានល្អជាងការគណនាម្តងមួយចំណុច។ | ដូចជាការបែងចែករូបភាពជាបំណែកតូចៗ (Mosaic tiles) ជំនួសឱ្យការពិនិត្យមើលចំណុចតូចៗរាប់លាន។ |
| Graph Convolutional Network (GCN) | ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលត្រូវបានរចនាឡើងដើម្បីធ្វើការលើទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាបណ្តាញ (Graph)។ នៅក្នុងអត្ថបទនេះ វាត្រូវបានប្រើដើម្បីវិភាគទំនាក់ទំនងរវាង Superpixels ដែលនៅជិតគ្នា។ | ដូចជាការវិភាគពីចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ ដោយផ្អែកលើទំនាក់ទំនងជាមួយមិត្តភក្តិរបស់ពួកគេក្នុងបណ្តាញសង្គម។ |
| Transformer | ជាគំរូ Deep Learning ដែលប្រើប្រាស់យន្តការ 'Attention' ដើម្បីចាប់យកទំនាក់ទំនងរវាងផ្នែកផ្សេងៗនៃទិន្នន័យ ទោះបីជាវាស្ថិតនៅឆ្ងាយពីគ្នាក៏ដោយ។ ក្នុង HSI វាជួយផ្សារភ្ជាប់ព័ត៌មានពីតំបន់ឆ្ងាយៗក្នុងរូបភាព។ | ដូចជាការអានសៀវភៅហើយចេះផ្សារភ្ជាប់ព្រឹត្តិការណ៍នៅទំព័រដើម ទៅនឹងព្រឹត្តិការណ៍នៅទំព័រចុងក្រោយ ដើម្បីយល់ន័យរួម។ |
| Spectral–Spatial Shift Module (SSSM) | ជាបច្ចេកទេសថ្មីដែលអ្នកស្រាវជ្រាវបង្កើតឡើង ដើម្បីលាយបញ្ចូលព័ត៌មានរវាងលំហ (Spatial) និងវិសាលគម (Spectral) ដោយគ្រាន់តែរុញទីតាំងទិន្នន័យបន្តិចបន្តួច។ វាជួយឱ្យម៉ូដែលរៀនបានល្អដោយមិនចំណាយធនធានគណនាច្រើន។ | ដូចជាការសាប់សន្លឹកបៀដើម្បីឱ្យវាលាយគ្នា ដោយមិនចាំបាច់ប្រើឧបករណ៍ស្មុគស្មាញ។ |
| Linear Discriminant Analysis (LDA) | ជាវិធីសាស្ត្រស្ថិតិសម្រាប់កាត់បន្ថយចំនួនវិមាត្រនៃទិន្នន័យ ដោយព្យាយាមស្វែងរកប្លង់ (Projection) ណាដែលធ្វើឱ្យក្រុមទិន្នន័យផ្សេងគ្នា (Classes) នៅដាច់ពីគ្នាឆ្ងាយបំផុតតាមដែលអាចធ្វើបាន។ | ដូចជាការថតរូបក្រុមមនុស្សពីរក្រុមពីមុំមួយ ដែលធ្វើឱ្យយើងឃើញពួកគេដាច់ពីគ្នាយ៉ាងច្បាស់ មិនឈរជាន់គ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖