Original Title: EfficientRMT-Net—An Efficient ResNet-50 and Vision Transformers Approach for Classifying Potato Plant Leaf Diseases
Source: doi.org/10.3390/s23239516
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

EfficientRMT-Net៖ វិធីសាស្ត្រប្រើប្រាស់ ResNet-50 និង Vision Transformers ប្រកបដោយប្រសិទ្ធភាពសម្រាប់ចំណាត់ថ្នាក់ជំងឺស្លឹកដំឡូងបារាំង

ចំណងជើងដើម៖ EfficientRMT-Net—An Efficient ResNet-50 and Vision Transformers Approach for Classifying Potato Plant Leaf Diseases

អ្នកនិពន្ធ៖ Kashif Shaheed (Gdansk University of Technology), Imran Qureshi (Imam Mohammad Ibn Saud Islamic University), Fakhar Abbas (National University of Singapore), Sohail Jabbar (Imam Mohammad Ibn Saud Islamic University), Qaisar Abbas (Imam Mohammad Ibn Saud Islamic University), Hafsa Ahmad (National University of Science and Technology, Pakistan), Muhammad Zaheer Sajid (National University of Science and Technology, Pakistan)

ឆ្នាំបោះពុម្ព៖ 2023 (Sensors)

វិស័យសិក្សា៖ Computer Vision in Agriculture

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺស្លឹកដំឡូងបារាំង ជាពិសេសជំងឺរលួយស្លឹក (Early and Late Blight) បណ្តាលឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់បរិមាណនិងគុណភាពនៃផលិតផលកសិកម្ម ខណៈដែលវិធីសាស្ត្រពិនិត្យដោយដៃបែបប្រពៃណីមានភាពយឺតយ៉ាវ ប្រើប្រាស់កម្លាំងពលកម្មច្រើន និងងាយមានកំហុស។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអភិវឌ្ឍម៉ូដែលស្វ័យប្រវត្តិថ្មីឈ្មោះថា EfficientRMT-Net ដោយធ្វើសមាហរណកម្មរវាងបច្ចេកវិទ្យា Vision Transformer (ViT) និង ResNet-50 ដើម្បីធ្វើរោគវិនិច្ឆ័យ និងចំណាត់ថ្នាក់ជំងឺស្លឹកដំឡូងបារាំង។

សំណុំទិន្នន័យ PlantVillage (PlantVillage Dataset)
រចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទកូនកាត់ (Hybrid CNN-Transformer Architecture)
ការកាត់បន្ថយការគណនាដោយប្រើ Depth-wise Convolution (DWC)
បច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល EfficientRMT-Net ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៩.១២% លើសំណុំទិន្នន័យស្លឹកដំឡូងបារាំង និង ៩៧.៦៥% លើទិន្នន័យរូបភាពទូទៅ។
ការប្រើប្រាស់រួមគ្នានៃ ResNet-50 និង ViT ជួយឱ្យម៉ូដែលនេះមានសមត្ថភាពចាប់យកលក្ខណៈពិសេសទាំងផ្នែកលម្អិត (Local Features) និងផ្នែករួម (Global Features) បានល្អប្រសើរជាងម៉ូដែលដាច់ដោយឡែក។
លទ្ធផលបង្ហាញថា ម៉ូដែលនេះមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកំណត់អត្តសញ្ញាណជំងឺ ទោះបីជាក្នុងករណីរូបភាពមានភាពមិនច្បាស់ ឬមានការបង្ខូចទ្រង់ទ្រាយ (Distorted Samples) ក៏ដោយ ដែលជួយកសិករក្នុងការការពារទិន្នផលបានទាន់ពេលវេលា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
EfficientRMT-Net (Proposed Method) គំរូកូនកាត់រវាង ResNet-50 និង Vision Transformer	មានសមត្ថភាពចាប់យកលក្ខណៈពិសេសទាំងលម្អិត (Local) និងសកល (Global) នៃស្លឹកដំណាំ ដោយប្រើប្រាស់យន្តការ Depth-wise Convolution ដើម្បីកាត់បន្ថយការគណនា។	រចនាសម្ព័ន្ធមានភាពស្មុគស្មាញជាងម៉ូដែល CNN ធម្មតា ដែលអាចតម្រូវឱ្យមានការយល់ដឹងស៊ីជម្រៅក្នុងការអនុវត្ត។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុត ៩៩.១២% លើសំណុំទិន្នន័យស្លឹកដំឡូងបារាំង និងល្បឿនរាវរក ៥.៤៦ ms ក្នុងមួយរូបភាព។
ResNet-50 បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតបែប Convolutional (CNN)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកលក្ខណៈពិសេសនៃរូបភាព និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយជាស្តង់ដារ។	មានកម្រិតក្នុងការចាប់យកទំនាក់ទំនងរយៈចម្ងាយឆ្ងាយ (Long-distance dependencies) នៅក្នុងរូបភាព បើធៀបនឹង Transformer។	ទទួលបានអត្រាភាពត្រឹមត្រូវប្រហែល ៩៣.២៩% (យោងតាមតារាងទី ៥ នៃការពិសោធន៍ Transfer Learning)។
Vision Transformer (ViT) បច្ចេកវិទ្យា Transformer សម្រាប់រូបភាព	ពូកែក្នុងការស្វែងយល់ពីទំនាក់ទំនងសកល (Global context) នៅក្នុងរូបភាពទាំងមូល។	ត្រូវការទិន្នន័យបង្វឹកក្នុងបរិមាណច្រើនមហាសាល ហើយអាចមានប្រសិទ្ធភាពទាបជាង CNN នៅពេលមានទិន្នន័យតិច (Small datasets)។	ទទួលបានអត្រាភាពត្រឹមត្រូវប្រហែល ៨៤.១% (យោងតាមតារាងទី ៦ នៃការសិក្សារំលាយសមាសធាតុ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលបង្ហាញថាវាអាចអនុវត្តបានលើកុំព្យូទ័រយួរដៃដែលមានសមត្ថភាពសមរម្យ។

Hardware: កុំព្យូទ័រយួរដៃ Lenovo, CPU Intel Core i7 (11th Gen), RAM 16GB (មិនបានបញ្ជាក់ពីតម្រូវការ GPU ធំដុំទេ)។
Software: ភាសា Python ដោយប្រើប្រាស់បណ្ណាល័យ TensorFlow និង Keras Framework។
Dataset: ប្រើប្រាស់ទិន្នន័យ PlantVillage (សាធារណៈ) ចំនួន ៥៤,៣០៦ រូបភាព និងធ្វើ Data Augmentation បន្ថែម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកស្ទើរតែទាំងស្រុងលើសំណុំទិន្នន័យ PlantVillage ដែលជារូបភាពថតក្នុងលក្ខខណ្ឌមន្ទីរពិសោធន៍ (មានពន្លឺល្អ និងផ្ទៃខាងក្រោយសាមញ្ញ)។ នេះជាចំណុចខ្វះខាតមួយសម្រាប់កម្ពុជា ព្រោះរូបភាពជាក់ស្តែងនៅតាមចំការក្នុងខេត្តមណ្ឌលគិរី ឬតំបន់ផ្សេងទៀត អាចមានពន្លឺថ្ងៃខ្លាំង ស្រមោល ឬផ្ទៃខាងក្រោយស្មុគស្មាញ ដែលអាចធ្វើឱ្យម៉ូដែលថយចុះប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់វិស័យកសិកម្មនៅកម្ពុជា ជាពិសេសសម្រាប់ការការពារដំណាំដែលមានតម្លៃសេដ្ឋកិច្ចខ្ពស់។

ខេត្តមណ្ឌលគិរី (ដំណាំដំឡូងបារាំង): ខេត្តនេះជាតំបន់សក្តានុពលសម្រាប់ដាំដំឡូងបារាំងនៅកម្ពុជា ការប្រើប្រាស់ AI ដើម្បីទប់ស្កាត់ជំងឺរលួយស្លឹក (Blight) អាចជួយកសិករកាត់បន្ថយការខាតបង់។
កសិករដាំបន្លែទូទៅ (គ្រួសារ Solanaceae): ក្រៅពីដំឡូងបារាំង ម៉ូដែលនេះក៏ត្រូវបានសាកល្បងលើប៉េងប៉ោះ និងម្ទេស (ដែលស្ថិតក្នុងអំបូរ Solanaceae ដូចគ្នា) ដែលជាដំណាំពេញនិយមនៅកម្ពុជា។
វិទ្យាស្ថានស្រាវជ្រាវ និងអភិវឌ្ឍន៍កសិកម្មកម្ពុជា (CARDI): អាចយកបច្ចេកវិទ្យានេះទៅអភិវឌ្ឍជាកម្មវិធីទូរស័ព្ទដៃ (Mobile App) ដើម្បីឱ្យមន្ត្រីកសិកម្មចុះជួយកសិករក្នុងការធ្វើរោគវិនិច្ឆ័យជំងឺ។

ទោះបីជាម៉ូដែលនេះមានភាពត្រឹមត្រូវខ្ពស់ក៏ដោយ វាត្រូវការការធ្វើតេស្តបន្ថែមជាមួយរូបភាពជាក់ស្តែងនៅតាមចំការក្នុងស្រុក ដើម្បីធានាថាវាអាចដំណើរការបានល្អក្នុងលក្ខខណ្ឌអាកាសធាតុនិងពន្លឺនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល: និស្សិតគួរចាប់ផ្តើមសិក្សាអំពីទ្រឹស្តីនៃ CNN (ដូចជា ResNet) និង Vision Transformers (ViT) ដោយប្រើប្រាស់ឯកសារបង្រៀនលើ TensorFlow ឬ PyTorch ។
ជំហានទី ២៖ ការរៀបចំទិន្នន័យ: ទាញយកសំណុំទិន្នន័យ PlantVillage និងអនុវត្តបច្ចេកទេស Data Augmentation (ដូចជាការបង្វិលរូបភាព, ការកែពន្លឺ) ដោយប្រើបណ្ណាល័យ Keras Preprocessing ដើម្បីបង្កើតទិន្នន័យឱ្យកាន់តែសម្បូរបែប។
ជំហានទី ៣៖ ការអភិវឌ្ឍ និងបង្វឹកម៉ូដែល: សរសេរកូដដើម្បីបង្កើតរចនាសម្ព័ន្ធ EfficientRMT-Net ដោយដាក់បញ្ចូល Depth-wise Convolution នៅដំណាក់កាលចុងក្រោយនៃបណ្តាញ និងធ្វើការបង្វឹក (Training) លើកុំព្យូទ័រដែលមាន GPU (ឧទាហរណ៍ប្រើ Google Colab បើគ្មាន Hardware ផ្ទាល់ខ្លួន)។
ជំហានទី ៤៖ ការធ្វើតេស្តក្នុងលក្ខខណ្ឌជាក់ស្តែង: ចុះទៅចំការជាក់ស្តែង (ឧទាហរណ៍ចំការប៉េងប៉ោះ ឬដំឡូង) ថតរូបស្លឹកដែលមានជំងឺ និងគ្មានជំងឺ ដើម្បីយកមកធ្វើតេស្តជាមួយម៉ូដែលដែលបានបង្វឹក។ នេះជាជំហានសំខាន់ដើម្បីផ្ទៀងផ្ទាត់ប្រសិទ្ធភាពរបស់វានៅក្រៅមន្ទីរពិសោធន៍។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformer (ViT)	ជាបច្ចេកវិទ្យាថ្មីដែលបំបែករូបភាពជាផ្នែកតូចៗ (Patches) ហើយវិភាគទំនាក់ទំនងរវាងផ្នែកនីមួយៗក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យនៃរូបភាពទាំងមូល ដោយមិនពឹងផ្អែកតែលើការស្កេនចំណុចតូចៗជាប់គ្នាដូចបច្ចេកវិទ្យាចាស់ (CNN) ទេ។	ដូចជាការអានសៀវភៅដោយមើលមួយទំព័រពេញហើយយល់ន័យសរុបភ្លាមៗ ជំនួសឱ្យការអានមួយពាក្យម្តងៗតាមលំដាប់។
ResNet-50	ជាប្រភេទបណ្តាញសរសៃប្រសាទដែលមានជម្រៅជ្រៅ (Deep Neural Network) ៥០ ស្រទាប់ ដែលប្រើប្រាស់បច្ចេកទេស 'Skip Connections' ដើម្បីអនុញ្ញាតឱ្យទិន្នន័យអាចហោះរំលងស្រទាប់ខ្លះបាន ជៀសវាងការបាត់បង់ព័ត៌មានសំខាន់ៗនៅពេលបង្វឹកម៉ូដែលធំៗ។	ប្រៀបដូចជាការមានផ្លូវល្បឿនលឿន (Expressway) សម្រាប់ឱ្យរថយន្តខ្លះបើកវាងការកកស្ទះនៅតាមផ្លូវតូចៗ ដើម្បីទៅដល់គោលដៅបានលឿន និងរក្សាព័ត៌មានបានល្អ។
Depth-wise Convolution (DWC)	ជាបច្ចេកទេសចម្រោះរូបភាពដែលអនុវត្តលើពណ៌នីមួយៗដាច់ដោយឡែកពីគ្នា (per channel) ដើម្បីកាត់បន្ថយចំនួននៃការគណនាយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ធ្វើឱ្យម៉ូដែលដំណើរការលឿនជាងមុនតែនៅរក្សាគុណភាពដដែល។	ដូចជាការឱ្យចុងភៅ ៣ នាក់ ធ្វើម្ហូប ៣ មុខផ្សេងគ្នាដាច់ដោយឡែក ជំនួសឱ្យចុងភៅម្នាក់ត្រូវរត់ធ្វើម្ហូបទាំង ៣ មុខក្នុងពេលតែមួយដែលចំណាយពេលយូរ។
Transfer Learning (TL)	ជាវិធីសាស្ត្រយកចំណេះដឹងពីម៉ូដែលដែលបានរៀនរួចរាល់លើទិន្នន័យធំៗ (ដូចជា ImageNet) មកអនុវត្តបន្តលើបញ្ហាថ្មី (ដូចជាជំងឺស្លឹកដំឡូង) ដើម្បីចំណេញពេលវេលា និងទទួលបានលទ្ធផលល្អទោះបីមានទិន្នន័យតិចក៏ដោយ។	ដូចជាមនុស្សដែលចេះជិះកង់រួចហើយ ងាយនឹងរៀនជិះម៉ូតូជាងមនុស្សដែលមិនធ្លាប់ចេះជិះអ្វីសោះ ព្រោះគេមានមូលដ្ឋាននៃការរក្សាលំនឹងស្រាប់។
Multi-head Self-Attention	ជាយន្តការស្នូលរបស់ Transformer ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រផ្តោតអារម្មណ៍ទៅលើចំណុចសំខាន់ៗជាច្រើននៅក្នុងរូបភាពក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងរវាងផ្នែកផ្សេងៗនៃស្លឹកឈើ (ឧទាហរណ៍៖ ទំនាក់ទំនងរវាងពណ៌ និងស្នាមអុច)។	ដូចជាការមានភ្នែកច្រើនគូ ដែលភ្នែកមួយគូសម្លឹងមើលពណ៌ស្លឹក មួយគូទៀតមើលស្នាមអុច និងមួយគូទៀតមើលរូបរាងស្លឹក ក្នុងពេលតែមួយដើម្បីវិភាគ។
Data Augmentation	ជាការបង្កើតរូបភាពថ្មីៗបន្ថែមពីលើរូបភាពដែលមានស្រាប់ ដោយការបង្វិល (Rotation) ប្តូរពណ៌ ឬពង្រីក (Zoom) ដើម្បីឱ្យកុំព្យូទ័រមានទិន្នន័យរៀនកាន់តែច្រើន និងមិនងាយមានកំហុសនៅពេលជួបរូបភាពប្លែកៗ។	ដូចជាការរៀនមើលអក្សរ ដោយមើលពីជ្រុងផ្សេងៗគ្នា មើលពេលងងឹត និងមើលពេលភ្លឺ ដើម្បីឱ្យប្រាកដថាចេះអក្សរនោះច្បាស់ ទោះស្ថិតក្នុងស្ថានភាពណាក៏ដោយ។
Global Average Pooling	ជាបច្ចេកទេសមួយនៅចុងបញ្ចប់នៃបណ្តាញសរសៃប្រសាទ ដែលសង្ខេបព័ត៌មានទាំងអស់ពីផែនទីលក្ខណៈ (Feature Maps) មកជាតម្លៃមធ្យមតែមួយ ដើម្បីកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រមុននឹងធ្វើការសន្និដ្ឋានចុងក្រោយ។	ដូចជាការយកពិន្ទុពីការប្រឡងគ្រប់មុខវិជ្ជាមករកមធ្យមភាគ ដើម្បីវាយតម្លៃសិស្សម្នាក់ថាជាប់ ឬធ្លាក់ ដោយមិនចាំបាច់មើលគ្រប់ចម្លើយលម្អិតទាំងអស់ម្តងទៀត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖