Original Title: EfficientRMT-Net—An Efficient ResNet-50 and Vision Transformers Approach for Classifying Potato Plant Leaf Diseases
Source: doi.org/10.3390/s23239516
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

EfficientRMT-Net៖ វិធីសាស្ត្រប្រើប្រាស់ ResNet-50 និង Vision Transformers ប្រកបដោយប្រសិទ្ធភាពសម្រាប់ចំណាត់ថ្នាក់ជំងឺស្លឹកដំឡូងបារាំង

ចំណងជើងដើម៖ EfficientRMT-Net—An Efficient ResNet-50 and Vision Transformers Approach for Classifying Potato Plant Leaf Diseases

អ្នកនិពន្ធ៖ Kashif Shaheed (Gdansk University of Technology), Imran Qureshi (Imam Mohammad Ibn Saud Islamic University), Fakhar Abbas (National University of Singapore), Sohail Jabbar (Imam Mohammad Ibn Saud Islamic University), Qaisar Abbas (Imam Mohammad Ibn Saud Islamic University), Hafsa Ahmad (National University of Science and Technology, Pakistan), Muhammad Zaheer Sajid (National University of Science and Technology, Pakistan)

ឆ្នាំបោះពុម្ព៖ 2023 (Sensors)

វិស័យសិក្សា៖ Computer Vision in Agriculture

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺស្លឹកដំឡូងបារាំង ជាពិសេសជំងឺរលួយស្លឹក (Early and Late Blight) បណ្តាលឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់បរិមាណនិងគុណភាពនៃផលិតផលកសិកម្ម ខណៈដែលវិធីសាស្ត្រពិនិត្យដោយដៃបែបប្រពៃណីមានភាពយឺតយ៉ាវ ប្រើប្រាស់កម្លាំងពលកម្មច្រើន និងងាយមានកំហុស។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអភិវឌ្ឍម៉ូដែលស្វ័យប្រវត្តិថ្មីឈ្មោះថា EfficientRMT-Net ដោយធ្វើសមាហរណកម្មរវាងបច្ចេកវិទ្យា Vision Transformer (ViT) និង ResNet-50 ដើម្បីធ្វើរោគវិនិច្ឆ័យ និងចំណាត់ថ្នាក់ជំងឺស្លឹកដំឡូងបារាំង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
EfficientRMT-Net (Proposed Method)
គំរូកូនកាត់រវាង ResNet-50 និង Vision Transformer
មានសមត្ថភាពចាប់យកលក្ខណៈពិសេសទាំងលម្អិត (Local) និងសកល (Global) នៃស្លឹកដំណាំ ដោយប្រើប្រាស់យន្តការ Depth-wise Convolution ដើម្បីកាត់បន្ថយការគណនា។ រចនាសម្ព័ន្ធមានភាពស្មុគស្មាញជាងម៉ូដែល CNN ធម្មតា ដែលអាចតម្រូវឱ្យមានការយល់ដឹងស៊ីជម្រៅក្នុងការអនុវត្ត។ សម្រេចបានអត្រាភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុត ៩៩.១២% លើសំណុំទិន្នន័យស្លឹកដំឡូងបារាំង និងល្បឿនរាវរក ៥.៤៦ ms ក្នុងមួយរូបភាព។
ResNet-50
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតបែប Convolutional (CNN)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកលក្ខណៈពិសេសនៃរូបភាព និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយជាស្តង់ដារ។ មានកម្រិតក្នុងការចាប់យកទំនាក់ទំនងរយៈចម្ងាយឆ្ងាយ (Long-distance dependencies) នៅក្នុងរូបភាព បើធៀបនឹង Transformer។ ទទួលបានអត្រាភាពត្រឹមត្រូវប្រហែល ៩៣.២៩% (យោងតាមតារាងទី ៥ នៃការពិសោធន៍ Transfer Learning)។
Vision Transformer (ViT)
បច្ចេកវិទ្យា Transformer សម្រាប់រូបភាព
ពូកែក្នុងការស្វែងយល់ពីទំនាក់ទំនងសកល (Global context) នៅក្នុងរូបភាពទាំងមូល។ ត្រូវការទិន្នន័យបង្វឹកក្នុងបរិមាណច្រើនមហាសាល ហើយអាចមានប្រសិទ្ធភាពទាបជាង CNN នៅពេលមានទិន្នន័យតិច (Small datasets)។ ទទួលបានអត្រាភាពត្រឹមត្រូវប្រហែល ៨៤.១% (យោងតាមតារាងទី ៦ នៃការសិក្សារំលាយសមាសធាតុ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលបង្ហាញថាវាអាចអនុវត្តបានលើកុំព្យូទ័រយួរដៃដែលមានសមត្ថភាពសមរម្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកស្ទើរតែទាំងស្រុងលើសំណុំទិន្នន័យ PlantVillage ដែលជារូបភាពថតក្នុងលក្ខខណ្ឌមន្ទីរពិសោធន៍ (មានពន្លឺល្អ និងផ្ទៃខាងក្រោយសាមញ្ញ)។ នេះជាចំណុចខ្វះខាតមួយសម្រាប់កម្ពុជា ព្រោះរូបភាពជាក់ស្តែងនៅតាមចំការក្នុងខេត្តមណ្ឌលគិរី ឬតំបន់ផ្សេងទៀត អាចមានពន្លឺថ្ងៃខ្លាំង ស្រមោល ឬផ្ទៃខាងក្រោយស្មុគស្មាញ ដែលអាចធ្វើឱ្យម៉ូដែលថយចុះប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់វិស័យកសិកម្មនៅកម្ពុជា ជាពិសេសសម្រាប់ការការពារដំណាំដែលមានតម្លៃសេដ្ឋកិច្ចខ្ពស់។

ទោះបីជាម៉ូដែលនេះមានភាពត្រឹមត្រូវខ្ពស់ក៏ដោយ វាត្រូវការការធ្វើតេស្តបន្ថែមជាមួយរូបភាពជាក់ស្តែងនៅតាមចំការក្នុងស្រុក ដើម្បីធានាថាវាអាចដំណើរការបានល្អក្នុងលក្ខខណ្ឌអាកាសធាតុនិងពន្លឺនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល: និស្សិតគួរចាប់ផ្តើមសិក្សាអំពីទ្រឹស្តីនៃ CNN (ដូចជា ResNet) និង Vision Transformers (ViT) ដោយប្រើប្រាស់ឯកសារបង្រៀនលើ TensorFlow ឬ PyTorch ។
  2. ជំហានទី ២៖ ការរៀបចំទិន្នន័យ: ទាញយកសំណុំទិន្នន័យ PlantVillage និងអនុវត្តបច្ចេកទេស Data Augmentation (ដូចជាការបង្វិលរូបភាព, ការកែពន្លឺ) ដោយប្រើបណ្ណាល័យ Keras Preprocessing ដើម្បីបង្កើតទិន្នន័យឱ្យកាន់តែសម្បូរបែប។
  3. ជំហានទី ៣៖ ការអភិវឌ្ឍ និងបង្វឹកម៉ូដែល: សរសេរកូដដើម្បីបង្កើតរចនាសម្ព័ន្ធ EfficientRMT-Net ដោយដាក់បញ្ចូល Depth-wise Convolution នៅដំណាក់កាលចុងក្រោយនៃបណ្តាញ និងធ្វើការបង្វឹក (Training) លើកុំព្យូទ័រដែលមាន GPU (ឧទាហរណ៍ប្រើ Google Colab បើគ្មាន Hardware ផ្ទាល់ខ្លួន)។
  4. ជំហានទី ៤៖ ការធ្វើតេស្តក្នុងលក្ខខណ្ឌជាក់ស្តែង: ចុះទៅចំការជាក់ស្តែង (ឧទាហរណ៍ចំការប៉េងប៉ោះ ឬដំឡូង) ថតរូបស្លឹកដែលមានជំងឺ និងគ្មានជំងឺ ដើម្បីយកមកធ្វើតេស្តជាមួយម៉ូដែលដែលបានបង្វឹក។ នេះជាជំហានសំខាន់ដើម្បីផ្ទៀងផ្ទាត់ប្រសិទ្ធភាពរបស់វានៅក្រៅមន្ទីរពិសោធន៍។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformer (ViT) ជាបច្ចេកវិទ្យាថ្មីដែលបំបែករូបភាពជាផ្នែកតូចៗ (Patches) ហើយវិភាគទំនាក់ទំនងរវាងផ្នែកនីមួយៗក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យនៃរូបភាពទាំងមូល ដោយមិនពឹងផ្អែកតែលើការស្កេនចំណុចតូចៗជាប់គ្នាដូចបច្ចេកវិទ្យាចាស់ (CNN) ទេ។ ដូចជាការអានសៀវភៅដោយមើលមួយទំព័រពេញហើយយល់ន័យសរុបភ្លាមៗ ជំនួសឱ្យការអានមួយពាក្យម្តងៗតាមលំដាប់។
ResNet-50 ជាប្រភេទបណ្តាញសរសៃប្រសាទដែលមានជម្រៅជ្រៅ (Deep Neural Network) ៥០ ស្រទាប់ ដែលប្រើប្រាស់បច្ចេកទេស 'Skip Connections' ដើម្បីអនុញ្ញាតឱ្យទិន្នន័យអាចហោះរំលងស្រទាប់ខ្លះបាន ជៀសវាងការបាត់បង់ព័ត៌មានសំខាន់ៗនៅពេលបង្វឹកម៉ូដែលធំៗ។ ប្រៀបដូចជាការមានផ្លូវល្បឿនលឿន (Expressway) សម្រាប់ឱ្យរថយន្តខ្លះបើកវាងការកកស្ទះនៅតាមផ្លូវតូចៗ ដើម្បីទៅដល់គោលដៅបានលឿន និងរក្សាព័ត៌មានបានល្អ។
Depth-wise Convolution (DWC) ជាបច្ចេកទេសចម្រោះរូបភាពដែលអនុវត្តលើពណ៌នីមួយៗដាច់ដោយឡែកពីគ្នា (per channel) ដើម្បីកាត់បន្ថយចំនួននៃការគណនាយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ធ្វើឱ្យម៉ូដែលដំណើរការលឿនជាងមុនតែនៅរក្សាគុណភាពដដែល។ ដូចជាការឱ្យចុងភៅ ៣ នាក់ ធ្វើម្ហូប ៣ មុខផ្សេងគ្នាដាច់ដោយឡែក ជំនួសឱ្យចុងភៅម្នាក់ត្រូវរត់ធ្វើម្ហូបទាំង ៣ មុខក្នុងពេលតែមួយដែលចំណាយពេលយូរ។
Transfer Learning (TL) ជាវិធីសាស្ត្រយកចំណេះដឹងពីម៉ូដែលដែលបានរៀនរួចរាល់លើទិន្នន័យធំៗ (ដូចជា ImageNet) មកអនុវត្តបន្តលើបញ្ហាថ្មី (ដូចជាជំងឺស្លឹកដំឡូង) ដើម្បីចំណេញពេលវេលា និងទទួលបានលទ្ធផលល្អទោះបីមានទិន្នន័យតិចក៏ដោយ។ ដូចជាមនុស្សដែលចេះជិះកង់រួចហើយ ងាយនឹងរៀនជិះម៉ូតូជាងមនុស្សដែលមិនធ្លាប់ចេះជិះអ្វីសោះ ព្រោះគេមានមូលដ្ឋាននៃការរក្សាលំនឹងស្រាប់។
Multi-head Self-Attention ជាយន្តការស្នូលរបស់ Transformer ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រផ្តោតអារម្មណ៍ទៅលើចំណុចសំខាន់ៗជាច្រើននៅក្នុងរូបភាពក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងរវាងផ្នែកផ្សេងៗនៃស្លឹកឈើ (ឧទាហរណ៍៖ ទំនាក់ទំនងរវាងពណ៌ និងស្នាមអុច)។ ដូចជាការមានភ្នែកច្រើនគូ ដែលភ្នែកមួយគូសម្លឹងមើលពណ៌ស្លឹក មួយគូទៀតមើលស្នាមអុច និងមួយគូទៀតមើលរូបរាងស្លឹក ក្នុងពេលតែមួយដើម្បីវិភាគ។
Data Augmentation ជាការបង្កើតរូបភាពថ្មីៗបន្ថែមពីលើរូបភាពដែលមានស្រាប់ ដោយការបង្វិល (Rotation) ប្តូរពណ៌ ឬពង្រីក (Zoom) ដើម្បីឱ្យកុំព្យូទ័រមានទិន្នន័យរៀនកាន់តែច្រើន និងមិនងាយមានកំហុសនៅពេលជួបរូបភាពប្លែកៗ។ ដូចជាការរៀនមើលអក្សរ ដោយមើលពីជ្រុងផ្សេងៗគ្នា មើលពេលងងឹត និងមើលពេលភ្លឺ ដើម្បីឱ្យប្រាកដថាចេះអក្សរនោះច្បាស់ ទោះស្ថិតក្នុងស្ថានភាពណាក៏ដោយ។
Global Average Pooling ជាបច្ចេកទេសមួយនៅចុងបញ្ចប់នៃបណ្តាញសរសៃប្រសាទ ដែលសង្ខេបព័ត៌មានទាំងអស់ពីផែនទីលក្ខណៈ (Feature Maps) មកជាតម្លៃមធ្យមតែមួយ ដើម្បីកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រមុននឹងធ្វើការសន្និដ្ឋានចុងក្រោយ។ ដូចជាការយកពិន្ទុពីការប្រឡងគ្រប់មុខវិជ្ជាមករកមធ្យមភាគ ដើម្បីវាយតម្លៃសិស្សម្នាក់ថាជាប់ ឬធ្លាក់ ដោយមិនចាំបាច់មើលគ្រប់ចម្លើយលម្អិតទាំងអស់ម្តងទៀត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖