បញ្ហា (The Problem)៖ ជំងឺស្លឹកដំឡូងបារាំង ជាពិសេសជំងឺរលួយស្លឹក (Early and Late Blight) បណ្តាលឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់បរិមាណនិងគុណភាពនៃផលិតផលកសិកម្ម ខណៈដែលវិធីសាស្ត្រពិនិត្យដោយដៃបែបប្រពៃណីមានភាពយឺតយ៉ាវ ប្រើប្រាស់កម្លាំងពលកម្មច្រើន និងងាយមានកំហុស។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអភិវឌ្ឍម៉ូដែលស្វ័យប្រវត្តិថ្មីឈ្មោះថា EfficientRMT-Net ដោយធ្វើសមាហរណកម្មរវាងបច្ចេកវិទ្យា Vision Transformer (ViT) និង ResNet-50 ដើម្បីធ្វើរោគវិនិច្ឆ័យ និងចំណាត់ថ្នាក់ជំងឺស្លឹកដំឡូងបារាំង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| EfficientRMT-Net (Proposed Method) គំរូកូនកាត់រវាង ResNet-50 និង Vision Transformer |
មានសមត្ថភាពចាប់យកលក្ខណៈពិសេសទាំងលម្អិត (Local) និងសកល (Global) នៃស្លឹកដំណាំ ដោយប្រើប្រាស់យន្តការ Depth-wise Convolution ដើម្បីកាត់បន្ថយការគណនា។ | រចនាសម្ព័ន្ធមានភាពស្មុគស្មាញជាងម៉ូដែល CNN ធម្មតា ដែលអាចតម្រូវឱ្យមានការយល់ដឹងស៊ីជម្រៅក្នុងការអនុវត្ត។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុត ៩៩.១២% លើសំណុំទិន្នន័យស្លឹកដំឡូងបារាំង និងល្បឿនរាវរក ៥.៤៦ ms ក្នុងមួយរូបភាព។ |
| ResNet-50 បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតបែប Convolutional (CNN) |
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកលក្ខណៈពិសេសនៃរូបភាព និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយជាស្តង់ដារ។ | មានកម្រិតក្នុងការចាប់យកទំនាក់ទំនងរយៈចម្ងាយឆ្ងាយ (Long-distance dependencies) នៅក្នុងរូបភាព បើធៀបនឹង Transformer។ | ទទួលបានអត្រាភាពត្រឹមត្រូវប្រហែល ៩៣.២៩% (យោងតាមតារាងទី ៥ នៃការពិសោធន៍ Transfer Learning)។ |
| Vision Transformer (ViT) បច្ចេកវិទ្យា Transformer សម្រាប់រូបភាព |
ពូកែក្នុងការស្វែងយល់ពីទំនាក់ទំនងសកល (Global context) នៅក្នុងរូបភាពទាំងមូល។ | ត្រូវការទិន្នន័យបង្វឹកក្នុងបរិមាណច្រើនមហាសាល ហើយអាចមានប្រសិទ្ធភាពទាបជាង CNN នៅពេលមានទិន្នន័យតិច (Small datasets)។ | ទទួលបានអត្រាភាពត្រឹមត្រូវប្រហែល ៨៤.១% (យោងតាមតារាងទី ៦ នៃការសិក្សារំលាយសមាសធាតុ)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលបង្ហាញថាវាអាចអនុវត្តបានលើកុំព្យូទ័រយួរដៃដែលមានសមត្ថភាពសមរម្យ។
ការសិក្សានេះពឹងផ្អែកស្ទើរតែទាំងស្រុងលើសំណុំទិន្នន័យ PlantVillage ដែលជារូបភាពថតក្នុងលក្ខខណ្ឌមន្ទីរពិសោធន៍ (មានពន្លឺល្អ និងផ្ទៃខាងក្រោយសាមញ្ញ)។ នេះជាចំណុចខ្វះខាតមួយសម្រាប់កម្ពុជា ព្រោះរូបភាពជាក់ស្តែងនៅតាមចំការក្នុងខេត្តមណ្ឌលគិរី ឬតំបន់ផ្សេងទៀត អាចមានពន្លឺថ្ងៃខ្លាំង ស្រមោល ឬផ្ទៃខាងក្រោយស្មុគស្មាញ ដែលអាចធ្វើឱ្យម៉ូដែលថយចុះប្រសិទ្ធភាព។
បច្ចេកទេសនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់វិស័យកសិកម្មនៅកម្ពុជា ជាពិសេសសម្រាប់ការការពារដំណាំដែលមានតម្លៃសេដ្ឋកិច្ចខ្ពស់។
ទោះបីជាម៉ូដែលនេះមានភាពត្រឹមត្រូវខ្ពស់ក៏ដោយ វាត្រូវការការធ្វើតេស្តបន្ថែមជាមួយរូបភាពជាក់ស្តែងនៅតាមចំការក្នុងស្រុក ដើម្បីធានាថាវាអាចដំណើរការបានល្អក្នុងលក្ខខណ្ឌអាកាសធាតុនិងពន្លឺនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Vision Transformer (ViT) | ជាបច្ចេកវិទ្យាថ្មីដែលបំបែករូបភាពជាផ្នែកតូចៗ (Patches) ហើយវិភាគទំនាក់ទំនងរវាងផ្នែកនីមួយៗក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យនៃរូបភាពទាំងមូល ដោយមិនពឹងផ្អែកតែលើការស្កេនចំណុចតូចៗជាប់គ្នាដូចបច្ចេកវិទ្យាចាស់ (CNN) ទេ។ | ដូចជាការអានសៀវភៅដោយមើលមួយទំព័រពេញហើយយល់ន័យសរុបភ្លាមៗ ជំនួសឱ្យការអានមួយពាក្យម្តងៗតាមលំដាប់។ |
| ResNet-50 | ជាប្រភេទបណ្តាញសរសៃប្រសាទដែលមានជម្រៅជ្រៅ (Deep Neural Network) ៥០ ស្រទាប់ ដែលប្រើប្រាស់បច្ចេកទេស 'Skip Connections' ដើម្បីអនុញ្ញាតឱ្យទិន្នន័យអាចហោះរំលងស្រទាប់ខ្លះបាន ជៀសវាងការបាត់បង់ព័ត៌មានសំខាន់ៗនៅពេលបង្វឹកម៉ូដែលធំៗ។ | ប្រៀបដូចជាការមានផ្លូវល្បឿនលឿន (Expressway) សម្រាប់ឱ្យរថយន្តខ្លះបើកវាងការកកស្ទះនៅតាមផ្លូវតូចៗ ដើម្បីទៅដល់គោលដៅបានលឿន និងរក្សាព័ត៌មានបានល្អ។ |
| Depth-wise Convolution (DWC) | ជាបច្ចេកទេសចម្រោះរូបភាពដែលអនុវត្តលើពណ៌នីមួយៗដាច់ដោយឡែកពីគ្នា (per channel) ដើម្បីកាត់បន្ថយចំនួននៃការគណនាយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ធ្វើឱ្យម៉ូដែលដំណើរការលឿនជាងមុនតែនៅរក្សាគុណភាពដដែល។ | ដូចជាការឱ្យចុងភៅ ៣ នាក់ ធ្វើម្ហូប ៣ មុខផ្សេងគ្នាដាច់ដោយឡែក ជំនួសឱ្យចុងភៅម្នាក់ត្រូវរត់ធ្វើម្ហូបទាំង ៣ មុខក្នុងពេលតែមួយដែលចំណាយពេលយូរ។ |
| Transfer Learning (TL) | ជាវិធីសាស្ត្រយកចំណេះដឹងពីម៉ូដែលដែលបានរៀនរួចរាល់លើទិន្នន័យធំៗ (ដូចជា ImageNet) មកអនុវត្តបន្តលើបញ្ហាថ្មី (ដូចជាជំងឺស្លឹកដំឡូង) ដើម្បីចំណេញពេលវេលា និងទទួលបានលទ្ធផលល្អទោះបីមានទិន្នន័យតិចក៏ដោយ។ | ដូចជាមនុស្សដែលចេះជិះកង់រួចហើយ ងាយនឹងរៀនជិះម៉ូតូជាងមនុស្សដែលមិនធ្លាប់ចេះជិះអ្វីសោះ ព្រោះគេមានមូលដ្ឋាននៃការរក្សាលំនឹងស្រាប់។ |
| Multi-head Self-Attention | ជាយន្តការស្នូលរបស់ Transformer ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រផ្តោតអារម្មណ៍ទៅលើចំណុចសំខាន់ៗជាច្រើននៅក្នុងរូបភាពក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងរវាងផ្នែកផ្សេងៗនៃស្លឹកឈើ (ឧទាហរណ៍៖ ទំនាក់ទំនងរវាងពណ៌ និងស្នាមអុច)។ | ដូចជាការមានភ្នែកច្រើនគូ ដែលភ្នែកមួយគូសម្លឹងមើលពណ៌ស្លឹក មួយគូទៀតមើលស្នាមអុច និងមួយគូទៀតមើលរូបរាងស្លឹក ក្នុងពេលតែមួយដើម្បីវិភាគ។ |
| Data Augmentation | ជាការបង្កើតរូបភាពថ្មីៗបន្ថែមពីលើរូបភាពដែលមានស្រាប់ ដោយការបង្វិល (Rotation) ប្តូរពណ៌ ឬពង្រីក (Zoom) ដើម្បីឱ្យកុំព្យូទ័រមានទិន្នន័យរៀនកាន់តែច្រើន និងមិនងាយមានកំហុសនៅពេលជួបរូបភាពប្លែកៗ។ | ដូចជាការរៀនមើលអក្សរ ដោយមើលពីជ្រុងផ្សេងៗគ្នា មើលពេលងងឹត និងមើលពេលភ្លឺ ដើម្បីឱ្យប្រាកដថាចេះអក្សរនោះច្បាស់ ទោះស្ថិតក្នុងស្ថានភាពណាក៏ដោយ។ |
| Global Average Pooling | ជាបច្ចេកទេសមួយនៅចុងបញ្ចប់នៃបណ្តាញសរសៃប្រសាទ ដែលសង្ខេបព័ត៌មានទាំងអស់ពីផែនទីលក្ខណៈ (Feature Maps) មកជាតម្លៃមធ្យមតែមួយ ដើម្បីកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រមុននឹងធ្វើការសន្និដ្ឋានចុងក្រោយ។ | ដូចជាការយកពិន្ទុពីការប្រឡងគ្រប់មុខវិជ្ជាមករកមធ្យមភាគ ដើម្បីវាយតម្លៃសិស្សម្នាក់ថាជាប់ ឬធ្លាក់ ដោយមិនចាំបាច់មើលគ្រប់ចម្លើយលម្អិតទាំងអស់ម្តងទៀត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖