Original Title: Lightweight Multi-scale Convolutional Neural Network for Rice Leaf Disease Recognition
Source: doi.org/10.32604/cmc.2023.027269
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បណ្ដាញសរសៃប្រសាទកុងវ៉ុលពហុមាត្រដ្ឋានធុនស្រាលសម្រាប់ការសម្គាល់ជំងឺស្លឹកស្រូវ

ចំណងជើងដើម៖ Lightweight Multi-scale Convolutional Neural Network for Rice Leaf Disease Recognition

អ្នកនិពន្ធ៖ Chang Zhang (Jilin Agricultural University), Ruiwen Ni, Ye Mu, Yu Sun, Thobela Louis Tyasi

ឆ្នាំបោះពុម្ព៖ 2023 Computers, Materials & Continua

វិស័យសិក្សា៖ Computer Vision / Agricultural Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់ប៉ារ៉ាម៉ែត្រនិងអង្គចងចាំច្រើនហួសហេតុនៃម៉ូដែល Convolutional Neural Network (CNN) ដែលធ្វើឱ្យពិបាកក្នុងការដាក់ពង្រាយកម្មវិធីសម្គាល់ជំងឺស្លឹកស្រូវដោយស្វ័យប្រវត្តិនៅលើឧបករណ៍ចល័ត។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវម៉ូដែលសម្គាល់ធុនស្រាល ដោយប្រើប្រាស់បណ្ដាញ VGG ជាមូលដ្ឋាន រួមបញ្ចូលជាមួយម៉ូឌុលកុងវ៉ុលពហុមាត្រដ្ឋាន ដើម្បីកាត់បន្ថយទំហំម៉ូដែល និងរក្សាភាពត្រឹមត្រូវកម្រិតខ្ពស់។

ការប្រើប្រាស់ម៉ូឌុល Inception ដែលបានកែលម្អ (Improved Inception Module)
ការជំនួសស្រទាប់តភ្ជាប់ពេញលេញដោយការបូកសរុបមធ្យមសកល (Global Average Pooling)
ការធ្វើឱ្យប្រសើរឡើងនូវទិន្នន័យរូបភាពជំងឺស្លឹកស្រូវចំនួន ១២,២២៩ សំណាក (Data Augmentation)
ការធ្វើឱ្យមានលក្ខណៈស្តង់ដារជាបាច់ (Batch Normalization)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានស្នើឡើងសម្រេចបាននូវភាពត្រឹមត្រូវនៃការធ្វើតេស្តរហូតដល់ ៩៧,១០% ដែលកើនឡើង ៥,៨៧% បើធៀបនឹងម៉ូដែល VGG ដើម។
ទំហំអង្គចងចាំដែលត្រូវការត្រូវបានកាត់បន្ថយមកត្រឹម ២៦,១ MB ដែលស្មើនឹងត្រឹមតែ ១,៦% នៃទំហំរបស់ម៉ូដែល VGG16 (១,៥១ GB)។
ល្បឿននៃការសម្គាល់ (Average forward processing time) គឺ ២៦១ មីលីវិនាទី ដែលលឿនជាងនិងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការប្រើប្រាស់លើឧបករណ៍ចល័ត បើធៀបនឹងម៉ូដែលដទៃទៀតដូចជា MobileNet និង GoogLeNet។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
VGG16 ម៉ូដែលបណ្ដាញសរសៃប្រសាទ VGG16 ជាមូលដ្ឋាន	ជាម៉ូដែលស្តង់ដារដែលមានភាពល្បីល្បាញ និងងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរូបភាព។	ប្រើប្រាស់អង្គចងចាំធំខ្លាំង (១,៥១ GB) មានប៉ារ៉ាម៉ែត្រច្រើន និងត្រូវការពេលវេលាយូរក្នុងការបង្វឹកនិងសម្គាល់រូបភាព (២ វិនាទី)។	ទទួលបានភាពត្រឹមត្រូវ ៩១,២៣% និងទំហំអង្គចងចាំ ១,៥១ GB។
GoogLeNet ម៉ូដែល GoogLeNet (Inception v3)	មានទំហំតូចជាង VGG16 ច្រើន (៨៩,៤ MB) និងមានភាពត្រឹមត្រូវល្អប្រសើរ។	ល្បឿននៃការដំណើរការទស្សន៍ទាយ (AFT) នៅមានកម្រិតមធ្យម (៥៦៨ មីលីវិនាទី) បើធៀបនឹងម៉ូដែលធុនស្រាលដទៃទៀត។	ទទួលបានភាពត្រឹមត្រូវ ៩៥,០៦% ជាមួយនឹងពេលវេលា AFT ៥៦៨ មីលីវិនាទី។
MobileNet ម៉ូដែល MobileNet v1 សម្រាប់ឧបករណ៍ចល័ត	មានទំហំតូចខ្លាំងបំផុត (១៤,៧ MB) និងត្រូវការពេលវេលាបង្វឹកខ្លី (១៨៤ វិនាទីក្នុងមួយជុំ) ដែលស័ក្តិសមសម្រាប់ទូរស័ព្ទដៃ។	ភាពត្រឹមត្រូវនៃការសម្គាល់នៅទាបជាងម៉ូដែលដែលបានស្នើឡើងក្នុងឯកសារនេះ។	ទទួលបានភាពត្រឹមត្រូវ ៩៥,៤៩% និងទំហំអង្គចងចាំ ១៤,៧ MB។
Improved-ShuffleNet V1 ម៉ូដែល ShuffleNet V1 ដែលបានកែលម្អ	ជាម៉ូដែលធុនស្រាលដែលមានទំហំតូច (១៥,៣ MB) ស័ក្តិសមសម្រាប់ឧបករណ៍ខ្នាតតូច។	មានភាពត្រឹមត្រូវទាបជាងគេ (៩៤,៣៧%) ក្នុងចំណោមម៉ូដែលធុនស្រាលដែលបានធ្វើតេស្ត។	ទទួលបានភាពត្រឹមត្រូវ ៩៤,៣៧%។
Article model (Proposed) ម៉ូដែលដែលបានស្នើឡើង (VGG + Inception Module)	ផ្ដល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត មានល្បឿនសម្គាល់លឿនបំផុត (២៦១ មីលីវិនាទី) និងមានទំហំអង្គចងចាំតូចស័ក្តិសមសម្រាប់ការប្រើប្រាស់លើទូរស័ព្ទ។	ត្រូវការពេលវេលាបង្វឹក (Training time) យូរជាង MobileNet ដោយសារមានរចនាសម្ព័ន្ធពហុមាត្រដ្ឋានស្មុគស្មាញបន្តិច។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៧,១០% ទំហំត្រឹមតែ ២៦,១ MB និងល្បឿន AFT ២៦១ មីលីវិនាទី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពមធ្យម និងមានក្រាហ្វិកកាត (GPU) សម្រាប់ដំណើរការបង្វឹកម៉ូដែលឱ្យបានលឿន និងមានប្រសិទ្ធភាព។

Hardware: កុំព្យូទ័រ Desktop ដែលមាន CPU Intel Core i5-4590 (3.3 GHz), RAM 8 GB និងក្រាហ្វិកកាត NVIDIA GeForce GT 705។
Software: ប្រព័ន្ធប្រតិបត្តិការ Windows 10 (64-bit), ភាសាសរសេរកូដ Python និងបណ្ណាល័យ Deep Learning ដូចជា TensorFlow-gpu 2.2 និង Keras 2.4.3។
Dataset: ទិន្នន័យរូបភាពជំងឺស្លឹកស្រូវពីមូលដ្ឋានទិន្នន័យ Kaggle ដែលត្រូវបានពង្រីក (Data Augmentation) ដល់ចំនួន ១២,២២៩ សំណាក ក្នុង ៤ ចំណាត់ថ្នាក់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យរូបភាពពី Kaggle ដែលមានប្រភពទូទៅ និងមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះប្រហែលជាមិនតំណាងឱ្យពូជស្រូវ (ដូចជា ផ្ការំដួល សែនក្រអូប) ឬលក្ខខណ្ឌអាកាសធាតុ ក៏ដូចជាប្រភេទសត្វល្អិត និងជំងឺជាក់លាក់នៅក្នុងតំបន់នោះទេ។ ការខ្វះខាតទិន្នន័យក្នុងស្រុកអាចធ្វើឱ្យម៉ូដែលថយចុះភាពត្រឹមត្រូវនៅពេលយកមកប្រើប្រាស់ផ្ទាល់លើវាលស្រែនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ម៉ូដែលធុនស្រាលនេះមានសក្ដានុពលខ្ពស់ណាស់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អនៅក្នុងវិស័យកសិកម្មឌីជីថល (Digital Agriculture) នៅប្រទេសកម្ពុជា។

កម្មវិធីទូរស័ព្ទសម្រាប់កសិករ (Mobile App for Farmers): ដោយសារម៉ូដែលនេះមានទំហំតូច (២៦,១ MB) វាអាចត្រូវបានដាក់បញ្ចូលទៅក្នុងកម្មវិធីទូរស័ព្ទដៃ ដែលអនុញ្ញាតឱ្យកសិករនៅតាមបណ្តាខេត្តដូចជា បាត់ដំបង និងព្រៃវែង អាចថតរូបស្លឹកស្រូវ និងវិភាគរកជំងឺបានភ្លាមៗដោយមិនចាំបាច់មានអ៊ីនធឺណិត (Offline mode)។
វិទ្យាស្ថានស្រាវជ្រាវ និងអភិវឌ្ឍន៍កសិកម្មកម្ពុជា (CARDI) និងមន្ទីរកសិកម្មខេត្ត: អ្នកស្រាវជ្រាវ និងមន្ត្រីកសិកម្មអាចប្រើប្រាស់ក្បួនដោះស្រាយនេះជាឧបករណ៍ជំនួយក្នុងការចុះវាយតម្លៃ និងតាមដានការរាលដាលនៃជំងឺស្រូវ (ដូចជាជំងឺអុចត្នោត ឬជំងឺប្លាស) ដើម្បីចាត់វិធានការទប់ស្កាត់បានទាន់ពេលវេលា។

សរុបមក ការប្រើប្រាស់ម៉ូដែល AI ធុនស្រាលនេះ នឹងចូលរួមចំណែកយ៉ាងសំខាន់ក្នុងការកាត់បន្ថយការខាតបង់ទិន្នផលស្រូវ និងកាត់បន្ថយការពឹងផ្អែកលើអ្នកជំនាញដែលមានចំនួនកំណត់នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ការសិក្សាទ្រឹស្តីមូលដ្ឋាននៃ Deep Learning: និស្សិតត្រូវស្វែងយល់ពីគោលការណ៍គ្រឹះនៃ Convolutional Neural Networks (CNN) ជាពិសេសស្ថាបត្យកម្ម VGG និង Inception តាមរយៈការរៀនវគ្គសិក្សាអនឡាញលើ Coursera ឬ YouTube និងអនុវត្តកូដមូលដ្ឋានជាមួយ Python។
ជំហានទី២៖ ការប្រមូលទិន្នន័យ និង Data Augmentation: ទាញយកទិន្នន័យរូបភាពជំងឺស្លឹកស្រូវពី Kaggle មកសាកល្បងជាមុន បន្ទាប់មករៀបចំគម្រោងចុះថតរូបស្លឹកស្រូវដែលមានជំងឺពិតប្រាកដនៅតាមវាលស្រែក្នុងប្រទេសកម្ពុជា។ ប្រើប្រាស់បណ្ណាល័យ OpenCV ដើម្បីធ្វើ Data Augmentation (បង្វិល, ពង្រីក, ប្ដូរពណ៌) សម្រាប់បង្កើនទំហំទិន្នន័យ។
ជំហានទី៣៖ ការសរសេរកូដ និងបង្វឹកម៉ូដែល (Model Training): ប្រើប្រាស់ Google Colab ដែលមាន GPU ឥតគិតថ្លៃ និងសរសេរកូដដោយប្រើ TensorFlow និង Keras ដើម្បីបង្កើតម៉ូដែលតាមរចនាសម្ព័ន្ធដែលបានស្នើក្នុងឯកសារ (រួមបញ្ចូល Inception module និង Global Average Pooling)។
ជំហានទី៤៖ ការវាយតម្លៃ និងកែសម្រួលប៉ារ៉ាម៉ែត្រ (Fine-tuning): ធ្វើការសាកល្បងម៉ូដែលជាមួយសំណុំទិន្នន័យតេស្ត (Test Set) ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវ (Accuracy) និងទំហំ Loss។ កែសម្រួល Learning Rate ឬ Batch Size ដើម្បីឱ្យម៉ូដែលកាន់តែមានស្ថិរភាព។
ជំហានទី៥៖ ការដាក់ពង្រាយជាកម្មវិធីទូរស័ព្ទ (Deployment): បម្លែងម៉ូដែលដែលបានបង្វឹករួចទៅជាទម្រង់ .tflite តាមរយៈ TensorFlow Lite។ បន្ទាប់មក ប្រើប្រាស់ Flutter ឬ Android Studio ដើម្បីបង្កើតកម្មវិធីទូរស័ព្ទដៃសាមញ្ញមួយ ដែលអាចឱ្យកសិករថតរូប និងបញ្ចេញលទ្ធផលវិភាគបានរហ័ស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Convolutional Neural Network (CNN)	ជាប្រភេទនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (AI) ដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់ដំណើរការទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រឡាចត្រង្គ ដូចជារូបភាព ដោយប្រើប្រាស់ប្រតិបត្តិការគណិតវិទ្យាម្យ៉ាងហៅថា កុងវ៉ុល (Convolution) ដើម្បីទាញយកលក្ខណៈពិសេស (features) ពីរូបភាព។	ដូចជាភ្នែក និងខួរក្បាលរបស់យើងដែលសម្លឹងមើលរូបភាពមួយ ហើយអាចចំណាំបានថាវាជាសត្វឆ្មា ឬសត្វឆ្កែ ដោយផ្អែកលើទម្រង់ត្រចៀក ឬពណ៌រោមរបស់វា។
VGG	ជាស្ថាបត្យកម្មស្តង់ដារនៃ CNN មួយប្រភេទដែលប្រើប្រាស់ស្រទាប់កុងវ៉ុលតូចៗ (ទំហំ 3x3) តម្រួតលើគ្នាជាច្រើនជាន់ដើម្បីរៀនពីលក្ខណៈស្មុគស្មាញនៃរូបភាព ប៉ុន្តែវាទាមទារប៉ារ៉ាម៉ែត្រ និងអង្គចងចាំធំខ្លាំងណាស់ក្នុងការដំណើរការ។	ដូចជាអ្នកស៊ើបអង្កេតដែលប្រើកែវពង្រីកតូចមួយឆ្លុះមើលគ្រប់ជ្រុងជ្រោយនៃផ្ទាំងគំនូរម្ដងបន្តិចៗរហូតដល់សព្វផ្ទៃ ដើម្បីស្វែងរកតម្រុយ ដែលនេះទាមទារពេលវេលា និងកម្លាំងច្រើន។
Inception module	ជាបណ្តុំនៃស្រទាប់កុងវ៉ុលនៅក្នុងបណ្ដាញសរសៃប្រសាទ ដែលប្រើប្រាស់តម្រង (filters) មានទំហំខុសៗគ្នា (ឧទាហរណ៍ 1x1, 3x3, 5x5) ក្នុងពេលតែមួយ ដើម្បីចាប់យកលក្ខណៈពិសេសនៃរូបភាពក្នុងកម្រិតមាត្រដ្ឋានខុសៗគ្នា (multi-scale) រួចផ្គុំវាបញ្ចូលគ្នា។	ដូចជាការថតរូបដោយប្រើឡេនកាមេរ៉ា ៣ ប្រភេទ (Zoom, ធម្មតា, និង Wide) ក្នុងពេលតែមួយ ដើម្បីចាប់យកទាំងទិដ្ឋភាពរួម និងព័ត៌មានលម្អិត រួចបូកបញ្ចូលគ្នាជារូបភាពតែមួយ។
Global Average Pooling	ជាបច្ចេកទេសជំនួសស្រទាប់តភ្ជាប់ពេញលេញ (Fully connected layer) នៅចុងបញ្ចប់នៃ CNN ដោយធ្វើការគណនាតម្លៃមធ្យមនៃផែនទីលក្ខណៈនីមួយៗ (feature map) ដែលជួយកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រយ៉ាងច្រើនសន្ធឹកសន្ធាប់ និងការពារបញ្ហា Overfitting។	ដូចជាការបូកសរុបពិន្ទុមុខវិជ្ជានីមួយៗរបស់សិស្សម្នាក់ ដើម្បីយកពិន្ទុមធ្យមភាគតែមួយ ជាជាងការរាយនាមពិន្ទុគ្រប់កិច្ចការតូចៗទាំងអស់ ដែលធ្វើឱ្យងាយស្រួលចងចាំនិងមិនស៊ីទំហំកត់ត្រា។
Batch Normalization	ជាយន្តការមួយនៅក្នុងទម្រង់ Deep Learning ដែលជួយកែសម្រួលទិន្នន័យនៅតាមស្រទាប់នីមួយៗឱ្យមានស្ថិរភាព (មានមធ្យមភាគសូន្យ និងវ៉ារ្យង់មួយ) ដែលជួយដោះស្រាយបញ្ហាការផ្លាស់ប្តូររបាយទិន្នន័យ (Internal Covariate Shift) និងធ្វើឱ្យការបង្វឹកម៉ូដែលដើរលឿនជាងមុន។	ដូចជាការកែសម្រួលកម្រិតសំឡេងភ្លេង និងមីក្រូហ្វូនឱ្យស្មើគ្នាមុនពេលចាក់បញ្ចាំង ដើម្បីកុំឱ្យសំឡេងរំខាន ឬបែកសម្លេង។
Overfitting	ជាស្ថានភាពដែលម៉ូដែល AI ចងចាំទិន្នន័យបង្វឹក (Training Data) លម្អិតពេក រួមទាំងចំណុចដែលមិនសំខាន់ (Noise) រហូតដល់វាធ្លាក់ចុះសមត្ថភាពមិនអាចធ្វើការទស្សន៍ទាយ ឬសម្គាល់រូបភាពថ្មីៗដែលវាមិនធ្លាប់ឃើញពីមុនមក (Test Data) បានត្រឹមត្រូវ។	ដូចជាសិស្សដែលទន្ទេញចាំមាត់នូវវិញ្ញាសាប្រឡងចាស់ៗគ្រប់សញ្ញាក្បៀស ប៉ុន្តែពេលប្រឡងពិតប្រាកដគ្រូគ្រាន់តែប្តូរលេខបន្តិចបន្តួច ក៏ធ្វើលែងចេះ។
Multi-scale convolution	ជាប្រតិបត្តិការក្នុងបណ្ដាញ CNN ដែលប្រើប្រាស់តម្រង (Kernels) ទំហំខុសៗគ្នាស្របគ្នានៅក្នុងស្រទាប់តែមួយ ដើម្បីចាប់យកលក្ខណៈពិសេសរបស់វត្ថុ ដូចជាស្នាមជំងឺលើស្លឹកស្រូវ ដែលមានទំហំទាំងតូចនិងធំ ព្រោះជំងឺក្នុងដំណាក់កាលផ្សេងៗគ្នាមានទំហំស្នាមខុសៗគ្នា។	ដូចជាការប្រើប្រាស់កែវពង្រីក កែវឆ្លុះ និងភ្នែកទទេ ក្នុងពេលតែមួយ ដើម្បីពិនិត្យមើលវត្ថុមួយទាំងកម្រិតល្អិតបំផុត និងកម្រិតជារូបរាងធំ។
Transfer learning	ជាវិធីសាស្ត្រក្នុងការយកចំណេះដឹងពីម៉ូដែល AI ដែលត្រូវបានបង្វឹករួចជាស្រេចនៅលើទិន្នន័យធំៗ (Pre-trained model ដូចជា VGG លើសំណុំទិន្នន័យ ImageNet) មកបន្តបង្វឹក (Fine-tune) លើការងារថ្មីមួយទៀតដែលមានទិន្នន័យតិចតួច ដូចជាការសម្គាល់ជំងឺស្រូវជាដើម។	ដូចជាការយកអ្នកពូកែគណិតវិទ្យាស្រាប់ ទៅបង្រៀនមុខវិជ្ជារូបវិទ្យាបន្ថែម នោះគាត់នឹងឆាប់ចេះ និងប្រើពេលតិចជាងអ្នកដែលមិនធ្លាប់រៀនសោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖