Original Title: Identification of Coffee Leaf Pests and Diseases based on Transfer Learning and Knowledge Distillation
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកំណត់អត្តសញ្ញាណសត្វល្អិត និងជំងឺលើស្លឹកកាហ្វេ ដោយផ្អែកលើការរៀនបន្ត (Transfer Learning) និងការចម្រាញ់ចំណេះដឹង (Knowledge Distillation)

ចំណងជើងដើម៖ Identification of Coffee Leaf Pests and Diseases based on Transfer Learning and Knowledge Distillation

អ្នកនិពន្ធ៖ Zi Wang (School of Electrical and Information Engineering, Wanjiang University of technology, China), Zheng Ren (School of Electrical and Information Engineering, Wanjiang University of technology, China), Xue Li (School of Economics and Management, Yango University, China)

ឆ្នាំបោះពុម្ព៖ 2023, Frontiers in Computing and Intelligent Systems

វិស័យសិក្សា៖ Machine Learning in Agriculture

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាដែលម៉ូដែល Deep Learning ធំៗមានភាពសុក្រឹតខ្ពស់តែមានរចនាសម្ព័ន្ធស្មុគស្មាញ និងដំណើរការយឺតសម្រាប់ការវិភាគពេលវេលាជាក់ស្តែង (Real-time) ខណៈដែលម៉ូដែលតូចស្រាល (Lightweight models) មានដំណើរការលឿនតែមិនមានភាពសុក្រឹតគ្រប់គ្រាន់សម្រាប់ការកំណត់អត្តសញ្ញាណជំងឺស្លឹកកាហ្វេ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវការរួមបញ្ចូលគ្នានៃការរៀនបន្ត (Transfer Learning) និងការចម្រាញ់ចំណេះដឹង (Knowledge Distillation) ដើម្បីបង្វឹកម៉ូដែលសិស្សដែលមានទំហំតូចដោយប្រើប្រាស់ចំណេះដឹងពីម៉ូដែលគ្រូដែលមានភាពស្មុគស្មាញ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machine (SVM)
ក្បួនដោះស្រាយ SVM (Support Vector Machine)
មានល្បឿនក្នុងការគណនាលឿនបំផុតក្នុងចំណោមម៉ូដែលដែលបានធ្វើតេស្ត។ ស័ក្តិសមសម្រាប់កិច្ចការងាររៀនម៉ាស៊ីន (Machine Learning) បែបសាមញ្ញ។ អត្រាភាពសុក្រឹតនៅមានកម្រិតទាប មិនអាចធ្វើការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរូបភាពស្មុគស្មាញបានល្អនោះទេ។ អត្រាភាពសុក្រឹត ៨៧.៩១% ជាមួយនឹងល្បឿនគណនា ០.០២៣ វិនាទី។
VGG with pre-trained weights (Teacher Model)
បណ្ដាញ VGG ដែលមានទម្ងន់ហ្វឹកហាត់ជាមុន (ម៉ូដែលគ្រូ)
មានភាពសុក្រឹតខ្ពស់បំផុតក្នុងការកំណត់អត្តសញ្ញាណជំងឺ ដោយសារវាមានរចនាសម្ព័ន្ធជ្រៅ (Deep network) និងបានរៀនពីទិន្នន័យ ImageNet ដ៏ធំ។ មានទំហំធំ និងចំនួនប៉ារ៉ាម៉ែត្ររហូតដល់ ១០០លាន ធ្វើឱ្យល្បឿននៃការគណនាយឺត ដែលមិនស័ក្តិសមសម្រាប់ការវិភាគក្នុងពេលវេលាជាក់ស្តែង (Real-time analysis)។ អត្រាភាពសុក្រឹត ៩៧.៩៨% ជាមួយនឹងល្បឿនគណនា ១.២៩៧ វិនាទី។
Directly Trained Lightweight Model
ម៉ូដែលស្រាលបង្វឹកដោយផ្ទាល់
មានទំហំតូច និងល្បឿនក្នុងការគណនាលឿន ដែលងាយស្រួលក្នុងការដំណើរការលើឧបករណ៍ខ្នាតតូច។ ដោយសារតែរចនាសម្ព័ន្ធតូច វាពិបាកក្នុងការចាប់យកលក្ខណៈពិសេសរបស់រូបភាពបានស៊ីជម្រៅ ដែលបណ្តាលឱ្យភាពសុក្រឹតធ្លាក់ចុះច្រើន។ អត្រាភាពសុក្រឹត ៩២.៤៤% ជាមួយនឹងល្បឿនគណនា ០.០៦៥ វិនាទី។
Proposed Model (Knowledge Distillation)
ម៉ូដែលស្នើឡើង (តាមរយៈការចម្រាញ់ចំណេះដឹង)
ទទួលយកបាននូវលក្ខណៈពិសេសដែលស្រង់ចេញពីម៉ូដែលគ្រូ ធ្វើឱ្យវាមានភាពសុក្រឹតខ្ពស់កៀកនឹងម៉ូដែល VGG ព្រមទាំងរក្សាបានល្បឿនលឿនក្នុងការគណនា។ ទាមទារពេលវេលា និងកម្លាំងម៉ាស៊ីនដើម្បីហ្វឹកហាត់ម៉ូដែលគ្រូជាមុនសិន ទើបអាចផ្ទេរចំណេះដឹងមកម៉ូដែលសិស្សនេះបាន។ អត្រាភាពសុក្រឹត ៩៦.៧៣% ជាមួយនឹងល្បឿនគណនា ០.០៦៩ វិនាទី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់សម្រាប់វគ្គបង្វឹកម៉ូដែលគ្រូ (Teacher model) ដំបូង ប៉ុន្តែម៉ូដែលចុងក្រោយអាចដំណើរការបានយ៉ាងរលូនលើឧបករណ៍ដែលមានធនធានទាប។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យរូបភាពស្លឹកកាហ្វេដែលមាន ៥ លក្ខខណ្ឌ (មានសុខភាពល្អ, ពណ៌ត្នោត, ស្វិត, មានប្រហោង, មានស្នាមអុចៗ) ប៉ុន្តែមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រនៃការប្រមូលទិន្នន័យច្បាស់លាស់ទេ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចប្រឈមនឹងបញ្ហាភាពខុសគ្នានៃប្រភេទពូជកាហ្វេ អាកាសធាតុ និងសំបុកមេរោគប្រចាំតំបន់ ដូច្នេះទាមទារការប្រមូលទិន្នន័យបន្ថែមនៅក្នុងស្រុកដើម្បីធ្វើការ Fine-tune ឱ្យត្រូវនឹងបរិបទកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Knowledge Distillation ដែលផ្តល់នូវម៉ូដែលស្រាលនិងសុក្រឹតខ្ពស់នេះ មានសក្តានុពលខ្លាំងក្នុងការអភិវឌ្ឍកម្មវិធីទូរស័ព្ទដៃសម្រាប់វិស័យកសិកម្មនៅកម្ពុជា។

ជារួម ការផ្លាស់ប្តូរពីម៉ូដែលធំ និងស្មុគស្មាញ ទៅជាម៉ូដែលតូចស្រាល គឺជាគន្លឹះដ៏សំខាន់ដែលអនុញ្ញាតឱ្យបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) អាចជ្រៀតចូលទៅដល់ដៃកសិករខ្មែរនៅតំបន់ដាច់ស្រយាលតាមរយៈស្មាតហ្វូនធម្មតា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Computer Vision: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការវែកញែករូបភាព (Image Classification) ដោយប្រើប្រាស់ Convolutional Neural Networks (CNN) តាមរយៈវគ្គសិក្សាតាមអ៊ីនធឺណិត និងប្រើប្រាស់បណ្ណាល័យ TensorFlow ឬ PyTorch សម្រាប់អនុវត្តជាក់ស្តែង។
  2. អនុវត្តបច្ចេកទេសរៀនបន្ត (Transfer Learning): សាកល្បងទាញយកម៉ូដែលដែលបានហ្វឹកហាត់រួចជាមុន (Pre-trained models) ដូចជា VGG16, ResNet50 ឬ MobileNetV2 ពី ImageNet មកធ្វើការហ្វឹកហាត់បន្ត (Fine-tuning) ដោយប្រើប្រាស់ទិន្នន័យពីរូបភាពរុក្ខជាតិដែលមានជំងឺ (ដូចជា PlantVillage dataset)។
  3. ប្រមូលនិងកែច្នៃទិន្នន័យក្នុងស្រុក (Data Preprocessing): ចុះប្រមូលរូបភាពស្លឹកកាហ្វេ និងដំណាំផ្សេងៗដោយផ្ទាល់នៅតាមចម្ការក្នុងប្រទេសកម្ពុជា រួចប្រើប្រាស់បណ្ណាល័យ OpenCV ដើម្បីអនុវត្តបច្ចេកទេស Mean Filtering សម្អាតសំឡេងរំខាន និងកាត់ទំហំរូបភាពឱ្យត្រូវនឹងទម្រង់ម៉ូដែល (ឧ. 64x64 pixels)។
  4. អភិវឌ្ឍម៉ូដែលដោយប្រើ Knowledge Distillation: សរសេរកូដរចនា Teacher Network ឱ្យមានទំហំធំ និង Student Network ឱ្យមានទំហំតូច រួចធ្វើការបង្វឹកដោយប្រើអនុគមន៍បាត់បង់ Cross-entropy ដើម្បីបង្រៀន Student ឱ្យចាប់យកចំណេះដឹង (Probability distributions) ពី Teacher។
  5. បម្លែងនិងដាក់ឱ្យដំណើរការម៉ូដែល (Model Deployment): ធ្វើការបំប្លែងម៉ូដែល Student ទៅជាទម្រង់ TensorFlow Lite ដើម្បីយកទៅដាក់បញ្ចូលក្នុងកម្មវិធីស្មាតហ្វូន Android ឬ iOS ដែលអនុញ្ញាតឱ្យកសិករអាចថតរូបស្កេនរកជំងឺលើស្លឹកដំណាំបានភ្លាមៗដោយមិនបាច់ប្រើអ៊ីនធឺណិត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Transfer Learning ជាវិធីសាស្ត្រមួយក្នុងបញ្ញាសិប្បនិម្មិត (AI) ដែលយកម៉ូដែលធ្លាប់បានហ្វឹកហាត់រួចនៅលើទិន្នន័យដ៏ធំ (ឧទាហរណ៍ ទិន្នន័យ ImageNet ដែលមានរូបភាពរាប់លាន) មកប្រើប្រាស់ និងកែសម្រួលបន្ថែមបន្តិចបន្តួច ដើម្បីដោះស្រាយបញ្ហាថ្មីមួយទៀតដែលមានទិន្នន័យតិចជាង (ឧទាហរណ៍ ការសម្គាល់ជំងឺស្លឹកកាហ្វេ)។ វាជួយសន្សំពេលវេលា និងធនធានកុំព្យូទ័រក្នុងការហ្វឹកហាត់តាំងពីចំណុចសូន្យមក។ ដូចជាមនុស្សម្នាក់ដែលចេះជិះកង់រួចហើយ យកជំនាញរក្សាលំនឹងនោះទៅរៀនជិះម៉ូតូ ដែលធ្វើឱ្យគាត់ឆាប់ចេះជាងអ្នកមិនធ្លាប់មានមូលដ្ឋានជិះកង់សោះ។
Knowledge distillation ជាបច្ចេកទេសបង្រួមទំហំម៉ូដែល ដោយបង្ហាត់ម៉ូដែលតូចនិងស្រាល (Student network) ឱ្យរៀនយកតម្រាប់តាមរបៀបគិត និងការវាយតម្លៃរបស់ម៉ូដែលធំនិងស្មុគស្មាញ (Teacher network)។ លទ្ធផលគឺយើងទទួលបានម៉ូដែលខ្នាតតូចដែលមានល្បឿនលឿនសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង តែនៅរក្សាភាពសុក្រឹតបានខ្ពស់កៀកនឹងម៉ូដែលធំ។ ដូចជាសិស្សរៀនសង្ខេបមេរៀន និងស្រូបយកចំណេះដឹងពីសាស្ត្រាចារ្យដែលមានបទពិសោធន៍ច្រើនឆ្នាំ មកចងក្រងទុកក្នុងខួរក្បាលខ្លួនឯង ដើម្បីអាចដោះស្រាយលំហាត់បានលឿននិងត្រឹមត្រូវដោយមិនបាច់បើកសៀវភៅក្រាស់ៗ។
Mean filtering ជាបច្ចេកទេសកែច្នៃរូបភាពជាមុន (Preprocessing) ដោយយកតម្លៃមធ្យមនៃភីកសែល (Pixels) ដែលនៅជុំវិញភីកសែលគោលដៅ មកជំនួសតម្លៃដើមរបស់វា។ គោលបំណងគឺដើម្បីលុបបំបាត់ស្នាមអុចៗ ឬសំឡេងរំខាន (Noise) លើរូបភាពដើម ធ្វើឱ្យរូបភាពមានភាពរលោង និងងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេសជាងមុន។ ដូចជាការយកក្រណាត់មកជូតសម្អាតកញ្ចក់ដែលមានស្នាមប្រឡាក់តូចៗ ដើម្បីឱ្យយើងអាចមើលឃើញទេសភាពខាងក្រៅបានច្បាស់ល្អ។
convolution layer ជាស្រទាប់គណនាសំខាន់នៅក្នុងប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលដើរតួជាអ្នកស្កេនរូបភាពទាំងមូលដើម្បីទាញយកលក្ខណៈពិសេសៗ (Features) ពីរូបភាព ដូចជា គែមបន្ទាត់, ពណ៌, ទម្រង់រាង, ឬស្នាមជំងឺតូចៗនៅលើស្លឹកឈើ សម្រាប់យកទៅវិភាគនៅស្រទាប់បន្ទាប់។ ដូចជាការប្រើកែវពង្រីក (Magnifying glass) ដើម្បីឆ្លុះមើលរាល់ជ្រុងនៃផ្ទាំងគំនូរមួយ ដើម្បីស្វែងរកចំណុចលម្អិតប្លែកៗដែលភ្នែកធម្មតាមើលរំលង។
overfitting ជាបញ្ហាមួយនៅពេលដែលម៉ូដែល AI រៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ជ្រុលពេក រហូតដល់វាទទួលបានលទ្ធផលល្អឥតខ្ចោះលើទិន្នន័យចាស់ដែលវាធ្លាប់ឃើញ តែបែរជាមិនអាចទស្សន៍ទាយទិន្នន័យថ្មីៗបានត្រឹមត្រូវ។ នៅក្នុងឯកសារនេះ គេប្រើ Dropout layer ដើម្បីទប់ស្កាត់បញ្ហានេះមិនឱ្យកើតមាន។ ដូចជាសិស្សដែលខំទន្ទេញចាំវិញ្ញាសាចាស់ៗដើម្បីប្រឡងបានពិន្ទុល្អ ប៉ុន្តែពេលប្រឡងពិតប្រាកដជួបលំហាត់ថ្មីដែលគ្រូគ្រាន់តែប្តូរលេខ បែរជាធ្វើមិនចេញទាល់តែសោះ។
SoftMax function ជាអនុគមន៍គណិតវិទ្យាដែលប្រើនៅស្រទាប់ចុងក្រោយបង្អស់របស់ម៉ូដែល ដើម្បីបំប្លែងលទ្ធផលលេខធម្មតា ទៅជាតម្លៃប្រូបាប៊ីលីតេ (Probability) ចន្លោះពី ០ ទៅ ១ សម្រាប់ចំណាត់ថ្នាក់នីមួយៗ (ឧទាហរណ៍ ភាគរយនៃជំងឺទាំង ៥ ប្រភេទ)។ តម្លៃសរុបនៃប្រូបាប៊ីលីតេទាំងអស់បូកចូលគ្នាគឺស្មើនឹង ១ (ឬ ១០០%)។ ដូចជាការបែងចែកនំមួយដុំធំ (១០០%) ទៅឱ្យមនុស្ស ៥ នាក់ ដោយផ្អែកលើទំហំនៃការឃ្លានរបស់ពួកគេម្នាក់ៗ អ្នកឃ្លានខ្លាំងបានចំណែកធំជាងគេ។
cross-entropy loss ជាអនុគមន៍សម្រាប់គណនារង្វាស់នៃកំហុស (Error) រវាងលទ្ធផលដែលម៉ូដែលបានទស្សន៍ទាយ និងចម្លើយពិតប្រាកដ។ វាជួយឱ្យម៉ូដែលដឹងថាខ្លួនឯងទាយខុសកម្រិតណា ដើម្បីយកកំហុសនោះទៅកែតម្រូវទម្ងន់ប៉ារ៉ាម៉ែត្រក្នុងការរៀនសូត្រនៅជុំបន្ទាប់ឱ្យកាន់តែសុក្រឹតជាងមុន។ ដូចជាការដាក់ពិន្ទុផាកពិន័យដល់អ្នកបាញ់ធ្នូ ប្រសិនបើគាត់បាញ់ខុសគោលដៅកាន់តែឆ្ងាយ គាត់នឹងត្រូវពិន័យកាន់តែធ្ងន់ ដើម្បីរំលឹកឱ្យគាត់ប្រយ័ត្ន និងកែតម្រូវដៃនៅពេលបាញ់លើកក្រោយ។
T-SNE visualization ជាក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យ (Dimensionality reduction) ពីកម្រិតខ្ពស់និងស្មុគស្មាញ មកនៅត្រឹម ២ ឬ ៣ វិមាត្រដែលអាចមើលឃើញនឹងភ្នែកបាន ដើម្បីគូរជាគំនូសតាងចំណុចសាច (Scatter plot) បង្ហាញពីរបៀបដែលម៉ូដែលបានញែកក្រុមទិន្នន័យនៃជំងឺផ្សេងៗគ្នាដាច់ពីគ្នាបានល្អកម្រិតណា។ ដូចជាការថតរូបសំបុកសត្វស្លាបពីលើអាកាស (២ វិមាត្រ) ដើម្បីមើលពីទីតាំងនិងការប្រមូលផ្តុំរបស់ពួកវា ជាជាងការដើររាប់ពួកវានៅលើដើមឈើផ្ទាល់ (៣ វិមាត្រ) ដែលមានភាពស្មុគស្មាញក្នុងការសង្កេតជារួម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖