Original Title: GA-GhostNet: A Lightweight CNN Model for Identifying Pests and Diseases Using a Gated Multi-Scale Coordinate Attention Mechanism
Source: www.engineeringletters.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

GA-GhostNet: ម៉ូដែល CNN ធុនស្រាលសម្រាប់ការកំណត់អត្តសញ្ញាណសត្វល្អិត និងជំងឺ ដោយប្រើប្រាស់យន្តការ Gated Multi-Scale Coordinate Attention

ចំណងជើងដើម៖ GA-GhostNet: A Lightweight CNN Model for Identifying Pests and Diseases Using a Gated Multi-Scale Coordinate Attention Mechanism

អ្នកនិពន្ធ៖ Yu Xiao (University of Science and Technology Liaoning), Jie Wu (University of Science and Technology Liaoning), Chi Ma (Huizhou University)

ឆ្នាំបោះពុម្ព៖ 2024, Engineering Letters

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺរុក្ខជាតិ និងសត្វល្អិតចង្រៃបណ្តាលឱ្យមានការខាតបង់សេដ្ឋកិច្ចក្នុងវិស័យកសិកម្មយ៉ាងធ្ងន់ធ្ងរ ខណៈដែលម៉ូដែលបណ្តាញសរសៃប្រសាទ (CNN) ធុនស្រាលដែលមានស្រាប់នៅខ្វះភាពត្រឹមត្រូវ និងសមត្ថភាពក្នុងការកំណត់ទីតាំងជំងឺបានច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែល CNN ធុនស្រាលថ្មីមួយឈ្មោះថា GA-GhostNet ដែលរួមបញ្ចូលនូវម៉ូឌុលពង្រឹងការទាញយកលក្ខណៈពិសេស និងយន្តការយកចិត្តទុកដាក់ដែលជួយទាញយកទិន្នន័យទីតាំងសំខាន់ៗចេញពីរូបភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
GA-GhostNet (Proposed)
ម៉ូដែល GA-GhostNet (ម៉ូដែលស្នើឡើង)
មានទំហំតូច (ប៉ារ៉ាម៉ែត្រត្រឹមតែ ៣,៧៣ លាន) ដំណើរការបានលឿន និងមានសមត្ថភាពខ្ពស់ក្នុងការកំណត់ទីតាំងសត្វល្អិត និងជំងឺបានច្បាស់លាស់តាមរយៈយន្តការយកចិត្តទុកដាក់ (Attention mechanism)។ មានភាពធន់នឹងការបង្វិល ឬត្រឡប់រូបភាព។ ដោយសារការប្រើប្រាស់បច្ចេកទេសពង្រីកទិន្នន័យ CutMix ម៉ូដែលអាចជួបប្រទះបាតុភូត Underfitting បន្តិចបន្តួចក្នុងអំឡុងពេលហ្វឹកហាត់លើសំណុំទិន្នន័យស្មុគស្មាញ។ ទទួលបានភាពត្រឹមត្រូវ ៧១,៩០% លើទិន្នន័យ IP102, ៩៩,៨៩% លើ Jute ជាមួយនឹងចំនួនបន្ទុកគណនាត្រឹមតែ ១៦៨,៤០ លាន FLOPs ប៉ុណ្ណោះ។
MobileNetV2 / MobileNetV3
ម៉ូដែល MobileNet កំណែទី២ និងទី៣
ជាម៉ូដែលស្តង់ដារធុនស្រាលដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយ មានភាពងាយស្រួលក្នុងការទាញយកមកប្រើ និងស៊ីទំហំគណនាតិច។ មិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកព័ត៌មានទីតាំងនៃជំងឺនៅលើរូបភាពស្មុគស្មាញ ដែលធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិតទាបជាងម៉ូដែលស្នើឡើង។ MobileNetV2 ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៦៩,៥៦% លើទិន្នន័យ IP102 ជាមួយនឹងចំនួនបន្ទុកគណនា ២៩៩,៦៩ លាន FLOPs។
EfficientNet_b1
ម៉ូដែល EfficientNet_b1
មានតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ និងទំហំគណនា ព្រមទាំងមានសមត្ថភាពពង្រីកបណ្ដាញ (Scaling) បានល្អ។ ប្រើប្រាស់យន្តការ SE Modules ដែលមិនអាចចាប់យកព័ត៌មានទីតាំងរូបភាពបានល្អ និងមានទំហំប៉ារ៉ាម៉ែត្រធំជាង GA-GhostNet ស្ទើរតែទ្វេដង។ ទទួលបានភាពត្រឹមត្រូវ ៧០,៨៤% លើទិន្នន័យ IP102 ដោយប្រើប្រាស់ប៉ារ៉ាម៉ែត្ររហូតដល់ ៦,៤០ លាន។
CNN+Transformer (MobileVit_s, EdgeNext_small)
ម៉ូដែលច្របាច់បញ្ចូលគ្នា CNN និង Transformer
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកលក្ខណៈពិសេសរួម (Global context) នៃរូបភាពតាមរយៈបច្ចេកវិទ្យា Transformer។ មានទំហំគណនាធំខ្លាំង (FLOPs ខ្ពស់) ដែលធ្វើឱ្យមានការលំបាកក្នុងការដាក់ឱ្យដំណើរការលើឧបករណ៍ចល័តដែលមានកម្លាំងម៉ាស៊ីនខ្សោយ។ MobileVit_s ប្រើប្រាស់បន្ទុកគណនារហូតដល់ ១៤២០,២៧ លាន FLOPs ប៉ុន្តែទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៧០,១២% ប៉ុណ្ណោះលើទិន្នន័យ IP102។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងកម្មវិធីសម្រាប់ការហ្វឹកហាត់ម៉ូដែល ព្រមទាំងសំណុំទិន្នន័យដែលត្រូវបានប្រើប្រាស់ក្នុងការពិសោធន៍។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យសាធារណៈដូចជា IP102, Jute, និង Embrapa ដែលផ្ទុកនូវរូបភាពសត្វល្អិត និងជំងឺដំណាំមកពីតំបន់ភូមិសាស្ត្រផ្សេងៗ (ឧ. ប្រេស៊ីល និងអាស៊ីខាងត្បូង)។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈរូបវន្តនៃសត្វល្អិត ឬប្រភេទជំងឺលើដំណាំសំខាន់ៗ (ដូចជា ស្រូវ ដំឡូងមី ស្វាយកន្ទី) អាចមានភាពខុសប្លែកគ្នា ដែលតម្រូវឱ្យមានការប្រមូលទិន្នន័យកសិកម្មក្នុងស្រុកបន្ថែមដើម្បីយកមកបង្ហាត់ម៉ូដែលនេះឡើងវិញ (Fine-tuning) ទើបអាចធានាបាននូវភាពត្រឹមត្រូវកម្រិតខ្ពស់បំផុតក្នុងស្ថានភាពជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ម៉ូដែល GA-GhostNet នេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមបំផុតសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធកសិកម្មឆ្លាតវៃ (Smart Agriculture) នៅកម្ពុជា ដោយសារវាជាម៉ូដែលធុនស្រាល។

ជារួម បច្ចេកវិទ្យា CNN ធុនស្រាលនេះអាចក្លាយជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពក្នុងការជួយកាត់បន្ថយការខាតបង់ទិន្នផលកសិកម្មនៅកម្ពុជា ប្រសិនបើត្រូវបានធ្វើសមាហរណកម្មជាមួយទិន្នន័យក្នុងស្រុក និងកម្មវិធីទូរស័ព្ទដៃដែលងាយស្រួលប្រើ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះ Computer Vision និង PyTorch: និស្សិតត្រូវចាប់ផ្តើមដោយការរៀនសរសេរកូដ Python និងស្វែងយល់ពីរបៀបប្រើប្រាស់បណ្ណាល័យ PyTorch សម្រាប់ការចាត់ថ្នាក់រូបភាព។ គួរអនុវត្តការកសាងម៉ូដែល CNN សាមញ្ញជាមុនសិន។
  2. ជំហានទី២៖ ស្វែងយល់ពីយន្តការ Attention និង Lightweight CNNs: ត្រូវអាន និងស្រាវជ្រាវស៊ីជម្រៅអំពីស្ថាបត្យកម្មកុំព្យូទ័រធុនស្រាលដូចជា GhostNet និងយន្តការកែលម្អដូចជា Coordinate Attention (CA) និង Asymmetrical Convolution ដើម្បីយល់ពីរបៀបដែលម៉ូដែលកាត់បន្ថយការគណនាដោយមិនប៉ះពាល់ដល់ភាពត្រឹមត្រូវ។
  3. ជំហានទី៣៖ ប្រមូល និងរៀបចំទិន្នន័យកសិកម្មក្នុងស្រុក: សហការជាមួយមន្ទីរកសិកម្ម ឬកសិករដើម្បីថតរូបភាពជំងឺដំណាំជាក់ស្តែងនៅកម្ពុជា (ឧ. ជំងឺស្រូវ)។ បន្ទាប់មក ប្រើប្រាស់បច្ចេកទេស CutMix និង Random Horizontal Flip ដើម្បីពង្រីកសំណុំទិន្នន័យនោះឱ្យកាន់តែធំ និងមានភាពចម្រុះ។
  4. ជំហានទី៤៖ អនុវត្តការរៀនបញ្ជូនចំណេះដឹង (Transfer Learning): ទាញយកទម្ងន់ម៉ូដែល (Pre-trained weights) ដែលបានហ្វឹកហាត់រួចលើសំណុំទិន្នន័យ IP102 រួចយកមកហ្វឹកហាត់បន្ត (Fine-tune) លើសំណុំទិន្នន័យក្នុងស្រុកដែលបានរៀបចំក្នុងជំហានទី៣ ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងការស្គាល់ជំងឺក្នុងស្រុក។
  5. ជំហានទី៥៖ បំប្លែង និងដាក់ឱ្យដំណើរការលើទូរស័ព្ទដៃ (Model Deployment): បំប្លែងម៉ូដែលដែលហ្វឹកហាត់រួចទៅជាទម្រង់ ONNX ឬ TFLite ដើម្បីកាត់បន្ថយទំហំកាន់តែតូច រួចធ្វើសមាហរណកម្មវាទៅក្នុងកម្មវិធីទូរស័ព្ទដៃ (Android/iOS) ដើម្បីតេស្តដំណើរការក្នុងស្ថានភាពជាក់ស្តែងនៅតាមចម្ការ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Lightweight CNN បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកុំព្យូទ័រដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសឱ្យមានទំហំតូច និងស៊ីថាមពលគណនាតិច ដែលអនុញ្ញាតឱ្យវាដំណើរការដោយផ្ទាល់លើឧបករណ៍ចល័តដូចជាទូរស័ព្ទដៃ ដោយមិនពឹងផ្អែកលើកុំព្យូទ័រខ្នាតធំ។ ដូចជារថយន្តធុនតូចស៊ីសាំងតិច ដែលអាចបើកបរបានយ៉ាងរលូនលើផ្លូវតូចចង្អៀត ផ្ទុយពីរថយន្តដឹកទំនិញធុនធ្ងន់ដែលត្រូវការផ្លូវធំ និងស៊ីប្រេងច្រើន។
Coordinate Attention យន្តការគណនាដែលជួយឱ្យម៉ូដែលផ្តោតការយកចិត្តទុកដាក់ទៅលើទីតាំងច្បាស់លាស់ (កូអរដោនេ X និង Y) នៃព័ត៌មានសំខាន់ៗក្នុងរូបភាព ជាជាងគ្រាន់តែដឹងថាមានអ្វីខ្លះនៅក្នុងរូបភាពនោះជារួម។ ដូចជាការគូសរង្វង់ពណ៌ក្រហមលើចំណុចសំខាន់ៗនៃផែនទី ដើម្បីប្រាប់ភ្នែកយើងឱ្យផ្ដោតទៅលើទីតាំងនោះភ្លាមៗ ដោយមិនបាច់រកមើលរាយប៉ាយ។
CutMix បច្ចេកទេសពង្រីកទិន្នន័យសម្រាប់បង្វឹកម៉ូដែល ដោយធ្វើការកាត់ផ្នែកមួយនៃរូបភាពទី១ ទៅបិទភ្ជាប់ពីលើរូបភាពទី២ ដើម្បីជួយឱ្យម៉ូដែលចេះសម្គាល់លក្ខណៈពិសេសបានកាន់តែច្រើន និងទប់ស្កាត់បាតុភូតទន្ទេញចាំចម្លើយ (Overfitting)។ ដូចជាការកាត់តរូបសត្វឆ្កែ និងឆ្មាចូលគ្នាក្នុងរូបសន្លឹកតែមួយ ដើម្បីបង្ហាត់ក្មេងឱ្យចេះបែងចែកលក្ខណៈរបស់សត្វទាំងពីរទោះបីជាវានៅលាយឡំគ្នាក៏ដោយ។
Transfer Learning ការយកចំណេះដឹងពីម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលបានហ្វឹកហាត់រួចជាស្រេចលើកិច្ចការមួយ (ឧទាហរណ៍ ការស្គាល់សត្វល្អិត) មកប្រើជាមូលដ្ឋានគ្រឹះដើម្បីហ្វឹកហាត់បន្តលើកិច្ចការថ្មីមួយទៀត (ឧទាហរណ៍ ការស្គាល់ជំងឺរុក្ខជាតិ) ដើម្បីចំណេញពេលវេលា និងប្រើទិន្នន័យតិច។ ដូចជាមនុស្សដែលចេះជិះកង់ស្រាប់ ពេលទៅរៀនជិះម៉ូតូគឺឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ចេះជិះអ្វីសោះ។
FLOPs តំណាងឱ្យប្រតិបត្តិការគណនាទសភាគក្នុងមួយវិនាទី (Floating Point Operations) ដែលជារង្វាស់បង្ហាញពីបរិមាណនៃការគណនាគណិតវិទ្យាដែលកុំព្យូទ័រត្រូវធ្វើដើម្បីដំណើរការម៉ូដែលមួយ។ ចំនួន FLOPs កាន់តែតិច ម៉ូដែរកាន់តែស្រាល និងដំណើរការកាន់តែលឿន។ ដូចជាចំនួនជំហានដែលចុងភៅត្រូវដើរដើម្បីចម្អិនម្ហូបមួយចាន បើជំហានកាន់តែតិច គឺចំណាយពេលកាន់តែលឿន។
Depthwise convolutions ប្រតិបត្តិការគណនាក្នុងបណ្ដាញ CNN ដែលច្រោះយកព័ត៌មានពីរូបភាពដោយបំបែកស្រទាប់ពណ៌ (ក្រហម បៃតង ខៀវ) ដាច់ដោយឡែកពីគ្នា ដែលជួយកាត់បន្ថយការគណនាបានយ៉ាងច្រើនបើធៀបនឹងការគណនារួមបញ្ចូលគ្នា។ ដូចជាការបែងចែកកម្មករបីនាក់ឱ្យលាងបន្លែម្នាក់មួយមុខដាច់ដោយឡែកពីគ្នា ជាជាងឱ្យកម្មករម្នាក់លាងបន្លែទាំងបីមុខព្រមគ្នាក្នុងធុងតែមួយ ដែលជួយសន្សំកម្លាំង។
Gated Mechanism សមាសធាតុគណនានៅក្នុងបណ្ដាញសរសៃប្រសាទដែលដើរតួជាអ្នកត្រួតពិនិត្យ សម្រេចចិត្តថាព័ត៌មាន ឬលក្ខណៈរូបភាពណាខ្លះជារបស់សំខាន់ដែលត្រូវអនុញ្ញាតឱ្យឆ្លងកាត់ និងព័ត៌មានណាជារបស់រំខានដែលត្រូវទប់ស្កាត់ចោល។ ដូចជាសន្តិសុខយាមច្រកទ្វារ ដែលអនុញ្ញាតឱ្យតែភ្ញៀវមានកាតសម្គាល់ខ្លួនចូលបាន និងបដិសេធអ្នកដែលគ្មានការអនុញ្ញាតមិនឱ្យចូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖