បញ្ហា (The Problem)៖ ជំងឺរុក្ខជាតិ និងសត្វល្អិតចង្រៃបណ្តាលឱ្យមានការខាតបង់សេដ្ឋកិច្ចក្នុងវិស័យកសិកម្មយ៉ាងធ្ងន់ធ្ងរ ខណៈដែលម៉ូដែលបណ្តាញសរសៃប្រសាទ (CNN) ធុនស្រាលដែលមានស្រាប់នៅខ្វះភាពត្រឹមត្រូវ និងសមត្ថភាពក្នុងការកំណត់ទីតាំងជំងឺបានច្បាស់លាស់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែល CNN ធុនស្រាលថ្មីមួយឈ្មោះថា GA-GhostNet ដែលរួមបញ្ចូលនូវម៉ូឌុលពង្រឹងការទាញយកលក្ខណៈពិសេស និងយន្តការយកចិត្តទុកដាក់ដែលជួយទាញយកទិន្នន័យទីតាំងសំខាន់ៗចេញពីរូបភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| GA-GhostNet (Proposed) ម៉ូដែល GA-GhostNet (ម៉ូដែលស្នើឡើង) |
មានទំហំតូច (ប៉ារ៉ាម៉ែត្រត្រឹមតែ ៣,៧៣ លាន) ដំណើរការបានលឿន និងមានសមត្ថភាពខ្ពស់ក្នុងការកំណត់ទីតាំងសត្វល្អិត និងជំងឺបានច្បាស់លាស់តាមរយៈយន្តការយកចិត្តទុកដាក់ (Attention mechanism)។ មានភាពធន់នឹងការបង្វិល ឬត្រឡប់រូបភាព។ | ដោយសារការប្រើប្រាស់បច្ចេកទេសពង្រីកទិន្នន័យ CutMix ម៉ូដែលអាចជួបប្រទះបាតុភូត Underfitting បន្តិចបន្តួចក្នុងអំឡុងពេលហ្វឹកហាត់លើសំណុំទិន្នន័យស្មុគស្មាញ។ | ទទួលបានភាពត្រឹមត្រូវ ៧១,៩០% លើទិន្នន័យ IP102, ៩៩,៨៩% លើ Jute ជាមួយនឹងចំនួនបន្ទុកគណនាត្រឹមតែ ១៦៨,៤០ លាន FLOPs ប៉ុណ្ណោះ។ |
| MobileNetV2 / MobileNetV3 ម៉ូដែល MobileNet កំណែទី២ និងទី៣ |
ជាម៉ូដែលស្តង់ដារធុនស្រាលដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយ មានភាពងាយស្រួលក្នុងការទាញយកមកប្រើ និងស៊ីទំហំគណនាតិច។ | មិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកព័ត៌មានទីតាំងនៃជំងឺនៅលើរូបភាពស្មុគស្មាញ ដែលធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិតទាបជាងម៉ូដែលស្នើឡើង។ | MobileNetV2 ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៦៩,៥៦% លើទិន្នន័យ IP102 ជាមួយនឹងចំនួនបន្ទុកគណនា ២៩៩,៦៩ លាន FLOPs។ |
| EfficientNet_b1 ម៉ូដែល EfficientNet_b1 |
មានតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ និងទំហំគណនា ព្រមទាំងមានសមត្ថភាពពង្រីកបណ្ដាញ (Scaling) បានល្អ។ | ប្រើប្រាស់យន្តការ SE Modules ដែលមិនអាចចាប់យកព័ត៌មានទីតាំងរូបភាពបានល្អ និងមានទំហំប៉ារ៉ាម៉ែត្រធំជាង GA-GhostNet ស្ទើរតែទ្វេដង។ | ទទួលបានភាពត្រឹមត្រូវ ៧០,៨៤% លើទិន្នន័យ IP102 ដោយប្រើប្រាស់ប៉ារ៉ាម៉ែត្ររហូតដល់ ៦,៤០ លាន។ |
| CNN+Transformer (MobileVit_s, EdgeNext_small) ម៉ូដែលច្របាច់បញ្ចូលគ្នា CNN និង Transformer |
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកលក្ខណៈពិសេសរួម (Global context) នៃរូបភាពតាមរយៈបច្ចេកវិទ្យា Transformer។ | មានទំហំគណនាធំខ្លាំង (FLOPs ខ្ពស់) ដែលធ្វើឱ្យមានការលំបាកក្នុងការដាក់ឱ្យដំណើរការលើឧបករណ៍ចល័តដែលមានកម្លាំងម៉ាស៊ីនខ្សោយ។ | MobileVit_s ប្រើប្រាស់បន្ទុកគណនារហូតដល់ ១៤២០,២៧ លាន FLOPs ប៉ុន្តែទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៧០,១២% ប៉ុណ្ណោះលើទិន្នន័យ IP102។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងកម្មវិធីសម្រាប់ការហ្វឹកហាត់ម៉ូដែល ព្រមទាំងសំណុំទិន្នន័យដែលត្រូវបានប្រើប្រាស់ក្នុងការពិសោធន៍។
ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យសាធារណៈដូចជា IP102, Jute, និង Embrapa ដែលផ្ទុកនូវរូបភាពសត្វល្អិត និងជំងឺដំណាំមកពីតំបន់ភូមិសាស្ត្រផ្សេងៗ (ឧ. ប្រេស៊ីល និងអាស៊ីខាងត្បូង)។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈរូបវន្តនៃសត្វល្អិត ឬប្រភេទជំងឺលើដំណាំសំខាន់ៗ (ដូចជា ស្រូវ ដំឡូងមី ស្វាយកន្ទី) អាចមានភាពខុសប្លែកគ្នា ដែលតម្រូវឱ្យមានការប្រមូលទិន្នន័យកសិកម្មក្នុងស្រុកបន្ថែមដើម្បីយកមកបង្ហាត់ម៉ូដែលនេះឡើងវិញ (Fine-tuning) ទើបអាចធានាបាននូវភាពត្រឹមត្រូវកម្រិតខ្ពស់បំផុតក្នុងស្ថានភាពជាក់ស្តែង។
ម៉ូដែល GA-GhostNet នេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមបំផុតសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធកសិកម្មឆ្លាតវៃ (Smart Agriculture) នៅកម្ពុជា ដោយសារវាជាម៉ូដែលធុនស្រាល។
ជារួម បច្ចេកវិទ្យា CNN ធុនស្រាលនេះអាចក្លាយជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពក្នុងការជួយកាត់បន្ថយការខាតបង់ទិន្នផលកសិកម្មនៅកម្ពុជា ប្រសិនបើត្រូវបានធ្វើសមាហរណកម្មជាមួយទិន្នន័យក្នុងស្រុក និងកម្មវិធីទូរស័ព្ទដៃដែលងាយស្រួលប្រើ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Lightweight CNN | បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកុំព្យូទ័រដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសឱ្យមានទំហំតូច និងស៊ីថាមពលគណនាតិច ដែលអនុញ្ញាតឱ្យវាដំណើរការដោយផ្ទាល់លើឧបករណ៍ចល័តដូចជាទូរស័ព្ទដៃ ដោយមិនពឹងផ្អែកលើកុំព្យូទ័រខ្នាតធំ។ | ដូចជារថយន្តធុនតូចស៊ីសាំងតិច ដែលអាចបើកបរបានយ៉ាងរលូនលើផ្លូវតូចចង្អៀត ផ្ទុយពីរថយន្តដឹកទំនិញធុនធ្ងន់ដែលត្រូវការផ្លូវធំ និងស៊ីប្រេងច្រើន។ |
| Coordinate Attention | យន្តការគណនាដែលជួយឱ្យម៉ូដែលផ្តោតការយកចិត្តទុកដាក់ទៅលើទីតាំងច្បាស់លាស់ (កូអរដោនេ X និង Y) នៃព័ត៌មានសំខាន់ៗក្នុងរូបភាព ជាជាងគ្រាន់តែដឹងថាមានអ្វីខ្លះនៅក្នុងរូបភាពនោះជារួម។ | ដូចជាការគូសរង្វង់ពណ៌ក្រហមលើចំណុចសំខាន់ៗនៃផែនទី ដើម្បីប្រាប់ភ្នែកយើងឱ្យផ្ដោតទៅលើទីតាំងនោះភ្លាមៗ ដោយមិនបាច់រកមើលរាយប៉ាយ។ |
| CutMix | បច្ចេកទេសពង្រីកទិន្នន័យសម្រាប់បង្វឹកម៉ូដែល ដោយធ្វើការកាត់ផ្នែកមួយនៃរូបភាពទី១ ទៅបិទភ្ជាប់ពីលើរូបភាពទី២ ដើម្បីជួយឱ្យម៉ូដែលចេះសម្គាល់លក្ខណៈពិសេសបានកាន់តែច្រើន និងទប់ស្កាត់បាតុភូតទន្ទេញចាំចម្លើយ (Overfitting)។ | ដូចជាការកាត់តរូបសត្វឆ្កែ និងឆ្មាចូលគ្នាក្នុងរូបសន្លឹកតែមួយ ដើម្បីបង្ហាត់ក្មេងឱ្យចេះបែងចែកលក្ខណៈរបស់សត្វទាំងពីរទោះបីជាវានៅលាយឡំគ្នាក៏ដោយ។ |
| Transfer Learning | ការយកចំណេះដឹងពីម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលបានហ្វឹកហាត់រួចជាស្រេចលើកិច្ចការមួយ (ឧទាហរណ៍ ការស្គាល់សត្វល្អិត) មកប្រើជាមូលដ្ឋានគ្រឹះដើម្បីហ្វឹកហាត់បន្តលើកិច្ចការថ្មីមួយទៀត (ឧទាហរណ៍ ការស្គាល់ជំងឺរុក្ខជាតិ) ដើម្បីចំណេញពេលវេលា និងប្រើទិន្នន័យតិច។ | ដូចជាមនុស្សដែលចេះជិះកង់ស្រាប់ ពេលទៅរៀនជិះម៉ូតូគឺឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ចេះជិះអ្វីសោះ។ |
| FLOPs | តំណាងឱ្យប្រតិបត្តិការគណនាទសភាគក្នុងមួយវិនាទី (Floating Point Operations) ដែលជារង្វាស់បង្ហាញពីបរិមាណនៃការគណនាគណិតវិទ្យាដែលកុំព្យូទ័រត្រូវធ្វើដើម្បីដំណើរការម៉ូដែលមួយ។ ចំនួន FLOPs កាន់តែតិច ម៉ូដែរកាន់តែស្រាល និងដំណើរការកាន់តែលឿន។ | ដូចជាចំនួនជំហានដែលចុងភៅត្រូវដើរដើម្បីចម្អិនម្ហូបមួយចាន បើជំហានកាន់តែតិច គឺចំណាយពេលកាន់តែលឿន។ |
| Depthwise convolutions | ប្រតិបត្តិការគណនាក្នុងបណ្ដាញ CNN ដែលច្រោះយកព័ត៌មានពីរូបភាពដោយបំបែកស្រទាប់ពណ៌ (ក្រហម បៃតង ខៀវ) ដាច់ដោយឡែកពីគ្នា ដែលជួយកាត់បន្ថយការគណនាបានយ៉ាងច្រើនបើធៀបនឹងការគណនារួមបញ្ចូលគ្នា។ | ដូចជាការបែងចែកកម្មករបីនាក់ឱ្យលាងបន្លែម្នាក់មួយមុខដាច់ដោយឡែកពីគ្នា ជាជាងឱ្យកម្មករម្នាក់លាងបន្លែទាំងបីមុខព្រមគ្នាក្នុងធុងតែមួយ ដែលជួយសន្សំកម្លាំង។ |
| Gated Mechanism | សមាសធាតុគណនានៅក្នុងបណ្ដាញសរសៃប្រសាទដែលដើរតួជាអ្នកត្រួតពិនិត្យ សម្រេចចិត្តថាព័ត៌មាន ឬលក្ខណៈរូបភាពណាខ្លះជារបស់សំខាន់ដែលត្រូវអនុញ្ញាតឱ្យឆ្លងកាត់ និងព័ត៌មានណាជារបស់រំខានដែលត្រូវទប់ស្កាត់ចោល។ | ដូចជាសន្តិសុខយាមច្រកទ្វារ ដែលអនុញ្ញាតឱ្យតែភ្ញៀវមានកាតសម្គាល់ខ្លួនចូលបាន និងបដិសេធអ្នកដែលគ្មានការអនុញ្ញាតមិនឱ្យចូល។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖