Original Title: Visible and Thermal Image-Based Trunk Detection with Deep Learning for Forestry Mobile Robotics
Source: doi.org/10.3390/jimaging7090176
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញគល់ឈើដោយផ្អែកលើរូបភាពដែលអាចមើលឃើញ និងរូបភាពកម្ដៅជាមួយនឹងការរៀនស៊ីជម្រៅ (Deep Learning) សម្រាប់មនុស្សយន្តចល័តក្នុងវិស័យព្រៃឈើ

ចំណងជើងដើម៖ Visible and Thermal Image-Based Trunk Detection with Deep Learning for Forestry Mobile Robotics

អ្នកនិពន្ធ៖ Daniel Queirós da Silva (INESC TEC; UTAD), Filipe Neves dos Santos (INESC TEC), Armando Jorge Sousa (INESC TEC; FEUP), Vítor Filipe (INESC TEC; UTAD)

ឆ្នាំបោះពុម្ព៖ 2021 Journal of Imaging

វិស័យសិក្សា៖ Robotics and Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការគ្រប់គ្រងបញ្ជីសារពើភណ្ឌព្រៃឈើ និងការរុករកដោយស្វ័យប្រវត្តិរបស់យានយន្ត ដោយផ្តោតលើការស្រាវជ្រាវស្វែងរកគល់ឈើនៅកម្រិតដីដោយប្រើប្រាស់មនុស្សយន្តចល័ត (Mobile Robotics) នៅក្នុងតំបន់ព្រៃឈើ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតសំណុំទិន្នន័យរូបភាពព្រៃឈើដែលប្រមូលបានដោយផ្ទាល់ និងបានប្រើប្រាស់ក្បួនដោះស្រាយការរៀនស៊ីជម្រៅ (Deep Learning) ជាច្រើន ដើម្បីធ្វើការប្រៀបធៀបប្រសិទ្ធភាពក្នុងការរកឃើញ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
YOLOv4 Tiny
ការរកឃើញវត្ថុតាមរចនាសម្ព័ន្ធ YOLOv4 Tiny (You Only Look Once)
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានល្បឿនលឿនខ្លាំងសម្រាប់ការប្រើប្រាស់លើ GPU ស័ក្តិសមបំផុតសម្រាប់ប្រព័ន្ធដំណើរការផ្ទាល់ (Real-time)។ ប្រសិទ្ធភាពធ្លាក់ចុះនៅពេលដែលកម្រិតទំនុកចិត្ត (Confidence Threshold) ត្រូវបានកំណត់ខ្ពស់ ដែលតម្រូវឱ្យមានការថ្លឹងថ្លែងឱ្យបានច្បាស់លាស់។ ទទួលបានលទ្ធផលល្អបំផុតគឺ AP 89.84% និង F1 89.37% ដោយប្រើពេលតែ 9ms ប៉ុណ្ណោះលើ GPU។
SSD MobileNetV2
បណ្តាញសរសៃប្រសាទ MobileNetV2 ជាមួយបច្ចេកទេស SSD
មានល្បឿនលឿនបំផុតនៅលើ CPU និងមានស្ថិរភាពខ្ពស់ទោះបីជាដំឡើងកម្រិតទំនុកចិត្តខ្ពស់ក៏ដោយ។ ភាពត្រឹមត្រូវមានកម្រិតទាប បើប្រៀបធៀបជាមួយ YOLO មិនសូវស័ក្តិសមសម្រាប់ការងារដែលទាមទារភាពសុក្រឹតខ្ពស់ខ្លាំង។ សម្រេចបាន AP 72.68% តែមានល្បឿនលឿនលើ CPU (58ms ក្នុងមួយរូបភាព)។
SSD ResNet50
បណ្តាញសរសៃប្រសាទ ResNet50 ជាមួយបច្ចេកទេស SSD
ផ្តល់ភាពត្រឹមត្រូវមធ្យមគួរសម ល្អជាង MobileNetV2 ក្នុងការទាញយកលក្ខណៈពិសេសនៃរូបភាពសាំញ៉ាំ។ យឺតជាងគេបំផុតក្នុងការវាយតម្លៃ ទាមទារអង្គចងចាំធំ និងធ្លាក់ចុះគុណភាពខ្លាំងនៅពេលបន្ថែមទំនុកចិត្តខ្ពស់។ សម្រេចបាន AP 78.19% និង F1 84.75% ប៉ុន្តែយឺតខ្លាំងលើ CPU (1789ms) និង GPU (50ms)។
SSD Inception-v2
បណ្តាញសរសៃប្រសាទ Inception-v2 ជាមួយបច្ចេកទេស SSD
មានស្ថិរភាពខ្ពស់ជាងគេបំផុត ធ្លាក់ចុះឥទ្ធិពលតិចតួចបំផុតទោះបីជាបង្កើនកម្រិតទំនុកចិត្តខ្ពស់រហូតដល់ ៩៥% ក៏ដោយ។ ផ្តល់ភាពត្រឹមត្រូវកម្រិតមធ្យម មិនទាន់អាចប្រកួតប្រជែងជាមួយ YOLOv4 បានទេទាក់ទងនឹងភាពសុក្រឹតសរុប។ ទម្លាក់កម្រិត AP ត្រឹមតែ 9.13% ទេនៅពេលដំឡើងកម្រិតទំនុកចិត្តដល់ ៩៥% ដោយរក្សាបាន AP ជាមធ្យម 75.29%។
SSDLite MobileDet
ម៉ូដែលទម្ងន់ស្រាល SSDLite MobileDet សម្រាប់ឧបករណ៍ចល័ត
ស៊ីទំហំផ្ទុកតិច និងត្រូវបានរចនាឡើងពិសេសសម្រាប់ឧបករណ៍ដែលមានថាមពលទាបបំផុត។ ទទួលបានលទ្ធផលអន់ជាងគេបំផុត ទាំងកម្រិតភាពត្រឹមត្រូវ (AP) និងពិន្ទុ F1។ ទទួលបានលទ្ធផលទាបបំផុតគឺ AP 68.08% និងពិន្ទុ F1 73.53%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងផ្នែកទន់ ដោយប្រើប្រាស់ប្រព័ន្ធ Cloud ដើម្បីទូទាត់សងជាមួយធនធានផ្ទាល់ខ្លួនដែលមានកំណត់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ព្រៃឈើនៃប្រទេសព័រទុយហ្គាល់ ដោយផ្តោតលើប្រភេទដើមប្រេងខ្យល់ និងដើមស្រល់។ នេះមានន័យថា សំណុំទិន្នន័យមិនឆ្លុះបញ្ចាំងពីលក្ខខណ្ឌអាកាសធាតុ កម្រិតពន្លឺ និងរុក្ខជាតិក្នុងតំបន់ត្រូពិកឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ម៉ូដែលទាំងនេះចាំបាច់ត្រូវតែបង្ហាត់ឡើងវិញ (Retrain) ជាមួយប្រភេទដើមឈើក្នុងស្រុក (ដូចជា ដើមកៅស៊ូ ស្វាយចន្ទី ឬម៉ៃសាក់) ទើបអាចធានាបាននូវប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់ជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ការអនុវត្តក្នុងវិស័យកសិកម្ម-ឧស្សាហកម្ម និងការអភិរក្សព្រៃឈើនៅប្រទេសកម្ពុជា។

ការរួមបញ្ចូលប្រព័ន្ធកាមេរ៉ាកម្ដៅ និងម៉ូដែលរៀនស៊ីជម្រៅនេះ នឹងជួយកម្ពុជាផ្លាស់ប្តូរពីកសិកម្មពលកម្មប្រពៃណី ទៅជាកសិកម្មឆ្លាតវៃដែលប្រើប្រាស់មនុស្សយន្តកម្រិតខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ការប្រមូល និងចំណាំទិន្នន័យរូបភាព (Data Collection & Annotation): ថតរូបភាពគល់ឈើ (ឧទាហរណ៍ ដើមកៅស៊ូ) នៅចំការក្នុងស្រុកឱ្យបានយ៉ាងហោចណាស់ ១០០០សន្លឹក រួចប្រើប្រាស់កម្មវិធីសូហ្វវែរអនឡាញដូចជា CVATRoboflow ដើម្បីគូសប្រអប់ចំណាំ (Bounding Box) ជុំវិញគល់ឈើនីមួយៗ។
  2. ជំហានទី២៖ ការពង្រីកចំនួនទិន្នន័យ (Data Augmentation): សរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Albumentations ដើម្បីបង្កើតរូបភាពថ្មីៗពីទិន្នន័យដើម តាមរយៈការបង្វិលរូបភាព ផ្លាស់ប្តូរកម្រិតពន្លឺ (Brightness) និងការបន្ថែមគ្រាប់អុជ Noise ដើម្បិឱ្យម៉ូដែលស៊ាំនឹងកម្រិតពន្លឺព្រៃក្នុងប្រទេសកម្ពុជា។
  3. ជំហានទី៣៖ ការបង្ហាត់ម៉ូដែលរៀនស៊ីជម្រៅ (Model Training): ជ្រើសរើសប្រើប្រាស់ម៉ូដែល YOLOv8 (ជំនាន់ថ្មី និងងាយស្រួលជាង YOLOv4 Tiny) ដោយដំណើរការវានៅលើ Google Colab ដើម្បីទទួលបានការប្រើប្រាស់ GPU ដោយឥតគិតថ្លៃ និងសន្សំសំចៃថវិកា។
  4. ជំហានទី៤៖ ការវាយតម្លៃម៉ូដែល (Model Evaluation): ប្រើប្រាស់ទិន្នន័យសាកល្បង (Test Set) ដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាព ដោយតាមដានសូចនាករ mAP និងកំណត់កម្រិតទំនុកចិត្ត (Confidence Threshold) ប្រហែល ៥០% ទៅ ៦០% ក្នុងកូដ Python របស់អ្នក ដើម្បីរក្សាតុល្យភាពល្អរវាងការរកឃើញ និងភាពត្រឹមត្រូវ។
  5. ជំហានទី៥៖ ការដាក់ឱ្យដំណើរការលើ Hardware ខ្នាតតូច (Edge Deployment): បំប្លែង (Export) ម៉ូដែលដែលបង្ហាត់រួចទៅជាទម្រង់ TensorFlow LiteONNX ដើម្បីកាត់បន្ថយទំហំ បន្ទាប់មកដំឡើងវាទៅក្នុងប្រព័ន្ធកុំព្យូទ័រខ្នាតតូចដូចជា Raspberry Pi 4NVIDIA Jetson Nano ដែលតភ្ជាប់ជាមួយកាមេរ៉ាដើម្បីដាក់លើមនុស្សយន្តសាកល្បង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Convolutional Neural Network (CNN) ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងសម្គាល់រូបភាព ដោយវាដំណើរការត្រងយកលក្ខណៈពិសេសៗរបស់រូបភាពមួយតាំងពីកម្រិតបន្ទាត់ គែម ទម្រង់រហូតដល់ពណ៌របស់វត្ថុ។ ដូចជាភ្នែក និងខួរក្បាលរបស់មនុស្សដែលសម្លឹងមើលទៅបំណែករាងកាយនីមួយៗ រួចផ្តុំគ្នាដើម្បីសម្គាល់ថានោះគឺជាមនុស្ស។
Single-Shot Detector (SSD) ជាក្បួនដោះស្រាយក្នុងការរកឃើញវត្ថុ ដែលដំណើរការស្កេនរូបភាពទាំងមូលតែម្តងគត់ (Single pass) ដើម្បីកំណត់ទីតាំង និងប្រភេទវត្ថុក្នុងពេលតែមួយ ដែលធ្វើឱ្យវាមានល្បឿនលឿនសម្រាប់ប្រតិបត្តិការភ្លាមៗ។ ដូចជាការសម្លឹងមើលទិដ្ឋភាពក្នុងបន្ទប់ទាំងមូលក្នុងមួយព្រិចភ្នែក ហើយអាចប្រាប់បានភ្លាមៗថានរណាអង្គុយនៅឯណា ដោយមិនបាច់សម្លឹងមើលស្វែងរកម្ដងម្នាក់ៗនោះទេ។
Intersection over Union (IoU) ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃភាពសុក្រឹតនៃការរកឃើញវត្ថុ ដោយវាធ្វើការប្រៀបធៀបផ្ទៃត្រួតស៊ីគ្នារវាងប្រអប់ទីតាំងដែលកុំព្យូទ័រទាយ (Predicted Box) និងប្រអប់ទីតាំងពិតប្រាកដដែលមនុស្សបានគូសចំណាំ (Ground-truth Box)។ ដូចជាការគូសរង្វង់ពីរ មួយជាផ្ទាំងស៊ីបពិតប្រាកដ និងមួយទៀតជាកន្លែងដែលអ្នកគប់ត្រូវ បើវានៅត្រួតស៊ីគ្នាជិត ១០០% មានន័យថាអ្នកគប់បានចំគោលដៅល្អបំផុត។
Non-Maximum Suppression (NMS) ជាបច្ចេកទេសច្រោះយកតែលទ្ធផលល្អបំផុត ដោយលុបចោលនូវប្រអប់ទីតាំងស្ទួនៗគ្នាជាច្រើនដែលកុំព្យូទ័របានគូសជុំវិញវត្ថុតែមួយ ដោយរក្សាទុកតែប្រអប់មួយដែលមានពិន្ទុទំនុកចិត្ត (Confidence Score) ខ្ពស់ជាងគេ។ ដូចជាការថតរូបសន្លឹកមនុស្សម្នាក់ច្រើនប៉ុស្តិ៍ក្នុងពេលតែមួយ ហើយយើងរើសយកតែរូបមួយណាដែលច្បាស់ជាងគេបំផុត រួចលុបរូបផ្សេងៗទៀតចោលដើម្បីកុំឱ្យជាន់គ្នា។
Transfer Learning ជាវិធីសាស្ត្រយកចំណេះដឹងពីម៉ូដែលដែលត្រូវបានបង្ហាត់រួចរាល់លើទិន្នន័យរាប់លាន (ដូចជាសំណុំទិន្នន័យ COCO) មកប្រើប្រាស់ជាគ្រឹះដើម្បីបង្ហាត់បន្តលើកិច្ចការថ្មីមួយទៀត (ដូចជារកគល់ឈើ) ដើម្បីចំណេញពេលវេលា និងមិនត្រូវការទិន្នន័យច្រើន។ ដូចជាអ្នកដែលចេះជិះកង់ស្ទាត់ជំនាញរួចហើយ ពេលប្តូរមកហាត់ជិះម៉ូតូ អ្នកនោះនឹងឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ចេះជិះអ្វីសោះ។
Data Augmentation ជាបច្ចេកទេសពង្រីកចំនួនទិន្នន័យសម្រាប់បង្ហាត់កុំព្យូទ័រ តាមរយៈការយកទិន្នន័យរូបភាពដើមមកកែច្នៃបន្ថែម ដូចជាការបង្វិល ត្រឡប់ ផ្លាស់ប្តូរពន្លឺ ឬបន្ថែមចំណុចព្រិល ដើម្បីឱ្យកុំព្យូទ័រស៊ាំនឹងការប្រែប្រួលផ្សេងៗក្នុងបរិស្ថានពិត។ ដូចជាការឱ្យក្មេងមើលរូបថតសត្វឆ្កែតែមួយក្បាល ក្នុងទិដ្ឋភាពផ្ងារកាឡាប់ ងងឹត និងព្រិល ដើម្បីឱ្យក្មេងនោះអាចចំណាំសត្វឆ្កែបានទោះបីជានៅក្នុងស្ថានភាពណាក៏ដោយ។
Average Precision (AP) ជាសូចនាករសង្ខេបដែលវាយតម្លៃសមត្ថភាពរួមរបស់ម៉ូដែលក្នុងការរកឃើញវត្ថុ ដោយវាគណនាមធ្យមភាគនៃភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញកុំឱ្យចន្លោះ (Recall) បញ្ចូលគ្នាទៅជាតម្លៃតែមួយ។ ដូចជាពិន្ទុមធ្យមសរុបប្រចាំឆ្នាំរបស់សិស្ស ដែលឆ្លុះបញ្ចាំងពីសមត្ថភាពរៀនសូត្ររបស់គេលើគ្រប់មុខវិជ្ជា និងរាល់ការប្រឡងទាំងអស់បញ្ចូលគ្នា។
Bounding Box ជាប្រអប់រាងចតុកោណកែងដែលក្បួនដោះស្រាយកុំព្យូទ័រគូសបញ្ជាក់ទីតាំង និងទំហំរបស់វត្ថុគោលដៅនៅក្នុងរូបភាព ដើម្បីបង្ហាញថាវត្ថុដែលវាស្រាវជ្រាវរកឃើញនោះស្ថិតនៅត្រង់ចំណុចណាពិតប្រាកដ។ ដូចជាការយកប៊ិចពណ៌ទៅគូសរង្វង់ព័ទ្ធជុំវិញមុខរបស់មិត្តភក្តិក្នុងសន្លឹករូបថតរួមគ្នា ដើម្បីចង្អុលប្រាប់អ្នកដទៃថាគាត់ឈរនៅត្រង់ណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖