បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការគ្រប់គ្រងបញ្ជីសារពើភណ្ឌព្រៃឈើ និងការរុករកដោយស្វ័យប្រវត្តិរបស់យានយន្ត ដោយផ្តោតលើការស្រាវជ្រាវស្វែងរកគល់ឈើនៅកម្រិតដីដោយប្រើប្រាស់មនុស្សយន្តចល័ត (Mobile Robotics) នៅក្នុងតំបន់ព្រៃឈើ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតសំណុំទិន្នន័យរូបភាពព្រៃឈើដែលប្រមូលបានដោយផ្ទាល់ និងបានប្រើប្រាស់ក្បួនដោះស្រាយការរៀនស៊ីជម្រៅ (Deep Learning) ជាច្រើន ដើម្បីធ្វើការប្រៀបធៀបប្រសិទ្ធភាពក្នុងការរកឃើញ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| YOLOv4 Tiny ការរកឃើញវត្ថុតាមរចនាសម្ព័ន្ធ YOLOv4 Tiny (You Only Look Once) |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានល្បឿនលឿនខ្លាំងសម្រាប់ការប្រើប្រាស់លើ GPU ស័ក្តិសមបំផុតសម្រាប់ប្រព័ន្ធដំណើរការផ្ទាល់ (Real-time)។ | ប្រសិទ្ធភាពធ្លាក់ចុះនៅពេលដែលកម្រិតទំនុកចិត្ត (Confidence Threshold) ត្រូវបានកំណត់ខ្ពស់ ដែលតម្រូវឱ្យមានការថ្លឹងថ្លែងឱ្យបានច្បាស់លាស់។ | ទទួលបានលទ្ធផលល្អបំផុតគឺ AP 89.84% និង F1 89.37% ដោយប្រើពេលតែ 9ms ប៉ុណ្ណោះលើ GPU។ |
| SSD MobileNetV2 បណ្តាញសរសៃប្រសាទ MobileNetV2 ជាមួយបច្ចេកទេស SSD |
មានល្បឿនលឿនបំផុតនៅលើ CPU និងមានស្ថិរភាពខ្ពស់ទោះបីជាដំឡើងកម្រិតទំនុកចិត្តខ្ពស់ក៏ដោយ។ | ភាពត្រឹមត្រូវមានកម្រិតទាប បើប្រៀបធៀបជាមួយ YOLO មិនសូវស័ក្តិសមសម្រាប់ការងារដែលទាមទារភាពសុក្រឹតខ្ពស់ខ្លាំង។ | សម្រេចបាន AP 72.68% តែមានល្បឿនលឿនលើ CPU (58ms ក្នុងមួយរូបភាព)។ |
| SSD ResNet50 បណ្តាញសរសៃប្រសាទ ResNet50 ជាមួយបច្ចេកទេស SSD |
ផ្តល់ភាពត្រឹមត្រូវមធ្យមគួរសម ល្អជាង MobileNetV2 ក្នុងការទាញយកលក្ខណៈពិសេសនៃរូបភាពសាំញ៉ាំ។ | យឺតជាងគេបំផុតក្នុងការវាយតម្លៃ ទាមទារអង្គចងចាំធំ និងធ្លាក់ចុះគុណភាពខ្លាំងនៅពេលបន្ថែមទំនុកចិត្តខ្ពស់។ | សម្រេចបាន AP 78.19% និង F1 84.75% ប៉ុន្តែយឺតខ្លាំងលើ CPU (1789ms) និង GPU (50ms)។ |
| SSD Inception-v2 បណ្តាញសរសៃប្រសាទ Inception-v2 ជាមួយបច្ចេកទេស SSD |
មានស្ថិរភាពខ្ពស់ជាងគេបំផុត ធ្លាក់ចុះឥទ្ធិពលតិចតួចបំផុតទោះបីជាបង្កើនកម្រិតទំនុកចិត្តខ្ពស់រហូតដល់ ៩៥% ក៏ដោយ។ | ផ្តល់ភាពត្រឹមត្រូវកម្រិតមធ្យម មិនទាន់អាចប្រកួតប្រជែងជាមួយ YOLOv4 បានទេទាក់ទងនឹងភាពសុក្រឹតសរុប។ | ទម្លាក់កម្រិត AP ត្រឹមតែ 9.13% ទេនៅពេលដំឡើងកម្រិតទំនុកចិត្តដល់ ៩៥% ដោយរក្សាបាន AP ជាមធ្យម 75.29%។ |
| SSDLite MobileDet ម៉ូដែលទម្ងន់ស្រាល SSDLite MobileDet សម្រាប់ឧបករណ៍ចល័ត |
ស៊ីទំហំផ្ទុកតិច និងត្រូវបានរចនាឡើងពិសេសសម្រាប់ឧបករណ៍ដែលមានថាមពលទាបបំផុត។ | ទទួលបានលទ្ធផលអន់ជាងគេបំផុត ទាំងកម្រិតភាពត្រឹមត្រូវ (AP) និងពិន្ទុ F1។ | ទទួលបានលទ្ធផលទាបបំផុតគឺ AP 68.08% និងពិន្ទុ F1 73.53%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងផ្នែកទន់ ដោយប្រើប្រាស់ប្រព័ន្ធ Cloud ដើម្បីទូទាត់សងជាមួយធនធានផ្ទាល់ខ្លួនដែលមានកំណត់។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ព្រៃឈើនៃប្រទេសព័រទុយហ្គាល់ ដោយផ្តោតលើប្រភេទដើមប្រេងខ្យល់ និងដើមស្រល់។ នេះមានន័យថា សំណុំទិន្នន័យមិនឆ្លុះបញ្ចាំងពីលក្ខខណ្ឌអាកាសធាតុ កម្រិតពន្លឺ និងរុក្ខជាតិក្នុងតំបន់ត្រូពិកឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ម៉ូដែលទាំងនេះចាំបាច់ត្រូវតែបង្ហាត់ឡើងវិញ (Retrain) ជាមួយប្រភេទដើមឈើក្នុងស្រុក (ដូចជា ដើមកៅស៊ូ ស្វាយចន្ទី ឬម៉ៃសាក់) ទើបអាចធានាបាននូវប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់ជាក់ស្តែង។
បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ការអនុវត្តក្នុងវិស័យកសិកម្ម-ឧស្សាហកម្ម និងការអភិរក្សព្រៃឈើនៅប្រទេសកម្ពុជា។
ការរួមបញ្ចូលប្រព័ន្ធកាមេរ៉ាកម្ដៅ និងម៉ូដែលរៀនស៊ីជម្រៅនេះ នឹងជួយកម្ពុជាផ្លាស់ប្តូរពីកសិកម្មពលកម្មប្រពៃណី ទៅជាកសិកម្មឆ្លាតវៃដែលប្រើប្រាស់មនុស្សយន្តកម្រិតខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Convolutional Neural Network (CNN) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងសម្គាល់រូបភាព ដោយវាដំណើរការត្រងយកលក្ខណៈពិសេសៗរបស់រូបភាពមួយតាំងពីកម្រិតបន្ទាត់ គែម ទម្រង់រហូតដល់ពណ៌របស់វត្ថុ។ | ដូចជាភ្នែក និងខួរក្បាលរបស់មនុស្សដែលសម្លឹងមើលទៅបំណែករាងកាយនីមួយៗ រួចផ្តុំគ្នាដើម្បីសម្គាល់ថានោះគឺជាមនុស្ស។ |
| Single-Shot Detector (SSD) | ជាក្បួនដោះស្រាយក្នុងការរកឃើញវត្ថុ ដែលដំណើរការស្កេនរូបភាពទាំងមូលតែម្តងគត់ (Single pass) ដើម្បីកំណត់ទីតាំង និងប្រភេទវត្ថុក្នុងពេលតែមួយ ដែលធ្វើឱ្យវាមានល្បឿនលឿនសម្រាប់ប្រតិបត្តិការភ្លាមៗ។ | ដូចជាការសម្លឹងមើលទិដ្ឋភាពក្នុងបន្ទប់ទាំងមូលក្នុងមួយព្រិចភ្នែក ហើយអាចប្រាប់បានភ្លាមៗថានរណាអង្គុយនៅឯណា ដោយមិនបាច់សម្លឹងមើលស្វែងរកម្ដងម្នាក់ៗនោះទេ។ |
| Intersection over Union (IoU) | ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃភាពសុក្រឹតនៃការរកឃើញវត្ថុ ដោយវាធ្វើការប្រៀបធៀបផ្ទៃត្រួតស៊ីគ្នារវាងប្រអប់ទីតាំងដែលកុំព្យូទ័រទាយ (Predicted Box) និងប្រអប់ទីតាំងពិតប្រាកដដែលមនុស្សបានគូសចំណាំ (Ground-truth Box)។ | ដូចជាការគូសរង្វង់ពីរ មួយជាផ្ទាំងស៊ីបពិតប្រាកដ និងមួយទៀតជាកន្លែងដែលអ្នកគប់ត្រូវ បើវានៅត្រួតស៊ីគ្នាជិត ១០០% មានន័យថាអ្នកគប់បានចំគោលដៅល្អបំផុត។ |
| Non-Maximum Suppression (NMS) | ជាបច្ចេកទេសច្រោះយកតែលទ្ធផលល្អបំផុត ដោយលុបចោលនូវប្រអប់ទីតាំងស្ទួនៗគ្នាជាច្រើនដែលកុំព្យូទ័របានគូសជុំវិញវត្ថុតែមួយ ដោយរក្សាទុកតែប្រអប់មួយដែលមានពិន្ទុទំនុកចិត្ត (Confidence Score) ខ្ពស់ជាងគេ។ | ដូចជាការថតរូបសន្លឹកមនុស្សម្នាក់ច្រើនប៉ុស្តិ៍ក្នុងពេលតែមួយ ហើយយើងរើសយកតែរូបមួយណាដែលច្បាស់ជាងគេបំផុត រួចលុបរូបផ្សេងៗទៀតចោលដើម្បីកុំឱ្យជាន់គ្នា។ |
| Transfer Learning | ជាវិធីសាស្ត្រយកចំណេះដឹងពីម៉ូដែលដែលត្រូវបានបង្ហាត់រួចរាល់លើទិន្នន័យរាប់លាន (ដូចជាសំណុំទិន្នន័យ COCO) មកប្រើប្រាស់ជាគ្រឹះដើម្បីបង្ហាត់បន្តលើកិច្ចការថ្មីមួយទៀត (ដូចជារកគល់ឈើ) ដើម្បីចំណេញពេលវេលា និងមិនត្រូវការទិន្នន័យច្រើន។ | ដូចជាអ្នកដែលចេះជិះកង់ស្ទាត់ជំនាញរួចហើយ ពេលប្តូរមកហាត់ជិះម៉ូតូ អ្នកនោះនឹងឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ចេះជិះអ្វីសោះ។ |
| Data Augmentation | ជាបច្ចេកទេសពង្រីកចំនួនទិន្នន័យសម្រាប់បង្ហាត់កុំព្យូទ័រ តាមរយៈការយកទិន្នន័យរូបភាពដើមមកកែច្នៃបន្ថែម ដូចជាការបង្វិល ត្រឡប់ ផ្លាស់ប្តូរពន្លឺ ឬបន្ថែមចំណុចព្រិល ដើម្បីឱ្យកុំព្យូទ័រស៊ាំនឹងការប្រែប្រួលផ្សេងៗក្នុងបរិស្ថានពិត។ | ដូចជាការឱ្យក្មេងមើលរូបថតសត្វឆ្កែតែមួយក្បាល ក្នុងទិដ្ឋភាពផ្ងារកាឡាប់ ងងឹត និងព្រិល ដើម្បីឱ្យក្មេងនោះអាចចំណាំសត្វឆ្កែបានទោះបីជានៅក្នុងស្ថានភាពណាក៏ដោយ។ |
| Average Precision (AP) | ជាសូចនាករសង្ខេបដែលវាយតម្លៃសមត្ថភាពរួមរបស់ម៉ូដែលក្នុងការរកឃើញវត្ថុ ដោយវាគណនាមធ្យមភាគនៃភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញកុំឱ្យចន្លោះ (Recall) បញ្ចូលគ្នាទៅជាតម្លៃតែមួយ។ | ដូចជាពិន្ទុមធ្យមសរុបប្រចាំឆ្នាំរបស់សិស្ស ដែលឆ្លុះបញ្ចាំងពីសមត្ថភាពរៀនសូត្ររបស់គេលើគ្រប់មុខវិជ្ជា និងរាល់ការប្រឡងទាំងអស់បញ្ចូលគ្នា។ |
| Bounding Box | ជាប្រអប់រាងចតុកោណកែងដែលក្បួនដោះស្រាយកុំព្យូទ័រគូសបញ្ជាក់ទីតាំង និងទំហំរបស់វត្ថុគោលដៅនៅក្នុងរូបភាព ដើម្បីបង្ហាញថាវត្ថុដែលវាស្រាវជ្រាវរកឃើញនោះស្ថិតនៅត្រង់ចំណុចណាពិតប្រាកដ។ | ដូចជាការយកប៊ិចពណ៌ទៅគូសរង្វង់ព័ទ្ធជុំវិញមុខរបស់មិត្តភក្តិក្នុងសន្លឹករូបថតរួមគ្នា ដើម្បីចង្អុលប្រាប់អ្នកដទៃថាគាត់ឈរនៅត្រង់ណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖