បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើការដោះស្រាយបញ្ហាប្រឈមក្នុងការរកឃើញវត្ថុគ្រោះថ្នាក់ (ដូចជា កាំបិត កន្ត្រៃ ទួណឺវីស និងដង្កាប់) ដែលជាន់គ្នានៅក្នុងកាបូបអីវ៉ាន់ ដើម្បីកាត់បន្ថយពេលវេលាត្រួតពិនិត្យ និងកំហុសរបស់មនុស្សនៅតាមព្រលានយន្តហោះ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើ និងប្រៀបធៀបគំរូស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Neural Network) ចំនួនពីរប្រភេទសម្រាប់ការរកឃើញវត្ថុក្នុងរូបភាពកាំរស្មីអ៊ិច។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| SSD with InceptionV3 backend គំរូ Single Shot Detector (SSD) ជាមួយមុខងារ InceptionV3 |
មានទម្ងន់ស្រាល និងមានសមត្ថភាពអាចរកឃើញវត្ថុក្នុងពេលវេលាជាក់ស្តែង (Real-time)។ វាងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរូបភាពកាំរស្មីអ៊ិច។ | ទោះបីជាលឿនក្នុងការធ្វើតេស្ត ប៉ុន្តែចំណាយពេលបង្វឹក (Training time) យូរជាង RetinaNet ហើយភាពត្រឹមត្រូវ (mAP) ក៏ទាបជាងបន្តិចដែរ។ | ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (mAP) ៦០.៥% ប្រើពេលបង្វឹក ៦២១.៨០ វិនាទី និងប្រើពេលធ្វើតេស្ត ០.០២៦ វិនាទីក្នុងមួយរូបភាព។ |
| RetinaNet with ResNet-50 backend គំរូ RetinaNet ជាមួយមុខងារ ResNet-50 |
ប្រើប្រាស់ Focal Loss ដែលជួយដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យបានយ៉ាងល្អ។ ស្ថាបត្យកម្ម Residual Blocks របស់ ResNet-50 ជួយឱ្យម៉ូដែលចងចាំលក្ខណៈពិសេសកម្រិតទាបនិងខ្ពស់បានច្បាស់លាស់។ | ទាមទារការកាត់ចោលស្រទាប់ចុងក្រោយ (Dense layers) និងបង្កកទម្ងន់ (Freeze weights) មួយចំនួនដើម្បីសន្សំសំចៃពេលវេលាគណនា។ | ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (mAP) ៦០.៨% ប្រើពេលបង្វឹក ៥៧១.៨០ វិនាទី និងប្រើពេលធ្វើតេស្តត្រឹមតែ ០.០១៩ វិនាទីក្នុងមួយរូបភាព (ប្រសើរជាងគេ)។ |
| Faster RCNN with ResNet-50 (Reference) គំរូ Faster RCNN ជាមួយ ResNet-50 (វិធីសាស្ត្រយោងរបស់ Hassan et al.) |
ជាវិធីសាស្ត្រចាប់យកវត្ថុប្រភេទ ២ ដំណាក់កាល (Two-stage detector) ដែលត្រូវបានគេស្គាល់និងប្រើប្រាស់យ៉ាងទូលំទូលាយ។ | ចំណាយពេលវេលាយ៉ាងច្រើនសន្ធឹកសន្ធាប់ក្នុងការបង្វឹក (Training time) បើប្រៀបធៀបទៅនឹងគំរូដំណាក់កាលតែមួយ (One-stage detectors) ។ | ប្រើពេលបង្វឹកដល់ទៅ ៦៧៧.០៩ វិនាទី (យោងតាមតារាងទី៣) និងមានល្បឿនយឺតជាងក្នុងការអនុវត្តជាក់ស្តែង។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង ជាពិសេសផ្នែកកាតក្រាហ្វិក (GPU) សម្រាប់ការគណនាម៉ាទ្រីសធំៗ ដើម្បីដំណើរការម៉ូដែល Deep Learning បានលឿននិងមានប្រសិទ្ធភាព។
ការសិក្សានេះពឹងផ្អែកលើមូលដ្ឋានទិន្នន័យ SIX-ray10 ដែលជួបប្រទះបញ្ហាអតុល្យភាពយ៉ាងខ្លាំង (ទិន្នន័យវត្ថុគ្រោះថ្នាក់មានកម្រិតទាប ១ ភាគ ១០ ធៀបនឹងវត្ថុធម្មតា) ដែលអាចបណ្តាលឱ្យមានបញ្ហា Overfitting ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់អាចនឹងមានភាពខ្វះចន្លោះ ប្រសិនបើទម្រង់វត្ថុគ្រោះថ្នាក់ ឬឥវ៉ាន់ប្រចាំថ្ងៃរបស់ប្រជាជនកម្ពុជាមានភាពខុសគ្នាពីសំណុំទិន្នន័យដើម ដែលទាមទារការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម។
បច្ចេកវិទ្យាចាប់យកវត្ថុដោយស្វ័យប្រវត្តិនេះ មានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធសន្តិសុខនៅកម្ពុជា និងកាត់បន្ថយកំហុសរបស់បុគ្គលិកត្រួតពិនិត្យ។
ការដាក់ពង្រាយគំរូ RetinaNet ជាមួយនឹងការកែសម្រួលបន្ថែមសម្រាប់បរិបទកម្ពុជា នឹងជួយលើកកម្ពស់ស្តង់ដារសន្តិសុខជាតិ និងសន្សំសំចៃពេលវេលាបានយ៉ាងច្រើនសន្ធឹកសន្ធាប់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Convolutional Neural Network (CNN) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងសម្គាល់លំនាំនៅក្នុងទិន្នន័យជារូបភាព ដោយប្រើប្រាស់តម្រង (filters) បន្តបន្ទាប់គ្នាដើម្បីទាញយកលក្ខណៈពិសេសពីរូបភាព ដូចជាគែម ពណ៌ ឬរូបរាង។ | ដូចជាភ្នែករបស់មនុស្សដែលចេះសង្កេតមើលចំណុចតូចៗនៃរូបភាពនីមួយៗ រួចផ្តុំវាចូលគ្នាដើម្បីសម្គាល់ថាវាជារបស់អ្វី។ |
| Single Shot Detector (SSD) | ជាក្បួនដោះស្រាយសម្រាប់រកឃើញវត្ថុក្នុងរូបភាព ដោយដំណើរការត្រឹមតែមួយដំណាក់កាលប៉ុណ្ណោះ។ វាធ្វើការទស្សន៍ទាយប្រអប់ព័ទ្ធជុំវិញវត្ថុ (bounding boxes) និងចំណាត់ថ្នាក់របស់វត្ថុក្នុងពេលតែមួយ ដែលធ្វើឱ្យវាមានល្បឿនលឿនស័ក្តិសមសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង (real-time)។ | ដូចជាមនុស្សម្នាក់ដែលមើលរូបភាពមួយភ្លែត ហើយអាចចង្អុលបង្ហាញភ្លាមៗថាវត្ថុអ្វីនៅត្រង់ណាខ្លះ ដោយមិនបាច់គិតច្រើនដង។ |
| RetinaNet | ជាម៉ូដែលបណ្តាញសរសៃប្រសាទសម្រាប់រកឃើញវត្ថុ (Object Detection) ដែលមានភាពល្បីល្បាញដោយសារការប្រើប្រាស់បច្ចេកទេស Focal Loss ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពយ៉ាងខ្លាំងរវាងវត្ថុដែលត្រូវរក (មានចំនួនតិច) និងផ្ទៃខាងក្រោយ (មានចំនួនច្រើនសន្ធឹកសន្ធាប់)។ | ដូចជាអ្នករាវរកដែលពូកែផ្ដោតអារម្មណ៍តែលើវត្ថុសំខាន់ៗដែលកម្រនឹងមាន ហើយមិនខ្វល់ពីរបស់អត់ប្រយោជន៍ដែលនៅពាសពេញជុំវិញនោះទេ។ |
| Mean Average Precision (mAP) | ជារង្វាស់គោលសម្រាប់វាយតម្លៃគុណភាព និងភាពត្រឹមត្រូវនៃប្រព័ន្ធរកឃើញវត្ថុ ដោយវាគណនាមធ្យមភាគនៃភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញទិន្នន័យពិត (Recall) សម្រាប់គ្រប់ប្រភេទវត្ថុទាំងអស់នៅក្នុងគំរូ។ | ដូចជាពិន្ទុសរុបនៃការប្រឡងដែលវាស់ស្ទង់ថាតើសិស្សម្នាក់ឆ្លើយត្រូវប៉ុន្មានសំណួរ និងមិនរំលងសំណួរដែលត្រូវឆ្លើយប៉ុន្មាន។ |
| Focal Loss | ជាអនុគមន៍គណនាកំហុស (Loss function) របស់កុំព្យូទ័រ ដែលត្រូវបានបង្កើតឡើងដើម្បីកាត់បន្ថយទម្ងន់នៃទិន្នន័យដែលងាយស្រួលទស្សន៍ទាយ (ដូចជាផ្ទៃខាងក្រោយទទេ) និងបង្កើនការយកចិត្តទុកដាក់លើទិន្នន័យដែលពិបាកទស្សន៍ទាយ (ដូចជាកាំបិតលាក់ក្នុងកាបូបដែលជាន់គ្នា)។ | ដូចជាគ្រូបង្រៀនដែលចំណាយពេលពន្យល់សិស្សតែចំណុចណាដែលពិបាកយល់ ហើយរំលងចំណុចដែលសិស្សចេះអស់ហើយ។ |
| ResNet-50 | ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទមានជម្រៅ ៥០ ស្រទាប់ ដែលប្រើប្រាស់ Residual Blocks ដើម្បីដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាននៅពេលបណ្តាញមានភាពជ្រៅពេក ជួយឱ្យវាអាចទាញយកលក្ខណៈពិសេសកម្រិតខ្ពស់ពីរូបភាពបានយ៉ាងមានប្រសិទ្ធភាព។ | ដូចជារោងចក្រកែច្នៃដែលមាន ៥០ ដំណាក់កាល ដោយដំណាក់កាលនីមួយៗអាចផ្ញើព័ត៌មានរំលងទៅដំណាក់កាលបន្ទាប់បាន ដើម្បីកុំឱ្យបាត់បង់ព័ត៌មានដើម។ |
| InceptionV3 | ជាស្ថាបត្យកម្ម CNN ស៊ីជម្រៅដែលប្រើប្រាស់ម៉ូឌុល Inception ដើម្បីអនុវត្តតម្រង (filters) ទំហំខុសៗគ្នាក្នុងពេលតែមួយ ជួយឱ្យម៉ូដែលនេះអាចចាប់យកលក្ខណៈពិសេសនៃរូបភាពទាំងខ្នាតតូចនិងធំប្រកបដោយប្រសិទ្ធភាព ដោយមិនប្រើប្រាស់ថាមពលគណនាច្រើនពេក។ | ដូចជាការប្រើប្រាស់កែវពង្រីក កែវភ្នែកធម្មតា និងកែវឆ្លុះចម្ងាយឆ្ងាយក្នុងពេលតែមួយ ដើម្បីសង្កេតមើលវត្ថុមួយពីជ្រុង និងទំហំខុសៗគ្នា។ |
| Bounding Box | ជាប្រអប់រាងចតុកោណកែងដែលកុំព្យូទ័រគូសព័ទ្ធជុំវិញវត្ថុគោលដៅនៅក្នុងរូបភាព ដើម្បីកំណត់ទីតាំង និងទំហំរបស់វត្ថុនោះក្នុងដំណើរការ Object Detection រួមទាំងបញ្ជាក់ថាតើវត្ថុនោះជាប្រភេទអ្វី។ | ដូចជាការយកប៊ិចគូសរង្វង់ ឬប្រអប់ព័ទ្ធជុំវិញមុខមនុស្សនៅក្នុងរូបថតដើម្បីប្រាប់កុំព្យូទ័រថា 'នេះជាមនុស្ស!'។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖