Original Title: Evaluating One Stage Detector Architecture of Convolutional Neural Network for Threat Object Detection Using X-Ray Baggage Security Imaging
Source: doi.org/10.18280/ria.340415
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដំណាក់កាលតែមួយសម្រាប់ការរកឃើញវត្ថុគំរាមកំហែងដោយប្រើប្រាស់រូបភាពស្កេនកាំរស្មីអ៊ិចសម្រាប់សុវត្ថិភាពអីវ៉ាន់

ចំណងជើងដើម៖ Evaluating One Stage Detector Architecture of Convolutional Neural Network for Threat Object Detection Using X-Ray Baggage Security Imaging

អ្នកនិពន្ធ៖ Malarvizhi Subramani (SRMIST), Kayalvizhi Rajaduari (SRMIST), Siddhartha Dhar Choudhury (SRMIST), Anita Topkar (Bhabha Atomic Research Centre), Vijayakumar Ponnusamy (SRMIST)

ឆ្នាំបោះពុម្ព៖ 2020, Revue d'Intelligence Artificielle

វិស័យសិក្សា៖ Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើការដោះស្រាយបញ្ហាប្រឈមក្នុងការរកឃើញវត្ថុគ្រោះថ្នាក់ (ដូចជា កាំបិត កន្ត្រៃ ទួណឺវីស និងដង្កាប់) ដែលជាន់គ្នានៅក្នុងកាបូបអីវ៉ាន់ ដើម្បីកាត់បន្ថយពេលវេលាត្រួតពិនិត្យ និងកំហុសរបស់មនុស្សនៅតាមព្រលានយន្តហោះ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើ និងប្រៀបធៀបគំរូស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Neural Network) ចំនួនពីរប្រភេទសម្រាប់ការរកឃើញវត្ថុក្នុងរូបភាពកាំរស្មីអ៊ិច។

ការប្រើប្រាស់គំរូឧបករណ៍ចាប់សញ្ញាដំណាក់កាលតែមួយ (Single Shot Detector - SSD) ជាមួយមុខងារទាញយកលក្ខណៈពិសេស InceptionV3
ការប្រើប្រាស់គំរូ RetinaNet ជាមួយមុខងារទាញយកលក្ខណៈពិសេស ResNet-50 (ResNet-50 Backend)
ការបង្វឹក និងសាកល្បងម៉ូដែលដោយប្រើប្រាស់មូលដ្ឋានទិន្នន័យរូបភាពអីវ៉ាន់កាំរស្មីអ៊ិច (SIX-ray10 Database)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ RetinaNet (Model 2) ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (mAP) ៦០.៨% ដែលខ្ពស់ជាងគំរូ SSD (Model 1) ដែលទទួលបាន ៦០.៥%។
RetinaNet មានល្បឿនលឿនជាងក្នុងការធ្វើតេស្ត ដោយប្រើប្រាស់ពេលត្រឹមតែ ០.០១៩ វិនាទី ក្នុងមួយរូបភាព ខណៈ SSD ប្រើពេល ០.០២៦ វិនាទី ក្នុងមួយរូបភាព។
ស្ថាបត្យកម្ម ResNet-50 បង្ហាញពីសមត្ថភាពល្អប្រសើរជាងក្នុងការទាញយកលក្ខណៈពិសេសពីរូបភាពកាំរស្មីអ៊ិច ដែលស័ក្តិសមសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសុវត្ថិភាពអីវ៉ាន់នៅព្រលានយន្តហោះនាពេលអនាគត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SSD with InceptionV3 backend គំរូ Single Shot Detector (SSD) ជាមួយមុខងារ InceptionV3	មានទម្ងន់ស្រាល និងមានសមត្ថភាពអាចរកឃើញវត្ថុក្នុងពេលវេលាជាក់ស្តែង (Real-time)។ វាងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរូបភាពកាំរស្មីអ៊ិច។	ទោះបីជាលឿនក្នុងការធ្វើតេស្ត ប៉ុន្តែចំណាយពេលបង្វឹក (Training time) យូរជាង RetinaNet ហើយភាពត្រឹមត្រូវ (mAP) ក៏ទាបជាងបន្តិចដែរ។	ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (mAP) ៦០.៥% ប្រើពេលបង្វឹក ៦២១.៨០ វិនាទី និងប្រើពេលធ្វើតេស្ត ០.០២៦ វិនាទីក្នុងមួយរូបភាព។
RetinaNet with ResNet-50 backend គំរូ RetinaNet ជាមួយមុខងារ ResNet-50	ប្រើប្រាស់ Focal Loss ដែលជួយដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យបានយ៉ាងល្អ។ ស្ថាបត្យកម្ម Residual Blocks របស់ ResNet-50 ជួយឱ្យម៉ូដែលចងចាំលក្ខណៈពិសេសកម្រិតទាបនិងខ្ពស់បានច្បាស់លាស់។	ទាមទារការកាត់ចោលស្រទាប់ចុងក្រោយ (Dense layers) និងបង្កកទម្ងន់ (Freeze weights) មួយចំនួនដើម្បីសន្សំសំចៃពេលវេលាគណនា។	ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (mAP) ៦០.៨% ប្រើពេលបង្វឹក ៥៧១.៨០ វិនាទី និងប្រើពេលធ្វើតេស្តត្រឹមតែ ០.០១៩ វិនាទីក្នុងមួយរូបភាព (ប្រសើរជាងគេ)។
Faster RCNN with ResNet-50 (Reference) គំរូ Faster RCNN ជាមួយ ResNet-50 (វិធីសាស្ត្រយោងរបស់ Hassan et al.)	ជាវិធីសាស្ត្រចាប់យកវត្ថុប្រភេទ ២ ដំណាក់កាល (Two-stage detector) ដែលត្រូវបានគេស្គាល់និងប្រើប្រាស់យ៉ាងទូលំទូលាយ។	ចំណាយពេលវេលាយ៉ាងច្រើនសន្ធឹកសន្ធាប់ក្នុងការបង្វឹក (Training time) បើប្រៀបធៀបទៅនឹងគំរូដំណាក់កាលតែមួយ (One-stage detectors) ។	ប្រើពេលបង្វឹកដល់ទៅ ៦៧៧.០៩ វិនាទី (យោងតាមតារាងទី៣) និងមានល្បឿនយឺតជាងក្នុងការអនុវត្តជាក់ស្តែង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង ជាពិសេសផ្នែកកាតក្រាហ្វិក (GPU) សម្រាប់ការគណនាម៉ាទ្រីសធំៗ ដើម្បីដំណើរការម៉ូដែល Deep Learning បានលឿននិងមានប្រសិទ្ធភាព។

Hardware: កុំព្យូទ័រលើតុប្រើប្រាស់ស៊ីភីយូ Intel Core i7, អង្គចងចាំ (RAM) 64GB, និងកាតក្រាហ្វិកលំដាប់ខ្ពស់ RTX 2080 Ti GPU សម្រាប់ការគណនាទិន្នន័យស្របគ្នា។
Dataset: មូលដ្ឋានទិន្នន័យ SIX-ray10 ដែលជារូបភាពស្កេនកាំរស្មីអ៊ិចពីព្រលានយន្តហោះ (មានបញ្ហាអតុល្យភាពទិន្នន័យកម្រិត ១:១០ រវាងវត្ថុគ្រោះថ្នាក់និងមិនគ្រោះថ្នាក់)។
Software & Framework: ការប្រើប្រាស់ Pre-trained models ពី ImageNet និងប្រព័ន្ធកូដសម្រាប់ Deep Learning ដើម្បីរៀបចំស្ថាបត្យកម្ម Darknet សម្រាប់ SSD និង RetinaNet។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើមូលដ្ឋានទិន្នន័យ SIX-ray10 ដែលជួបប្រទះបញ្ហាអតុល្យភាពយ៉ាងខ្លាំង (ទិន្នន័យវត្ថុគ្រោះថ្នាក់មានកម្រិតទាប ១ ភាគ ១០ ធៀបនឹងវត្ថុធម្មតា) ដែលអាចបណ្តាលឱ្យមានបញ្ហា Overfitting ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់អាចនឹងមានភាពខ្វះចន្លោះ ប្រសិនបើទម្រង់វត្ថុគ្រោះថ្នាក់ ឬឥវ៉ាន់ប្រចាំថ្ងៃរបស់ប្រជាជនកម្ពុជាមានភាពខុសគ្នាពីសំណុំទិន្នន័យដើម ដែលទាមទារការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាចាប់យកវត្ថុដោយស្វ័យប្រវត្តិនេះ មានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធសន្តិសុខនៅកម្ពុជា និងកាត់បន្ថយកំហុសរបស់បុគ្គលិកត្រួតពិនិត្យ។

អាកាសយានដ្ឋានអន្តរជាតិ (ភ្នំពេញ, សៀមរាបអង្គរ, និងតេជោ): អាចបញ្ចូលប្រព័ន្ធនេះទៅក្នុងម៉ាស៊ីនស្កេនកាំរស្មីអ៊ិច ដែលមានស្រាប់ ដើម្បីជួយសម្រួលដល់មន្ត្រីសន្តិសុខក្នុងការរកឃើញអាវុធ កាំបិត ឬវត្ថុហាមឃាត់បានយ៉ាងរហ័ស (១៥-៣០ ហ្វ្រេមក្នុងមួយវិនាទី) ក្នុងកំឡុងពេលមានអ្នកដំណើរច្រើន។
ច្រកព្រំដែន និងគយ (ប៉ោយប៉ែត, បាវិត): ជួយពន្លឿនការត្រួតពិនិត្យទំនិញ ឬកាបូបអីវ៉ាន់ឆ្លងកាត់ព្រំដែន ដោយកាត់បន្ថយពេលវេលារង់ចាំ និងទប់ស្កាត់ការរត់ពន្ធវត្ថុគ្រោះថ្នាក់។
ទីតាំងសាធារណៈ និងផ្សារទំនើប (ឧ. ផ្សារទំនើប AEON): ប្រើប្រាស់ជាប្រព័ន្ធជំនួយនៅតាមច្រកចូល ដើម្បីរកឃើញអាវុធលាក់កំបាំង ដោយមិនតម្រូវឱ្យមានការឆែកឆេររាងកាយឬកាបូបដោយដៃផ្ទាល់ ដែលចំណាយពេលយូរ។

ការដាក់ពង្រាយគំរូ RetinaNet ជាមួយនឹងការកែសម្រួលបន្ថែមសម្រាប់បរិបទកម្ពុជា នឹងជួយលើកកម្ពស់ស្តង់ដារសន្តិសុខជាតិ និងសន្សំសំចៃពេលវេលាបានយ៉ាងច្រើនសន្ធឹកសន្ធាប់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះកុំព្យូទ័រគិត និងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNNs): និស្សិតត្រូវស្វែងយល់ពីក្បួនដោះស្រាយសម្រាប់ Object Detection ជាពិសេសគំរូ One-stage detectors តាមរយៈការអនុវត្តជាមួយបណ្ណាល័យកូដដូចជា TensorFlow ឬ PyTorch ។
ជំហានទី២៖ ប្រមូល និងរៀបចំទិន្នន័យរូបភាពកាំរស្មីអ៊ិច: ទាញយកមូលដ្ឋានទិន្នន័យ SIX-ray Dataset ឬប្រើប្រាស់ទិន្នន័យសាកល្បងពីម៉ាស៊ីនស្កេនក្នុងស្រុក។ ត្រូវរៀនអនុវត្តបច្ចេកទេស Focal Loss ឬ Data Augmentation ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពរវាងរូបភាពវត្ថុគ្រោះថ្នាក់ និងរូបភាពធម្មតា។
ជំហានទី៣៖ ហ្វឹកហាត់ម៉ូដែលស្វ័យប្រវត្តិកម្មកម្រិតខ្ពស់: ចាប់ផ្តើមរៀបចំ និងហ្វឹកហាត់គំរូ RetinaNet ដោយភ្ជាប់ជាមួយមុខងារ ResNet-50 និង SSD ដោយភ្ជាប់ជាមួយ InceptionV3 ដោយប្រើប្រាស់ Transfer Learning ពីទិន្នន័យ ImageNet ដើម្បីសន្សំពេលវេលា។
ជំហានទី៤៖ ដំណើរការសាកល្បងជាមួយកាតក្រាហ្វិក (GPU Acceleration): ដំណើរការកូដ (Train) និងធ្វើតេស្ត (Inference) លើកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ដូចជា NVIDIA RTX GPUs ដោយប្រើប្រាស់បច្ចេកវិទ្យា CUDA ដើម្បីធានាថាម៉ូដែលអាចដំណើរការក្នុងល្បឿន ១៥-៣០ fps (Real-time)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Convolutional Neural Network (CNN)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគ និងសម្គាល់លំនាំនៅក្នុងទិន្នន័យជារូបភាព ដោយប្រើប្រាស់តម្រង (filters) បន្តបន្ទាប់គ្នាដើម្បីទាញយកលក្ខណៈពិសេសពីរូបភាព ដូចជាគែម ពណ៌ ឬរូបរាង។	ដូចជាភ្នែករបស់មនុស្សដែលចេះសង្កេតមើលចំណុចតូចៗនៃរូបភាពនីមួយៗ រួចផ្តុំវាចូលគ្នាដើម្បីសម្គាល់ថាវាជារបស់អ្វី។
Single Shot Detector (SSD)	ជាក្បួនដោះស្រាយសម្រាប់រកឃើញវត្ថុក្នុងរូបភាព ដោយដំណើរការត្រឹមតែមួយដំណាក់កាលប៉ុណ្ណោះ។ វាធ្វើការទស្សន៍ទាយប្រអប់ព័ទ្ធជុំវិញវត្ថុ (bounding boxes) និងចំណាត់ថ្នាក់របស់វត្ថុក្នុងពេលតែមួយ ដែលធ្វើឱ្យវាមានល្បឿនលឿនស័ក្តិសមសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង (real-time)។	ដូចជាមនុស្សម្នាក់ដែលមើលរូបភាពមួយភ្លែត ហើយអាចចង្អុលបង្ហាញភ្លាមៗថាវត្ថុអ្វីនៅត្រង់ណាខ្លះ ដោយមិនបាច់គិតច្រើនដង។
RetinaNet	ជាម៉ូដែលបណ្តាញសរសៃប្រសាទសម្រាប់រកឃើញវត្ថុ (Object Detection) ដែលមានភាពល្បីល្បាញដោយសារការប្រើប្រាស់បច្ចេកទេស Focal Loss ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពយ៉ាងខ្លាំងរវាងវត្ថុដែលត្រូវរក (មានចំនួនតិច) និងផ្ទៃខាងក្រោយ (មានចំនួនច្រើនសន្ធឹកសន្ធាប់)។	ដូចជាអ្នករាវរកដែលពូកែផ្ដោតអារម្មណ៍តែលើវត្ថុសំខាន់ៗដែលកម្រនឹងមាន ហើយមិនខ្វល់ពីរបស់អត់ប្រយោជន៍ដែលនៅពាសពេញជុំវិញនោះទេ។
Mean Average Precision (mAP)	ជារង្វាស់គោលសម្រាប់វាយតម្លៃគុណភាព និងភាពត្រឹមត្រូវនៃប្រព័ន្ធរកឃើញវត្ថុ ដោយវាគណនាមធ្យមភាគនៃភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញទិន្នន័យពិត (Recall) សម្រាប់គ្រប់ប្រភេទវត្ថុទាំងអស់នៅក្នុងគំរូ។	ដូចជាពិន្ទុសរុបនៃការប្រឡងដែលវាស់ស្ទង់ថាតើសិស្សម្នាក់ឆ្លើយត្រូវប៉ុន្មានសំណួរ និងមិនរំលងសំណួរដែលត្រូវឆ្លើយប៉ុន្មាន។
Focal Loss	ជាអនុគមន៍គណនាកំហុស (Loss function) របស់កុំព្យូទ័រ ដែលត្រូវបានបង្កើតឡើងដើម្បីកាត់បន្ថយទម្ងន់នៃទិន្នន័យដែលងាយស្រួលទស្សន៍ទាយ (ដូចជាផ្ទៃខាងក្រោយទទេ) និងបង្កើនការយកចិត្តទុកដាក់លើទិន្នន័យដែលពិបាកទស្សន៍ទាយ (ដូចជាកាំបិតលាក់ក្នុងកាបូបដែលជាន់គ្នា)។	ដូចជាគ្រូបង្រៀនដែលចំណាយពេលពន្យល់សិស្សតែចំណុចណាដែលពិបាកយល់ ហើយរំលងចំណុចដែលសិស្សចេះអស់ហើយ។
ResNet-50	ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទមានជម្រៅ ៥០ ស្រទាប់ ដែលប្រើប្រាស់ Residual Blocks ដើម្បីដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាននៅពេលបណ្តាញមានភាពជ្រៅពេក ជួយឱ្យវាអាចទាញយកលក្ខណៈពិសេសកម្រិតខ្ពស់ពីរូបភាពបានយ៉ាងមានប្រសិទ្ធភាព។	ដូចជារោងចក្រកែច្នៃដែលមាន ៥០ ដំណាក់កាល ដោយដំណាក់កាលនីមួយៗអាចផ្ញើព័ត៌មានរំលងទៅដំណាក់កាលបន្ទាប់បាន ដើម្បីកុំឱ្យបាត់បង់ព័ត៌មានដើម។
InceptionV3	ជាស្ថាបត្យកម្ម CNN ស៊ីជម្រៅដែលប្រើប្រាស់ម៉ូឌុល Inception ដើម្បីអនុវត្តតម្រង (filters) ទំហំខុសៗគ្នាក្នុងពេលតែមួយ ជួយឱ្យម៉ូដែលនេះអាចចាប់យកលក្ខណៈពិសេសនៃរូបភាពទាំងខ្នាតតូចនិងធំប្រកបដោយប្រសិទ្ធភាព ដោយមិនប្រើប្រាស់ថាមពលគណនាច្រើនពេក។	ដូចជាការប្រើប្រាស់កែវពង្រីក កែវភ្នែកធម្មតា និងកែវឆ្លុះចម្ងាយឆ្ងាយក្នុងពេលតែមួយ ដើម្បីសង្កេតមើលវត្ថុមួយពីជ្រុង និងទំហំខុសៗគ្នា។
Bounding Box	ជាប្រអប់រាងចតុកោណកែងដែលកុំព្យូទ័រគូសព័ទ្ធជុំវិញវត្ថុគោលដៅនៅក្នុងរូបភាព ដើម្បីកំណត់ទីតាំង និងទំហំរបស់វត្ថុនោះក្នុងដំណើរការ Object Detection រួមទាំងបញ្ជាក់ថាតើវត្ថុនោះជាប្រភេទអ្វី។	ដូចជាការយកប៊ិចគូសរង្វង់ ឬប្រអប់ព័ទ្ធជុំវិញមុខមនុស្សនៅក្នុងរូបថតដើម្បីប្រាប់កុំព្យូទ័រថា 'នេះជាមនុស្ស!'។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖