បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការរកឃើញ និងចាត់ថ្នាក់វត្ថុនៅក្នុងបរិស្ថានរូបភាពចម្រុះនិងស្មុគស្មាញ ដោយស្នើឡើងនូវវិធីសាស្ត្រថ្មីដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការវិភាគរូបភាពកុំព្យូទ័រ។
វិធីសាស្ត្រ (The Methodology)៖ វិធីសាស្ត្រនេះប្រើប្រាស់ការបែងចែកតំបន់រូបភាព រួមផ្សំជាមួយបច្ចេកទេសទាញយកលក្ខណៈពិសេស និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Neural Networks) សម្រាប់ការចាត់ថ្នាក់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Proposed Model (FSA + AlexNet + DBSCAN) ម៉ូដែលដែលបានស្នើឡើង (ការរួមបញ្ចូល FSA, AlexNet និង DBSCAN) |
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចចាប់យកលំនាំស្មុគស្មាញបានល្អតាមរយៈការច្របាច់បញ្ចូលលក្ខណៈពិសេសចម្រុះ (Feature Fusion)។ | មានដំណាក់កាលដំណើរការច្រើន (Pre-processing, Segmentation, Saliency, Fusion) ដែលធ្វើឱ្យប្រព័ន្ធមានភាពស្មុគស្មាញក្នុងការអភិវឌ្ឍ។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៥.៦៥% (VOC 2012), ៩៣.៦៦% (Caltech-101), និង ៩២.៧១% (MS COCO)។ |
| Standard CNN Baseline បណ្ដាញសរសៃប្រសាទ CNN ស្តង់ដារ |
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងមានសមត្ថភាពស្រង់លក្ខណៈពិសេសដោយស្វ័យប្រវត្តិ។ | ទទួលបានភាពត្រឹមត្រូវទាបជាងវិធីសាស្ត្រស្នើឡើង ដោយសារខ្វះការផ្តោតលើតំបន់សំខាន់ៗ (Saliency) និងការធ្វើឱ្យប្រសើរ (Optimization)។ | សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៩១.២៧% លើសំណុំទិន្នន័យ VOC 2012។ |
| Random Forest ក្បួនដោះស្រាយ Random Forest |
ងាយស្រួលប្រើប្រាស់ និងមិនសូវទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំងក្នុងការហ្វឹកហាត់។ | មិនសូវមានប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈពិសេសពីរូបភាពដែលមានភាពស្មុគស្មាញ និងទំហំវិមាត្រធំ។ | សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៨៥.៥២% ប៉ុណ្ណោះលើសំណុំទិន្នន័យ VOC 2012។ |
| GMM Segmentation ការបែងចែកតំបន់រូបភាព GMM (ប្រៀបធៀបជាមួយ DBSCAN) |
មានប្រសិទ្ធភាពសម្រាប់រូបភាពដែលមានរបាយពន្លឺមិនស្មើគ្នា និងរចនាសម្ព័ន្ធស្មុគស្មាញ។ | ប្រើប្រាស់ពេលវេលាគណនាយូរជាង (Iterative EM algorithm) និងមានកម្រិតភាពត្រឹមត្រូវ (IoU) ទាបជាង DBSCAN។ | ចំណាយពេល ១៧១.១៣ វិនាទី និងមានតម្លៃ IoU ៨២.៩% (លើ VOC 2012)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញពីការប្រើប្រាស់ធនធានកុំព្យូទ័រកម្រិតទាបគួរឱ្យកត់សម្គាល់ ដោយសារម៉ូដែលទាមទារត្រឹមតែស៊ីភីយូ (CPU) ធម្មតាប៉ុណ្ណោះសម្រាប់ការសាកល្បង ដែលស័ក្តិសមខ្លាំងសម្រាប់មជ្ឈដ្ឋានខ្វះខាតធនធាន GPU។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យពីបស្ចិមប្រទេស ដែលបង្ហាញពីវត្ថុប្រើប្រាស់ និងទិដ្ឋភាពប្រចាំថ្ងៃរបស់ពួកគេ។ ទិន្នន័យទាំងនេះអាចមិនមានផ្ទុកវត្ថុក្នុងស្រុករបស់កម្ពុជា (ឧទាហរណ៍៖ រ៉ឺម៉កកង់បី ឬទិដ្ឋភាពផ្ទះល្វែងនៅភ្នំពេញ) ឡើយ។ ហេតុនេះ ការយកមកប្រើប្រាស់ផ្ទាល់នៅកម្ពុជាអាចប្រឈមនឹងបញ្ហាភាពត្រឹមត្រូវ ប្រសិនបើគ្មានការប្រមូលទិន្នន័យបន្ថែមក្នុងស្រុក (Local Dataset) មកបង្ហាត់ម៉ូដែលឡើងវិញ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធកុំព្យូទ័រមើលឃើញ (Computer Vision) នៅក្នុងប្រទេសកម្ពុជា ជាពិសេសដោយសារវាទាមទារកម្លាំងកុំព្យូទ័រទាប (Intel Core i3)។
ជារួម ការច្របាច់បញ្ចូលបច្ចេកទេសស្រង់លក្ខណៈពិសេសកម្រិតស្រាល ជាមួយស្ថាបត្យកម្មកែច្នៃ AlexNet គឺជាជម្រើសដ៏ស័ក្តិសមសម្រាប់ស្ថាប័នស្រាវជ្រាវ និងក្រុមហ៊ុនបច្ចេកវិទ្យានៅកម្ពុជា ក្នុងការបង្កើតដំណោះស្រាយ AI ដែលមានតម្លៃថោក និងប្រសិទ្ធភាពខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Saliency Map | ជាបច្ចេកទេសក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រមើលឃើញ (Computer Vision) ដែលត្រូវបានប្រើដើម្បីគូសបញ្ជាក់ ឬរំលេចតំបន់សំខាន់ៗបំផុតនៅក្នុងរូបភាព (ឧទាហរណ៍៖ វត្ថុដែលលេចធ្លោជាងគេ ឬមានកម្រិតពណ៌ខុសប្លែកពីគេ) ដើម្បីឲ្យប្រព័ន្ធកុំព្យូទ័រងាយស្រួលផ្ដោតការយកចិត្តទុកដាក់លើតំបន់នោះ ជំនួសឲ្យការវិភាគគ្រប់ភីកសែល (Pixel) ទាំងអស់។ | ដូចជាការប្រើហ្វឺតពណ៌ (Highlighter) គូសចំណាំលើពាក្យសំខាន់ៗក្នុងសៀវភៅ ដើម្បីឲ្យយើងងាយស្រួលអាននិងឆាប់ចាប់បានចំណុចសំខាន់។ |
| DBSCAN | ជាក្បួនដោះស្រាយសម្រាប់បែងចែកក្រុមទិន្នន័យ (Clustering) ដោយផ្អែកលើដង់ស៊ីតេ។ វាស្វែងរកចំណុចដែលនៅផ្ដុំគ្នាជិតៗ ហើយចាត់ទុកវាជាក្រុមតែមួយ ព្រមទាំងបដិសេធចំណុចដែលនៅដាច់ពីគេថាជាសំឡេងរំខាន (Noise) ដែលបច្ចេកទេសនេះជួយក្នុងការបែងចែករូបភាពវត្ថុបានល្អប្រសើរ ទោះវត្ថុនោះមានរូបរាងមិនច្បាស់លាស់ក៏ដោយ។ | ដូចជាការសង្កេតមើលមនុស្សក្នុងពិធីបុណ្យ ក្រុមមនុស្សដែលឈរផ្ដុំគ្នាច្រើនត្រូវបានចាត់ទុកជាក្រុមជជែកគ្នា រីឯអ្នកដែលដើរម្នាក់ឯងឆ្ងាយពីគេត្រូវបានចាត់ទុកជាអ្នកដើរកាត់។ |
| Fish Swarm Algorithm | ជាក្បួនដោះស្រាយផ្នែកបញ្ញាសិប្បនិម្មិត (AI Optimization) ដែលយកគំរូតាមឥរិយាបថរបស់ហ្វូងត្រីក្នុងធម្មជាតិ (ដូចជាការស្វែងរកចំណី ការហែលជាហ្វូង និងការចៀសវាងគ្រោះថ្នាក់) ដើម្បីស្វែងរកដំណោះស្រាយដ៏ល្អបំផុតក្នុងការចម្រោះ និងជ្រើសរើសលក្ខណៈពិសេស (Features) របស់រូបភាពឲ្យកាន់តែមានប្រសិទ្ធភាព។ | ដូចជាការប្រាប់ក្មេងៗមួយក្រុមឲ្យរត់រកកន្លែងដែលមានលាក់ស្ករគ្រាប់ច្រើនជាងគេ បើអ្នកណាម្នាក់រកឃើញចំណុចដែលមានស្ករគ្រាប់ អ្នកផ្សេងទៀតនឹងរត់សម្រុកទៅទីនោះដែរ។ |
| Feature Fusion | ជាដំណើរការនៃការច្របាច់បញ្ចូលគ្នានូវលក្ខណៈពិសេស (Features) ដែលទាញយកបានពីវិធីសាស្ត្រផ្សេងៗគ្នា (ដូចជារូបរាង ចំណុចសំខាន់ៗ និងទម្រង់រលក) ដើម្បីបង្កើតបានជាទិន្នន័យតំណាងរូបភាពមួយដែលមានភាពពេញលេញ សុក្រឹត និងគ្រប់ជ្រុងជ្រោយជាងមុន សម្រាប់ការយកទៅចាត់ថ្នាក់វត្ថុ។ | ដូចជាការសួរមតិពីគ្រូពេទ្យជំនាញ៣ផ្នែកផ្សេងគ្នា រួចយកមតិទាំងនោះមកបូកបញ្ចូលគ្នាដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺមួយឲ្យបានច្បាស់លាស់បំផុត។ |
| AlexNet | ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Convolutional Neural Network - CNN) ដ៏ល្បីល្បាញមួយ ដែលមានស្រទាប់ (Layers) ច្រើនតម្រួតលើគ្នា ប្រើសម្រាប់រៀននិងស្គាល់លំនាំស្មុគស្មាញដើម្បីចាត់ថ្នាក់រូបភាពទៅតាមប្រភេទនីមួយៗបានយ៉ាងជាក់លាក់។ នៅក្នុងការសិក្សានេះ វាត្រូវបានកែច្នៃដើម្បីទទួលយកទិន្នន័យវ៉ិចទ័រជំនួសឲ្យរូបភាពផ្ទាល់។ | ដូចជាខ្សែសង្វាក់ផលិតកម្មក្នុងរោងចក្រ ដែលមានកម្មករច្រើនផ្នែកតៗគ្នា ចាប់ពីអ្នកពិនិត្យពណ៌ ពិនិត្យរាង រហូតដល់អ្នកបិទស្លាកឈ្មោះទំនិញនៅដំណាក់កាលចុងក្រោយ។ |
| Adaptive Mean Filter | ជាបច្ចេកទេសច្រោះរូបភាពក្នុងដំណាក់កាលរៀបចំទិន្នន័យ (Pre-processing) ដែលអាចផ្លាស់ប្ដូរទំហំតម្រង (Window Size) ដោយស្វ័យប្រវត្តិទៅតាមស្ថានភាពផ្ទៃនៃរូបភាពត្រង់ចំណុចនីមួយៗ។ គោលបំណងគឺដើម្បីកាត់បន្ថយចំណុចរំខាន (Noise) ប៉ុន្តែនៅតែអាចរក្សាភាពច្បាស់នៃគែមវត្ថុបានល្អប្រសើរជាងក្បួនច្រោះធម្មតា។ | ដូចជាការពាក់វ៉ែនតាដែលអាចប្ដូរពណ៌ដោយស្វ័យប្រវត្តិពេលត្រូវពន្លឺថ្ងៃខ្លាំង ដើម្បីការពារភ្នែកកុំឲ្យស្រវាំង តែនៅតែអាចមើលឃើញរាងវត្ថុច្បាស់ល្អ។ |
| MSER Feature Extraction | MSER (Maximally Stable Extremal Regions) គឺជាវិធីសាស្ត្រស្រង់យកលក្ខណៈពិសេសពីរូបភាព ដោយស្វែងរកតំបន់ណាដែលរក្សាទម្រង់ដើមបានល្អ (មិនប្រែប្រួលទំហំឬរូបរាង) ទោះបីជាមានការផ្លាស់ប្ដូរកម្រិតពន្លឺ ឬកម្រិតកាត់ពណ៌ (Thresholding) ជាច្រើនដងក៏ដោយ។ | ដូចជាការចាក់ទឹកចូលក្នុងសំបកកង់ឡានដែលមានក្រឡា ទោះទឹកកើនឡើងដល់កម្រិតណាក៏ដោយ ក៏តំបន់ក្រឡាជ្រៅៗនៅតែរក្សារូបរាងដដែលមិនប្រែប្រួល។ |
| BRISK Feature Extraction | BRISK (Binary Robust Invariant Scalable Keypoints) គឺជាវិធីសាស្ត្ររកចំណុចសំខាន់ៗ (Keypoints) លើរូបភាពដែលមានល្បឿនលឿន និងមិនងាយប្រែប្រួលទោះបីជារូបភាពនោះត្រូវបង្រួមពង្រីក (Scale) ឬបង្វិល (Rotation) ក៏ដោយ ដែលវាផ្ដល់នូវការកត់សម្គាល់លក្ខណៈវត្ថុបានយ៉ាងរឹងមាំសម្រាប់ផ្គូផ្គង។ | ដូចជាការចំណាំប្រជ្រុយនៅលើមុខមនុស្សម្នាក់ ទោះបីជាគាត់ងាកមុខទៅឆ្វេងស្ដាំ ឬយើងមើលគាត់ពីចម្ងាយក៏ដោយ ក៏យើងនៅតែអាចចំណាំគាត់បានដោយផ្អែកលើទីតាំងប្រជ្រុយនោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖