Original Title: Perception of Natural Scenes: Objects Detection and Segmentations using Saliency Map with AlexNet
Source: doi.org/10.34028/iajit/22/3/4
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការយល់ដឹងពីទិដ្ឋភាពធម្មជាតិ៖ ការរកឃើញ និងការបែងចែកវត្ថុដោយប្រើផែនទី Saliency ជាមួយ AlexNet

ចំណងជើងដើម៖ Perception of Natural Scenes: Objects Detection and Segmentations using Saliency Map with AlexNet

អ្នកនិពន្ធ៖ Muhammad Waqas Ahmed (Air University, Pakistan), Abdulwahab Alazeb (Najran University, Saudi Arabia), Naif Al Mudawi (Najran University, Saudi Arabia), Touseef Sadiq (University of Agder, Norway), Bayan Alabdullah (Princess Nourah bint Abdulrahman University, Saudi Arabia), Hammed ur Rehman (Air University, Pakistan), Asaad Algarni (Northern Border University, Saudi Arabia), Ahmad Jalal (Air University, Pakistan)

ឆ្នាំបោះពុម្ព៖ 2025 The International Arab Journal of Information Technology

វិស័យសិក្សា៖ Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការរកឃើញ និងចាត់ថ្នាក់វត្ថុនៅក្នុងបរិស្ថានរូបភាពចម្រុះនិងស្មុគស្មាញ ដោយស្នើឡើងនូវវិធីសាស្ត្រថ្មីដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការវិភាគរូបភាពកុំព្យូទ័រ។

វិធីសាស្ត្រ (The Methodology)៖ វិធីសាស្ត្រនេះប្រើប្រាស់ការបែងចែកតំបន់រូបភាព រួមផ្សំជាមួយបច្ចេកទេសទាញយកលក្ខណៈពិសេស និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Neural Networks) សម្រាប់ការចាត់ថ្នាក់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Proposed Model (FSA + AlexNet + DBSCAN)
ម៉ូដែលដែលបានស្នើឡើង (ការរួមបញ្ចូល FSA, AlexNet និង DBSCAN)
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចចាប់យកលំនាំស្មុគស្មាញបានល្អតាមរយៈការច្របាច់បញ្ចូលលក្ខណៈពិសេសចម្រុះ (Feature Fusion)។ មានដំណាក់កាលដំណើរការច្រើន (Pre-processing, Segmentation, Saliency, Fusion) ដែលធ្វើឱ្យប្រព័ន្ធមានភាពស្មុគស្មាញក្នុងការអភិវឌ្ឍ។ សម្រេចបានភាពត្រឹមត្រូវ ៩៥.៦៥% (VOC 2012), ៩៣.៦៦% (Caltech-101), និង ៩២.៧១% (MS COCO)។
Standard CNN Baseline
បណ្ដាញសរសៃប្រសាទ CNN ស្តង់ដារ
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងមានសមត្ថភាពស្រង់លក្ខណៈពិសេសដោយស្វ័យប្រវត្តិ។ ទទួលបានភាពត្រឹមត្រូវទាបជាងវិធីសាស្ត្រស្នើឡើង ដោយសារខ្វះការផ្តោតលើតំបន់សំខាន់ៗ (Saliency) និងការធ្វើឱ្យប្រសើរ (Optimization)។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៩១.២៧% លើសំណុំទិន្នន័យ VOC 2012។
Random Forest
ក្បួនដោះស្រាយ Random Forest
ងាយស្រួលប្រើប្រាស់ និងមិនសូវទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំងក្នុងការហ្វឹកហាត់។ មិនសូវមានប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈពិសេសពីរូបភាពដែលមានភាពស្មុគស្មាញ និងទំហំវិមាត្រធំ។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៨៥.៥២% ប៉ុណ្ណោះលើសំណុំទិន្នន័យ VOC 2012។
GMM Segmentation
ការបែងចែកតំបន់រូបភាព GMM (ប្រៀបធៀបជាមួយ DBSCAN)
មានប្រសិទ្ធភាពសម្រាប់រូបភាពដែលមានរបាយពន្លឺមិនស្មើគ្នា និងរចនាសម្ព័ន្ធស្មុគស្មាញ។ ប្រើប្រាស់ពេលវេលាគណនាយូរជាង (Iterative EM algorithm) និងមានកម្រិតភាពត្រឹមត្រូវ (IoU) ទាបជាង DBSCAN។ ចំណាយពេល ១៧១.១៣ វិនាទី និងមានតម្លៃ IoU ៨២.៩% (លើ VOC 2012)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញពីការប្រើប្រាស់ធនធានកុំព្យូទ័រកម្រិតទាបគួរឱ្យកត់សម្គាល់ ដោយសារម៉ូដែលទាមទារត្រឹមតែស៊ីភីយូ (CPU) ធម្មតាប៉ុណ្ណោះសម្រាប់ការសាកល្បង ដែលស័ក្តិសមខ្លាំងសម្រាប់មជ្ឈដ្ឋានខ្វះខាតធនធាន GPU។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យពីបស្ចិមប្រទេស ដែលបង្ហាញពីវត្ថុប្រើប្រាស់ និងទិដ្ឋភាពប្រចាំថ្ងៃរបស់ពួកគេ។ ទិន្នន័យទាំងនេះអាចមិនមានផ្ទុកវត្ថុក្នុងស្រុករបស់កម្ពុជា (ឧទាហរណ៍៖ រ៉ឺម៉កកង់បី ឬទិដ្ឋភាពផ្ទះល្វែងនៅភ្នំពេញ) ឡើយ។ ហេតុនេះ ការយកមកប្រើប្រាស់ផ្ទាល់នៅកម្ពុជាអាចប្រឈមនឹងបញ្ហាភាពត្រឹមត្រូវ ប្រសិនបើគ្មានការប្រមូលទិន្នន័យបន្ថែមក្នុងស្រុក (Local Dataset) មកបង្ហាត់ម៉ូដែលឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធកុំព្យូទ័រមើលឃើញ (Computer Vision) នៅក្នុងប្រទេសកម្ពុជា ជាពិសេសដោយសារវាទាមទារកម្លាំងកុំព្យូទ័រទាប (Intel Core i3)។

ជារួម ការច្របាច់បញ្ចូលបច្ចេកទេសស្រង់លក្ខណៈពិសេសកម្រិតស្រាល ជាមួយស្ថាបត្យកម្មកែច្នៃ AlexNet គឺជាជម្រើសដ៏ស័ក្តិសមសម្រាប់ស្ថាប័នស្រាវជ្រាវ និងក្រុមហ៊ុនបច្ចេកវិទ្យានៅកម្ពុជា ក្នុងការបង្កើតដំណោះស្រាយ AI ដែលមានតម្លៃថោក និងប្រសិទ្ធភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ការកែច្នៃ និងបែងចែកតំបន់រូបភាព (Image Pre-processing & Segmentation): និស្សិតគប្បីចាប់ផ្តើមសរសេរកូដកាត់បន្ថយសំឡេងរំខានដោយប្រើ Adoptive Mean Filter និងរៀនបែងចែកវត្ថុក្នុងរូបភាពដោយក្បួនប្រមូលផ្ដុំដង់ស៊ីតេ DBSCAN តាមរយៈការប្រើប្រាស់បណ្ណាល័យ Scikit-Learn និង OpenCV
  2. ជំហានទី២៖ ការស្រង់ និងច្របាច់បញ្ចូលលក្ខណៈពិសេស (Feature Extraction & Fusion): អនុវត្តបច្ចេកទេសទាញយកព័ត៌មានពីរូបភាពដូចជា MSER, BRISK, និង Wavelet Transform បន្ទាប់មកសាកល្បងបញ្ចូលវ៉ិចទ័រទាំងនោះចូលគ្នា (Concatenation) ដើម្បីទទួលបានទិន្នន័យតំណាងដែលមានលក្ខណៈសម្បូរបែប។
  3. ជំហានទី៣៖ ស្វែងយល់ពីក្បួនដោះស្រាយហ្វូងត្រី (Fish Swarm Algorithm - FSA): សិក្សា និងសរសេរកូដសម្រាប់ក្បួន FSA ក្នុងគោលបំណងចម្រោះ និងធ្វើឱ្យប្រសើរឡើង (Optimize) នូវវ៉ិចទ័រលក្ខណៈពិសេសដែលបានមកពីជំហានទី២ មុននឹងបញ្ជូនទៅកាន់បណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ។
  4. ជំហានទី៤៖ ការអភិវឌ្ឍម៉ូដែល AlexNet ក្នុងបរិស្ថានជំនួយ (Classification Framework): ប្រើប្រាស់ Framework ដូចជា PyTorchTensorFlow ដើម្បីសាងសង់ស្ថាបត្យកម្មកែច្នៃរបស់ AlexNet (Modified AlexNet) ដែលទទួលយក Feature Vector (ឧទាហរណ៍ 500x375) ជា Input ជំនួសឱ្យទម្រង់រូបភាពដើម។
  5. ជំហានទី៥៖ ការប្រមូលទិន្នន័យក្នុងស្រុក និងហ្វឹកហាត់បន្ថែម (Local Dataset Fine-tuning): ប្រមូលរូបភាពវត្ថុឬទិដ្ឋភាពពិតនៅកម្ពុជា (ឧ. រូបភាពយានយន្តនៅភ្នំពេញ) រួចបង្កើត Label សមស្របដោយប្រើ Label Studio បន្ទាប់មកយកវាទៅហ្វឹកហាត់ (Fine-tune) ដើម្បីឱ្យម៉ូដែលអាចប្រើប្រាស់ក្នុងស្ថានភាពជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Saliency Map ជាបច្ចេកទេសក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រមើលឃើញ (Computer Vision) ដែលត្រូវបានប្រើដើម្បីគូសបញ្ជាក់ ឬរំលេចតំបន់សំខាន់ៗបំផុតនៅក្នុងរូបភាព (ឧទាហរណ៍៖ វត្ថុដែលលេចធ្លោជាងគេ ឬមានកម្រិតពណ៌ខុសប្លែកពីគេ) ដើម្បីឲ្យប្រព័ន្ធកុំព្យូទ័រងាយស្រួលផ្ដោតការយកចិត្តទុកដាក់លើតំបន់នោះ ជំនួសឲ្យការវិភាគគ្រប់ភីកសែល (Pixel) ទាំងអស់។ ដូចជាការប្រើហ្វឺតពណ៌ (Highlighter) គូសចំណាំលើពាក្យសំខាន់ៗក្នុងសៀវភៅ ដើម្បីឲ្យយើងងាយស្រួលអាននិងឆាប់ចាប់បានចំណុចសំខាន់។
DBSCAN ជាក្បួនដោះស្រាយសម្រាប់បែងចែកក្រុមទិន្នន័យ (Clustering) ដោយផ្អែកលើដង់ស៊ីតេ។ វាស្វែងរកចំណុចដែលនៅផ្ដុំគ្នាជិតៗ ហើយចាត់ទុកវាជាក្រុមតែមួយ ព្រមទាំងបដិសេធចំណុចដែលនៅដាច់ពីគេថាជាសំឡេងរំខាន (Noise) ដែលបច្ចេកទេសនេះជួយក្នុងការបែងចែករូបភាពវត្ថុបានល្អប្រសើរ ទោះវត្ថុនោះមានរូបរាងមិនច្បាស់លាស់ក៏ដោយ។ ដូចជាការសង្កេតមើលមនុស្សក្នុងពិធីបុណ្យ ក្រុមមនុស្សដែលឈរផ្ដុំគ្នាច្រើនត្រូវបានចាត់ទុកជាក្រុមជជែកគ្នា រីឯអ្នកដែលដើរម្នាក់ឯងឆ្ងាយពីគេត្រូវបានចាត់ទុកជាអ្នកដើរកាត់។
Fish Swarm Algorithm ជាក្បួនដោះស្រាយផ្នែកបញ្ញាសិប្បនិម្មិត (AI Optimization) ដែលយកគំរូតាមឥរិយាបថរបស់ហ្វូងត្រីក្នុងធម្មជាតិ (ដូចជាការស្វែងរកចំណី ការហែលជាហ្វូង និងការចៀសវាងគ្រោះថ្នាក់) ដើម្បីស្វែងរកដំណោះស្រាយដ៏ល្អបំផុតក្នុងការចម្រោះ និងជ្រើសរើសលក្ខណៈពិសេស (Features) របស់រូបភាពឲ្យកាន់តែមានប្រសិទ្ធភាព។ ដូចជាការប្រាប់ក្មេងៗមួយក្រុមឲ្យរត់រកកន្លែងដែលមានលាក់ស្ករគ្រាប់ច្រើនជាងគេ បើអ្នកណាម្នាក់រកឃើញចំណុចដែលមានស្ករគ្រាប់ អ្នកផ្សេងទៀតនឹងរត់សម្រុកទៅទីនោះដែរ។
Feature Fusion ជាដំណើរការនៃការច្របាច់បញ្ចូលគ្នានូវលក្ខណៈពិសេស (Features) ដែលទាញយកបានពីវិធីសាស្ត្រផ្សេងៗគ្នា (ដូចជារូបរាង ចំណុចសំខាន់ៗ និងទម្រង់រលក) ដើម្បីបង្កើតបានជាទិន្នន័យតំណាងរូបភាពមួយដែលមានភាពពេញលេញ សុក្រឹត និងគ្រប់ជ្រុងជ្រោយជាងមុន សម្រាប់ការយកទៅចាត់ថ្នាក់វត្ថុ។ ដូចជាការសួរមតិពីគ្រូពេទ្យជំនាញ៣ផ្នែកផ្សេងគ្នា រួចយកមតិទាំងនោះមកបូកបញ្ចូលគ្នាដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺមួយឲ្យបានច្បាស់លាស់បំផុត។
AlexNet ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Convolutional Neural Network - CNN) ដ៏ល្បីល្បាញមួយ ដែលមានស្រទាប់ (Layers) ច្រើនតម្រួតលើគ្នា ប្រើសម្រាប់រៀននិងស្គាល់លំនាំស្មុគស្មាញដើម្បីចាត់ថ្នាក់រូបភាពទៅតាមប្រភេទនីមួយៗបានយ៉ាងជាក់លាក់។ នៅក្នុងការសិក្សានេះ វាត្រូវបានកែច្នៃដើម្បីទទួលយកទិន្នន័យវ៉ិចទ័រជំនួសឲ្យរូបភាពផ្ទាល់។ ដូចជាខ្សែសង្វាក់ផលិតកម្មក្នុងរោងចក្រ ដែលមានកម្មករច្រើនផ្នែកតៗគ្នា ចាប់ពីអ្នកពិនិត្យពណ៌ ពិនិត្យរាង រហូតដល់អ្នកបិទស្លាកឈ្មោះទំនិញនៅដំណាក់កាលចុងក្រោយ។
Adaptive Mean Filter ជាបច្ចេកទេសច្រោះរូបភាពក្នុងដំណាក់កាលរៀបចំទិន្នន័យ (Pre-processing) ដែលអាចផ្លាស់ប្ដូរទំហំតម្រង (Window Size) ដោយស្វ័យប្រវត្តិទៅតាមស្ថានភាពផ្ទៃនៃរូបភាពត្រង់ចំណុចនីមួយៗ។ គោលបំណងគឺដើម្បីកាត់បន្ថយចំណុចរំខាន (Noise) ប៉ុន្តែនៅតែអាចរក្សាភាពច្បាស់នៃគែមវត្ថុបានល្អប្រសើរជាងក្បួនច្រោះធម្មតា។ ដូចជាការពាក់វ៉ែនតាដែលអាចប្ដូរពណ៌ដោយស្វ័យប្រវត្តិពេលត្រូវពន្លឺថ្ងៃខ្លាំង ដើម្បីការពារភ្នែកកុំឲ្យស្រវាំង តែនៅតែអាចមើលឃើញរាងវត្ថុច្បាស់ល្អ។
MSER Feature Extraction MSER (Maximally Stable Extremal Regions) គឺជាវិធីសាស្ត្រស្រង់យកលក្ខណៈពិសេសពីរូបភាព ដោយស្វែងរកតំបន់ណាដែលរក្សាទម្រង់ដើមបានល្អ (មិនប្រែប្រួលទំហំឬរូបរាង) ទោះបីជាមានការផ្លាស់ប្ដូរកម្រិតពន្លឺ ឬកម្រិតកាត់ពណ៌ (Thresholding) ជាច្រើនដងក៏ដោយ។ ដូចជាការចាក់ទឹកចូលក្នុងសំបកកង់ឡានដែលមានក្រឡា ទោះទឹកកើនឡើងដល់កម្រិតណាក៏ដោយ ក៏តំបន់ក្រឡាជ្រៅៗនៅតែរក្សារូបរាងដដែលមិនប្រែប្រួល។
BRISK Feature Extraction BRISK (Binary Robust Invariant Scalable Keypoints) គឺជាវិធីសាស្ត្ររកចំណុចសំខាន់ៗ (Keypoints) លើរូបភាពដែលមានល្បឿនលឿន និងមិនងាយប្រែប្រួលទោះបីជារូបភាពនោះត្រូវបង្រួមពង្រីក (Scale) ឬបង្វិល (Rotation) ក៏ដោយ ដែលវាផ្ដល់នូវការកត់សម្គាល់លក្ខណៈវត្ថុបានយ៉ាងរឹងមាំសម្រាប់ផ្គូផ្គង។ ដូចជាការចំណាំប្រជ្រុយនៅលើមុខមនុស្សម្នាក់ ទោះបីជាគាត់ងាកមុខទៅឆ្វេងស្ដាំ ឬយើងមើលគាត់ពីចម្ងាយក៏ដោយ ក៏យើងនៅតែអាចចំណាំគាត់បានដោយផ្អែកលើទីតាំងប្រជ្រុយនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖