Original Title: Spatiotemporal Saliency Detection: State Of Art
Source: www.ijritcc.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពលេចធ្លោក្នុងលំហនិងពេលវេលា៖ ស្ថានភាពនៃបច្ចេកវិទ្យាបច្ចុប្បន្ន

ចំណងជើងដើម៖ Spatiotemporal Saliency Detection: State Of Art

អ្នកនិពន្ធ៖ Sultana kadri (CT Group of Institutions), Pooja (CT Group of Institutions), Manju Bala (CT Group of Institutions)

ឆ្នាំបោះពុម្ព៖ 2016 IJRITCC

វិស័យសិក្សា៖ Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យ និងប្រៀបធៀបវិធីសាស្ត្ររកឃើញភាពលេចធ្លោក្នុងលំហនិងពេលវេលា (Spatiotemporal Saliency Detection) សម្រាប់វីដេអូចាប់ពីឆ្នាំ២០០០ ដល់ ២០១៥ ដើម្បីស្វែងរកបច្ចេកទេសដែលមានប្រសិទ្ធភាពបំផុតក្នុងការវិភាគកន្លែងដែលមនុស្សចាប់អារម្មណ៍មើល។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀបយ៉ាងទូលំទូលាយលើក្បួនដោះស្រាយផ្សេងៗ ដោយធ្វើចំណាត់ថ្នាក់យោងតាមលក្ខណៈពិសេស ពិន្ទុ កម្រិតនៃការសម្រេចចិត្ត និងបញ្ហាប្រឈមរបស់ពួកវា។

ការវិភាគភាពលេចធ្លោក្នុងលំហ (Spatial Saliency Analysis)
ការរកឃើញភាពលេចធ្លោតាមពេលវេលា (Temporal Saliency Detection)
ការប្រៀបធៀបក្បួនដោះស្រាយ (Algorithm Comparison)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយ Random Walk with Restart (RWR) ត្រូវបានកំណត់ថាជាបច្ចេកទេសដ៏រឹងមាំ និងល្អបំផុតដោយប្រើប្រាស់ម៉ាទ្រីសប្រូបាប៊ីលីតេអន្តរកាល។
បច្ចេកទេសដ៏ល្អបំផុតនេះផ្តល់នូវកម្រិតភាពត្រឹមត្រូវខ្ពស់ចន្លោះពី ៨៥% ទៅ ៩៩% សម្រាប់ការវិភាគវីដេអូ។
ការច្របាច់បញ្ចូលគ្នា (Fusion) នៅដំណាក់កាលដំបូងផ្តល់លទ្ធផលល្អបំផុតសម្រាប់ប្រព័ន្ធពហុមធ្យោបាយ (Multi-modal systems) បើប្រៀបធៀបទៅនឹងការច្របាច់បញ្ចូលគ្នានៅកម្រិតសម្រេចចិត្ត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Walk With Restart (RWR) ការរកឃើញភាពលេចធ្លោដោយផ្អែកលើ Random Walk ជាមួយ Restart	មានភាពរឹងមាំខ្ពស់ (Robust) និងផ្តល់នូវការបង្រួមពណ៌បានល្អដោយប្រើម៉ាទ្រីសប្រូបាប៊ីលីតេអន្តរកាល។ វាប្រើការច្របាច់បញ្ចូលគ្នា (Fusion) នៅដំណាក់កាលដំបូងដែលផ្តល់លទ្ធផលល្អបំផុត។	លទ្ធផលអាចមានភាពមិនសូវច្បាស់លាស់ ឬមិនត្រឹមត្រូវ នៅពេលដែលមានវត្ថុពីរ ឬច្រើនលេចឡើងក្នុងពេលតែមួយ។	សម្រេចបានកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុតចន្លោះពី ៨៥% ទៅ ៩៩%។
Phase Spectrum of Quaternion Fourier Transform (PQFT) ការប្រើប្រាស់ Phase Spectrum នៃ Quaternion Fourier Transform	កាត់បន្ថយភាពស្មុគស្មាញនៃការគណនា និងដំណើរការបានលឿន ដោយផ្តោតលើ Phase Spectrum ជាជាង Amplitude Spectrum។	ទាមទារការអភិវឌ្ឍបន្ថែមទៀត ដើម្បីយកទៅប្រើប្រាស់ក្នុងកិច្ចការស្មុគស្មាញដូចជា ការចំណាំវត្ថុ (Object recognition) និងការបង្ហាប់វីដេអូខ្នាតធំ។	បង្កើតផែនទីភាពលេចធ្លោ (Saliency maps) ក្នុងលំហនិងពេលវេលាបានលឿន និងមានប្រសិទ្ធភាពសម្រាប់ទាំងរូបភាពនិងវីដេអូ។
Background Subtraction and Shadow Detection ការដកផ្ទៃខាងក្រោយ និងការរកឃើញស្រមោល	ដំណើរការបានលឿន បត់បែន និងចំណាយថាមពលកុំព្យូទ័រតិច (Computationally cost-effective) ជាមួយនឹងភាពជាក់លាក់ខ្ពស់លើរូបរាងវត្ថុ។	អាចជួបការលំបាក និងទាមទារក្បួនដោះស្រាយបន្ថែម នៅពេលដែលទាំងផ្ទៃខាងក្រោយ និងវត្ថុខាងមុខ កំពុងផ្លាស់ទីក្នុងពេលតែមួយ។	ផ្តល់លទ្ធផលល្អសម្រាប់ការកាត់បែងចែកវត្ថុ (Object segmentation) និងធ្វើបច្ចុប្បន្នភាពផ្ទៃខាងក្រោយក្នុងវីដេអូ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់តួលេខច្បាស់លាស់ពីទំហំផ្ទុក ឬថាមពលកុំព្យូទ័រ ប៉ុន្តែការវិភាគវីដេអូតាមពេលវេលាជាក់ស្តែង (Spatiotemporal Analysis) ជាទូទៅទាមទារធនធានកុំព្យូទ័រនិងអង្គចងចាំកម្រិតខ្ពស់។

Hardware: ត្រូវការម៉ាស៊ីនកុំព្យូទ័រដែលមានអង្គគណនា (CPU ខ្លាំង និង GPU) ដើម្បីដំណើរការវីដេអូ និងគណនាទម្រង់គណិតវិទ្យាស្មុគស្មាញ (ដូចជា Fourier Transform)។
Software: បរិស្ថានសម្រាប់សរសេរកូដ និងសាកល្បងក្បួនដោះស្រាយ ដូចជា MATLAB ឬ Python ព្រមទាំងបណ្ណាល័យ Computer Vision។
Dataset: ត្រូវការសំណុំទិន្នន័យវីដេអូស្តង់ដារ និងទិន្នន័យតាមដានភ្នែកមនុស្ស (Eye-tracking data) សម្រាប់ការវាយតម្លៃ និងប្រៀបធៀបម៉ូដែល។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅផ្នែកកុំព្យូទ័រវីហ្សិន (Computer Vision) ដំណើរការរូបភាព (Image Processing) និងគណិតវិទ្យា (ការវិភាគប្រូបាប៊ីលីតេ និងម៉ាទ្រីស)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Review) លើក្បួនដោះស្រាយជាច្រើន ដែលភាគច្រើនត្រូវបានធ្វើតេស្តលើសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (ភាពយន្ត សកម្មភាពកីឡា វីដេអូពីមន្ទីរពិសោធន៍)។ ទិន្នន័យទាំងនេះប្រហែលជាមិនឆ្លុះបញ្ចាំងពេញលេញពីបរិបទស្មុគស្មាញក្នុងប្រទេសកម្ពុជាទេ ដូចជាលំហូរចរាចរណ៍ចម្រុះ ឬទិដ្ឋភាពផ្លូវថ្នល់ដែលគ្មានសណ្តាប់ធ្នាប់ ដែលទាមទារការសាកល្បងជាក់ស្តែងបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស Saliency Detection នេះមានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការយកមកអនុវត្តនៅក្នុងប្រទេសកម្ពុជា ពិសេសដើម្បីពង្រឹងការគ្រប់គ្រងប្រព័ន្ធសុវត្ថិភាពនិងហេដ្ឋារចនាសម្ព័ន្ធ។

ប្រព័ន្ធកាមេរ៉ាសុវត្ថិភាពឆ្លាតវៃ (Video Surveillance) នៅរាជធានីភ្នំពេញ: អាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីឲ្យកាមេរ៉ាសុវត្ថិភាពអាចស្វែងរក និងលេចរូបភាព (Highlight) សកម្មភាពគួរឱ្យសង្ស័យ ឬចលនាមិនធម្មតានៅកន្លែងសាធារណៈ ដោយស្វ័យប្រវត្តិ។
ការគ្រប់គ្រងចរាចរណ៍ (Smart Traffic Management): ជួយដល់ការតាមដានលំហូរចរាចរណ៍ និងការរកឃើញវត្ថុផ្លាស់ទី (រថយន្ត ម៉ូតូ កង់បី) នៅតាមស្តុបសំខាន់ៗ ដើម្បីវិភាគទិន្នន័យកាត់បន្ថយការកកស្ទះចរាចរណ៍។
ប្រព័ន្ធប្រយ័ត្នប្រយែងក្នុងវិស័យឧស្សាហកម្មរោងចក្រ: អាចតាមដានសកម្មភាពកម្មករ ឬដំណើរការម៉ាស៊ីនក្នុងរោងចក្រ ដើម្បីផ្តល់ការព្រមានភ្លាមៗប្រសិនបើមានសកម្មភាពគ្រោះថ្នាក់កើតឡើង។

ជារួម បច្ចេកវិទ្យានេះអាចជួយធ្វើឱ្យប្រព័ន្ធតាមដានវីដេអូនៅកម្ពុជាកាន់តែមានភាពឆ្លាតវៃ កាត់បន្ថយការចំណាយពេលរាប់ម៉ោងរបស់មនុស្សក្នុងការអង្គុយមើលកាមេរ៉ា និងផ្តោតតែលើចំណុចសំខាន់ៗដែលម៉ាស៊ីនបានចាប់យក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃទម្រង់រូបភាពនិងវីដេអូ: និស្សិតគួរចាប់ផ្តើមរៀនភាសា Python និងប្រើប្រាស់បណ្ណាល័យ OpenCV ដើម្បីយល់ពីរបៀបបំបែកវីដេអូជា Frames និងការវិភាគពណ៌ (Color Intensity) ជាមូលដ្ឋាន។
ស្វែងយល់ពីក្បួនដោះស្រាយដកផ្ទៃខាងក្រោយ: អនុវត្តកូដដោយប្រើបច្ចេកទេស Background Subtraction ងាយៗ ដើម្បីចាប់យកចលនា (Motion detection) ដែលជាមូលដ្ឋានគ្រឹះនៃ Temporal Saliency។
ស្រាវជ្រាវនិងសាកល្បង Random Walk With Restart: ស្វែងរក Open-source Repository នៅលើ GitHub ដែលទាក់ទងនឹង Random Walk with Restart (RWR) រួចយកមកដំណើរការជាមួយសំណុំទិន្នន័យវីដេអូគំរូ ដើម្បីផ្ទៀងផ្ទាត់កម្រិតភាពត្រឹមត្រូវ។
ប្រមូលទិន្នន័យក្នុងស្រុកនិងវាយតម្លៃក្បួនដោះស្រាយ: ថតវីដេអូចរាចរណ៍ ឬវីដេអូទីធ្លាសាលារៀននៅកម្ពុជា បន្ទាប់មកបញ្ជូនវាទៅក្នុងម៉ូដែល Spatiotemporal Saliency Model ដែលបានរៀន ដើម្បីមើលថាតើប្រព័ន្ធអាចចាប់យកវត្ថុផ្លាស់ទីសំខាន់ៗបានត្រឹមត្រូវឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Spatiotemporal Saliency	ការរកឃើញចំណុចឬតំបន់ដែលលេចធ្លោជាងគេនៅក្នុងវីដេអូ ដោយរួមបញ្ចូលគ្នានូវព័ត៌មានពីទីតាំងរូបភាព (លំហ/Spatial) និងចលនាដែលប្រែប្រួលពីស៊ុមមួយទៅស៊ុមមួយទៀត (ពេលវេលា/Temporal)។	ដូចជាពេលយើងមើលទៅក្នុងហ្វូងមនុស្ស (លំហ) ហើយស្រាប់តែមានម្នាក់លោតឡើង (ចលនា/ពេលវេលា) នោះភ្នែកយើងនឹងចាប់អារម្មណ៍ទៅលើអ្នកនោះភ្លាមៗ។
Human Visual System (HVS)	ការវិភាគដោយធ្វើត្រាប់តាមប្រព័ន្ធគំហើញរបស់មនុស្ស ដែលខួរក្បាលនឹងត្រងយកតែព័ត៌មានដែលសំខាន់ ឬលេចធ្លោបំផុតពីបរិស្ថានជុំវិញ ដោយមិនដោះស្រាយព័ត៌មានទាំងអស់នោះទេ។ វាជួយកាត់បន្ថយបន្ទុកគណនារបស់កុំព្យូទ័រ។	ដូចជាកាមេរ៉ាឆ្លាតវៃដែលមានសមត្ថភាពព្រងើយកន្តើយនឹងផ្ទៃខាងក្រោយធម្មតាៗ ហើយផ្តោតការថតតែទៅលើវត្ថុដែលកំពុងចាប់អារម្មណ៍។
Random Walk with Restart (RWR)	ក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើការដើរដោយចៃដន្យ ប៉ុន្តែមានប្រូបាប៊ីលីតេត្រឡប់មកចំណុចចាប់ផ្តើមវិញ។ ក្នុងឯកសារនេះ វាប្រើសម្រាប់គណនាភាពលេចធ្លោក្នុងវីដេអូ ដើម្បីកាត់បន្ថយភាពរំខាន (Noise) និងរក្សាស្ថិរភាពការរកឃើញ។	ដូចជាអ្នកវង្វេងផ្លូវក្នុងព្រៃដែលដើររកច្រកចេញដោយចៃដន្យ ប៉ុន្តែតែងតែមានខ្សែចងទាញត្រឡប់មកកន្លែងដើមវិញ ដើម្បីកុំឲ្យវង្វេងឆ្ងាយពេកពីគោលដៅសំខាន់។
Phase Spectrum	ផ្នែកមួយនៃការបំប្លែងសញ្ញាគណិតវិទ្យា (Fourier Transform) ដែលផ្តោតលើទីតាំង ឬរចនាសម្ព័ន្ធរូបរាងរបស់រូបភាព (ដូចជាគែមវត្ថុ) ជាជាងពន្លឺ ឬពណ៌។ វាមានសារៈសំខាន់ក្នុងការកំណត់ទីតាំងវត្ថុដែលលេចធ្លោលឿនជាងមុន។	ដូចជាប្លង់មេនៃផ្ទះមួយដែលប្រាប់ពីទីតាំងបន្ទប់នីមួយៗ (Phase) ជាជាងប្រាប់ពីពណ៌នៃការលាបថ្នាំលើជញ្ជាំង (Amplitude)។
Background Subtraction	បច្ចេកទេសកុំព្យូទ័រវីហ្សិន (Computer Vision) ដែលមានតួនាទីកាត់យកផ្ទៃខាងក្រោយដែលនៅស្ងៀមចេញពីរូបភាពស៊ុមវីដេអូ ដើម្បីរំលេច និងចាប់យកតែវត្ថុខាងមុខដែលកំពុងផ្លាស់ទីប៉ុណ្ណោះ។	ដូចជាការយកកន្ត្រៃកាត់រូបមនុស្សចេញពីផ្ទាំងរូបភាពទេសភាព ដើម្បីយកតែរូបមនុស្សនោះមកប្រើប្រាស់។
Center-surround Difference	យន្តការប្រៀបធៀបលក្ខណៈពិសេស (ដូចជាពណ៌ ឬពន្លឺ) នៃចំណុចកណ្តាលតូចមួយ ទៅនឹងផ្ទៃធំដែលនៅជុំវិញវា។ បើវាខុសគ្នាខ្លាំងពីបរិវេណជុំវិញ កុំព្យូទ័រនឹងចាត់ទុកថាចំណុចនោះលេចធ្លោ។	ដូចជាការដាក់ផ្លែប៉ោមពណ៌ក្រហមមួយគ្រាប់នៅកណ្តាលគំនរផ្លែប៉ោមពណ៌បៃតង ធ្វើឲ្យវាលេចធ្លោខ្លាំងជាងគេដោយសារភាពខុសគ្នានៃពណ៌។
Optical Flow	បច្ចេកទេសសម្រាប់គណនាលំនាំនៃចលនារបស់វត្ថុរវាងស៊ុមវីដេអូពីរដែលជាប់គ្នា។ វាជួយឲ្យប្រព័ន្ធកុំព្យូទ័រយល់ពីទិសដៅ និងល្បឿនដែលវត្ថុកំពុងផ្លាស់ទីក្នុងលំហ។	ដូចជាការតាមដានមើលទិសដៅនិងល្បឿននៃស្លឹកឈើដែលហោះតាមខ្យល់ ដើម្បីទាយថាខ្យល់កំពុងបក់ទៅទិសណា។
Feature Fusion	ដំណើរការនៃការច្របាច់បញ្ចូលគ្នានូវទិន្នន័យពីប្រភពលក្ខណៈផ្សេងៗគ្នា (ដូចជា ពណ៌ រូបរាង ចលនា និងពន្លឺ) ចូលគ្នាដើម្បីបង្កើតជាផែនទីភាពលេចធ្លោរួមមួយដែលធានាបាននូវលទ្ធផលត្រឹមត្រូវជាងមុន។	ដូចជាការផ្សំគ្រឿងទេសជាច្រើនមុខ (អំបិល ស្ករ ម្ទេស) បញ្ចូលគ្នាដើម្បីបង្កើតបានជាទឹកជ្រលក់មួយដែលមានរសជាតិឆ្ងាញ់ និងមុតជាងគ្រឿងទេសដាច់ដោយឡែក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖