Original Title: Spatiotemporal Saliency Detection: State Of Art
Source: www.ijritcc.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពលេចធ្លោក្នុងលំហនិងពេលវេលា៖ ស្ថានភាពនៃបច្ចេកវិទ្យាបច្ចុប្បន្ន

ចំណងជើងដើម៖ Spatiotemporal Saliency Detection: State Of Art

អ្នកនិពន្ធ៖ Sultana kadri (CT Group of Institutions), Pooja (CT Group of Institutions), Manju Bala (CT Group of Institutions)

ឆ្នាំបោះពុម្ព៖ 2016 IJRITCC

វិស័យសិក្សា៖ Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យ និងប្រៀបធៀបវិធីសាស្ត្ររកឃើញភាពលេចធ្លោក្នុងលំហនិងពេលវេលា (Spatiotemporal Saliency Detection) សម្រាប់វីដេអូចាប់ពីឆ្នាំ២០០០ ដល់ ២០១៥ ដើម្បីស្វែងរកបច្ចេកទេសដែលមានប្រសិទ្ធភាពបំផុតក្នុងការវិភាគកន្លែងដែលមនុស្សចាប់អារម្មណ៍មើល។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀបយ៉ាងទូលំទូលាយលើក្បួនដោះស្រាយផ្សេងៗ ដោយធ្វើចំណាត់ថ្នាក់យោងតាមលក្ខណៈពិសេស ពិន្ទុ កម្រិតនៃការសម្រេចចិត្ត និងបញ្ហាប្រឈមរបស់ពួកវា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Walk With Restart (RWR)
ការរកឃើញភាពលេចធ្លោដោយផ្អែកលើ Random Walk ជាមួយ Restart
មានភាពរឹងមាំខ្ពស់ (Robust) និងផ្តល់នូវការបង្រួមពណ៌បានល្អដោយប្រើម៉ាទ្រីសប្រូបាប៊ីលីតេអន្តរកាល។ វាប្រើការច្របាច់បញ្ចូលគ្នា (Fusion) នៅដំណាក់កាលដំបូងដែលផ្តល់លទ្ធផលល្អបំផុត។ លទ្ធផលអាចមានភាពមិនសូវច្បាស់លាស់ ឬមិនត្រឹមត្រូវ នៅពេលដែលមានវត្ថុពីរ ឬច្រើនលេចឡើងក្នុងពេលតែមួយ។ សម្រេចបានកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុតចន្លោះពី ៨៥% ទៅ ៩៩%។
Phase Spectrum of Quaternion Fourier Transform (PQFT)
ការប្រើប្រាស់ Phase Spectrum នៃ Quaternion Fourier Transform
កាត់បន្ថយភាពស្មុគស្មាញនៃការគណនា និងដំណើរការបានលឿន ដោយផ្តោតលើ Phase Spectrum ជាជាង Amplitude Spectrum។ ទាមទារការអភិវឌ្ឍបន្ថែមទៀត ដើម្បីយកទៅប្រើប្រាស់ក្នុងកិច្ចការស្មុគស្មាញដូចជា ការចំណាំវត្ថុ (Object recognition) និងការបង្ហាប់វីដេអូខ្នាតធំ។ បង្កើតផែនទីភាពលេចធ្លោ (Saliency maps) ក្នុងលំហនិងពេលវេលាបានលឿន និងមានប្រសិទ្ធភាពសម្រាប់ទាំងរូបភាពនិងវីដេអូ។
Background Subtraction and Shadow Detection
ការដកផ្ទៃខាងក្រោយ និងការរកឃើញស្រមោល
ដំណើរការបានលឿន បត់បែន និងចំណាយថាមពលកុំព្យូទ័រតិច (Computationally cost-effective) ជាមួយនឹងភាពជាក់លាក់ខ្ពស់លើរូបរាងវត្ថុ។ អាចជួបការលំបាក និងទាមទារក្បួនដោះស្រាយបន្ថែម នៅពេលដែលទាំងផ្ទៃខាងក្រោយ និងវត្ថុខាងមុខ កំពុងផ្លាស់ទីក្នុងពេលតែមួយ។ ផ្តល់លទ្ធផលល្អសម្រាប់ការកាត់បែងចែកវត្ថុ (Object segmentation) និងធ្វើបច្ចុប្បន្នភាពផ្ទៃខាងក្រោយក្នុងវីដេអូ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់តួលេខច្បាស់លាស់ពីទំហំផ្ទុក ឬថាមពលកុំព្យូទ័រ ប៉ុន្តែការវិភាគវីដេអូតាមពេលវេលាជាក់ស្តែង (Spatiotemporal Analysis) ជាទូទៅទាមទារធនធានកុំព្យូទ័រនិងអង្គចងចាំកម្រិតខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Review) លើក្បួនដោះស្រាយជាច្រើន ដែលភាគច្រើនត្រូវបានធ្វើតេស្តលើសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (ភាពយន្ត សកម្មភាពកីឡា វីដេអូពីមន្ទីរពិសោធន៍)។ ទិន្នន័យទាំងនេះប្រហែលជាមិនឆ្លុះបញ្ចាំងពេញលេញពីបរិបទស្មុគស្មាញក្នុងប្រទេសកម្ពុជាទេ ដូចជាលំហូរចរាចរណ៍ចម្រុះ ឬទិដ្ឋភាពផ្លូវថ្នល់ដែលគ្មានសណ្តាប់ធ្នាប់ ដែលទាមទារការសាកល្បងជាក់ស្តែងបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស Saliency Detection នេះមានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការយកមកអនុវត្តនៅក្នុងប្រទេសកម្ពុជា ពិសេសដើម្បីពង្រឹងការគ្រប់គ្រងប្រព័ន្ធសុវត្ថិភាពនិងហេដ្ឋារចនាសម្ព័ន្ធ។

ជារួម បច្ចេកវិទ្យានេះអាចជួយធ្វើឱ្យប្រព័ន្ធតាមដានវីដេអូនៅកម្ពុជាកាន់តែមានភាពឆ្លាតវៃ កាត់បន្ថយការចំណាយពេលរាប់ម៉ោងរបស់មនុស្សក្នុងការអង្គុយមើលកាមេរ៉ា និងផ្តោតតែលើចំណុចសំខាន់ៗដែលម៉ាស៊ីនបានចាប់យក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទម្រង់រូបភាពនិងវីដេអូ: និស្សិតគួរចាប់ផ្តើមរៀនភាសា Python និងប្រើប្រាស់បណ្ណាល័យ OpenCV ដើម្បីយល់ពីរបៀបបំបែកវីដេអូជា Frames និងការវិភាគពណ៌ (Color Intensity) ជាមូលដ្ឋាន។
  2. ស្វែងយល់ពីក្បួនដោះស្រាយដកផ្ទៃខាងក្រោយ: អនុវត្តកូដដោយប្រើបច្ចេកទេស Background Subtraction ងាយៗ ដើម្បីចាប់យកចលនា (Motion detection) ដែលជាមូលដ្ឋានគ្រឹះនៃ Temporal Saliency
  3. ស្រាវជ្រាវនិងសាកល្បង Random Walk With Restart: ស្វែងរក Open-source Repository នៅលើ GitHub ដែលទាក់ទងនឹង Random Walk with Restart (RWR) រួចយកមកដំណើរការជាមួយសំណុំទិន្នន័យវីដេអូគំរូ ដើម្បីផ្ទៀងផ្ទាត់កម្រិតភាពត្រឹមត្រូវ។
  4. ប្រមូលទិន្នន័យក្នុងស្រុកនិងវាយតម្លៃក្បួនដោះស្រាយ: ថតវីដេអូចរាចរណ៍ ឬវីដេអូទីធ្លាសាលារៀននៅកម្ពុជា បន្ទាប់មកបញ្ជូនវាទៅក្នុងម៉ូដែល Spatiotemporal Saliency Model ដែលបានរៀន ដើម្បីមើលថាតើប្រព័ន្ធអាចចាប់យកវត្ថុផ្លាស់ទីសំខាន់ៗបានត្រឹមត្រូវឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Spatiotemporal Saliency ការរកឃើញចំណុចឬតំបន់ដែលលេចធ្លោជាងគេនៅក្នុងវីដេអូ ដោយរួមបញ្ចូលគ្នានូវព័ត៌មានពីទីតាំងរូបភាព (លំហ/Spatial) និងចលនាដែលប្រែប្រួលពីស៊ុមមួយទៅស៊ុមមួយទៀត (ពេលវេលា/Temporal)។ ដូចជាពេលយើងមើលទៅក្នុងហ្វូងមនុស្ស (លំហ) ហើយស្រាប់តែមានម្នាក់លោតឡើង (ចលនា/ពេលវេលា) នោះភ្នែកយើងនឹងចាប់អារម្មណ៍ទៅលើអ្នកនោះភ្លាមៗ។
Human Visual System (HVS) ការវិភាគដោយធ្វើត្រាប់តាមប្រព័ន្ធគំហើញរបស់មនុស្ស ដែលខួរក្បាលនឹងត្រងយកតែព័ត៌មានដែលសំខាន់ ឬលេចធ្លោបំផុតពីបរិស្ថានជុំវិញ ដោយមិនដោះស្រាយព័ត៌មានទាំងអស់នោះទេ។ វាជួយកាត់បន្ថយបន្ទុកគណនារបស់កុំព្យូទ័រ។ ដូចជាកាមេរ៉ាឆ្លាតវៃដែលមានសមត្ថភាពព្រងើយកន្តើយនឹងផ្ទៃខាងក្រោយធម្មតាៗ ហើយផ្តោតការថតតែទៅលើវត្ថុដែលកំពុងចាប់អារម្មណ៍។
Random Walk with Restart (RWR) ក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើការដើរដោយចៃដន្យ ប៉ុន្តែមានប្រូបាប៊ីលីតេត្រឡប់មកចំណុចចាប់ផ្តើមវិញ។ ក្នុងឯកសារនេះ វាប្រើសម្រាប់គណនាភាពលេចធ្លោក្នុងវីដេអូ ដើម្បីកាត់បន្ថយភាពរំខាន (Noise) និងរក្សាស្ថិរភាពការរកឃើញ។ ដូចជាអ្នកវង្វេងផ្លូវក្នុងព្រៃដែលដើររកច្រកចេញដោយចៃដន្យ ប៉ុន្តែតែងតែមានខ្សែចងទាញត្រឡប់មកកន្លែងដើមវិញ ដើម្បីកុំឲ្យវង្វេងឆ្ងាយពេកពីគោលដៅសំខាន់។
Phase Spectrum ផ្នែកមួយនៃការបំប្លែងសញ្ញាគណិតវិទ្យា (Fourier Transform) ដែលផ្តោតលើទីតាំង ឬរចនាសម្ព័ន្ធរូបរាងរបស់រូបភាព (ដូចជាគែមវត្ថុ) ជាជាងពន្លឺ ឬពណ៌។ វាមានសារៈសំខាន់ក្នុងការកំណត់ទីតាំងវត្ថុដែលលេចធ្លោលឿនជាងមុន។ ដូចជាប្លង់មេនៃផ្ទះមួយដែលប្រាប់ពីទីតាំងបន្ទប់នីមួយៗ (Phase) ជាជាងប្រាប់ពីពណ៌នៃការលាបថ្នាំលើជញ្ជាំង (Amplitude)។
Background Subtraction បច្ចេកទេសកុំព្យូទ័រវីហ្សិន (Computer Vision) ដែលមានតួនាទីកាត់យកផ្ទៃខាងក្រោយដែលនៅស្ងៀមចេញពីរូបភាពស៊ុមវីដេអូ ដើម្បីរំលេច និងចាប់យកតែវត្ថុខាងមុខដែលកំពុងផ្លាស់ទីប៉ុណ្ណោះ។ ដូចជាការយកកន្ត្រៃកាត់រូបមនុស្សចេញពីផ្ទាំងរូបភាពទេសភាព ដើម្បីយកតែរូបមនុស្សនោះមកប្រើប្រាស់។
Center-surround Difference យន្តការប្រៀបធៀបលក្ខណៈពិសេស (ដូចជាពណ៌ ឬពន្លឺ) នៃចំណុចកណ្តាលតូចមួយ ទៅនឹងផ្ទៃធំដែលនៅជុំវិញវា។ បើវាខុសគ្នាខ្លាំងពីបរិវេណជុំវិញ កុំព្យូទ័រនឹងចាត់ទុកថាចំណុចនោះលេចធ្លោ។ ដូចជាការដាក់ផ្លែប៉ោមពណ៌ក្រហមមួយគ្រាប់នៅកណ្តាលគំនរផ្លែប៉ោមពណ៌បៃតង ធ្វើឲ្យវាលេចធ្លោខ្លាំងជាងគេដោយសារភាពខុសគ្នានៃពណ៌។
Optical Flow បច្ចេកទេសសម្រាប់គណនាលំនាំនៃចលនារបស់វត្ថុរវាងស៊ុមវីដេអូពីរដែលជាប់គ្នា។ វាជួយឲ្យប្រព័ន្ធកុំព្យូទ័រយល់ពីទិសដៅ និងល្បឿនដែលវត្ថុកំពុងផ្លាស់ទីក្នុងលំហ។ ដូចជាការតាមដានមើលទិសដៅនិងល្បឿននៃស្លឹកឈើដែលហោះតាមខ្យល់ ដើម្បីទាយថាខ្យល់កំពុងបក់ទៅទិសណា។
Feature Fusion ដំណើរការនៃការច្របាច់បញ្ចូលគ្នានូវទិន្នន័យពីប្រភពលក្ខណៈផ្សេងៗគ្នា (ដូចជា ពណ៌ រូបរាង ចលនា និងពន្លឺ) ចូលគ្នាដើម្បីបង្កើតជាផែនទីភាពលេចធ្លោរួមមួយដែលធានាបាននូវលទ្ធផលត្រឹមត្រូវជាងមុន។ ដូចជាការផ្សំគ្រឿងទេសជាច្រើនមុខ (អំបិល ស្ករ ម្ទេស) បញ្ចូលគ្នាដើម្បីបង្កើតបានជាទឹកជ្រលក់មួយដែលមានរសជាតិឆ្ងាញ់ និងមុតជាងគ្រឿងទេសដាច់ដោយឡែក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖