Original Title: TrajViViT: A Trajectory Video Vision Transformer Network for Trajectory Forecasting
Source: doi.org/10.5220/0012372000003654
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

TrajViViT៖ បណ្តាញ Vision Transformer វីដេអូសម្រាប់ការព្យាករណ៍គន្លងផ្លូវ

ចំណងជើងដើម៖ TrajViViT: A Trajectory Video Vision Transformer Network for Trajectory Forecasting

អ្នកនិពន្ធ៖ Gauthier Rotsart de Hertaing (UCLouvain), Dani Manjah (UCLouvain), Benoit Macq (UCLouvain)

ឆ្នាំបោះពុម្ព៖ 2024 ICPRAM

វិស័យសិក្សា៖ Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការព្យាករណ៍គន្លងផ្លូវរបស់ភ្នាក់ងារ (ដូចជាអ្នកថ្មើរជើង ឬយានយន្ត) គឺជាកិច្ចការដ៏ស្មុគស្មាញ ដែលជារឿយៗប្រឈមនឹងបញ្ហាដោយសារការចាប់យកទីតាំងកន្លងមកមានការរំខាន (Noise) និងភាពស្មុគស្មាញនៃការយល់ដឹងពីបរិបទសង្គមជុំវិញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែល TrajViViT ដែលជាបណ្តាញ Transformer ពហុទម្រង់ (Multimodal Transformer Network) សម្រាប់ធ្វើការព្យាករណ៍គន្លងផ្លូវ ដោយធ្វើការរួមបញ្ចូលទិន្នន័យរូបភាពនិងព័ត៌មានទីតាំងកន្លងមក។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Image Modality Only (Img)
ការប្រើប្រាស់ត្រឹមទិន្នន័យរូបភាពពីកាមេរ៉ា
អាចទាញយកព័ត៌មានពីបរិយាកាសជុំវិញបាន (Semantic Context) សម្រាប់ការស្វែងយល់ពីចលនារបស់ភ្នាក់ងារ។ ងាយនឹងជួបបញ្ហា Underfitting មានកំហុសខ្ពស់ (MSE) លើការព្យាករណ៍ចម្ងាយឆ្ងាយ និងមិនសូវល្អសម្រាប់ការធ្វើតេស្តឆ្លងដែន (Cross-domain)។ ពិន្ទុ AVG ADE: 59.75 និង FDE: 71.03 (សម្រាប់ការធ្វើតេស្ត Cross-domain) ដែលបង្ហាញពីដំណើរការខ្សោយបំផុត។
Position Modality Only (Pos)
ការប្រើប្រាស់ត្រឹមទិន្នន័យទីតាំងកន្លងមក
មានដំណើរការល្អប្រសើរជាងការប្រើរូបភាពតែមួយមុខ ត្រូវការទិន្នន័យហ្វឹកហាត់តិច និងមានលក្ខណៈសាមញ្ញក្នុងការអនុវត្ត។ ងាយរងឥទ្ធិពលពីការរំខាន (Noise) នៃទិន្នន័យទីតាំង ធ្វើឱ្យធ្លាក់ចុះភាពសុក្រឹតនៅពេលចាប់យកទីតាំងមិនច្បាស់លាស់។ ពិន្ទុ AVG ADE: 10.13 និង FDE: 15.29 ដែលជាលទ្ធផលល្អមធ្យម ប៉ុន្តែធ្លាក់ចុះគុណភាពនៅពេលកម្រិត Noise កើនឡើង។
Multimodal TrajViViT (Img + Pos)
ការរួមបញ្ចូលទិន្នន័យរូបភាពនិងទីតាំង (TrajViViT)
មានភាពធន់ខ្ពស់បំផុតចំពោះការរំខាននៃទិន្នន័យ (Noise Robustness) និងផ្តល់លទ្ធផលល្អដាច់គេសម្រាប់ការទស្សន៍ទាយលើទីតាំងថ្មីដែលមិនធ្លាប់ហ្វឹកហាត់ពីមុនមក។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងចំណាយពេលច្រើនសម្រាប់ការបង្ហាត់ម៉ូដែល ដោយសារទំហំនិងភាពស្មុគស្មាញនៃបណ្តាញ។ ពិន្ទុ AVG ADE: 9.29 និង FDE: 14.53 ដែលជាលទ្ធផលល្អដាច់គេ និងបង្ហាញពីភាពត្រឹមត្រូវខ្ពស់បំផុត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបង្ហាត់ម៉ូដែល TrajViViT ទាមទារធនធានកុំព្យូទ័រនិងថាមពលដំណើរការខ្ពស់ (Computational Resources) ដែលត្រូវបានគាំទ្រជាពិសេសដោយស្ថាប័នស្រាវជ្រាវ (OpenHub)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ Stanford Drone Dataset (SDD) ដែលថតចេញពីបរិវេណសាកលវិទ្យាល័យនៅសហរដ្ឋអាមេរិក ដែលមានរបៀបរៀបរយល្អ។ នេះជាកត្តាប្រឈមមួយសម្រាប់កម្ពុជា ព្រោះស្ថានភាពចរាចរណ៍នៅកម្ពុជាមានភាពស្មុគស្មាញជាង (មានម៉ូតូច្រើនកកកុញ និងខ្វះគំនូសសញ្ញាច្បាស់លាស់) ដែលអាចធ្វើឱ្យម៉ូដែលដំណើរការមិនបានល្អប្រសិនបើមិនមានការហ្វឹកហាត់ជាមួយទិន្នន័យក្នុងស្រុកបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រើប្រាស់នៅកម្ពុជា ជាពិសេសក្នុងការអភិវឌ្ឍទីក្រុងឆ្លាតវៃ និងបច្ចេកវិទ្យាសុខាភិបាលទំនើប។

សរុបមក ការអនុវត្តវិធីសាស្រ្តនេះនឹងជួយបង្កើនប្រសិទ្ធភាពការគ្រប់គ្រងនិងសុវត្ថិភាពទូទៅ ប៉ុន្តែទាមទារការវិនិយោគលើការប្រមូលទិន្នន័យចរាចរណ៍ពិតប្រាកដក្នុងស្រុកជាមុនសិនទើបទទួលបានលទ្ធផលត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Vision Transformers: និស្សិតគួរសិក្សាពីយន្តការ Attention Mechanism និងរបៀបដែល Vision Transformers ដំណើរការលើការវិភាគរូបភាព (Video processing) ដោយអនុវត្តតាមរយៈវគ្គសិក្សាលើ Coursera ឬប្រើប្រាស់ PyTorch សម្រាប់ការអនុវត្តកូដមូលដ្ឋាន។
  2. ដំណើរការកូដនិងសាកល្បងម៉ូដែលដើម: ទាញយកកូដពី GitHub Repository របស់អ្នកនិពន្ធ (https://github.com/GauthierRotsart/TrajViViT) រួចដំណើរការ (Reproduce) ម៉ូដែលលើម៉ាស៊ីន Google Colab ឬ Server របស់សាកលវិទ្យាល័យ ដោយប្រើទិន្នន័យគំរូតូចមួយសិន។
  3. ប្រមូលនិងរៀបចំទិន្នន័យក្នុងស្រុក: ប្រើប្រាស់ Drone ថតវីដេអូសកម្មភាពចរាចរណ៍តាមរង្វង់មូលសំខាន់ៗក្នុងក្រុងភ្នំពេញ បន្ទាប់មកប្រើប្រាស់ប្រព័ន្ធ YOLO (You Only Look Once) ដើម្បីចាប់យកទីតាំង (Bounding Boxes) របស់យានយន្តនីមួយៗដើម្បីបង្កើតជាសំណុំទិន្នន័យហ្វឹកហាត់។
  4. បន្ស៊ាំម៉ូដែលនិងកាត់បន្ថយទំហំ: អនុវត្តបច្ចេកទេស Knowledge Distillation ដើម្បីបង្រួមទំហំម៉ូដែល TrajViViT ឱ្យស្រាលល្មមអាចដំណើរការលើកាមេរ៉ាសុវត្ថិភាពតាមដងផ្លូវ (Edge computing) និងអាចព្យាករណ៍បានក្នុងពេលវេលាជាក់ស្តែង (Real-time)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Vision Transformers បណ្តាញបញ្ញាសិប្បនិម្មិតដែលប្រើប្រាស់យន្តការ Attention ដើម្បីវិភាគនិងយល់ពីទំនាក់ទំនងនៃចំណែកតូចៗរបស់រូបភាព (Patches) ជំនួសឱ្យការប្រើប្រាស់ Convolutional Neural Networks (CNNs) ធម្មតា។ ដូចជាមនុស្សម្នាក់ដែលកំពុងមើលផ្ទាំងគំនូរធំមួយ ដោយផ្តោតការយកចិត្តទុកដាក់លើចំណុចសំខាន់ៗម្តងមួយៗដើម្បីយល់ពីអត្ថន័យរួមនៃគំនូរនោះ។
Trajectory Forecasting ដំណើរការនៃការប្រើប្រាស់ទិន្នន័យទីតាំងនិងចលនានៅក្នុងអតីតកាលរបស់វត្ថុមួយ (ដូចជាមនុស្ស ឬយានយន្ត) ដើម្បីទស្សន៍ទាយឬគណនារកទីតាំងដែលវានឹងធ្វើដំណើរទៅក្នុងពេលអនាគត។ ដូចជាការមើលឃើញបាល់ដែលគេទាត់កំពុងហោះលើអាកាស ហើយយើងអាចស្មានដឹងថាវានឹងធ្លាក់ទៅទីតាំងណា។
Attention mechanism យន្តការគណនានៅក្នុងម៉ូដែល Deep Learning ដែលជួយឱ្យប្រព័ន្ធចេះផ្តល់ទម្ងន់ឬផ្តោតសំខាន់ទៅលើផ្នែកជាក់លាក់ណាមួយនៃទិន្នន័យបញ្ចូល (Input) ដែលមានប្រយោជន៍បំផុតសម្រាប់ការធ្វើការព្យាករណ៍ ខណៈពេលដែលមើលរំលងព័ត៌មានដែលមិនសូវសំខាន់។ ដូចជាសិស្សដែលកំពុងស្តាប់គ្រូពន្យល់ ដោយផ្តោតអារម្មណ៍តែលើពាក្យគន្លឹះសំខាន់ៗ ដើម្បីងាយស្រួលយល់មេរៀនជាជាងស្តាប់គ្រប់ពាក្យទាំងអស់ដោយស្មើភាពគ្នា។
Multi-Modality ការរួមបញ្ចូលគ្នានូវប្រភេទប្រភពទិន្នន័យផ្សេងៗគ្នា (ឧទាហរណ៍៖ ទិន្នន័យរូបភាពពីកាមេរ៉ា (Semantic) និងទិន្នន័យកូអរដោនេទីតាំង (Positional)) ទៅក្នុងម៉ូដែលតែមួយដើម្បីបង្កើនភាពសុក្រឹតនៃការវិភាគប្រព័ន្ធកុំព្យូទ័រ។ ដូចជាការប្រើប្រាស់ទាំងភ្នែក (មើលសកម្មភាព) និងត្រចៀក (ស្តាប់សំឡេង) ព្រមគ្នាដើម្បីស្វែងយល់ពីអ្វីមួយឱ្យបានច្បាស់លាស់បំផុត។
Noise Robustness សមត្ថភាពរបស់ប្រព័ន្ធឬម៉ូដែលក្នុងការរក្សាបាននូវភាពត្រឹមត្រូវនិងដំណើរការល្អ ទោះបីជាទិន្នន័យបញ្ចូលមានភាពមិនច្បាស់លាស់ មានកំហុស ឬមានការរំខានបន្តិចបន្តួច (Noise) ក៏ដោយ។ ដូចជាអ្នកបើកបរដែលមានបទពិសោធន៍នៅតែអាចបើកបរបានល្អ ទោះបីជាអាកាសធាតុមានភ្លៀងធ្លាក់ខ្លាំងធ្វើឱ្យមើលផ្លូវមិនសូវច្បាស់ក៏ដោយ។
Spatio-temporal positional encoding ការបំប្លែងព័ត៌មានដែលទាក់ទងនឹងទីតាំង (លំហ) និងពេលវេលា ទៅជាទម្រង់វ៉ិចទ័រគណិតវិទ្យា ដើម្បីឱ្យបណ្តាញ Transformer ដែលមិនយល់ពីលំដាប់ដោយខ្លួនឯង អាចដឹងពីលំដាប់លំដោយនៃព្រឹត្តិការណ៍និងទីតាំងរបស់វត្ថុនៅក្នុងខ្សែវីដេអូ។ ដូចជាការបិទស្លាកលេខរៀងនិងម៉ោងនៅលើរូបថតនីមួយៗ ដើម្បីប្រាប់កុំព្យូទ័រថារូបណាថតនៅកន្លែងណា និងនៅម៉ោងប៉ុន្មាន។
Teacher forcing វិធីសាស្ត្រក្នុងការបង្ហាត់ម៉ូដែល Machine Learning ដោយប្រើប្រាស់ចម្លើយពិត (Ground truth) ពីជំហានមុនជាធាតុបញ្ចូល (Input) សម្រាប់ការព្យាករណ៍នៅជំហានបន្ទាប់ ជាជាងប្រើប្រាស់ការព្យាករណ៍ដែលម៉ូដែលទាយបានកន្លងមក ដើម្បីពន្លឿនការហ្វឹកហាត់។ ដូចជាគ្រូដែលប្រាប់ចម្លើយត្រឹមត្រូវនៃលំហាត់ទី១ ដល់សិស្ស ដើម្បីឱ្យសិស្សយកចម្លើយនោះទៅបន្តគណនារកចម្លើយទី២ដោយមិនឱ្យខុសតាំងពីដើមទី។
Average Displacement Error (ADE) រង្វាស់នៃការវាយតម្លៃកំហុសនៅក្នុងការព្យាករណ៍គន្លងផ្លូវ ដែលវាស់ពីគម្លាតចម្ងាយជាមធ្យមរវាងទីតាំងដែលម៉ូដែលបានទាយ និងទីតាំងពិតប្រាកដសម្រាប់គ្រប់ចំណុចពេលវេលាទាំងអស់នៃគន្លងផ្លូវនោះ។ ដូចជាការវាស់ចម្ងាយខុសគ្នាជាមធ្យមនៅរាល់ជំហានដែលមនុស្សម្នាក់បានដើរធៀបនឹងផ្លូវដែលយើងបានស្មានទុកថាគាត់នឹងដើរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖