Original Title: Do You See What I Mean? Visual Resolution of Linguistic Ambiguities
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

តើអ្នកយល់ពីអ្វីដែលខ្ញុំចង់មានន័យទេ? ការដោះស្រាយភាពស្រពិចស្រពិលនៃភាសាតាមរយៈរូបភាព

ចំណងជើងដើម៖ Do You See What I Mean? Visual Resolution of Linguistic Ambiguities

អ្នកនិពន្ធ៖ Yevgeni Berzak (CSAIL MIT), Andrei Barbu (CSAIL MIT), Daniel Harari (CSAIL MIT), Boris Katz (CSAIL MIT), Shimon Ullman (Weizmann Institute of Science)

ឆ្នាំបោះពុម្ព៖ 2015 Conference on Empirical Methods in Natural Language Processing

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការយល់ដឹងភាសាដោយផ្អែកលើរូបភាព (Grounded language understanding) ដោយផ្តោតលើការបកស្រាយភាពស្រពិចស្រពិលនៃភាសា (Linguistic ambiguities) តាមរយៈការប្រើប្រាស់បរិបទវីដេអូ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតកញ្ចប់ទិន្នន័យថ្មី និងអភិវឌ្ឍម៉ូដែលកុំព្យូទ័រដែលវិភាគរួមគ្នារវាងអត្ថបទនិងវីដេអូដើម្បីជ្រើសរើសអត្ថន័យដែលត្រឹមត្រូវ។

ការបង្កើតកញ្ចប់ទិន្នន័យពហុទម្រង់ LAVA (LAVA Multimodal Corpus) ដែលមានប្រយោគនិងវីដេអូបង្ហាញពីភាពស្រពិចស្រពិលផ្នែកវាក្យសម្ព័ន្ធ អត្ថន័យ និងវោហារសព្ទ
ការប្រើប្រាស់តក្កវិទ្យាលំដាប់ទីមួយ (First-order logic formulas) ដើម្បីតំណាងអត្ថន័យប្លែកៗគ្នានៃប្រយោគ
ការប្រើប្រាស់ម៉ូដែល Hidden Markov Models (HMMs) រួមផ្សំជាមួយប្រព័ន្ធតាមដានវត្ថុ (Object Trackers) ដើម្បីភ្ជាប់ពាក្យទៅនឹងសកម្មភាពក្នុងវីដេអូ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលនេះទទួលបានភាពត្រឹមត្រូវសរុប ៧៥.៣៦% លើការបកស្រាយភាពស្រពិចស្រពិលនៃប្រយោគទាំងអស់ក្នុងកញ្ចប់ទិន្នន័យ LAVA។
បើបំបែកតាមប្រភេទ ម៉ូដែលសម្រេចបានភាពត្រឹមត្រូវ ៨៤.២៦% សម្រាប់ភាពស្រពិចស្រពិលផ្នែកវាក្យសម្ព័ន្ធ (Syntactic), ៧២.២៨% សម្រាប់អត្ថន័យ (Semantic), និង ៦៤.៤៤% សម្រាប់វោហារសព្ទ (Discourse)។
កំហុសភាគច្រើននៃម៉ូដែលគឺបណ្តាលមកពីការបរាជ័យរបស់ប្រព័ន្ធចាប់យកវត្ថុ (Poor object detections) និងបញ្ហាក្នុងការតាមដានព្រឹត្តិការណ៍ក្នុងវីដេអូរយៈពេលខ្លី។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Compositional Cross-Modal Model (Extended Sentence Tracker) ម៉ូដែលតាមដានប្រយោគរួមផ្សំពហុទម្រង់ (ពង្រីកពីម៉ូដែលគំរូចាស់ដោយបន្ថែមតក្កវិទ្យាលំដាប់ទីមួយ)	អាចដោះស្រាយភាពស្រពិចស្រពិលនៃភាសាបានច្រើនប្រភេទ (វាក្យសម្ព័ន្ធ អត្ថន័យ និងវោហារសព្ទ) ដោយផ្អែកលើបរិបទវីដេអូ។ វាមានសមត្ថភាពបែងចែកវត្ថុ ឬតួអង្គផ្សេងគ្នាបានល្អតាមរយៈការបន្ថែមតក្កវិទ្យាថ្មី (not equal)។	ដំណើរការរបស់វាពឹងផ្អែកខ្លាំងលើភាពត្រឹមត្រូវនៃប្រព័ន្ធចាប់យកវត្ថុ (Object Detectors) ហើយជួបការលំបាកជាមួយវត្ថុតូចៗ (ឧ. តេឡេទស្សន៍) ឬការបិទបាំងដោយដៃ។	ទទួលបានភាពត្រឹមត្រូវសរុប ៧៥.៣៦% លើការទស្សន៍ទាយ (៨៤.២៦% សម្រាប់វាក្យសម្ព័ន្ធ, ៧២.២៨% សម្រាប់អត្ថន័យ និង ៦៤.៤៤% សម្រាប់វោហារសព្ទ)។
Random Chance Baseline ការទស្សន៍ទាយដោយចៃដន្យ (Random Baseline)	មិនទាមទារការគណនាស្មុគស្មាញ ការចាប់យកវត្ថុក្នុងរូបភាព ឬការហ្វឹកហាត់ម៉ូដែលនោះទេ។	គ្មានភាពវៃឆ្លាតទាល់តែសោះ ដោយគ្រាន់តែជ្រើសរើសចម្លើយដោយចៃដន្យ (១ ក្នុងចំណោម ២ ឬ ៣ ជម្រើស) ដែលមិនអាចយកទៅប្រើប្រាស់ក្នុងការអនុវត្តជាក់ស្តែងបាន។	ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៤៩.០៤% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីទំហំកម្លាំងម៉ាស៊ីន (Hardware) នោះទេ ប៉ុន្តែការប្រើប្រាស់ប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNNs) និងការវិភាគវីដេអូទាមទារធនធានគណនាខ្ពស់។

Dataset: ទិន្នន័យ LAVA Multimodal Corpus ដែលមានវីដេអូសរុបចំនួន ១៦៧៩ និងប្រយោគចំនួន ២៣៧ ដែលត្រូវបានបង្កើត និងថតឡើងដោយក្រុមអ្នកស្រាវជ្រាវផ្ទាល់។
Hardware: ទាមទារម៉ាស៊ីនកុំព្យូទ័រដែលមានក្រាហ្វិកកាត (GPU) កម្រិតខ្ពស់សម្រាប់ដំណើរការម៉ូដែល CNN លើការចាប់យកវត្ថុចេញពីស៊ុមវីដេអូ (Video frames) រាប់ពាន់ស៊ុម។
Software & Algorithms: ម៉ូដែល HMMs (Hidden Markov Models), Viterbi algorithm ព្រមទាំងប្រព័ន្ធចាប់វត្ថុដូចជា DPM និង CNN។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅផ្នែកកុំព្យូទ័រយល់ដឹងពីរូបភាព (Computer Vision) ការដំណើរការភាសាធម្មជាតិ (NLP) និងការបំប្លែងភាសាទៅជាតក្កវិទ្យាលំដាប់ទីមួយ (First-order logic)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់កញ្ចប់ទិន្នន័យ LAVA ដែលថតនៅក្នុងបរិវេណបិទជិត (indoor environment) ដោយមានតួអង្គនិងវត្ថុកំណត់មួយចំនួន ហើយផ្តោតតែលើភាសាអង់គ្លេស។ ទិន្នន័យនេះមានទំហំតូច និងមិនតំណាងឱ្យភាពចម្រុះនៃបរិស្ថានទូទៅក្នុងពិភពពិតនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តម៉ូដែលនេះតម្រូវឱ្យមានការបង្កើតទិន្នន័យថ្មីដែលឆ្លុះបញ្ចាំងពីបរិបទសង្គម វប្បធម៌ និងរចនាសម្ព័ន្ធដ៏ស្មុគស្មាញនៃភាសាខ្មែរ ដែលមានភាពស្រពិចស្រពិលច្រើនដោយសារការមិនដកឃ្លារវាងពាក្យ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាម៉ូដែលនេះត្រូវបានបង្កើតឡើងសម្រាប់ភាសាអង់គ្លេសក្ដី វិធីសាស្ត្រនៃការផ្សារភ្ជាប់ភាសាទៅនឹងបរិបទរូបភាព (Grounded language understanding) មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍបច្ចេកវិទ្យា AI ក្នុងស្រុក។

ប្រព័ន្ធតាមដានសុវត្ថិភាពឆ្លាតវៃ (Smart Surveillance) នៅតាមទីក្រុងធំៗ (ឧ. រាជធានីភ្នំពេញ): អាចប្រើប្រាស់ដើម្បីស្វែងរកសកម្មភាព ឬជនសង្ស័យក្នុងវីដេអូកាមេរ៉ាសុវត្ថិភាព ដោយគ្រាន់តែវាយបញ្ចូលប្រយោគបរិយាយសកម្មភាព ឬការសង្ស័យដែលស្មុគស្មាញ ដោយប្រព័ន្ធនឹងវិភាគរូបភាពដើម្បីដោះស្រាយអត្ថន័យប្រយោគនោះ។
ការស្វែងរកនិងរៀបចំឯកសារវីដេអូ (Video Retrieval) សម្រាប់ស្ថាប័នប្រព័ន្ធផ្សព្វផ្សាយជាតិ: ជួយឱ្យទូរទស្សន៍ជាតិកម្ពុជា (ទទក) ឬស្ថាប័នផ្សព្វផ្សាយនានា អាចស្វែងរកទិន្នន័យវីដេអូចាស់ៗបានយ៉ាងលឿនតាមរយៈការវាយបញ្ចូលអត្ថបទពិពណ៌នា ដោយមិនមានការភាន់ច្រឡំលើអត្ថន័យ។
បច្ចេកវិទ្យាជំនួយជនពិការភ្នែក (Assistive Technologies): អាចអភិវឌ្ឍជាកម្មវិធីទូរស័ព្ទសម្រាប់ជួយជនពិការភ្នែកនៅកម្ពុជា (ឧ. សហការជាមួយអង្គការគ្រួសារថ្មី) ដើម្បីបកប្រែសកម្មភាពជុំវិញខ្លួនទៅជាសំឡេងភាសាខ្មែរដែលច្បាស់លាស់ ដោយយល់ពីបរិបទជុំវិញ។

ជារួម បច្ចេកវិទ្យានេះគឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់អ្នកស្រាវជ្រាវកម្ពុជាក្នុងការកសាងប្រព័ន្ធ AI ពហុទម្រង់ (Multimodal AI) ដែលអាចយល់ដឹងបរិបទពិភពពិតនិងភាសាខ្មែរបានកាន់តែស៊ីជម្រៅជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ យល់ដឹងពីមូលដ្ឋានគ្រឹះនៃ Computer Vision និង NLP: ចាប់ផ្តើមសិក្សាអំពីទ្រឹស្តីនៃការចាប់យកវត្ថុក្នុងរូបភាព និងការកសាងម៉ូដែលភាសា ដោយរៀនសរសេរកូដជាភាសា Python និងប្រើប្រាស់បណ្ណាល័យដូចជា PyTorch ឬ TensorFlow។
ជំហានទី២៖ សិក្សាពីម៉ូដែលចាប់យកវត្ថុ (Object Detection) និងការតាមដាន (Tracking): សាកល្បងប្រើប្រាស់បច្ចេកវិទ្យាទំនើបដូចជា YOLOv8 ឬ Detectron2 ជំនួសឱ្យ DPM ចាស់ ដើម្បីចាប់យកវត្ថុក្នុងវីដេអូ ហើយរៀនពីរបៀបអនុវត្ត Hidden Markov Models (HMMs) ដើម្បីតាមដានចលនារបស់វត្ថុពីស៊ុមមួយទៅស៊ុមមួយ។
ជំហានទី៣៖ កសាងកញ្ចប់ទិន្នន័យសាកល្បងខ្នាតតូច (Mini Multimodal Dataset) ជាភាសាខ្មែរ: ថតវីដេអូខ្លីៗពីសកម្មភាពប្រចាំថ្ងៃ ហើយសរសេរប្រយោគភាសាខ្មែរពិពណ៌នាពីសកម្មភាពទាំងនោះ (រួមបញ្ចូលប្រយោគដែលមានភាពស្រពិចស្រពិល) ដោយប្រើប្រាស់ឧបករណ៍ចំណារពន្យល់ដូចជា CVAT (Computer Vision Annotation Tool)។
ជំហានទី៤៖ សាកល្បងជាមួយ Vision-Language Models (VLMs) ទំនើប: ជំនួសឱ្យការប្រើតក្កវិទ្យាលំដាប់ទីមួយ (First-order logic) ដែលស្មុគស្មាញ សូមសាកល្បងប្រើប្រាស់ម៉ូដែលបណ្តុះបណ្តាលរួចជាស្រេចដូចជា CLIP (Contrastive Language-Image Pretraining) ឬ VideoBERT ដើម្បីសាកល្បងផ្ទៀងផ្ទាត់អត្ថបទភាសាខ្មែរនិងវីដេអូ។
ជំហានទី៥៖ វាយតម្លៃ និងកែលម្អប្រព័ន្ធ (Evaluation & Optimization): វាស់ស្ទង់ភាពត្រឹមត្រូវនៃម៉ូដែលរបស់អ្នកដោយប្រៀបធៀបជាមួយលទ្ធផលរំពឹងទុក និងដោះស្រាយបញ្ហាទូទៅដូចជាការបិទបាំងវត្ថុក្នុងរូបភាព (Occlusion) ដោយប្រើប្រាស់បច្ចេកទេស Data Augmentation។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Grounded language understanding	ជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមយល់ន័យរបស់ភាសាដោយផ្សារភ្ជាប់ពាក្យពេចន៍ទាំងនោះទៅនឹងទិន្នន័យពីពិភពពិត ដូចជារូបភាព វីដេអូ ឬសំឡេង ជាជាងការយល់ត្រឹមតែអត្ថបទសុទ្ធសាធ។	ដូចជាក្មេងតូចម្នាក់រៀនស្គាល់ពាក្យ "ឆ្កែ" ដោយសារម្តាយចង្អុលបង្ហាញសត្វឆ្កែផ្ទាល់ភ្នែក មិនមែនគ្រាន់តែប្រាប់អត្ថន័យនោះទេ។
Linguistic ambiguities	គឺជាលក្ខណៈនៃប្រយោគ ឬឃ្លាដែលមានអត្ថន័យលើសពីមួយ ដែលតម្រូវឱ្យអ្នកស្តាប់ ឬកុំព្យូទ័រត្រូវពឹងផ្អែកលើបរិបទបន្ថែម (ដូចជារូបភាព) ដើម្បីកំណត់ថាតើអត្ថន័យមួយណាជារឿងពិតប្រាកដ។	ដូចជាពេលគេនិយាយថា "ញ៉ាំបាយជាមួយស្លាបព្រា" វាអាចមានន័យថាប្រើស្លាបព្រាដើម្បីដួសបាយ ឬញ៉ាំបាយបណ្តើរទំពារស្លាបព្រាបណ្តើរ (ទាល់តែឃើញរូបភាពទើបដឹងច្បាស់)។
Hidden Markov Models (HMMs)	ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីទស្សន៍ទាយលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងមិនអាចមើលឃើញផ្ទាល់ ដោយពឹងផ្អែកលើទិន្នន័យឬសញ្ញាដែលយើងអាចសង្កេតឃើញ ដូចជាការយកចលនារបស់វត្ថុមកទស្សន៍ទាយសកម្មភាពពិតប្រាកដ។	ដូចជាការមើលឃើញមនុស្សកាន់ឆ័ត្រសើមដើរចូលក្នុងផ្ទះ (អ្វីដែលសង្កេតឃើញ) ទើបយើងទាយដឹងថាខាងក្រៅកំពុងមានភ្លៀងធ្លាក់ (អ្វីដែលលាក់កំបាំង)។
First-order logic	ជាទម្រង់នៃការសរសេរកូដបែបគណិតវិទ្យានិងតក្កវិទ្យា ដើម្បីបំប្លែងប្រយោគភាសាធម្មជាតិទៅជារចនាសម្ព័ន្ធច្បាស់លាស់មួយដែលកុំព្យូទ័រអាចយល់ និងទាញយកហេតុផលបាន ដោយកំណត់យ៉ាងច្បាស់ពីវត្ថុនិងទំនាក់ទំនងរវាងវត្ថុទាំងនោះ។	ដូចជាការបំប្លែងប្រយោគ "សុខវាយចៅ" ទៅជារូបមន្តគណិតវិទ្យា វាយ(សុខ, ចៅ) ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលគណនា។
Viterbi algorithm	គឺជាក្បួនដោះស្រាយ (Algorithm) គណិតវិទ្យាដែលជួយស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលទំនងជាត្រឹមត្រូវបំផុត ក្នុងចំណោមជម្រើសរាប់ពាន់ម៉ឺនដែលមាននៅក្នុងម៉ូដែល HMM ដូចជាការរកមើលស៊ុមរូបភាពដែលត្រូវគ្នានឹងសកម្មភាពបំផុត។	ដូចជាការប្រើកម្មវិធី Google Maps ដើម្បីរកមើលផ្លូវដែលលឿន និងល្អបំផុតក្នុងចំណោមផ្លូវវាងរាប់រយខ្សែកំឡុងពេលស្ទះចរាចរណ៍។
Object tracker	គឺជាប្រព័ន្ធកុំព្យូទ័រដែលវិភាគលើវីដេអូដើម្បីធ្វើការតាមដានទីតាំងនិងចលនារបស់វត្ថុឬមនុស្សណាមួយដោយស្វ័យប្រវត្តិ ពីស៊ុមវីដេអូមួយទៅស៊ុមវីដេអូមួយទៀតជាបន្តបន្ទាប់។	ដូចជាភ្នែករបស់យើងដែលសម្លឹងតាមមើលចលនារបស់បាល់មិនដាក់ភ្នែកពេលកំពុងទស្សនាការប្រកួតបាល់ទាត់។
Pronoun Anaphora	ជាបាតុភូតក្នុងភាសាដែលសព្វនាមមួយ (ដូចជា វា, គាត់, គេ) ត្រូវបានប្រើដើម្បីជំនួសឱ្យនាមដែលបានលើកឡើងពីមុន ប៉ុន្តែវាអាចបង្កើតភាពស្រពិចស្រពិលប្រសិនបើមាននាមច្រើននៅពីមុខ។	ដូចជាពេលនិយាយថា "ប៉ាបានទិញនំឱ្យកូន តែគាត់បានញ៉ាំវាបាត់ហើយ" ពាក្យ "គាត់" អាចមានន័យថាប៉ា ឬកូន (ទាល់តែដឹងបរិបទសិន)។
Bipartite graph	ជារចនាសម្ព័ន្ធបណ្តាញដែលចែកថ្នាំង (Nodes) ជាពីរក្រុមដាច់ពីគ្នា ដែលថ្នាំងក្នុងក្រុมนីមួយៗមិនអាចភ្ជាប់គ្នាឯងបានទេ តែត្រូវភ្ជាប់ឆ្លងទៅក្រុមមួយទៀត ដូចជាការភ្ជាប់ពាក្យកិរិយាសព្ទ (ក្រុមទី១) ទៅនឹងតួអង្គក្នុងវីដេអូ (ក្រុមទី២) ជាដើម។	ដូចជាការគូសខ្សែផ្គូផ្គងរវាងក្រុមសិស្ស (ក្រុម១) និងក្រុមមុខវិជ្ជា (ក្រុម២) ដោយសិស្សម្នាក់ៗត្រូវជ្រើសរើសមុខវិជ្ជា តែសិស្សមិនអាចផ្គូផ្គងជាមួយសិស្សដូចគ្នាបានទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖