Original Title: Towards a Model of Face-to-Face Grounding
Source: aclanthology.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកគំរូនៃការយល់ស្របគ្នាក្នុងការប្រាស្រ័យទាក់ទងដោយផ្ទាល់មុខ

ចំណងជើងដើម៖ Towards a Model of Face-to-Face Grounding

អ្នកនិពន្ធ៖ Yukiko I. Nakano, MIT Media Laboratory / RISTEX, Gabe Reinstein, MIT Media Laboratory, Tom Stocky, MIT Media Laboratory, Justine Cassell, MIT Media Laboratory

ឆ្នាំបោះពុម្ព៖ 2003

វិស័យសិក្សា៖ Human-Computer Interaction

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតការយល់ដឹងរួម (Grounding) រវាងមនុស្ស និងកុំព្យូទ័រ ដោយសារប្រព័ន្ធមុនៗពឹងផ្អែកតែលើការឆ្លើយតបជាសំឡេង និងបានមើលរំលងសញ្ញាអាកប្បកិរិយាដូចជាការសម្លឹង និងការងក់ក្បាល។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការសិក្សាជាក់ស្តែងលើទិន្នន័យនៃការសន្ទនារបស់មនុស្ស ហើយយកលទ្ធផលនេះទៅបង្កើតជាគំរូកុំព្យូទ័រសម្រាប់ភ្នាក់ងារសន្ទនាដែលមានរូបរាង (Embodied Conversational Agents)។

ការវិភាគការសន្ទនារបស់មនុស្ស (Human Dialogue Analysis) ក្នុងស្ថានភាពប្រឈមមុខគ្នា និងការប្រើឯកសារយោងរួមគ្នា ដើម្បីកំណត់កូដអាកប្បកិរិយា។
ការតាមដានការសម្លឹង និងងក់ក្បាល (Eye Gaze and Head Nod Tracking) ក្នុងការកំណត់សញ្ញានៃការយល់ ឬមិនយល់។
ការអភិវឌ្ឍប្រព័ន្ធគ្រប់គ្រងការសន្ទនា (Dialogue Manager Development) ដោយផ្អែកលើការយល់ដឹងរួមសម្រាប់ភ្នាក់ងារសន្ទនាឈ្មោះ MACK ។
ការវាយតម្លៃបឋមដោយប្រើវិធីសាស្ត្រ Wizard of Oz (Preliminary Evaluation) ប្រៀបធៀបអន្តរកម្មប្រព័ន្ធដែលមាន និងគ្មានយន្តការយល់ដឹងរួមនេះ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅពេលអ្នកស្តាប់សម្លឹងមើលមកអ្នកនិយាយក្នុងកំឡុងពេលសន្ទនា អ្នកនិយាយតែងតែពន្យល់លម្អិតបន្ថែមរហូតដល់ 73% នៃពេលវេលាសរុប ដោយចាត់ទុកថាជាសញ្ញានៃការមិនយល់។
ការបន្តផ្ដោតអារម្មណ៍លើកិច្ចការ (ឧ. សម្លឹងមើលផែនទី) ត្រូវបានបកស្រាយថាជាភស្តុតាងនៃការយល់ដឹង ដែលជំរុញឱ្យអ្នកនិយាយបន្តទៅចំណុចបន្ទាប់ 52% នៃពេលវេលាសរុប។
ភ្នាក់ងារសន្ទនាបញ្ញាសិប្បនិម្មិតដែលបានបំពាក់គំរូនៃការយល់ដឹងរួមតាមបែបអាកប្បកិរិយា (MACK) អាចទាញយកប្រតិកម្មធម្មជាតិពីអ្នកប្រើប្រាស់បានយ៉ាងមានប្រសិទ្ធភាព ស្រដៀងទៅនឹងការប្រាស្រ័យទាក់ទងរវាងមនុស្សនិងមនុស្សដែរ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
MACK-with-grounding ប្រព័ន្ធ MACK ដែលមានយន្តការយល់ដឹងរួមតាមអាកប្បកិរិយា (Nonverbal Grounding)	ធ្វើឱ្យអន្តរកម្មកាន់តែមានលក្ខណៈធម្មជាតិដូចមនុស្ស និងអាចទាញយកប្រតិកម្មត្រឡប់ពីអ្នកប្រើប្រាស់បានល្អ ជួយឱ្យប្រព័ន្ធដឹងពីពេលត្រូវពន្យល់បន្ថែម។	ទាមទារការគណនាស្មុគស្មាញ និងឧបករណ៍ចាប់សញ្ញាអាកប្បកិរិយាច្រើនដើម្បីដំណើរការក្នុងពេលជាក់ស្តែង។	មានការផ្លាស់ប្តូរស្ថានភាពអាកប្បកិរិយាចំនួន ៧ដង និងជំរុញឱ្យអ្នកប្រើប្រាស់សម្លឹងមើលភ្នាក់ងារសន្ទនាដើម្បីទទួលបានការពន្យល់បន្ថែម (Elaboration)។
MACK-without-grounding ប្រព័ន្ធ MACK ដែលគ្មានយន្តការយល់ដឹងរួមតាមអាកប្បកិរិយា (Baseline)	ងាយស្រួលក្នុងការអភិវឌ្ឍ កាត់បន្ថយភាពស្មុគស្មាញនៃប្រព័ន្ធកុំព្យូទ័រ និងមិនត្រូវការម៉ាស៊ីនចាប់សញ្ញាច្រើន។	អន្តរកម្មមានភាពរឹងកំព្រឹស មិនឆ្លើយតបទៅនឹងប្រតិកម្ម ឬការមិនយល់របស់អ្នកប្រើប្រាស់។	មានការផ្លាស់ប្តូរស្ថានភាពអាកប្បកិរិយាត្រឹមតែ ៣ដងប៉ុណ្ណោះ ហើយអ្នកប្រើប្រាស់មិនសម្លឹងមើលភ្នាក់ងារសន្ទនា (MACK) ទាល់តែសោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារការរួមបញ្ចូលគ្នារវាងផ្នែករឹង និងកម្មវិធីស្មុគស្មាញ ដើម្បីចាប់យក និងវិភាគសញ្ញាអាកប្បកិរិយាក្នុងពេលជាក់ស្តែង។

Hardware: កាមេរ៉ា Stereo (Stereo-camera-based 6-DOF head-pose tracker), ថេប្លេត Wacom សម្រាប់កំណត់ទីតាំងលើផែនទី, និងម៉ាស៊ីនបញ្ចាំងរូបភាព (LCD Projector)។
Software: កម្មវិធីរាវរកទិសដៅក្បាល, IBM ViaVoice សម្រាប់សម្គាល់សំឡេង, ម៉ាស៊ីនបំប្លែងអត្ថបទទៅជាសំឡេង Microsoft Whistler TTS។
Dataset: ទិន្នន័យវីដេអូសន្ទនារបស់មនុស្សផ្ទាល់ចំនួន ១០ គូ (ថតពីជ្រុង ៤ ផ្សេងគ្នា) សម្រាប់ការវិភាគ និងកសាងគំរូអាកប្បកិរិយា។
Expertise: ចំណេះដឹងផ្នែកអន្តរកម្មមនុស្ស-កុំព្យូទ័រ (HCI), ការវិភាគការសន្ទនា (Discourse Analysis), និងប្រព័ន្ធគ្រប់គ្រងការសន្ទនា (Dialogue Management)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យនិស្សិតសាកលវិទ្យាល័យនៅសហរដ្ឋអាមេរិក ដែលការសម្លឹងមើលភ្នែកពេលនិយាយជារឿងធម្មតាក្នុងការប្រាស្រ័យទាក់ទង។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទិន្នន័យនេះអាចមានភាពលំអៀង ដោយសារវប្បធម៌ខ្មែរជួនកាលចាត់ទុកការសម្លឹងភ្នែកចំៗពេកអាចជាការខ្វះការគោរព ឬមានអត្ថន័យខុសពីបស្ចិមប្រទេស។ ការកែតម្រូវគំរូអាកប្បកិរិយាឱ្យស្របតាមបរិបទប្រពៃណីខ្មែរគឺជារឿងចាំបាច់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

គំរូនៃការយល់ដឹងរួមតាមបែបពហុមធ្យោបាយនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍភ្នាក់ងារផ្តល់សេវាកម្មស្វ័យប្រវត្តិ (AI Kiosks) នៅកម្ពុជា។

វិស័យទេសចរណ៍ និងអាកាសយានដ្ឋាន (Tourism Sector): អាចប្រើប្រាស់បង្កើតបញ្ជរព័ត៌មាន (Info Kiosk) នៅអាកាសយានដ្ឋានអន្តរជាតិ (ឧ. ភ្នំពេញ សៀមរាប) ដើម្បីណែនាំភ្ញៀវទេសចរអំពីទីតាំងផ្សេងៗ ដោយប្រព័ន្ធអាចដឹងថាភ្ញៀវយល់ ឬត្រូវការការពន្យល់បន្ថែមតាមរយៈការសម្លឹងមើល។
សេវាធនាគារ និងហិរញ្ញវត្ថុ (Banking Kiosks): បង្កើតភ្នាក់ងារនិម្មិត (Virtual Agents) ដែលអាចពន្យល់ពីនីតិវិធីកម្ចី ឬសេវាកម្មផ្សេងៗ ដោយប្រព័ន្ធអាចផ្អាក ឬពន្យល់លម្អិតបន្ថែមដោយស្វ័យប្រវត្តិ នៅពេលសង្កេតឃើញអតិថិជនមានអាការៈងឿងឆ្ងល់ ឬមិនងក់ក្បាល។

ការធ្វើមូលដ្ឋានីយកម្ម (Localization) នៃប្រព័ន្ធនេះដោយគិតគូរពីវប្បធម៌ និងរបៀបប្រាស្រ័យទាក់ទងរបស់ប្រជាជនខ្មែរ នឹងជួយពង្រីកប្រសិទ្ធភាពនៃការប្រើប្រាស់បច្ចេកវិទ្យា AI ក្នុងសេវាកម្មសាធារណៈ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះទ្រឹស្តី (HCI & Grounding Theory): និស្សិតត្រូវស្វែងយល់ពីទ្រឹស្តី Grounding របស់ Clark និងបច្ចេកទេសនៃការសរសេរកូដកត់ត្រាការសន្ទនាដោយប្រើប្រាស់ស្ដង់ដារដូចជា DAMSL coding scheme។
ប្រមូលទិន្នន័យការសន្ទនាក្នុងស្រុក (Local Data Collection): ថតវីដេអូការសន្ទនារបស់ជនជាតិខ្មែរ (ឧទាហរណ៍៖ ការផ្តល់ទិសដៅ ឬពន្យល់មេរៀន) ហើយធ្វើការកត់ត្រា (Annotate) ការប្រើប្រាស់ខ្សែភ្នែក និងការងក់ក្បាល ដោយប្រើកម្មវិធី ELAN។
អភិវឌ្ឍប្រព័ន្ធចាប់សញ្ញាអាកប្បកិរិយា (Computer Vision Tracking): សាកល្បងប្រើប្រាស់បណ្ណាល័យកូដចំហដូចជា OpenCV ឬ MediaPipe ដើម្បីតាមដានចលនាក្បាល និងទិសដៅនៃការសម្លឹង (Eye Gaze & Head Pose Tracking) ជំនួសការប្រើប្រាស់ឧបករណ៍ Hardware ថ្លៃៗ។
កសាងភ្នាក់ងារសន្ទនាសាកល្បង (Prototype ECA Construction): ប្រើប្រាស់វេទិកា Unity3D ផ្គួបជាមួយប្រព័ន្ធគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ដើម្បីបង្កើតតួអង្គនិម្មិត (Avatar) ដែលអាចនិយាយ និងប្រតិកម្ម (ងក់ក្បាល/សម្លឹង) តបទៅនឹងអ្នកប្រើប្រាស់។
ធ្វើតេស្តសាកល្បងដោយវិធីសាស្ត្រ Wizard of Oz: អនុវត្តការវាយតម្លៃប្រព័ន្ធដោយឱ្យមនុស្សលាក់ខ្លួនបញ្ជាពីក្រោយ ដើម្បីសង្កេតមើលថាតើអ្នកប្រើប្រាស់នៅកម្ពុជាមានអារម្មណ៍ធម្មជាតិ និងឆ្លើយតបទៅនឹង AI នេះកម្រិតណាមុននឹងបញ្ចូលយន្តការ AI ពេញលេញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Grounding	ដំណើរការដែលភាគីសន្ទនាទាំងសងខាងបញ្ជាក់ និងធានាថាព័ត៌មានដែលបាននិយាយត្រូវបានយល់ច្បាស់ និងទទួលស្គាល់ដោយភាគីម្ខាងទៀត ដើម្បីក្លាយជាចំណេះដឹងរួម (Common Ground)។	ដូចជាពេលយើងប្រាប់ផ្លូវគេ ហើយឈប់បន្តិចដើម្បីមើលថាគេងក់ក្បាលឬអត់ មុននឹងបន្តប្រាប់ផ្លូវទៅមុខទៀត។
Embodied Conversational Agents (ECAs)	កម្មវិធីកុំព្យូទ័រឆ្លាតវៃ (AI) ដែលមានរូបរាងជាតួអង្គ (Avatar ឬ មនុស្សយន្ត) ដែលអាចធ្វើការសន្ទនាជាសំឡេង និងបង្ហាញអាកប្បកិរិយាដូចជាការងក់ក្បាល ចលនាដៃ ឬការសម្លឹងភ្នែក។	ដូចជាតួអង្គតុក្កតាមានជីវិតក្នុងអេក្រង់កុំព្យូទ័រ ដែលអាចនិយាយឆ្លើយឆ្លង និងសម្លឹងមកកាន់យើងដូចមនុស្សពិតៗ។
Dialogue Manager (DM)	សមាសធាតុស្នូលនៃប្រព័ន្ធសន្ទនាឆ្លាតវៃ ដែលទទួលបន្ទុកតាមដានស្ថានភាពនៃការសន្ទនា វិភាគអត្ថន័យ និងសម្រេចចិត្តថាតើប្រព័ន្ធគួរឆ្លើយតប ឬធ្វើអ្វីបន្ទាប់។	ប្រៀបដូចជាខួរក្បាលរបស់អ្នកសម្របសម្រួលកម្មវិធី ដែលចាំស្តាប់ គិតវិភាគ និងសម្រេចថាតើត្រូវឆ្លើយតបបែបណាទៅកាន់អ្នកសួរ។
Utterance Unit (UU)	ឯកតាតូចបំផុតនៃការនិយាយក្នុងមួយវគ្គ ដែលត្រូវបានកំណត់ដោយផ្អែកលើចង្វាក់នៃការដកដង្ហើម ឬការបញ្ចេញសំឡេង ហើយត្រូវបានប្រើប្រាស់ជាមូលដ្ឋានដើម្បីវិភាគអត្ថន័យនៃការសន្ទនា។	ប្រៀបដូចជារបាំងឃ្លា ឬប្រយោគខ្លីៗដែលយើងនិយាយដាច់ៗពីគ្នា ពេលយើងកំពុងរៀបរាប់រឿងរ៉ាវអ្វីមួយ។
Wizard of Oz (WoZ)	វិធីសាស្ត្រធ្វើតេស្តសាកល្បងប្រព័ន្ធកុំព្យូទ័រ នៅក្នុងការស្រាវជ្រាវអន្តរកម្មមនុស្ស-កុំព្យូទ័រ ដោយធ្វើឱ្យអ្នកប្រើប្រាស់គិតថាប្រព័ន្ធនេះដំណើរការដោយស្វ័យប្រវត្តិ ប៉ុន្តែការពិតមានមនុស្សលួចបញ្ជាពីក្រោយ។	ដូចជាការលេងអាយ៉ង ដែលអ្នកមើលស្មានតែអាយ៉ងចេះនិយាយនិងធ្វើចលនាដោយខ្លួនឯង តែការពិតមានអ្នកទាញខ្សែនិងបញ្ចេញសំឡេងលាក់ខ្លួនពីក្រោយឆាក។
Information State	ទ្រឹស្តី និងវិធីសាស្ត្រក្នុងការគ្រប់គ្រងការសន្ទនាដោយរក្សាទុក និងធ្វើបច្ចុប្បន្នភាពទិន្នន័យ (ដូចជាជំនឿ បំណង និងអ្វីដែលបានយល់ព្រមរួច) នៅរៀងរាល់ពេលមានការបញ្ចេញសកម្មភាព ឬពាក្យសម្ដី។	ដូចជាសៀវភៅកត់ត្រារបស់លេខា ដែលកត់ទុកជាប់ជានិច្ចថាអ្នកណានិយាយអ្វីខ្លះ និងមានចំណុចណាខ្លះដែលបានយល់ស្របគ្នាហើយ។
DAMSL coding scheme	ប្រព័ន្ធកូដស្ដង់ដារ (Dialog Act Markup in Several Layers) ដែលអ្នកស្រាវជ្រាវប្រើប្រាស់សម្រាប់បែងចែកប្រភេទ និងមុខងារនៃប្រយោគនីមួយៗក្នុងការសន្ទនា (ឧទាហរណ៍៖ សំណួរ, ការយល់ព្រម, ការពន្យល់)។	ដូចជាការដាក់ស្លាកសញ្ញាពណ៌ផ្សេងៗគ្នាលើឯកសារ ដើម្បីសម្គាល់យ៉ាងងាយស្រួលថាណាមួយជាសំបុត្រសួរ ណាមួយជាសំបុត្រឆ្លើយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖