Original Title: Towards a Model of Face-to-Face Grounding
Source: aclanthology.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកគំរូនៃការយល់ស្របគ្នាក្នុងការប្រាស្រ័យទាក់ទងដោយផ្ទាល់មុខ

ចំណងជើងដើម៖ Towards a Model of Face-to-Face Grounding

អ្នកនិពន្ធ៖ Yukiko I. Nakano, MIT Media Laboratory / RISTEX, Gabe Reinstein, MIT Media Laboratory, Tom Stocky, MIT Media Laboratory, Justine Cassell, MIT Media Laboratory

ឆ្នាំបោះពុម្ព៖ 2003

វិស័យសិក្សា៖ Human-Computer Interaction

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតការយល់ដឹងរួម (Grounding) រវាងមនុស្ស និងកុំព្យូទ័រ ដោយសារប្រព័ន្ធមុនៗពឹងផ្អែកតែលើការឆ្លើយតបជាសំឡេង និងបានមើលរំលងសញ្ញាអាកប្បកិរិយាដូចជាការសម្លឹង និងការងក់ក្បាល។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការសិក្សាជាក់ស្តែងលើទិន្នន័យនៃការសន្ទនារបស់មនុស្ស ហើយយកលទ្ធផលនេះទៅបង្កើតជាគំរូកុំព្យូទ័រសម្រាប់ភ្នាក់ងារសន្ទនាដែលមានរូបរាង (Embodied Conversational Agents)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
MACK-with-grounding
ប្រព័ន្ធ MACK ដែលមានយន្តការយល់ដឹងរួមតាមអាកប្បកិរិយា (Nonverbal Grounding)
ធ្វើឱ្យអន្តរកម្មកាន់តែមានលក្ខណៈធម្មជាតិដូចមនុស្ស និងអាចទាញយកប្រតិកម្មត្រឡប់ពីអ្នកប្រើប្រាស់បានល្អ ជួយឱ្យប្រព័ន្ធដឹងពីពេលត្រូវពន្យល់បន្ថែម។ ទាមទារការគណនាស្មុគស្មាញ និងឧបករណ៍ចាប់សញ្ញាអាកប្បកិរិយាច្រើនដើម្បីដំណើរការក្នុងពេលជាក់ស្តែង។ មានការផ្លាស់ប្តូរស្ថានភាពអាកប្បកិរិយាចំនួន ៧ដង និងជំរុញឱ្យអ្នកប្រើប្រាស់សម្លឹងមើលភ្នាក់ងារសន្ទនាដើម្បីទទួលបានការពន្យល់បន្ថែម (Elaboration)។
MACK-without-grounding
ប្រព័ន្ធ MACK ដែលគ្មានយន្តការយល់ដឹងរួមតាមអាកប្បកិរិយា (Baseline)
ងាយស្រួលក្នុងការអភិវឌ្ឍ កាត់បន្ថយភាពស្មុគស្មាញនៃប្រព័ន្ធកុំព្យូទ័រ និងមិនត្រូវការម៉ាស៊ីនចាប់សញ្ញាច្រើន។ អន្តរកម្មមានភាពរឹងកំព្រឹស មិនឆ្លើយតបទៅនឹងប្រតិកម្ម ឬការមិនយល់របស់អ្នកប្រើប្រាស់។ មានការផ្លាស់ប្តូរស្ថានភាពអាកប្បកិរិយាត្រឹមតែ ៣ដងប៉ុណ្ណោះ ហើយអ្នកប្រើប្រាស់មិនសម្លឹងមើលភ្នាក់ងារសន្ទនា (MACK) ទាល់តែសោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារការរួមបញ្ចូលគ្នារវាងផ្នែករឹង និងកម្មវិធីស្មុគស្មាញ ដើម្បីចាប់យក និងវិភាគសញ្ញាអាកប្បកិរិយាក្នុងពេលជាក់ស្តែង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យនិស្សិតសាកលវិទ្យាល័យនៅសហរដ្ឋអាមេរិក ដែលការសម្លឹងមើលភ្នែកពេលនិយាយជារឿងធម្មតាក្នុងការប្រាស្រ័យទាក់ទង។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទិន្នន័យនេះអាចមានភាពលំអៀង ដោយសារវប្បធម៌ខ្មែរជួនកាលចាត់ទុកការសម្លឹងភ្នែកចំៗពេកអាចជាការខ្វះការគោរព ឬមានអត្ថន័យខុសពីបស្ចិមប្រទេស។ ការកែតម្រូវគំរូអាកប្បកិរិយាឱ្យស្របតាមបរិបទប្រពៃណីខ្មែរគឺជារឿងចាំបាច់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

គំរូនៃការយល់ដឹងរួមតាមបែបពហុមធ្យោបាយនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍភ្នាក់ងារផ្តល់សេវាកម្មស្វ័យប្រវត្តិ (AI Kiosks) នៅកម្ពុជា។

ការធ្វើមូលដ្ឋានីយកម្ម (Localization) នៃប្រព័ន្ធនេះដោយគិតគូរពីវប្បធម៌ និងរបៀបប្រាស្រ័យទាក់ទងរបស់ប្រជាជនខ្មែរ នឹងជួយពង្រីកប្រសិទ្ធភាពនៃការប្រើប្រាស់បច្ចេកវិទ្យា AI ក្នុងសេវាកម្មសាធារណៈ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះទ្រឹស្តី (HCI & Grounding Theory): និស្សិតត្រូវស្វែងយល់ពីទ្រឹស្តី Grounding របស់ Clark និងបច្ចេកទេសនៃការសរសេរកូដកត់ត្រាការសន្ទនាដោយប្រើប្រាស់ស្ដង់ដារដូចជា DAMSL coding scheme
  2. ប្រមូលទិន្នន័យការសន្ទនាក្នុងស្រុក (Local Data Collection): ថតវីដេអូការសន្ទនារបស់ជនជាតិខ្មែរ (ឧទាហរណ៍៖ ការផ្តល់ទិសដៅ ឬពន្យល់មេរៀន) ហើយធ្វើការកត់ត្រា (Annotate) ការប្រើប្រាស់ខ្សែភ្នែក និងការងក់ក្បាល ដោយប្រើកម្មវិធី ELAN
  3. អភិវឌ្ឍប្រព័ន្ធចាប់សញ្ញាអាកប្បកិរិយា (Computer Vision Tracking): សាកល្បងប្រើប្រាស់បណ្ណាល័យកូដចំហដូចជា OpenCVMediaPipe ដើម្បីតាមដានចលនាក្បាល និងទិសដៅនៃការសម្លឹង (Eye Gaze & Head Pose Tracking) ជំនួសការប្រើប្រាស់ឧបករណ៍ Hardware ថ្លៃៗ។
  4. កសាងភ្នាក់ងារសន្ទនាសាកល្បង (Prototype ECA Construction): ប្រើប្រាស់វេទិកា Unity3D ផ្គួបជាមួយប្រព័ន្ធគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ដើម្បីបង្កើតតួអង្គនិម្មិត (Avatar) ដែលអាចនិយាយ និងប្រតិកម្ម (ងក់ក្បាល/សម្លឹង) តបទៅនឹងអ្នកប្រើប្រាស់។
  5. ធ្វើតេស្តសាកល្បងដោយវិធីសាស្ត្រ Wizard of Oz: អនុវត្តការវាយតម្លៃប្រព័ន្ធដោយឱ្យមនុស្សលាក់ខ្លួនបញ្ជាពីក្រោយ ដើម្បីសង្កេតមើលថាតើអ្នកប្រើប្រាស់នៅកម្ពុជាមានអារម្មណ៍ធម្មជាតិ និងឆ្លើយតបទៅនឹង AI នេះកម្រិតណាមុននឹងបញ្ចូលយន្តការ AI ពេញលេញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Grounding ដំណើរការដែលភាគីសន្ទនាទាំងសងខាងបញ្ជាក់ និងធានាថាព័ត៌មានដែលបាននិយាយត្រូវបានយល់ច្បាស់ និងទទួលស្គាល់ដោយភាគីម្ខាងទៀត ដើម្បីក្លាយជាចំណេះដឹងរួម (Common Ground)។ ដូចជាពេលយើងប្រាប់ផ្លូវគេ ហើយឈប់បន្តិចដើម្បីមើលថាគេងក់ក្បាលឬអត់ មុននឹងបន្តប្រាប់ផ្លូវទៅមុខទៀត។
Embodied Conversational Agents (ECAs) កម្មវិធីកុំព្យូទ័រឆ្លាតវៃ (AI) ដែលមានរូបរាងជាតួអង្គ (Avatar ឬ មនុស្សយន្ត) ដែលអាចធ្វើការសន្ទនាជាសំឡេង និងបង្ហាញអាកប្បកិរិយាដូចជាការងក់ក្បាល ចលនាដៃ ឬការសម្លឹងភ្នែក។ ដូចជាតួអង្គតុក្កតាមានជីវិតក្នុងអេក្រង់កុំព្យូទ័រ ដែលអាចនិយាយឆ្លើយឆ្លង និងសម្លឹងមកកាន់យើងដូចមនុស្សពិតៗ។
Dialogue Manager (DM) សមាសធាតុស្នូលនៃប្រព័ន្ធសន្ទនាឆ្លាតវៃ ដែលទទួលបន្ទុកតាមដានស្ថានភាពនៃការសន្ទនា វិភាគអត្ថន័យ និងសម្រេចចិត្តថាតើប្រព័ន្ធគួរឆ្លើយតប ឬធ្វើអ្វីបន្ទាប់។ ប្រៀបដូចជាខួរក្បាលរបស់អ្នកសម្របសម្រួលកម្មវិធី ដែលចាំស្តាប់ គិតវិភាគ និងសម្រេចថាតើត្រូវឆ្លើយតបបែបណាទៅកាន់អ្នកសួរ។
Utterance Unit (UU) ឯកតាតូចបំផុតនៃការនិយាយក្នុងមួយវគ្គ ដែលត្រូវបានកំណត់ដោយផ្អែកលើចង្វាក់នៃការដកដង្ហើម ឬការបញ្ចេញសំឡេង ហើយត្រូវបានប្រើប្រាស់ជាមូលដ្ឋានដើម្បីវិភាគអត្ថន័យនៃការសន្ទនា។ ប្រៀបដូចជារបាំងឃ្លា ឬប្រយោគខ្លីៗដែលយើងនិយាយដាច់ៗពីគ្នា ពេលយើងកំពុងរៀបរាប់រឿងរ៉ាវអ្វីមួយ។
Wizard of Oz (WoZ) វិធីសាស្ត្រធ្វើតេស្តសាកល្បងប្រព័ន្ធកុំព្យូទ័រ នៅក្នុងការស្រាវជ្រាវអន្តរកម្មមនុស្ស-កុំព្យូទ័រ ដោយធ្វើឱ្យអ្នកប្រើប្រាស់គិតថាប្រព័ន្ធនេះដំណើរការដោយស្វ័យប្រវត្តិ ប៉ុន្តែការពិតមានមនុស្សលួចបញ្ជាពីក្រោយ។ ដូចជាការលេងអាយ៉ង ដែលអ្នកមើលស្មានតែអាយ៉ងចេះនិយាយនិងធ្វើចលនាដោយខ្លួនឯង តែការពិតមានអ្នកទាញខ្សែនិងបញ្ចេញសំឡេងលាក់ខ្លួនពីក្រោយឆាក។
Information State ទ្រឹស្តី និងវិធីសាស្ត្រក្នុងការគ្រប់គ្រងការសន្ទនាដោយរក្សាទុក និងធ្វើបច្ចុប្បន្នភាពទិន្នន័យ (ដូចជាជំនឿ បំណង និងអ្វីដែលបានយល់ព្រមរួច) នៅរៀងរាល់ពេលមានការបញ្ចេញសកម្មភាព ឬពាក្យសម្ដី។ ដូចជាសៀវភៅកត់ត្រារបស់លេខា ដែលកត់ទុកជាប់ជានិច្ចថាអ្នកណានិយាយអ្វីខ្លះ និងមានចំណុចណាខ្លះដែលបានយល់ស្របគ្នាហើយ។
DAMSL coding scheme ប្រព័ន្ធកូដស្ដង់ដារ (Dialog Act Markup in Several Layers) ដែលអ្នកស្រាវជ្រាវប្រើប្រាស់សម្រាប់បែងចែកប្រភេទ និងមុខងារនៃប្រយោគនីមួយៗក្នុងការសន្ទនា (ឧទាហរណ៍៖ សំណួរ, ការយល់ព្រម, ការពន្យល់)។ ដូចជាការដាក់ស្លាកសញ្ញាពណ៌ផ្សេងៗគ្នាលើឯកសារ ដើម្បីសម្គាល់យ៉ាងងាយស្រួលថាណាមួយជាសំបុត្រសួរ ណាមួយជាសំបុត្រឆ្លើយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖