Original Title: A Comparison of Confirmation Styles for Error Handling in a Speech Dialog System
Source: doi.org/10.21437/Interspeech.2004-120
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រៀបធៀបទម្រង់នៃការបញ្ជាក់សម្រាប់ការដោះស្រាយកំហុសនៅក្នុងប្រព័ន្ធសន្ទនាតាមរយៈសំឡេង

ចំណងជើងដើម៖ A Comparison of Confirmation Styles for Error Handling in a Speech Dialog System

អ្នកនិពន្ធ៖ Hirohiko Sagawa, Carnegie Mellon University, Teruko Mitamura, Carnegie Mellon University, Eric Nyberg, Carnegie Mellon University

ឆ្នាំបោះពុម្ព៖ 2004, INTERSPEECH 2004 - ICSLP

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការជ្រើសរើសទម្រង់បញ្ជាក់ (Confirmation styles) ដ៏ល្អប្រសើរបំផុតសម្រាប់ការដោះស្រាយកំហុសនៅក្នុងប្រព័ន្ធសន្ទនាតាមរយៈសំឡេង ដើម្បីកែលម្អភាពងាយស្រួលក្នុងការប្រើប្រាស់ (Usability) នៅពេលមានកំហុសក្នុងការសម្គាល់សំឡេង។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានធ្វើការពិសោធន៍វាយតម្លៃលើអ្នកប្រើប្រាស់ចំនួន ១៣ នាក់ ដោយប្រើប្រាស់ប្រព័ន្ធសន្ទនាព័ត៌មានអាកាសធាតុជាភាសាជប៉ុន ដែលបានកំណត់ឱ្យមានកំហុសប្រព័ន្ធដោយចេតនា។

ការធ្វើតេស្តសាកល្បងជាមួយអ្នកប្រើប្រាស់ (User experiments) ដែលមានអ្នកចូលរួមចំនួន ១៣ នាក់លើការសន្ទនាចំនួន ២០ ករណីផ្សេងៗគ្នា។
ការប្រៀបធៀបទម្រង់នៃការបញ្ជាក់ចំនួនបីប្រភេទ៖ ច្បាស់លាស់ (Explicit), ចុងក្រោយ (Final), និងមិនច្បាស់លាស់ (Implicit)។
ការវិភាគទិន្នន័យដោយប្រើប្រាស់វិធីសាស្ត្រ ANOVA និង T-test លើចំណាត់ថ្នាក់ដែលអ្នកប្រើប្រាស់បានវាយតម្លៃ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅពេលគ្មានកំហុស អ្នកប្រើប្រាស់ចូលចិត្តការបញ្ជាក់ចុងក្រោយ (Final confirmation) ដែលមានចំណាត់ថ្នាក់ជាមធ្យម ១.៦៤ បើប្រៀបធៀបនឹង ១.៨៩ សម្រាប់ការបញ្ជាក់មិនច្បាស់លាស់ (Implicit) និង ២.៤១ សម្រាប់ការបញ្ជាក់ច្បាស់លាស់ (Explicit)។
នៅពេលមានកំហុសកើតឡើង អ្នកប្រើប្រាស់ផ្តល់ចំណូលចិត្តខ្ពស់បំផុតចំពោះការបញ្ជាក់យ៉ាងច្បាស់លាស់ (Explicit confirmation) ដែលមានចំណាត់ថ្នាក់ ១.៥៩ ធៀបនឹង ២.០ សម្រាប់ការបញ្ជាក់ចុងក្រោយ (Final) និង ២.៤១ សម្រាប់ការបញ្ជាក់មិនច្បាស់លាស់ (Implicit)។
ការរួមបញ្ចូលគ្នារវាងការបញ្ជាក់ចុងក្រោយសម្រាប់ប្រតិបត្តិការធម្មតា និងការប្តូរទៅប្រើការបញ្ជាក់យ៉ាងច្បាស់លាស់នៅពេលរកឃើញកំហុស គឺជាយុទ្ធសាស្ត្រគ្រប់គ្រងការសន្ទនាដ៏ល្អបំផុតដើម្បីបង្កើនភាពងាយស្រួលក្នុងការប្រើប្រាស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Explicit Confirmation ការបញ្ជាក់យ៉ាងច្បាស់លាស់ (សួរនាំរាល់ពេលបញ្ចូលព័ត៌មាន)	ងាយស្រួលរកកំហុស និងមានភាពច្បាស់លាស់ខ្ពស់ ដែលអ្នកប្រើប្រាស់ចូលចិត្តបំផុតនៅពេលមានកំហុសកើតឡើងក្នុងការសម្គាល់សំឡេង។	ត្រូវការចំនួនជុំនៃការសន្ទនាច្រើន (Turns) ដែលអាចធ្វើឱ្យអ្នកប្រើប្រាស់មានអារម្មណ៍ធុញទ្រាន់ និងយឺតយ៉ាវនៅពេលប្រព័ន្ធគ្មានកំហុស។	ទទួលបានចំណាត់ថ្នាក់ល្អបំផុត (១.៥៩) ពេលមានកំហុស ប៉ុន្តែធ្លាក់ទៅចំណាត់ថ្នាក់ចុងក្រោយគេ (២.៤១) ពេលគ្មានកំហុស។
Final Confirmation ការបញ្ជាក់ចុងក្រោយ (បញ្ជាក់ព័ត៌មានទាំងអស់រួមគ្នានៅចុងបញ្ចប់)	កាត់បន្ថយពេលវេលា និងចំនួនជុំនៃការសន្ទនា ដែលជាជម្រើសល្អបំផុតនិងមានលក្ខណៈធម្មជាតិសម្រាប់អ្នកប្រើប្រាស់នៅពេលគ្មានកំហុស។	អាចធ្វើឱ្យអ្នកប្រើប្រាស់មានការភាន់ច្រឡំនៅពេលមានកំហុសលើព័ត៌មានច្រើនក្នុងពេលតែមួយ (ឧទាហរណ៍ ខុសទាំងទីតាំងនិងពេលវេលា)។	ទទួលបានចំណាត់ថ្នាក់ល្អបំផុត (១.៦៤) ពេលគ្មានកំហុស និងចំណាត់ថ្នាក់ទី២ (២.០០) ពេលមានកំហុស។
Implicit Confirmation ការបញ្ជាក់មិនច្បាស់លាស់ (រំលឹកពាក្យចាស់មុននឹងសួរសំណួរបន្ទាប់)	លឿន និងមានប្រសិទ្ធភាពខ្ពស់ដោយរួមបញ្ចូលការបញ្ជាក់ទៅក្នុងសំណួរបន្ទាប់ដោយស្វ័យប្រវត្តិ។	ពិបាកប្រើបំផុត និងធ្វើឱ្យស្មុគស្មាញនៅពេលមានកំហុសកើតឡើង ព្រោះអ្នកប្រើប្រាស់ត្រូវកាត់ផ្ដាច់សំណួរបន្ទាប់ដើម្បីកែតម្រូវ។	ទទួលបានចំណាត់ថ្នាក់មធ្យម (១.៨៩) ពេលគ្មានកំហុស ប៉ុន្តែធ្លាក់ដល់ចំណាត់ថ្នាក់អាក្រក់បំផុត (២.៤១) ពេលមានកំហុស។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ក្ដី ការអនុវត្តប្រព័ន្ធនេះទាមទារនូវហេដ្ឋារចនាសម្ព័ន្ធសូហ្វវែរ និងម៉ាស៊ីនសម្គាល់សំឡេងកម្រិតខ្ពស់។

Software Framework: ត្រូវការប្រព័ន្ធគ្រប់គ្រងការសន្ទនាផ្អែកលើស្តង់ដារ VoiceXML (ដូចជាប្រព័ន្ធ CAMMIA ដែលប្រើក្នុងឯកសារនេះ)។
Speech Recognition Engine: ម៉ាស៊ីនសម្គាល់សំឡេងដែលអាចបញ្ចេញលទ្ធផលច្រើនជម្រើស (N-best results) ដូចជា Julius សម្រាប់ SAPI។
Grammar Generation: ទាមទារការពង្រីក និងបង្កើតក្បួនវេយ្យាករណ៍ថាមវន្ត (Dynamic correction grammars) ដើម្បីចាប់យក និងកែតម្រូវពាក្យរបស់អ្នកប្រើប្រាស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងទៅលើអ្នកប្រើប្រាស់ជនជាតិជប៉ុនតែ ១៣ នាក់ប៉ុណ្ណោះ (ប្រុស ៤, ស្រី ៩) លើប្រធានបទសួរព័ត៌មានអាកាសធាតុជាភាសាជប៉ុន។ ទិន្នន័យនេះមានទំហំតូច និងផ្ដោតតែលើវប្បធម៌តែមួយ ដូចនេះទម្លាប់នៃការឆ្លើយតបរបស់អ្នកប្រើប្រាស់អាចនឹងខុសគ្នាពីប្រជាជនកម្ពុជា ដែលទាមទារការសាកល្បងផ្ទាល់ជាមួយភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ការរកឃើញពីវិធីសាស្ត្រផ្លាស់ប្តូរទម្រង់នៃការបញ្ជាក់នេះ មានអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃ (Voicebots) នៅក្នុងប្រទេសកម្ពុជា។

សេវាកម្មទូរគមនាគមន៍ (Telecom Customer Service): ក្រុមហ៊ុនទូរស័ព្ទដូចជា Smart ឬ Cellcard អាចប្រើប្រាស់ការបញ្ជាក់ចុងក្រោយ (Final Confirmation) ពេលអតិថិជនភ្ជាប់គម្រោង ដើម្បីជៀសវាងការសួរនាំច្រើនដង ប៉ុន្តែប្តូរទៅប្រើសួរច្បាស់លាស់ (Explicit) ពេលប្រព័ន្ធស្តាប់មិនច្បាស់។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): ធនាគារដូចជា ABA ឬ ACLEDA ដែលអភិវឌ្ឍប្រព័ន្ធផ្ទេរប្រាក់ដោយសំឡេង គួរតែប្រើ Explicit Confirmation ជានិច្ចនៅពេលបញ្ជាក់លេខគណនី ឬចំនួនទឹកប្រាក់ ដើម្បីទប់ស្កាត់ហានិភ័យកំហុសផ្នែកហិរញ្ញវត្ថុ។
សេវាកម្មកក់សំបុត្រ ឬដឹកជញ្ជូន (Booking & Ride-hailing): កម្មវិធីកក់ឡានក្រុង ឬ TADA/Grab អាចប្រើ Implicit Confirmation ដើម្បីសន្សំពេលវេលាអតិថិជននៅពេលពួកគេប្រាប់ទីតាំងនិងកាលបរិច្ឆេទធ្វើដំណើរនៅក្នុងបរិបទដែលប្រព័ន្ធស្តាប់បានច្បាស់។

សរុបមក អ្នកអភិវឌ្ឍន៍នៅកម្ពុជាគួរតែរួមបញ្ចូលយុទ្ធសាស្ត្រប្រើប្រាស់ការបញ្ជាក់ទាំងពីរប្រភេទ (Explicit និង Final) ដោយអាស្រ័យលើកម្រិតនៃទំនុកចិត្ត (Confidence score) របស់ម៉ាស៊ីនសម្គាល់សំឡេង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីប្រព័ន្ធគ្រប់គ្រងការសន្ទនា (Dialog Management): អ្នកស្រាវជ្រាវគួរសិក្សាស្វែងយល់ពីស្តង់ដារនៃ VoiceXML ឬប្រើប្រាស់ Framework ទំនើបៗដូចជា Rasa ឬ Google Dialogflow ដើម្បីគ្រប់គ្រងលំហូរនៃការសន្ទនា (Dialog Flow)។
សាកល្បងម៉ាស៊ីនសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR): ធ្វើការសាកល្បងជាមួយម៉ាស៊ីនសម្គាល់សំឡេងភាសាខ្មែរ ដូចជា Khmer ASR (របស់ NIPTICT/CADT) ដែលអាចកំណត់រចនាសម្ព័ន្ធដើម្បីបញ្ចេញលទ្ធផល N-best results និងមាន Confidence Score។
អភិវឌ្ឍយន្តការប្ដូរទម្រង់បញ្ជាក់ (Confirmation Strategy): សរសេរកូដដើម្បីកំណត់លក្ខខណ្ឌ (Threshold)៖ ប្រសិនបើ Confidence ខ្ពស់ ត្រូវប្រើ Final Confirmation នៅចុងបញ្ចប់។ ប្រសិនបើ Confidence ទាប (ឧទាហរណ៍ < 70%) ត្រូវប្តូរភ្លាមៗទៅប្រើ Explicit Confirmation។
ធ្វើតេស្តវាយតម្លៃលើអ្នកប្រើប្រាស់កម្ពុជា (Usability Testing): បង្កើតគំរូសាកល្បង (Prototype) សួរព័ត៌មានងាយៗ (ឧ. កក់សំបុត្រ) រួចធ្វើការប្រមូលទិន្នន័យពីអ្នកប្រើប្រាស់ខ្មែរចំនួនយ៉ាងតិច ២០-៣០ នាក់ ដោយប្រើកម្រងសំណួរវាយតម្លៃភាពធម្មជាតិ និងភាពងាយស្រួល (Likert Scale)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Explicit confirmation	ជាទម្រង់នៃការសន្ទនាដែលប្រព័ន្ធកុំព្យូទ័រសួរអះអាងបញ្ជាក់ទៅកាន់អ្នកប្រើប្រាស់ចំៗ និងម្តងមួយៗ (ឧ. តើអ្នកនិយាយថា ភ្នំពេញ មែនទេ?) ដើម្បីធានាថាប្រព័ន្ធពិតជាស្តាប់បានត្រឹមត្រូវ។	ដូចជាពេលអ្នកកុម្ម៉ង់កាហ្វេ ហើយអ្នកលក់សួរត្រឡប់មកវិញភ្លាមៗថា "បងយកកាហ្វេទឹកដោះគោទឹកកក មែនទេ?"។
Implicit confirmation	ជាទម្រង់នៃការបញ្ជាក់ដោយប្រយោល ដោយប្រព័ន្ធកុំព្យូទ័រយកព័ត៌មានដែលវាស្តាប់បានទៅបញ្ចូលក្នុងសំណួរបន្ទាប់តែម្តង ដោយមិនទាមទារឱ្យអ្នកប្រើប្រាស់ឆ្លើយថា បាទ/ចាស ឬ ទេ នោះឡើយ ដើម្បីចំណេញពេលវេលា។	ដូចជាអ្នកលក់ប្រាប់ថា "ចាស កាហ្វេទឹកដោះគោទឹកកក... ចុះបងយកផ្អែមប៉ុនណាដែរ?" ដោយគ្រាន់តែរំលឹកពាក្យយើងឡើងវិញ តែបន្តទៅសំណួរបន្ទាប់យកតែម្តង។
Final confirmation	ជាទម្រង់នៃការសន្ទនាដែលប្រព័ន្ធកុំព្យូទ័ររង់ចាំរហូតដល់ប្រមូលព័ត៌មានបានគ្រប់គ្រាន់ ទើបធ្វើការសួរបញ្ជាក់ព័ត៌មានទាំងអស់នោះរួមគ្នាតែម្តងនៅចុងបញ្ចប់។	ដូចជាអ្នករត់តុរៀបរាប់ឈ្មោះម្ហូបទាំងអស់ដែលអ្នកបានកុម្ម៉ង់ឡើងវិញ ដើម្បីបញ្ជាក់ភាពត្រឹមត្រូវ មុននឹងយកទៅឱ្យចុងភៅធ្វើ។
Confidence score	ជាកម្រិតពិន្ទុ (គិតជាភាគរយឬលេខ) ដែលម៉ាស៊ីនសម្គាល់សំឡេងវាយតម្លៃខ្លួនឯង ដើម្បីបង្ហាញថាវាមានភាពជឿជាក់កម្រិតណាទៅលើពាក្យដែលវាទើបតែស្តាប់បានពីអ្នកប្រើប្រាស់។	ដូចជាការដាក់ពិន្ទុឱ្យខ្លួនឯងថាអ្នកស្តាប់ឮច្បាស់ប៉ុនណា ពេលមានគេខ្សឹបប្រាប់អ្នកក្នុងរោងកុន (បើឮច្បាស់ដាក់ ១០០% បើមិនសូវច្បាស់ដាក់ ៥០%)។
Correction grammar	ជាសំណុំវិធានវេយ្យាករណ៍ដែលប្រព័ន្ធកុំព្យូទ័របង្កើតឡើងភ្លាមៗ (Dynamically generated) ដើម្បីត្រៀមខ្លួនក្នុងការចាប់យក និងយល់ពីប្រយោគរបស់អ្នកប្រើប្រាស់ នៅពេលពួកគេព្យាយាមកែតម្រូវកំហុសអ្វីមួយ។	ដូចជាការផ្ចង់ត្រចៀកត្រៀមស្តាប់ពាក្យ "មិនមែនទេ", "ខុសហើយ", ឬ "ខ្ញុំចង់មានន័យថា..." ពេលដែលយើងដឹងថាយើងប្រហែលជាស្តាប់គេខុស។
Dialog flow	ជាលំដាប់លំដោយ ជំហាន និងតក្កវិជ្ជានៃការឆ្លើយឆ្លងគ្នារវាងអ្នកប្រើប្រាស់ និងប្រព័ន្ធកុំព្យូទ័រ តាំងពីពេលចាប់ផ្តើមរហូតដល់បញ្ចប់កិច្ចការណាមួយ។	ដូចជាគំនូសបំព្រួញ (ផែនទី) ដែលប្រាប់ពីផ្លូវដែលការសន្ទនាមួយត្រូវដើរ ថាតើត្រូវសួរអ្វីមុន និងមានអ្វីកើតឡើងបន្ត។
VoiceXML	ជាភាសាកូដកុំព្យូទ័រប្រភេទស្តង់ដារ (XML-based) ដែលគេប្រើសម្រាប់សរសេរអភិវឌ្ឍប្រព័ន្ធសន្ទនាតាមរយៈសំឡេង រួមមានការគ្រប់គ្រងការអានអត្ថបទជាសំឡេង ការសម្គាល់សំឡេងមនុស្ស និងការឆ្លើយឆ្លងតាមទូរស័ព្ទ។	ដូចជាសៀវភៅស្គ្រីប (Script) ដែលសរសេរទុកឱ្យកុំព្យូទ័រអាននិងធ្វើតាម ដើម្បីឱ្យវាចេះនិយាយឆ្លើយឆ្លងទូរស័ព្ទជាមួយមនុស្ស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖