Original Title: The use of speech recognition confidence scores in dialogue systems
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់ពិន្ទុទំនុកចិត្តនៃការសម្គាល់សំឡេងនៅក្នុងប្រព័ន្ធសន្ទនា

ចំណងជើងដើម៖ The use of speech recognition confidence scores in dialogue systems

អ្នកនិពន្ធ៖ Gabriel Skantze (Department of Speech, Music and Hearing, KTH)

ឆ្នាំបោះពុម្ព៖ 2003 GSLT: Speech Technology

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីរបៀបបកស្រាយ និងប្រើប្រាស់ពិន្ទុទំនុកចិត្តនៃការសម្គាល់សំឡេង (speech recognition confidence scores) នៅក្នុងប្រព័ន្ធសន្ទនា ដើម្បីកែលម្អភាពរឹងមាំ ដោយចោទសួរលើប្រសិទ្ធភាពនៃការប្រើប្រាស់កម្រិតគោល (threshold) ជាទូទៅ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការវាយតម្លៃជាក់ស្តែងលើភាពត្រឹមត្រូវនៃទំនុកចិត្ត ដោយប្រើប្រាស់ប្រព័ន្ធសម្គាល់សំឡេងពាណិជ្ជកម្ម (Nuance 8.0) លើទិន្នន័យនៃការសន្ទនាចំនួន ៤០ ដែលមាន ៤៤៨១ ពាក្យ។

ការវាយតម្លៃទិន្នន័យសន្ទនា និងការចម្លងអត្ថបទ (Dialogue data collection and transcription)
ការគណនាចម្ងាយកែសម្រួលអប្បបរមា (Minimum edit distance calculation)
ការវិភាគទំនាក់ទំនងរវាងពិន្ទុទំនុកចិត្ត និងប្រូបាប៊ីលីតេនៃភាពត្រឹមត្រូវ (Analysis of correlation between confidence scores and probability of correctness)
ការវិភាគភាពត្រឹមត្រូវផ្អែកលើប្រវែងពាក្យ (Accuracy analysis based on word length/syllables)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

មានទំនាក់ទំនងជាលីនេអ៊ែរយ៉ាងខ្លាំង (r = 0.98) រវាងពិន្ទុទំនុកចិត្ត និងប្រូបាប៊ីលីតេពិតប្រាកដនៃភាពត្រឹមត្រូវនៃការសម្គាល់សំឡេង។
ការប្រើប្រាស់កម្រិតគោល (Threshold) ត្រឹម ០.៤ សម្រាប់ទាត់ចោល ឬទទួលយកពាក្យ ផ្តល់នូវភាពត្រឹមត្រូវក្នុងការរកឃើញកំហុសត្រឹមតែ ៧៦.៤% ប៉ុណ្ណោះ បើធៀបនឹង ៧១.៩% ដែលជាកម្រិតមូលដ្ឋាន។
ប្រព័ន្ធគួរចាត់ទុកពិន្ទុទំនុកចិត្តជាតម្លៃប្រូបាប៊ីលីតេ ជាជាងកម្រិតគោលដាច់ខាត ហើយយកកត្តាផ្សេងៗដូចជាប្រវែងពាក្យមកគិតបញ្ចូលគ្នា ដោយពាក្យដែលមានព្យាង្គច្រើនច្រើនតែមានភាពត្រឹមត្រូវជាង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline (Accepting all words) កម្រិតមូលដ្ឋាន (ការទទួលយកពាក្យទាំងអស់ដោយមិនមានការទាត់ចោល)	ងាយស្រួលអនុវត្តដោយមិនចាំបាច់មានការកំណត់កម្រិតគោល (Threshold) ស្មុគស្មាញ។	ប្រព័ន្ធនឹងទទួលយកកំហុសទាំងអស់ដែលកើតមាន ដែលធ្វើឱ្យការយល់ន័យខុសទាំងស្រុង។	ទទួលបានភាពត្រឹមត្រូវនៃការសម្គាល់ ៧១.៩% ដោយសារមិនមានការរកឃើញកំហុសទាល់តែសោះ។
Confidence Thresholding (Threshold = 0.4) ការប្រើប្រាស់កម្រិតគោលនៃទំនុកចិត្ត (កំណត់កម្រិតគោលត្រឹម ០.៤)	ជួយកាត់បន្ថយការទទួលយកពាក្យខុស ដោយទាត់ចោលពាក្យដែលមានពិន្ទុទំនុកចិត្តទាបជាង ០.៤។	ផ្តល់ភាពប្រសើរឡើងតិចតួចណាស់ ហើយជារឿយៗទាត់ចោលពាក្យដែលប្រព័ន្ធស្តាប់បានត្រឹមត្រូវ (False Rejection)។	ភាពត្រឹមត្រូវនៃការរកឃើញកំហុសកើនឡើងត្រឹមតែ ៧៦.៤% ប៉ុណ្ណោះ ធៀបនឹងមូលដ្ឋាន ៧១.៩%។
Machine Learning with Augmented Features ការរៀនដោយម៉ាស៊ីនជាមួយនឹងលក្ខណៈពិសេសបន្ថែម (ពិន្ទុទំនុកចិត្ត + សំឡេង + បរិបទ)	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការរកឃើញកំហុស ដោយពិចារណាលើកត្តាច្រើន (ទាញចេញពីការសិក្សា Litman et al.)។	ទាមទារការបណ្តុះបណ្តាលម៉ូដែលស្មុគស្មាញ និងទិន្នន័យច្រើនដើម្បីដំណើរការបានល្អ។	ភាពត្រឹមត្រូវនៃការរកឃើញកំហុសកើនឡើងដល់ខ្ពស់រហូតដល់ ៩៣.៤៧% ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើកម្មវិធីពាណិជ្ជកម្មដែលមានស្រាប់ និងមិនទាមទារធនធានកុំព្យូទ័រធំដុំសម្រាប់ការវាយតម្លៃនោះទេ ប៉ុន្តែត្រូវការកម្លាំងពលកម្មមនុស្សសម្រាប់ការប្រមូលទិន្នន័យ។

Software: កម្មវិធី Nuance speech recogniser 8.0 ជាមួយនឹងម៉ូដែលសំឡេងសម្រាប់ភាសាស៊ុយអែត (Swedish)។
Dataset: ទិន្នន័យសន្ទនាចំនួន ៤០ ដែលមាន ៨២២ ឃ្លា និង ៤៤៨១ ពាក្យ ដែលប្រមូលបានពីអ្នកចូលរួមចំនួន ៨ គូ ក្នុងសេណារីយ៉ូស្វែងរកផ្លូវ។
Expertise: ចំណេះដឹងក្នុងការចម្លងអត្ថបទដោយដៃ (Transcription) និងការសរសេរកូដសម្រាប់គណនា Minimum Edit Distance ដើម្បីតម្រឹមពាក្យ និងប្រៀបធៀប។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងភាសាស៊ុយអែត ជាមួយនឹងវាក្យសព្ទមានកំណត់ត្រឹមតែ ៣៥២ ពាក្យប៉ុណ្ណោះ នៅក្នុងមន្ទីរពិសោធន៍។ វាមិនឆ្លុះបញ្ចាំងពីភាពស្មុគស្មាញនៃភាសាខ្មែរ ដែលមានទម្រង់សំឡេងស្មុគស្មាញ និងបញ្ហាក្នុងការបែងចែកពាក្យ (Word Segmentation) នោះទេ។ ដូច្នេះ សម្រាប់កម្ពុជា ការទាញយកពិន្ទុទំនុកចិត្តនេះទាមទារទិន្នន័យក្នុងស្រុកបន្ថែមទៀតដើម្បីបញ្ជាក់ពីភាពត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ពិន្ទុទំនុកចិត្តជាប្រូបាប៊ីលីតេនេះ មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃ (Spoken Dialogue Systems) នៅកម្ពុជា។

ប្រព័ន្ធឆ្លើយតបអតិថិជនស្វ័យប្រវត្តិ (Call Centers / Voice Bots): ក្រុមហ៊ុនទូរគមនាគមន៍ (ឧទាហរណ៍៖ Smart, Cellcard) ឬធនាគារ (ឧទាហរណ៍៖ ABA Bank) អាចប្រើប្រាស់វាដើម្បីដឹងថាពេលណាប្រព័ន្ធគួរតែសួរអតិថិជនបញ្ជាក់ឡើងវិញ (Explicit Confirmation) ពេលវាមិនប្រាកដលើពាក្យដែលស្តាប់បាន។
បញ្ជរព័ត៌មានទេសចរណ៍ (Tourism Information Kiosks): នៅតំបន់ទេសចរណ៍ដូចជាខេត្តសៀមរាប ប្រព័ន្ធអាចទទួលពាក្យបញ្ជាជាសំឡេង និងគ្រប់គ្រងកំហុសបានល្អប្រសើរ ពេលភ្ញៀវនិយាយពាក្យក្រៅវាក្យសព្ទ (Out of Vocabulary - OOV) ដោយប្រើប្រាស់ពិន្ទុទំនុកចិត្តរួមបញ្ចូលគ្នា។
ខ្សែទូរស័ព្ទជំនួយសុខភាពសាធារណៈ (Healthcare Hotlines): អាចជួយឱ្យប្រព័ន្ធសន្ទនារបស់ក្រសួងសុខាភិបាលដំណើរការរលូន ដោយកាត់បន្ថយការសួរផ្ទួនៗដែលធ្វើឱ្យអ្នកហៅទូរស័ព្ទធុញថប់ តាមរយៈការវាយតម្លៃពិន្ទុទំនុកចិត្តលើឈ្មោះរោគសញ្ញា ឬទីតាំងភូមិសាស្ត្រ។

សរុបមក ការបំប្លែងពិន្ទុទំនុកចិត្តទៅជាប្រូបាប៊ីលីតេរួមផ្សំជាមួយបរិបទ និងប្រវែងពាក្យ នឹងជួយឱ្យប្រព័ន្ធ AI ភាសាខ្មែរកាន់តែមានលក្ខណៈធម្មជាតិ និងកាត់បន្ថយភាពធុញថប់របស់អ្នកប្រើប្រាស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ: ប្រមូលទិន្នន័យសន្ទនាជាសំឡេង និងអត្ថបទ (Transcription) ជាភាសាខ្មែរ។ ប្រើប្រាស់ឧបករណ៍ដូចជា KhPOS ឬក្បួនបំបែកពាក្យខ្មែរដើម្បីធ្វើស្តង់ដារവាក្យសព្ទ (Standardized Vocabulary)។
ជំហានទី២៖ បណ្តុះបណ្តាលម៉ូដែល ASR មូលដ្ឋាន: ប្រើប្រាស់ Framework ដូចជា Kaldi ឬ OpenAI Whisper ដើម្បីហ្វឹកហាត់ (Fine-tune) ម៉ូដែលសម្គាល់សំឡេងភាសាខ្មែរ និងទាញយកទិន្នផលដែលរួមមានពិន្ទុទំនុកចិត្ត (Confidence Scores) សម្រាប់ពាក្យនីមួយៗ។
ជំហានទី៣៖ វាយតម្លៃ និងតម្រឹមពិន្ទុទំនុកចិត្ត: សរសេរកូដ Python ដោយប្រើប្រាស់ក្បួន Minimum Edit Distance ដើម្បីតម្រឹមអត្ថបទដែលប្រព័ន្ធស្តាប់បាន ជាមួយអត្ថបទពិតប្រាកដ រួចគណនាអត្រាទំនាក់ទំនង (Correlation) រវាងពិន្ទុទំនុកចិត្ត និងភាពត្រឹមត្រូវនៃពាក្យ។
ជំហានទី៤៖ វិភាគប្រវែងពាក្យ និងប្រភេទពាក្យ (Feature Engineering): សិក្សាពីឥទ្ធិពលនៃចំនួនព្យាង្គក្នុងភាសាខ្មែរ (ឧទាហរណ៍៖ ពាក្យមានព្យាង្គច្រើនច្រើនតែត្រឹមត្រូវជាង) ដើម្បីបង្កើតជាកត្តាបន្ថែមសម្រាប់ការវាយតម្លៃ ជៀសវាងការពឹងផ្អែកលើ Threshold តែមួយមុខ។
ជំហានទី៥៖ បង្កើតឡូជីខលសន្ទនា (Dialogue Logic): បញ្ចូលម៉ូដែលនេះទៅក្នុងប្រព័ន្ធគ្រប់គ្រងការសន្ទនាដូចជា Rasa ឬ Dialogflow ដោយបង្កើតច្បាប់សួរបញ្ជាក់ (Confirmation Strategies) ដោយស្វ័យប្រវត្តិនៅពេលពិន្ទុប្រូបាប៊ីលីតេសរុបមានកម្រិតទាប។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Confidence score	ជារង្វាស់ប្រូបាប៊ីលីតេដែលប្រព័ន្ធសម្គាល់សំឡេងប្រើដើម្បីបញ្ជាក់ថាវានៅមានភាពប្រាកដប្រជាកម្រិតណាទៅលើពាក្យដែលវាបានស្តាប់ និងបំប្លែងទៅជាអត្ថបទ។	ដូចជាសិស្សម្នាក់ប្រាប់គ្រូថាគាត់ប្រាកដ ៨០% ថាចម្លើយដែលគាត់បានឆ្លើយគឺពិតជាត្រឹមត្រូវ។
Word error rate (WER)	ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃប្រព័ន្ធសម្គាល់សំឡេង ដោយគណនាចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស (បន្ថែម បាត់ ឬជំនួសខុស) ចែកនឹងចំនួនពាក្យសរុប។	ដូចជាការរាប់ចំនួនកំហុសអក្ខរាវិរុទ្ធដែលសិស្សសរសេរតាមអំណានខុស ធៀបនឹងពាក្យសរុបដែលគ្រូបានអានទាំងអស់។
Out of vocabulary (OOV)	ជាពាក្យដែលអ្នកប្រើប្រាស់និយាយ ប៉ុន្តែមិនមាននៅក្នុងវចនានុក្រមទិន្នន័យដែលប្រព័ន្ធបានរៀន ឬស្គាល់ពីមុនមក ដែលធ្វើឱ្យប្រព័ន្ធព្យាយាមទាយចេញជាពាក្យផ្សេងខុសពីការពិត។	ដូចជាពេលដែលជនបរទេសម្នាក់ឮពាក្យខ្មែរដែលគាត់មិនធ្លាប់រៀនសោះ ហើយគាត់ព្យាយាមទាយថាវាជាពាក្យអ្វីផ្សេងដែលគាត់ធ្លាប់ស្គាល់។
Minimum edit distance	ជាក្បួនគណិតវិទ្យាសម្រាប់គណនាថាតើខ្សែអត្ថបទពីរខុសគ្នាត្រង់ណាខ្លះ ដោយរាប់ចំនួនប្រតិបត្តិការតិចបំផុត (លុប បន្ថែម ឬជំនួស) ដើម្បីបំប្លែងអត្ថបទមួយទៅអត្ថបទមួយទៀត។	ដូចជាការរាប់ថាតើយើងត្រូវលុប ឬកែអក្សរប៉ុន្មានតួទើបអាចធ្វើឱ្យពាក្យ "cat" ក្លាយជាពាក្យ "bat" (គឺត្រូវការកែ ១ តួអក្សរ)។
Implicit confirmation	ជាយុទ្ធសាស្ត្រសន្ទនាដែលប្រព័ន្ធយកពាក្យដែលវាស្តាប់បាន បញ្ចូលទៅក្នុងសំណួរបន្ទាប់ ដើម្បីផ្ទៀងផ្ទាត់ដោយប្រយោល ដោយមិនចាំបាច់សួរអតិថិជនចំៗថាតើវាយល់ត្រឹមត្រូវឬទេ។	ដូចជាពេលមិត្តភក្តិប្រាប់ថា "ខ្ញុំចង់ញ៉ាំកាហ្វេ" ហើយអ្នកតបថា "យកកាហ្វេទឹកដោះគោ ឬកាហ្វេខ្មៅ?" (អ្នកបញ្ជាក់ដោយប្រយោលថាអ្នកឮពាក្យកាហ្វេច្បាស់លាស់)។
Explicit confirmation	ជាយុទ្ធសាស្ត្រសន្ទនាដែលប្រព័ន្ធសួរបញ្ជាក់ចំៗទៅកាន់អ្នកប្រើប្រាស់ (ជាទម្រង់សំណួរ បាទ/ទេ) ដើម្បីឱ្យប្រាកដថាវាស្តាប់បានត្រឹមត្រូវ១០០% មុននឹងបន្តដំណើរការទៅមុខ។	ដូចជាអ្នករត់តុសួរអ្នកបញ្ជាក់ថា "តើបងពិតជាចង់កុម្ម៉ង់កាហ្វេទឹកដោះគោទឹកកកមួយកែវមែនទេបង?" មុនពេលទៅឆុងឱ្យ។
Grounding	ជាដំណើរការក្នុងការសន្ទនាដែលភាគីទាំងសងខាង (មនុស្ស និងប្រព័ន្ធ) ផ្តល់សញ្ញាឱ្យគ្នាទៅវិញទៅមកដើម្បីបញ្ជាក់ថាពួកគេយល់ស្រប និងយល់ន័យគ្នាច្បាស់លាស់មុននឹងបន្តការសន្ទនាទៅមុខទៀត។	ដូចជាការងក់ក្បាល ឬនិយាយថា "អូខេ" ឬ "បាទ/ចាស" ពេលកំពុងស្តាប់នរណាម្នាក់និយាយ ដើម្បីបង្ហាញថាអ្នកកំពុងតាមដានយល់សាច់រឿង។
Equal error rate	ជាចំណុចកម្រិតគោលដែលចំនួននៃការទទួលយកខុស (False acceptances) និងចំនួននៃការទាត់ចោលខុស (False rejections) ត្រូវបានកាត់បន្ថយរហូតដល់មានអត្រាស្មើគ្នា។	ដូចជាការថ្លឹងជញ្ជីងកំណត់ស្តង់ដារ ដែលចំនួនកំហុសទាំងសងខាង (អ្នកខុសតែប្រព័ន្ធឱ្យចូល និងអ្នកត្រូវតែប្រព័ន្ធមិនឱ្យចូល) មានទម្ងន់ស្មើគ្នាបេះបិទ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖