Original Title: Confidence Measures for Spoken Dialog Systems
Source: www.ee.iitb.ac.in
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

រង្វាស់ភាពជឿជាក់សម្រាប់ប្រព័ន្ធសន្ទនាដោយសំឡេង

ចំណងជើងដើម៖ Confidence Measures for Spoken Dialog Systems

អ្នកនិពន្ធ៖ Pranav Shriram Jawale

ឆ្នាំបោះពុម្ព៖ 2012 Indian Institute of Technology Bombay

វិស័យសិក្សា៖ Communication & Signal Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកំណត់ភាពត្រឹមត្រូវនៃលទ្ធផលនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងនិយាយដើម្បីកាត់បន្ថយការចាប់យកពាក្យខុស (False Alarms) សម្រាប់ប្រព័ន្ធផ្តល់ព័ត៌មានកសិកម្ម AgroAccess ជាភាសា Marathi។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតប្រព័ន្ធស្វែងរកពាក្យគន្លឹះសូរស័ព្ទ (Acoustic Keyword Spotting) និងអនុវត្តរង្វាស់ភាពជឿជាក់ (Confidence Measures) ផ្សេងៗជាដំណាក់កាលដំណើរការបន្តបន្ទាប់។

ការអនុវត្តប្រព័ន្ធស្វែងរកពាក្យគន្លឹះផ្អែកលើសណ្តាញ Keyword-Filler (KW-Filler Network) សម្រាប់រាវរកពាក្យគោលដៅ
ការធ្វើនីត្យានុកូលភាពពិន្ទុសូរស័ព្ទ (Acoustic Score Normalisation) ដោយប្រើប្រាស់ពិន្ទុភាពត្រឹមត្រូវនៃសូរសព្ទ (Phone accuracy) និង F-Score
ការប្រើប្រាស់រង្វាស់ភាពជឿជាក់ផ្អែកលើភស្តុតាងពីបញ្ជីលទ្ធផលល្អបំផុត (N-best List Evidence)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ប្រព័ន្ធសម្គាល់ពាក្យឡើងវិញជាមួយបណ្តាញ KW-Filler បានបង្កើនប្រសិទ្ធភាពប្រព័ន្ធ (Figure of Merit - FOM) ចំនួន 7% បើធៀបនឹងប្រព័ន្ធគោល។
រង្វាស់ភាពជឿជាក់ដែលផ្អែកលើបញ្ជី N-best (N-best list based CMs) ផ្តល់លទ្ធផលល្អប្រសើរនិងមានស្ថិរភាពជាងរង្វាស់ដែលផ្អែកលើការធ្វើនីត្យានុកូលភាពពិន្ទុសូរស័ព្ទកម្រិតសូរសព្ទ។
ការរួមបញ្ចូលប្លុកត្រួតពិនិត្យសុពលភាពនៃការឆ្លើយតប (Response Validity Check block) ទៅក្នុងប្រព័ន្ធ AgroAccess ជួយបដិសេធពាក្យក្រៅវាក្យសព្ទ (OOV) បានយ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline Acoustic KWS (KW-Filler network) ប្រព័ន្ធគោលសម្រាប់ស្វែងរកពាក្យគន្លឹះផ្អែកលើបណ្តាញ KW-Filler	ងាយស្រួលក្នុងការរៀបចំ និងមានសមត្ថភាពខ្ពស់ក្នុងការមិនរំលងទីតាំងពាក្យគោលដៅ (High hit rate/recall)។	មានអត្រាចាប់យកពាក្យខុស (False alarms) ច្រើន ប្រសិនបើមិនមានវគ្គចម្រាញ់ (Refinement stage) បន្ថែមទេ។	ទទួលបានរង្វាស់ប្រសិទ្ធភាពសរុប (Figure of Merit - FOM) ត្រឹមតែ 51.27% ប៉ុណ្ណោះ។
KWS with Re-recognition KW-Filler network ការស្វែងរកពាក្យគន្លឹះដោយប្រើបណ្តាញ KW-Filler សម្គាល់ឡើងវិញ (Re-recognition)	ជួយកាត់បន្ថយការចាប់យកពាក្យខុសបានយ៉ាងមានប្រសិទ្ធភាព និងនៅតែរក្សាបាននូវអត្រាចាប់យកត្រូវក្នុងកម្រិតខ្ពស់។	ទាមទារដំណើរការគណនាស្ទួនបន្ថែម និងត្រូវចំណាយពេលកំណត់ប៉ារ៉ាម៉ែត្រ (Parameter tuning) ច្រើន។	រង្វាស់ប្រសិទ្ធភាពសរុប (FOM) កើនឡើងដល់ 58.6% (កើនឡើង 7% ធៀបនឹងប្រព័ន្ធគោល)។
Acoustic Score Normalisation (Phone confusion matrix based) ការធ្វើនីត្យានុកូលភាពពិន្ទុសូរស័ព្ទផ្អែកលើម៉ាទ្រីសច្រឡំសូរសព្ទ	ជួយកាត់បន្ថយបញ្ហាលម្អៀងពិន្ទុ ដែលបណ្តាលមកពីប្រវែងពាក្យខ្លីវែងខុសគ្នា និងការភាន់ច្រឡំរវាងស្រៈឬព្យញ្ជនៈស្រដៀងគ្នា។	ភាពត្រឹមត្រូវពឹងផ្អែកខ្លាំងទៅលើសមត្ថភាពនៃការសម្គាល់សូរសព្ទ (Phone recognition performance) បើប្រព័ន្ធនោះខ្សោយ លទ្ធផលដែលបាននឹងមិនល្អទេ។	ផ្តល់លទ្ធផលកែលម្អមធ្យម ប៉ុន្តែនៅតែមានប្រសិទ្ធភាពទាបជាងការប្រើប្រាស់រង្វាស់ផ្អែកលើបញ្ជី N-best។
N-best list based Confidence Measures រង្វាស់ភាពជឿជាក់ផ្អែកលើបញ្ជីពាក្យប្រូបាប៊ីលីតេខ្ពស់បំផុត (N-best list)	មានប្រសិទ្ធភាពខ្ពស់ ងាយស្រួលក្នុងការគណនា និងមិនសូវពឹងផ្អែកទៅលើភាពត្រឹមត្រូវកម្រិតសូរសព្ទនោះទេ។	ត្រូវការប្រព័ន្ធកំណត់រចនាសម្ព័ន្ធដែលអាចបង្កើតបញ្ជី N-best បាន (មិនអាចប្រើជាមួយ Finite State Grammar ក្នុងកូដដើមរបស់ Sphinx3 បានទេ)។	ផ្តល់លទ្ធផលល្អបំផុតក្នុងការបែងចែករវាងពាក្យត្រូវនិងពាក្យខុស ពិសេសនៅពេលពឹងផ្អែកលើពិន្ទុ Language Model។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រកម្រិតមធ្យម តែពឹងផ្អែកជាចម្បងលើទិន្នន័យសំឡេងដែលបានកត់ត្រាយ៉ាងត្រឹមត្រូវ និងទាមទារពេលវេលាច្រើនក្នុងការកំណត់កែតម្រូវប៉ារ៉ាម៉ែត្រ (Tuning)។

Software: ការប្រើប្រាស់ CMUSphinx toolkit (រួមមានប្រព័ន្ធបកប្រែ Sphinx-3 decoder និងប្រព័ន្ធបង្វឹកម៉ូដែល SphinxTrain) ព្រមទាំងកម្មវិធីបណ្តាញ Asterisk សម្រាប់គ្រប់គ្រងទូរស័ព្ទ។
Dataset: ទិន្នន័យសំឡេង TIFR Hindi (75 នាទី) សម្រាប់ការស្វែងរកពាក្យគន្លឹះ និង Agmark Marathi (~20 ម៉ោង ពីអ្នកនិយាយ ១៥០០នាក់) សម្រាប់ការបង្វឹកម៉ូដែលសូរស័ព្ទនិងភាសា។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រ Server ដែលមានសមត្ថភាព CPU មធ្យមឡើងទៅសម្រាប់ការបង្វឹកម៉ូដែល HMM និងសម្រាប់ការទាញយកលទ្ធផល (Viterbi Decoding)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅផ្នែកដំណើរការសញ្ញាសំឡេង (Speech & Signal Processing) ការប្រើប្រាស់ម៉ូដែល HMM និងរចនាសម្ព័ន្ធ N-gram/FSG Language Model។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យអ្នកនិយាយពីតំបន់ផ្សេងៗគ្នានៅរដ្ឋ Maharashtra (ប្រទេសឥណ្ឌា) ដោយថតក្នុងស្ថានភាពជាក់ស្តែងតាមរយៈទូរស័ព្ទ ដែលមានសំឡេងរំខាន និងគ្រាមភាសាចម្រុះ។ សម្រាប់កម្ពុជា កត្តានេះមានសារៈសំខាន់ណាស់ ព្រោះការបង្កើតប្រព័ន្ធសម្រាប់កសិករខ្មែរនឹងត្រូវប្រឈមមុខនឹងសំឡេងរំខានជុំវិញ (ត្រាក់ទ័រ ខ្យល់បក់) និងគ្រាមភាសាខុសៗគ្នាតាមតំបន់ដូចជា អ្នកបាត់ដំបង អ្នកកំពង់ធំ ឬអ្នកស្វាយរៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តអនុវត្តរង្វាស់ភាពជឿជាក់ និងការស្វែងរកពាក្យគន្លឹះនៅក្នុងការស្រាវជ្រាវនេះ មានសក្តានុពលខ្ពស់ខ្លាំងណាស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធឆ្លើយតបដោយសំឡេង (IVR) នៅក្នុងប្រទេសកម្ពុជា។

ប្រព័ន្ធព័ត៌មានកសិកម្ម (Agricultural Info Systems): អាចប្រើប្រាស់ដើម្បីបង្កើតប្រព័ន្ធហៅទូរស័ព្ទប្រាប់តម្លៃកសិផលប្រចាំថ្ងៃ (ឧទាហរណ៍៖ ស្រូវ ដំឡូងមី ស្វាយកន្សែង) ដល់កសិករនៅតំបន់ដាច់ស្រយាលដែលមិនទាន់មានស្មាតហ្វូន ឬមិនសូវចេះអានអក្សរ។
សេវាកម្មអតិថិជន (Customer Service / Call Centers): ក្រុមហ៊ុនទូរគមនាគមន៍ ឬធនាគារក្នុងស្រុក (ដូចជា ABA ឬ ចល័ត) អាចប្រើបច្ចេកទេស Keyword Spotting និង Confidence Measures នេះដើម្បីដឹងថាពេលណាអតិថិជននិយាយពាក្យក្រៅប្រព័ន្ធ (OOV) ដើម្បីបង្វែរការហៅទៅកាន់បុគ្គលិកផ្ទាល់ដោយស្វ័យប្រវត្តិ។
ការអភិវឌ្ឍប្រព័ន្ធភាសាខ្មែរ (Khmer Natural Language Processing): ភាសាខ្មែរមានសូរសព្ទស្មុគស្មាញ (ស្រៈច្រើន ព្យញ្ជនៈផ្ញើជើង) ហេតុនេះការប្រើប្រាស់បច្ចេកទេសរង្វាស់ភាពជឿជាក់ផ្អែកលើបញ្ជី N-best នឹងជួយបង្កើនភាពត្រឹមត្រូវនៃកម្មវិធីបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ជាភាសាខ្មែរឱ្យកាន់តែប្រសើរ។

ជារួម ការអនុវត្តយន្តការត្រួតពិនិត្យសុពលភាពនៃចម្លើយ (Response Validity Check) គឺជាជំហានដ៏ចាំបាច់បំផុតសម្រាប់អ្នកអភិវឌ្ឍន៍កម្មវិធីកម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធសន្ទនាដោយសំឡេងរឹងមាំ ដែលមិនស្តាប់ច្រឡំនិងឆ្លើយខុសសាច់រឿង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃបច្ចេកវិទ្យាសម្គាល់សំឡេង: ស្វែងយល់អំពីទ្រឹស្តីដំណើរការសំឡេងដូចជា Hidden Markov Models (HMM), Gaussian Mixture Models (GMM) និងការទាញយកលក្ខណៈពិសេសនៃសំឡេង MFCCs។
អនុវត្តផ្ទាល់ជាមួយឧបករណ៍កូដបើកចំហ: ដំឡើងនិងរៀនប្រើប្រាស់ឧបករណ៍ CMUSphinx ឬឧបករណ៍ជំនាន់ក្រោយដូចជា Kaldi ឬ Vosk ដែលជាប្រព័ន្ធដ៏មានអានុភាពសម្រាប់ការបង្វឹកម៉ូដែលសូរស័ព្ទភាសាខ្មែរ។
ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងតាមវិស័យ: ចាប់ផ្តើមថតសំឡេងពាក្យគន្លឹះកសិកម្ម ឬឈ្មោះខេត្ត ដោយមានអ្នកនិយាយច្រើននាក់ដើម្បីគ្របដណ្តប់លើគ្រាមភាសាផ្សេងៗ រួចកាត់តនិងកត់ត្រា (Transcribe) ជាប្រព័ន្ធ។
កសាងប្រព័ន្ធគំរូនិងសាកល្បងរង្វាស់ភាពជឿជាក់: បង្កើតប្រព័ន្ធស្វែងរកពាក្យគន្លឹះ Baseline KWS រួចសាកល្បងសរសេរកូដអនុវត្តរង្វាស់ផ្អែកលើ N-best list evidence ដើម្បីច្រោះពាក្យដែលប្រព័ន្ធទាយត្រូវចេញពីការចាប់សញ្ញាខុស (False Alarms)។
សមាហរណកម្មទៅក្នុងប្រព័ន្ធទូរស័ព្ទឆ្លើយតបអន្តរកម្ម: ភ្ជាប់ប្រព័ន្ធសម្គាល់សំឡេងដែលបានបង្ហាត់នេះ ទៅកាន់កម្មវិធីតេឡេហ្វូនីអូផេនសូស (Open-source telephony) ដូចជា Asterisk ដើម្បីបង្កើតជាប្រព័ន្ធ Call Center ដែលអាចជជែកជាមួយអ្នកប្រើប្រាស់បាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Keyword Spotting (KWS)	ការស្វែងរកពាក្យគន្លឹះក្នុងប្រព័ន្ធសម្គាល់សំឡេង ជាបច្ចេកទេសដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមចាប់យកតែពាក្យសំខាន់ៗដែលបានកំណត់ទុកជាមុន ពីក្នុងលំហូរសំឡេងនិយាយជាបន្តបន្ទាប់ ដោយមិនខ្វល់ឬកត់ត្រាពាក្យផ្សេងទៀតដែលមិនពាក់ព័ន្ធឡើយ។	ដូចជាពេលយើងស្តាប់ចម្រៀងមួយបទដើម្បីចាំស្តាប់តែពាក្យមួយម៉ាត់ដែលយើងចង់ឮ ដោយមិនខ្វល់ពីអត្ថន័យនៃបទចម្រៀងទាំងមូល។
Confidence Measure (CM)	រង្វាស់កម្រិតនៃភាពជឿជាក់ គឺជាតម្លៃលេខដែលប្រព័ន្ធកុំព្យូទ័រប្រើដើម្បីវាយតម្លៃប្រូបាប៊ីលីតេ ឬការជឿជាក់សរុបទៅលើលទ្ធផលរបស់វា ថាតើវាមានភាពប្រាកដប្រជាកម្រិតណាថាសំឡេងដែលវាឮពិតជាពាក្យដែលវាទាយទុកមែន។	ដូចជាការបញ្ជាក់ភាគរយនៃការជឿជាក់លើចម្លើយរបស់សិស្សម្នាក់ពេលគ្រូសួរ (ឧទាហរណ៍៖ ខ្ញុំជឿជាក់ ៩០% ថាចម្លើយនេះត្រូវ)។
Out-Of-Vocabulary (OOV)	ពាក្យក្រៅវាក្យសព្ទ គឺជាពាក្យដែលអ្នកប្រើប្រាស់និយាយចេញមក ប៉ុន្តែពាក្យនោះមិនមានរក្សាទុកនៅក្នុងវចនានុក្រមទិន្នន័យរបស់ប្រព័ន្ធសម្គាល់សំឡេងនោះទេ ដែលវាជារឿយៗធ្វើឱ្យប្រព័ន្ធស្តាប់ច្រឡំទៅជាពាក្យផ្សេង។	ដូចជាពេលជនបរទេសម្នាក់និយាយពាក្យប្លែកមួយមកកាន់យើង ដែលពាក្យនោះមិនធ្លាប់មានក្នុងវចនានុក្រមខួរក្បាលរបស់យើងសោះ ធ្វើឱ្យយើងស្តាប់មិនយល់ឬគិតទៅជាពាក្យផ្សេង។
N-best list	បញ្ជីនៃជម្រើសចម្លើយល្អបំផុតចំនួន N (ឧទាហរណ៍ ៥ ឬ ១០ជម្រើស) ដែលប្រព័ន្ធសម្គាល់សំឡេងសន្និដ្ឋានថាអាចជាលំដាប់ពាក្យដែលអ្នកប្រើប្រាស់បាននិយាយ ដោយតម្រៀបតាមលំដាប់ពិន្ទុប្រូបាប៊ីលីតេខ្ពស់ជាងគេ។	ដូចជាការទាយឈ្មោះមនុស្សម្នាក់ដែលដើរមកពីចម្ងាយ ដោយយើងសរសេរឈ្មោះ៣នាក់ដែលយើងគិតថាស្រដៀងជាងគេតម្រៀបគ្នាតាមលំដាប់ភាពច្បាស់លាស់។
False Alarms	ការចាប់សញ្ញាខុស ឬការរាយការណ៍ខុសនៅក្នុងប្រព័ន្ធ KWS គឺកើតឡើងនៅពេលដែលប្រព័ន្ធរាយការណ៍ថាវាបានរកឃើញពាក្យគន្លឹះ ទាំងដែលការពិតអ្នកប្រើប្រាស់មិនបាននិយាយពាក្យនោះសោះ។	ដូចជាសំឡេងស៊ីរ៉ែនរោទ៍ប្រាប់ថាមានចោរចូលផ្ទះ ទាំងដែលការពិតគ្រាន់តែជាសត្វឆ្មាលោតកាត់សេនស័រ។
Figure of Merit (FOM)	រង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃប្រសិទ្ធភាពសរុបរបស់ប្រព័ន្ធស្វែងរកពាក្យគន្លឹះ ដោយធ្វើការគណនាមធ្យមភាគនៃអត្រាចាប់បានពិតប្រាកដ (Hit rate) ធៀបនឹងអត្រាចាប់សញ្ញាខុស (False alarms) ក្នុងកម្រិតអនុលោមផ្សេងៗគ្នា។	ដូចជាការបូកសរុបពិន្ទុប្រចាំឆ្នាំរបស់សិស្សដែលឆ្លុះបញ្ចាំងពីសមត្ថភាពសរុប ដើម្បីប្រៀបធៀបថាតើសិស្សណាពូកែជាងគេជារួម។
Acoustic Score Normalisation	ដំណើរការកែតម្រូវពិន្ទុសូរស័ព្ទ ដោយធ្វើប្រៀបធៀប ឬថ្លឹងថ្លែងពិន្ទុនៃពាក្យដែលចាប់បានជាមួយពិន្ទុគោល ដើម្បីកាត់បន្ថយភាពលម្អៀងដែលបណ្តាលមកពីកត្តាប្រវែងពាក្យខ្លីវែង ឬសំឡេងរំខានផ្សេងៗ។	ដូចជាការបូកពិន្ទុបន្ថែមឬដកពិន្ទុចេញដើម្បីឱ្យមានតុល្យភាពយុត្តិធម៌ក្នុងការប្រកួតរវាងអ្នកដែលមានប្រៀបនិងអ្នកចាញ់ប្រៀបពីធម្មជាតិ។
Viterbi search	ក្បួនដោះស្រាយតាមគណិតវិទ្យាដែលប្រព័ន្ធម៉ូដែលម៉ាកូវ (HMM) ប្រើដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃពាក្យដែលទំនងបំផុត (មានពិន្ទុសរុបខ្ពស់ជាងគេ) ពីក្នុងក្រាហ្វបណ្តាញនៃលទ្ធភាពដែលអាចកើតមានរាប់ពាន់ម៉ឺនជម្រើស។	ដូចជាការប្រើប្រាស់កម្មវិធី Google Maps ដើម្បីរាវរកផ្លូវដែលលឿនបំផុតទៅកាន់គោលដៅ ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងជាច្រើន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖