Original Title: Confidence Measures for Spoken Dialog Systems
Source: www.ee.iitb.ac.in
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

រង្វាស់ភាពជឿជាក់សម្រាប់ប្រព័ន្ធសន្ទនាដោយសំឡេង

ចំណងជើងដើម៖ Confidence Measures for Spoken Dialog Systems

អ្នកនិពន្ធ៖ Pranav Shriram Jawale

ឆ្នាំបោះពុម្ព៖ 2012 Indian Institute of Technology Bombay

វិស័យសិក្សា៖ Communication & Signal Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកំណត់ភាពត្រឹមត្រូវនៃលទ្ធផលនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងនិយាយដើម្បីកាត់បន្ថយការចាប់យកពាក្យខុស (False Alarms) សម្រាប់ប្រព័ន្ធផ្តល់ព័ត៌មានកសិកម្ម AgroAccess ជាភាសា Marathi។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតប្រព័ន្ធស្វែងរកពាក្យគន្លឹះសូរស័ព្ទ (Acoustic Keyword Spotting) និងអនុវត្តរង្វាស់ភាពជឿជាក់ (Confidence Measures) ផ្សេងៗជាដំណាក់កាលដំណើរការបន្តបន្ទាប់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline Acoustic KWS (KW-Filler network)
ប្រព័ន្ធគោលសម្រាប់ស្វែងរកពាក្យគន្លឹះផ្អែកលើបណ្តាញ KW-Filler
ងាយស្រួលក្នុងការរៀបចំ និងមានសមត្ថភាពខ្ពស់ក្នុងការមិនរំលងទីតាំងពាក្យគោលដៅ (High hit rate/recall)។ មានអត្រាចាប់យកពាក្យខុស (False alarms) ច្រើន ប្រសិនបើមិនមានវគ្គចម្រាញ់ (Refinement stage) បន្ថែមទេ។ ទទួលបានរង្វាស់ប្រសិទ្ធភាពសរុប (Figure of Merit - FOM) ត្រឹមតែ 51.27% ប៉ុណ្ណោះ។
KWS with Re-recognition KW-Filler network
ការស្វែងរកពាក្យគន្លឹះដោយប្រើបណ្តាញ KW-Filler សម្គាល់ឡើងវិញ (Re-recognition)
ជួយកាត់បន្ថយការចាប់យកពាក្យខុសបានយ៉ាងមានប្រសិទ្ធភាព និងនៅតែរក្សាបាននូវអត្រាចាប់យកត្រូវក្នុងកម្រិតខ្ពស់។ ទាមទារដំណើរការគណនាស្ទួនបន្ថែម និងត្រូវចំណាយពេលកំណត់ប៉ារ៉ាម៉ែត្រ (Parameter tuning) ច្រើន។ រង្វាស់ប្រសិទ្ធភាពសរុប (FOM) កើនឡើងដល់ 58.6% (កើនឡើង 7% ធៀបនឹងប្រព័ន្ធគោល)។
Acoustic Score Normalisation (Phone confusion matrix based)
ការធ្វើនីត្យានុកូលភាពពិន្ទុសូរស័ព្ទផ្អែកលើម៉ាទ្រីសច្រឡំសូរសព្ទ
ជួយកាត់បន្ថយបញ្ហាលម្អៀងពិន្ទុ ដែលបណ្តាលមកពីប្រវែងពាក្យខ្លីវែងខុសគ្នា និងការភាន់ច្រឡំរវាងស្រៈឬព្យញ្ជនៈស្រដៀងគ្នា។ ភាពត្រឹមត្រូវពឹងផ្អែកខ្លាំងទៅលើសមត្ថភាពនៃការសម្គាល់សូរសព្ទ (Phone recognition performance) បើប្រព័ន្ធនោះខ្សោយ លទ្ធផលដែលបាននឹងមិនល្អទេ។ ផ្តល់លទ្ធផលកែលម្អមធ្យម ប៉ុន្តែនៅតែមានប្រសិទ្ធភាពទាបជាងការប្រើប្រាស់រង្វាស់ផ្អែកលើបញ្ជី N-best។
N-best list based Confidence Measures
រង្វាស់ភាពជឿជាក់ផ្អែកលើបញ្ជីពាក្យប្រូបាប៊ីលីតេខ្ពស់បំផុត (N-best list)
មានប្រសិទ្ធភាពខ្ពស់ ងាយស្រួលក្នុងការគណនា និងមិនសូវពឹងផ្អែកទៅលើភាពត្រឹមត្រូវកម្រិតសូរសព្ទនោះទេ។ ត្រូវការប្រព័ន្ធកំណត់រចនាសម្ព័ន្ធដែលអាចបង្កើតបញ្ជី N-best បាន (មិនអាចប្រើជាមួយ Finite State Grammar ក្នុងកូដដើមរបស់ Sphinx3 បានទេ)។ ផ្តល់លទ្ធផលល្អបំផុតក្នុងការបែងចែករវាងពាក្យត្រូវនិងពាក្យខុស ពិសេសនៅពេលពឹងផ្អែកលើពិន្ទុ Language Model។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រកម្រិតមធ្យម តែពឹងផ្អែកជាចម្បងលើទិន្នន័យសំឡេងដែលបានកត់ត្រាយ៉ាងត្រឹមត្រូវ និងទាមទារពេលវេលាច្រើនក្នុងការកំណត់កែតម្រូវប៉ារ៉ាម៉ែត្រ (Tuning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យអ្នកនិយាយពីតំបន់ផ្សេងៗគ្នានៅរដ្ឋ Maharashtra (ប្រទេសឥណ្ឌា) ដោយថតក្នុងស្ថានភាពជាក់ស្តែងតាមរយៈទូរស័ព្ទ ដែលមានសំឡេងរំខាន និងគ្រាមភាសាចម្រុះ។ សម្រាប់កម្ពុជា កត្តានេះមានសារៈសំខាន់ណាស់ ព្រោះការបង្កើតប្រព័ន្ធសម្រាប់កសិករខ្មែរនឹងត្រូវប្រឈមមុខនឹងសំឡេងរំខានជុំវិញ (ត្រាក់ទ័រ ខ្យល់បក់) និងគ្រាមភាសាខុសៗគ្នាតាមតំបន់ដូចជា អ្នកបាត់ដំបង អ្នកកំពង់ធំ ឬអ្នកស្វាយរៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តអនុវត្តរង្វាស់ភាពជឿជាក់ និងការស្វែងរកពាក្យគន្លឹះនៅក្នុងការស្រាវជ្រាវនេះ មានសក្តានុពលខ្ពស់ខ្លាំងណាស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធឆ្លើយតបដោយសំឡេង (IVR) នៅក្នុងប្រទេសកម្ពុជា។

ជារួម ការអនុវត្តយន្តការត្រួតពិនិត្យសុពលភាពនៃចម្លើយ (Response Validity Check) គឺជាជំហានដ៏ចាំបាច់បំផុតសម្រាប់អ្នកអភិវឌ្ឍន៍កម្មវិធីកម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធសន្ទនាដោយសំឡេងរឹងមាំ ដែលមិនស្តាប់ច្រឡំនិងឆ្លើយខុសសាច់រឿង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃបច្ចេកវិទ្យាសម្គាល់សំឡេង: ស្វែងយល់អំពីទ្រឹស្តីដំណើរការសំឡេងដូចជា Hidden Markov Models (HMM), Gaussian Mixture Models (GMM) និងការទាញយកលក្ខណៈពិសេសនៃសំឡេង MFCCs
  2. អនុវត្តផ្ទាល់ជាមួយឧបករណ៍កូដបើកចំហ: ដំឡើងនិងរៀនប្រើប្រាស់ឧបករណ៍ CMUSphinx ឬឧបករណ៍ជំនាន់ក្រោយដូចជា KaldiVosk ដែលជាប្រព័ន្ធដ៏មានអានុភាពសម្រាប់ការបង្វឹកម៉ូដែលសូរស័ព្ទភាសាខ្មែរ។
  3. ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងតាមវិស័យ: ចាប់ផ្តើមថតសំឡេងពាក្យគន្លឹះកសិកម្ម ឬឈ្មោះខេត្ត ដោយមានអ្នកនិយាយច្រើននាក់ដើម្បីគ្របដណ្តប់លើគ្រាមភាសាផ្សេងៗ រួចកាត់តនិងកត់ត្រា (Transcribe) ជាប្រព័ន្ធ។
  4. កសាងប្រព័ន្ធគំរូនិងសាកល្បងរង្វាស់ភាពជឿជាក់: បង្កើតប្រព័ន្ធស្វែងរកពាក្យគន្លឹះ Baseline KWS រួចសាកល្បងសរសេរកូដអនុវត្តរង្វាស់ផ្អែកលើ N-best list evidence ដើម្បីច្រោះពាក្យដែលប្រព័ន្ធទាយត្រូវចេញពីការចាប់សញ្ញាខុស (False Alarms)។
  5. សមាហរណកម្មទៅក្នុងប្រព័ន្ធទូរស័ព្ទឆ្លើយតបអន្តរកម្ម: ភ្ជាប់ប្រព័ន្ធសម្គាល់សំឡេងដែលបានបង្ហាត់នេះ ទៅកាន់កម្មវិធីតេឡេហ្វូនីអូផេនសូស (Open-source telephony) ដូចជា Asterisk ដើម្បីបង្កើតជាប្រព័ន្ធ Call Center ដែលអាចជជែកជាមួយអ្នកប្រើប្រាស់បាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Keyword Spotting (KWS) ការស្វែងរកពាក្យគន្លឹះក្នុងប្រព័ន្ធសម្គាល់សំឡេង ជាបច្ចេកទេសដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមចាប់យកតែពាក្យសំខាន់ៗដែលបានកំណត់ទុកជាមុន ពីក្នុងលំហូរសំឡេងនិយាយជាបន្តបន្ទាប់ ដោយមិនខ្វល់ឬកត់ត្រាពាក្យផ្សេងទៀតដែលមិនពាក់ព័ន្ធឡើយ។ ដូចជាពេលយើងស្តាប់ចម្រៀងមួយបទដើម្បីចាំស្តាប់តែពាក្យមួយម៉ាត់ដែលយើងចង់ឮ ដោយមិនខ្វល់ពីអត្ថន័យនៃបទចម្រៀងទាំងមូល។
Confidence Measure (CM) រង្វាស់កម្រិតនៃភាពជឿជាក់ គឺជាតម្លៃលេខដែលប្រព័ន្ធកុំព្យូទ័រប្រើដើម្បីវាយតម្លៃប្រូបាប៊ីលីតេ ឬការជឿជាក់សរុបទៅលើលទ្ធផលរបស់វា ថាតើវាមានភាពប្រាកដប្រជាកម្រិតណាថាសំឡេងដែលវាឮពិតជាពាក្យដែលវាទាយទុកមែន។ ដូចជាការបញ្ជាក់ភាគរយនៃការជឿជាក់លើចម្លើយរបស់សិស្សម្នាក់ពេលគ្រូសួរ (ឧទាហរណ៍៖ ខ្ញុំជឿជាក់ ៩០% ថាចម្លើយនេះត្រូវ)។
Out-Of-Vocabulary (OOV) ពាក្យក្រៅវាក្យសព្ទ គឺជាពាក្យដែលអ្នកប្រើប្រាស់និយាយចេញមក ប៉ុន្តែពាក្យនោះមិនមានរក្សាទុកនៅក្នុងវចនានុក្រមទិន្នន័យរបស់ប្រព័ន្ធសម្គាល់សំឡេងនោះទេ ដែលវាជារឿយៗធ្វើឱ្យប្រព័ន្ធស្តាប់ច្រឡំទៅជាពាក្យផ្សេង។ ដូចជាពេលជនបរទេសម្នាក់និយាយពាក្យប្លែកមួយមកកាន់យើង ដែលពាក្យនោះមិនធ្លាប់មានក្នុងវចនានុក្រមខួរក្បាលរបស់យើងសោះ ធ្វើឱ្យយើងស្តាប់មិនយល់ឬគិតទៅជាពាក្យផ្សេង។
N-best list បញ្ជីនៃជម្រើសចម្លើយល្អបំផុតចំនួន N (ឧទាហរណ៍ ៥ ឬ ១០ជម្រើស) ដែលប្រព័ន្ធសម្គាល់សំឡេងសន្និដ្ឋានថាអាចជាលំដាប់ពាក្យដែលអ្នកប្រើប្រាស់បាននិយាយ ដោយតម្រៀបតាមលំដាប់ពិន្ទុប្រូបាប៊ីលីតេខ្ពស់ជាងគេ។ ដូចជាការទាយឈ្មោះមនុស្សម្នាក់ដែលដើរមកពីចម្ងាយ ដោយយើងសរសេរឈ្មោះ៣នាក់ដែលយើងគិតថាស្រដៀងជាងគេតម្រៀបគ្នាតាមលំដាប់ភាពច្បាស់លាស់។
False Alarms ការចាប់សញ្ញាខុស ឬការរាយការណ៍ខុសនៅក្នុងប្រព័ន្ធ KWS គឺកើតឡើងនៅពេលដែលប្រព័ន្ធរាយការណ៍ថាវាបានរកឃើញពាក្យគន្លឹះ ទាំងដែលការពិតអ្នកប្រើប្រាស់មិនបាននិយាយពាក្យនោះសោះ។ ដូចជាសំឡេងស៊ីរ៉ែនរោទ៍ប្រាប់ថាមានចោរចូលផ្ទះ ទាំងដែលការពិតគ្រាន់តែជាសត្វឆ្មាលោតកាត់សេនស័រ។
Figure of Merit (FOM) រង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃប្រសិទ្ធភាពសរុបរបស់ប្រព័ន្ធស្វែងរកពាក្យគន្លឹះ ដោយធ្វើការគណនាមធ្យមភាគនៃអត្រាចាប់បានពិតប្រាកដ (Hit rate) ធៀបនឹងអត្រាចាប់សញ្ញាខុស (False alarms) ក្នុងកម្រិតអនុលោមផ្សេងៗគ្នា។ ដូចជាការបូកសរុបពិន្ទុប្រចាំឆ្នាំរបស់សិស្សដែលឆ្លុះបញ្ចាំងពីសមត្ថភាពសរុប ដើម្បីប្រៀបធៀបថាតើសិស្សណាពូកែជាងគេជារួម។
Acoustic Score Normalisation ដំណើរការកែតម្រូវពិន្ទុសូរស័ព្ទ ដោយធ្វើប្រៀបធៀប ឬថ្លឹងថ្លែងពិន្ទុនៃពាក្យដែលចាប់បានជាមួយពិន្ទុគោល ដើម្បីកាត់បន្ថយភាពលម្អៀងដែលបណ្តាលមកពីកត្តាប្រវែងពាក្យខ្លីវែង ឬសំឡេងរំខានផ្សេងៗ។ ដូចជាការបូកពិន្ទុបន្ថែមឬដកពិន្ទុចេញដើម្បីឱ្យមានតុល្យភាពយុត្តិធម៌ក្នុងការប្រកួតរវាងអ្នកដែលមានប្រៀបនិងអ្នកចាញ់ប្រៀបពីធម្មជាតិ។
Viterbi search ក្បួនដោះស្រាយតាមគណិតវិទ្យាដែលប្រព័ន្ធម៉ូដែលម៉ាកូវ (HMM) ប្រើដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃពាក្យដែលទំនងបំផុត (មានពិន្ទុសរុបខ្ពស់ជាងគេ) ពីក្នុងក្រាហ្វបណ្តាញនៃលទ្ធភាពដែលអាចកើតមានរាប់ពាន់ម៉ឺនជម្រើស។ ដូចជាការប្រើប្រាស់កម្មវិធី Google Maps ដើម្បីរាវរកផ្លូវដែលលឿនបំផុតទៅកាន់គោលដៅ ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងជាច្រើន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖