Original Title: CONFIDENCE MEASURES FOR HYBRID HMM/ANN SPEECH RECOGNITION
Source: era.ed.ac.uk
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

រង្វាស់ទំនុកចិត្តសម្រាប់ការសម្គាល់សំឡេងកូនកាត់ HMM/ANN

ចំណងជើងដើម៖ CONFIDENCE MEASURES FOR HYBRID HMM/ANN SPEECH RECOGNITION

អ្នកនិពន្ធ៖ Gethin Williams, Dept. of Computer Science, University of Sheffield, Steve Renals, Dept. of Computer Science, University of Sheffield

ឆ្នាំបោះពុម្ព៖ 1997

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការស្វែងរករង្វាស់ទំនុកចិត្ត (confidence measures) ដែលអាចជឿទុកចិត្តបានសម្រាប់ការផ្ទៀងផ្ទាត់សម្មតិកម្មនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេង (speech recognition) ដោយមិនពឹងផ្អែកលើម៉ូដែលបន្ថែម (filler/garbage models)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានណែនាំរង្វាស់ទំនុកចិត្តសូរស័ព្ទចំនួន ៤ ដោយផ្អែកលើការប៉ាន់ស្មានប្រូបាប៊ីលីតេបន្តបន្ទាប់មូលដ្ឋាន (local posterior probability estimates) ដែលគណនាដោយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) រួចប្រៀបធៀបលទ្ធផលកម្រិតពាក្យ និងសូរសព្ទ។

រង្វាស់ប្រូបាប៊ីលីតេបន្តបន្ទាប់ដែលធ្វើឱ្យមានលក្ខណៈស្តង់ដារ (Normalised Posterior Probability Measure)
រង្វាស់អង់ត្រូបពី និង រង្វាស់ប្រូបាប៊ីលីតេតាមមាត្រដ្ឋាន (Entropy and Scaled Likelihood Measures)
ការធ្វើតេស្តសម្មតិកម្មកម្រិតពាក្យ និងកម្រិតសូរសព្ទ (Word and Phone-level Hypothesis Testing)
ការប្រៀបធៀបជាមួយរង្វាស់ដង់ស៊ីតេបណ្តាញ (Lattice Density Measure - CM_lat)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅកម្រិតពាក្យ (word level) រង្វាស់ដង់ស៊ីតេបណ្តាញ (CM_lat) ផ្តល់នូវដំណើរការល្អបំផុតដោយមានប្រូបាប៊ីលីតេកំហុសសរុប (Type I + Type II) ស្មើនឹង ០.២៧។
នៅកម្រិតសូរសព្ទ (phone level) រង្វាស់ប្រូបាប៊ីលីតេបន្តបន្ទាប់ដែលធ្វើឱ្យមានលក្ខណៈស្តង់ដារ (CM_npost) ដំណើរការបានល្អបំផុតជាមួយនឹងប្រូបាប៊ីលីតេកំហុស ០.២២ ពេលប្រើប្រាស់ bigram សូរសព្ទតែមួយមុខ។
ប្រព័ន្ធកូនកាត់ HMM/ANN មានគុណសម្បត្តិដោយសារវាមិនតម្រូវឱ្យមានម៉ូដែលបន្ថែមដើម្បីធ្វើឱ្យទិន្នផលសូរស័ព្ទមានលក្ខណៈស្តង់ដារ ព្រោះវាត្រូវបានបណ្តុះបណ្តាលដោយលក្ខណៈវិនិច្ឆ័យរើសអើងតាមធម្មជាតិ (MAP) ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Lattice Density (CM_lat) រង្វាស់ដង់ស៊ីតេបណ្តាញ (Lattice Density)	ផ្តល់លទ្ធផលល្អបំផុតសម្រាប់ការផ្ទៀងផ្ទាត់សម្មតិកម្មនៅកម្រិតពាក្យ (Word level) ដោយសារវាប្រើប្រាស់ព័ត៌មានទាំងពីម៉ូដែលភាសានិងម៉ូដែលសូរស័ព្ទបញ្ចូលគ្នា។	វាមិនមែនជារង្វាស់ទំនុកចិត្តដែលពឹងផ្អែកលើសូរស័ព្ទសុទ្ធសាធនោះទេ ហើយការទាញយកទិន្នន័យចេញពីបណ្តាញពាក្យ (Word lattice) មានភាពស្មុគស្មាញ។	ទទួលបានប្រូបាប៊ីលីតេកំហុស (Type I + Type II) ទាបបំផុតត្រឹម ០.២៧ នៅកម្រិតពាក្យ ដែលជាលទ្ធផលល្អជាងគេបំផុតសម្រាប់ការធ្វើតេស្តកម្រិតពាក្យ។
Normalised Posterior (CM_npost) រង្វាស់ប្រូបាប៊ីលីតេបន្តបន្ទាប់ស្តង់ដារ	ដោះស្រាយបញ្ហាការប៉ាន់ស្មានទាបនៃប្រូបាប៊ីលីតេសូរស័ព្ទដោយការចែករំលែកជាមួយរយៈពេល (Duration) នៃសូរសព្ទ។ វាផ្តល់លទ្ធផលល្អបំផុតនៅកម្រិតសូរសព្ទ (Phone level)។	ប្រសិទ្ធភាពរបស់វានៅកម្រិតពាក្យ អាចត្រូវបានកាត់បន្ថយយ៉ាងខ្លាំង ប្រសិនបើវចនានុក្រមបញ្ចេញសំឡេង (Pronunciation lexicon) មិនមានគុណភាពល្អ។	ទទួលបានប្រូបាប៊ីលីតេកំហុស ០.២៦ ពេលប្រើលក្ខខណ្ឌកម្រិតពាក្យ និង ០.២២ ពេលប្រើតែលក្ខខណ្ឌកម្រិតសូរសព្ទ ដែលល្អបំផុតប្រចាំកម្រិតសូរសព្ទ។
Posterior (CM_post) រង្វាស់ប្រូបាប៊ីលីតេបន្តបន្ទាប់	ងាយស្រួលគណនាដោយផ្អែកលើលទ្ធផលប៉ាន់ស្មានដោយផ្ទាល់ពីបណ្តាញសរសៃប្រសាទ (ANN) និងជួយសន្សំសំចៃការបូកសរុប។	ការគណនាសន្មតថាទិន្នន័យដើម (Training data priors) គឺត្រឹមត្រូវទាំងស្រុង ដែលអាចបណ្តាលឱ្យមានគម្លាតខុសឆ្គង។	ដំណើរការបានល្អបង្គួរ ប៉ុន្តែនៅតែមានកម្រិតកំហុសខ្ពស់ជាងបន្តិចបើប្រៀបធៀបជាមួយ CM_npost។
Entropy (CM_ent) រង្វាស់អង់ត្រូបពី (Entropy)	វាស់វែងភាពមិនប្រាកដប្រជារបស់ម៉ូដែល (ANN) ផ្ទាល់នៅរៀងរាល់វិនាទី (Frame) ដោយមិនចាំបាច់ផ្អែកលើលំដាប់លំដោយ Viterbi (Optimal state sequence) ឡើយ។	មានអត្រាកំហុសខ្ពស់ជាងគេក្នុងការធ្វើតេស្តសម្មតិកម្ម ដោយសារតែវាមិនបានឆ្លុះបញ្ចាំងពីទិដ្ឋភាពរួមនៃពាក្យ ឬសូរសព្ទមួយពេញលេញ។	មានដំណើរការខ្សោយជាងគេទាំងកម្រិតពាក្យ និងកម្រិតសូរសព្ទ បើធៀបនឹងរង្វាស់ ៤ ផ្សេងទៀត។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់តួលេខលម្អិតអំពីទំហំកុំព្យូទ័រនោះទេ ប៉ុន្តែប្រព័ន្ធ Hybrid HMM/ANN ទាមទារថាមពលគណនា និងទិន្នន័យជាក់លាក់សម្រាប់ការហ្វឹកហាត់។

Dataset: ទាមទារទិន្នន័យសំឡេងទំហំធំ ដូចជា North American Business News (១៩៩៤) និងវចនានុក្រមបញ្ចេញសំឡេងដែលមានចំនួន ២០,០០០ ពាក្យ (20K word pronunciation lexicon)។
Software: ត្រូវការប្រព័ន្ធពិសេសដូចជា ABBOT hybrid HMM/ANN system និងក្បួនដោះស្រាយ Viterbi Algorithm សម្រាប់ធ្វើការ Decoding។
Hardware: ផ្អែកលើទំហំបណ្តាញសរសៃប្រសាទ វាទាមទារម៉ាស៊ីនដែលមានសមត្ថភាពដំណើរការខ្ពស់ (សន្មតថាត្រូវការ High-end CPU ឬ GPU) ដើម្បីបណ្តុះបណ្តាល ANN និងដំណើរការគណនាប្រូបាប៊ីលីតេបន្តបន្ទាប់រាល់ frame។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យព័ត៌មានពាណិជ្ជកម្មអាមេរិកខាងជើង ដែលជាភាសាអង់គ្លេសទម្រង់ផ្លូវការ និងមិនសូវមានសំឡេងរំខាន។ សម្រាប់ប្រទេសកម្ពុជា ការយកទិន្នន័យបែបនេះមកធ្វើជាគំរូអាចនឹងបរាជ័យ ព្រោះភាសាខ្មែរមានសូរសព្ទស្មុគស្មាញ មានពាក្យកម្ចីច្រើន និងបរិបទនិយាយប្រចាំថ្ងៃមិនមានទម្រង់ស្តង់ដារច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាឯកសារនេះជារបកគំហើញតាំងពីឆ្នាំ ១៩៩៧ ប៉ុន្តែគំនិតនៃការបង្កើតរង្វាស់ទំនុកចិត្តដោយមិនបាច់ប្រើ Garbage models គឺនៅតែមានសារៈសំខាន់សម្រាប់ការសន្សំសំចៃធនធានក្នុងការអភិវឌ្ឍ AI នៅកម្ពុជា។

សេវាកម្មអតិថិជន និង Call Centers (ភ្នំពេញ): ប្រព័ន្ធនេះអាចជួយច្រោះពាក្យដែលអតិថិជននិយាយដោយមិនច្បាស់ ឬពាក្យបច្ចេកទេសថ្មីៗ (Out-of-vocabulary) ដោយវាស់ស្ទង់ទំនុកចិត្ត។ បើទំនុកចិត្តទាប ប្រព័ន្ធអាចបង្វែរខ្សែទៅកាន់ភ្នាក់ងារមនុស្សដោយស្វ័យប្រវត្តិ។
វិស័យសុខាភិបាល (ការចម្លងប្រវត្តិអ្នកជំងឺ): កម្មវិធី Speech-to-Text សម្រាប់គ្រូពេទ្យខ្មែរអាចប្រើរង្វាស់នេះដើម្បី 'គូសចំណាំ' (Highlight) លើពាក្យពេទ្យដែលប្រព័ន្ធទាយមិនសូវប្រាកដ ដើម្បីឲ្យគ្រូពេទ្យផ្ទៀងផ្ទាត់ម្តងទៀត ជៀសវាងកំហុសឆ្គងវេជ្ជសាស្ត្រ។

ការអភិវឌ្ឍប្រព័ន្ធ Confidence Measures នេះនឹងជួយបង្កើនទំនុកចិត្តក្នុងការដាក់ឱ្យប្រើប្រាស់កម្មវិធីសម្គាល់សំឡេងភាសាខ្មែរនៅក្នុងវិស័យផ្លូវការ ដែលទាមទារភាពសុក្រឹតខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំមូលដ្ឋានទិន្នន័យសូរសព្ទភាសាខ្មែរ (Phonetic Lexicon): ត្រូវចាប់ផ្តើមបង្កើតវចនានុក្រមបញ្ចេញសំឡេងភាសាខ្មែរដោយមានកិច្ចសហការជាមួយអ្នកជំនាញភាសា។ កំហុសនៃការបញ្ចេញសំឡេង (Pronunciation modeling) ធ្វើឱ្យរង្វាស់ទំនុកចិត្តធ្លាក់ចុះ ដូច្នេះត្រូវប្រើឧបករណ៍ដូចជា Montreal Forced Aligner (MFA) ដើម្បីរៀបចំទិន្នន័យសំឡេង និងអត្ថបទឱ្យស៊ីចង្វាក់គ្នា។
សាកល្បងហ្វឹកហាត់ប្រព័ន្ធកូនកាត់ខ្នាតតូច: ប្រើប្រាស់ Framework បើកទូលាយ (Open-source) ដូចជា Kaldi ASR ឬស្ថាបត្យកម្ម PyTorch ជំនាន់ថ្មី ដើម្បីសាកល្បងហ្វឹកហាត់ Hybrid HMM/ANN ជាមួយទិន្នន័យសំឡេងខ្មែរខ្នាតតូច (ប្រមាណ ៥០ ម៉ោង)។
អនុវត្តការគណនា Normalised Posterior: សរសេរកូដ Python ដើម្បីទាញយកប្រូបាប៊ីលីតេពី Output របស់បណ្តាញ Neural Network រួចធ្វើការគណនាចែកជាមួយនឹងរយៈពេល (Duration) នៃសូរសព្ទនីមួយៗ ដើម្បីបង្កើតជារង្វាស់ CM_npost ដូចដែលបានបង្ហាញក្នុងឯកសារ។
ធ្វើតេស្ត និងវាយតម្លៃលើពាក្យក្រៅវចនានុក្រម (OOV): បង្កើតសំណុំទិន្នន័យតេស្តដែលពោរពេញដោយពាក្យថ្មីៗ ឬសំឡេងរំខាន រួចប្រើប្រាស់ Hypothesis Testing ជាមួយកម្រិត Threshold ផ្សេងៗគ្នា ដើម្បីវាស់ស្ទង់ថាប្រព័ន្ធមានសមត្ថភាពអាចបដិសេធ (Reject) ការទាយខុសបានកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
confidence measure	ជារង្វាស់ស្ថិតិដែលបង្ហាញពីកម្រិតនៃភាពប្រាកដប្រជា ឬកម្រិតដែលម៉ូដែលមួយស៊ីសង្វាក់គ្នាជាមួយទិន្នន័យជាក់ស្តែង។ ក្នុងបរិបទនេះ វាជួយកំណត់ថាពាក្យដែលម៉ាស៊ីនស្តាប់បានពិតជាត្រឹមត្រូវឬអត់ ដើម្បីបដិសេធចោលនូវពាក្យដែលមិនត្រឹមត្រូវ។	ដូចជាសិស្សម្នាក់ប្រាប់គ្រូវាថាគេប្រាកដ ៨០% លើចម្លើយដែលគេបានឆ្លើយ។
Hybrid HMM/ANN	ជាប្រព័ន្ធកូនកាត់ដែលរួមបញ្ចូលគ្នានូវម៉ូដែល Hidden Markov Model (HMM) សម្រាប់តាមដានលំដាប់លំដោយនៃសំឡេង និង Artificial Neural Network (ANN) សម្រាប់គណនាប្រូបាប៊ីលីតេនៃសំឡេងនៅពេលនីមួយៗ ដើម្បីបង្កើតប្រព័ន្ធសម្គាល់សំឡេងមួយដែលកាន់តែច្បាស់លាស់។	ដូចជាការធ្វើការជាក្រុម ដែលម្នាក់ពូកែស្តាប់សំឡេងកាត់ៗ (ANN) និងម្នាក់ទៀតពូកែផ្គុំសំឡេងទាំងនោះឲ្យចេញជាពាក្យ (HMM)។
posterior probability	ជាប្រូបាប៊ីលីតេ (ឱកាសកើតឡើង) ដែលត្រូវបានគណនាក្រោយពេលទទួលបានទិន្នន័យសូរស័ព្ទ (acoustic data) រួចរាល់។ វាបង្ហាញថាថាតើសម្មតិកម្ម ឬការព្យាករណ៍មួយត្រឹមត្រូវកម្រិតណា ដោយផ្អែកលើសំឡេងពិតប្រាកដដែលប្រព័ន្ធទទួលបាន។	ដូចជាការសន្និដ្ឋានថាអាកាសធាតុពិតជានឹងភ្លៀង ដោយផ្អែកលើការមើលឃើញពពកខ្មៅនៅលើមេឃជាក់ស្តែង។
hypothesis test	ជាវិធីសាស្ត្រស្ថិតិមួយដើម្បីធ្វើការសម្រេចចិត្តថា តើត្រូវទទួលយក ឬបដិសេធសម្មតិកម្មណាមួយ។ ក្នុងការស្រាវជ្រាវនេះ វាគឺជាការតេស្តដើម្បីបញ្ជាក់ថាពាក្យដែលម៉ាស៊ីនទាយ (សម្មតិកម្ម) ពិតជាត្រឹមត្រូវឬទេ ដោយប្រៀបធៀបតម្លៃនៃរង្វាស់ទំនុកចិត្តទៅនឹងកម្រិតស្តង់ដារណាមួយ។	ដូចជាចៅក្រមស្តាប់សាក្សីនិងភស្តុតាង ដើម្បីសម្រេចថាជនជាប់ចោទមានទោស ឬគ្មានទោស។
out-of-vocabulary (OOV)	សំដៅលើពាក្យដែលមិនមាននៅក្នុងវចនានុក្រម ឬប្រព័ន្ធទិន្នន័យបណ្តុះបណ្តាលរបស់ម៉ាស៊ីនសម្គាល់សំឡេង ដែលនេះជាមូលហេតុចម្បងធ្វើឱ្យម៉ាស៊ីនស្តាប់ខុស ឬទាយពាក្យដោយមានកម្រិតទំនុកចិត្តទាប។	ដូចជាការដែលយើងស្តាប់ជនបរទេសនិយាយពាក្យមួយ ដែលយើងមិនធ្លាប់រៀនពីមុនមកសោះ ទើបធ្វើឲ្យយើងស្តាប់មិនយល់។
Viterbi algorithm	ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃ state ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត (ត្រឹមត្រូវបំផុត) នៅក្នុងប្រព័ន្ធ HMM ដើម្បីកំណត់ថាជាពាក្យអ្វី។	ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីរកផ្លូវដែលលឿននិងត្រឹមត្រូវបំផុតទៅកាន់គោលដៅ។
Lattice density	ជាចំនួននៃសម្មតិកម្ម ឬជម្រើសពាក្យដែលកំពុងប្រកួតប្រជែងគ្នានៅក្នុងប្រព័ន្ធ នៅពេលវេលាជាក់លាក់ណាមួយ (frame)។ ដង់ស៊ីតេកាន់តែខ្ពស់ មានន័យថាម៉ាស៊ីនមានជម្រើសច្រើនដែលធ្វើឱ្យការសម្រេចចិត្តកាន់តែមានភាពស្មុគស្មាញ និងបន្ថយទំនុកចិត្តរបស់ម៉ាស៊ីន។	ដូចជាការឈរនៅផ្លូវបំបែកដែលមានផ្លូវតូចៗជាច្រើន ធ្វើឲ្យយើងស្ទាក់ស្ទើរពិបាកសម្រេចចិត្តថាត្រូវទៅផ្លូវណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖