Original Title: Adaptive Training for Large Vocabulary Continuous Speech Recognition
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបណ្តុះបណ្តាលសម្របតាមសម្រាប់ការសម្គាល់សំឡេងនិយាយបន្តបន្ទាប់ដែលមានវាក្យសព្ទធំ

ចំណងជើងដើម៖ Adaptive Training for Large Vocabulary Continuous Speech Recognition

អ្នកនិពន្ធ៖ Kai Yu (Hughes Hall College and Cambridge University Engineering Department)

ឆ្នាំបោះពុម្ព៖ 2006 University of Cambridge

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ នៅក្នុងការសម្គាល់សំឡេងនិយាយបន្តបន្ទាប់ដែលមានវាក្យសព្ទធំ (LVCSR) ម៉ូដែលដែលបណ្តុះបណ្តាលលើទិន្នន័យចម្រុះតែងតែជួបប្រទះនឹងបញ្ហាប្រែប្រួលដែលមិនមែនជាសំឡេង ដូចជាភាពខុសគ្នានៃអ្នកនិយាយ និងសំឡេងរំខានបរិស្ថាន។ ការបណ្តុះបណ្តាល Maximum Likelihood (ML) ស្តង់ដារ មិនអាចបែងចែកពាក្យបានល្អបំផុត ឬដោះស្រាយទិន្នន័យបន្សាំដែលមានកម្រិតបានរឹងមាំឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវការពង្រីកសំខាន់ៗពីរ៖ ការបណ្តុះបណ្តាលសម្របតាមចង្កោមរើសអើង (Discriminative Cluster Adaptive Training) ដោយប្រើលក្ខណៈវិនិច្ឆ័យ MPE និងក្របខ័ណ្ឌបាយេស (Bayesian framework) ដែលស៊ីសង្វាក់គ្នាសម្រាប់ការសន្និដ្ឋានបន្សាំដ៏រឹងមាំ។

ការបណ្តុះបណ្តាលរើសអើងដោយប្រើកំហុសសូរសព្ទអប្បបរមា (Minimum Phone Error - MPE)
ការបណ្តុះបណ្តាលសម្របតាមចង្កោម និងការបំប្លែងមានរចនាសម្ព័ន្ធ (Cluster Adaptive Training and Structured Transforms)
ការប៉ាន់ស្មាន Variational Bayes សម្រាប់ការសន្និដ្ឋាន (Variational Bayes Approximation for Inference)
ការដាក់ពិន្ទុឡើងវិញលើបញ្ជី N-Best (N-Best List Rescoring)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធ MPE-CAT បានដំណើរការយ៉ាងល្អប្រសើរជាងប្រព័ន្ធ MPE ដែលពឹងផ្អែកលើភេទ ខណៈការបំប្លែងមានរចនាសម្ព័ន្ធ (ST) ផ្តល់នូវដំណើរការល្អបំផុត (កាត់បន្ថយកំហុសរហូតដល់ 3.1% ជាដាច់ខាតលើទិន្នន័យសាកល្បង eval03)។
សម្រាប់ការសន្និដ្ឋានបន្សាំដោយគ្មានការត្រួតពិនិត្យជាមួយទិន្នន័យមានកម្រិត វិធីសាស្ត្រ Variational Bayes (VB) ផ្តល់នូវការប៉ាន់ស្មានដ៏រឹងមាំជាងការប៉ាន់ស្មាន ML ស្តង់ដារយ៉ាងខ្លាំង។
ការប្រើប្រាស់ការសន្មត់ម៉ូដែលម៉ាកូវលាក់កំបាំង (HMM) បន្សាំដែលស៊ីសង្វាក់គ្នា ទាំងក្នុងការបណ្តុះបណ្តាល និងការសន្និដ្ឋាន បានធ្វើឲ្យភាពត្រឹមត្រូវនៃការសម្គាល់មានភាពប្រសើរឡើងយ៉ាងច្បាស់លាស់ បើធៀបនឹងការបណ្តុះបណ្តាលពហុរចនាប័ទ្ម (Multi-style) ស្តង់ដារ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard Maximum Likelihood (ML-SI Baseline) ការបណ្តុះបណ្តាលដោយប្រើប្រូបាប៊ីលីតេអតិបរមាស្តង់ដារ (ម៉ូដែលមិនពឹងផ្អែកលើអ្នកនិយាយ)	ងាយស្រួលក្នុងការអនុវត្ត និងចំណាយពេលឬធនធានម៉ាស៊ីនតិចតួចក្នុងការបណ្តុះបណ្តាល។ វាជាមូលដ្ឋានគ្រឹះដ៏ល្អសម្រាប់ប្រៀបធៀប។	មិនបានបែងចែកភាពខុសគ្នានៃសំឡេងអ្នកនិយាយ និងបរិស្ថាន ដែលធ្វើឱ្យមានកំហុសខ្ពស់នៅពេលជួបទិន្នន័យជាក់ស្តែងចម្រុះ។	មានអត្រាកំហុសពាក្យ (WER) ខ្ពស់ជាងគេ គឺ 33.4% លើទិន្នន័យ dev01sub និង 32.6% លើទិន្នន័យ eval03 សម្រាប់ប្រព័ន្ធ 16-component។
Minimum Phone Error Cluster Adaptive Training (MPE-CAT) ការបណ្តុះបណ្តាលសម្របតាមចង្កោមដោយកាត់បន្ថយកំហុសសូរសព្ទអប្បបរមា	ផ្តល់នូវសមត្ថភាពបន្សាំបានយ៉ាងរហ័ស (Rapid adaptation) សម្រាប់ទិន្នន័យមានកម្រិត និងមានភាពរឹងមាំខ្ពស់ដោយសារវាផ្តោតលើការកាត់បន្ថយកំហុសដោយផ្ទាល់។	ត្រូវការអង្គចងចាំ និងការគណនាច្រើនជាងម៉ូដែលស្តង់ដារបន្តិច ហើយអាចប្រឈមនឹងការ overtraining ប្រសិនបើមិនប្រើប្រាស់ prior ឱ្យបានត្រឹមត្រូវ។	កាត់បន្ថយអត្រាកំហុសពាក្យ (WER) បានលើសពី 3% ធៀបនឹងម៉ូដែល ML-CAT ធម្មតា និងដំណើរការល្អជាងប្រព័ន្ធ MPE ដែលពឹងផ្អែកលើភេទ (GD MPE-MAP)។
Structured Transforms (ST: CMLLR + CAT) ការបំប្លែងមានរចនាសម្ព័ន្ធ (រួមបញ្ចូល CMLLR និង CAT)	មានសមត្ថភាពដោះស្រាយបញ្ហាប្រែប្រួលសូរសព្ទច្រើនយ៉ាង (Multiple acoustic factors) ក្នុងពេលតែមួយ ដូចជាការបន្សាំទៅនឹងសំឡេងរំខានបរិស្ថានផង និងអ្នកនិយាយផង។	មានភាពស្មុគស្មាញខ្លាំងក្នុងការកសាងប្រព័ន្ធ និងទាមទារអង្គចងចាំម៉ាស៊ីន (RAM) ធំមែនទែនក្នុងការរក្សាទុកទិន្នន័យស្ថិតិអំឡុងពេលហ្វឹកហាត់។	ផ្តល់នូវលទ្ធផលល្អបំផុតប្រចាំការស្រាវជ្រាវ (WER ទាបបំផុត 26.6% លើ dev01sub និង 25.5% លើ eval03 សម្រាប់ប្រព័ន្ធ 28-component)។
Variational Bayes (VB) Adaptive Inference ការសន្និដ្ឋានបន្សាំដោយប្រើវិធីសាស្ត្រ Variational Bayes	ដោះស្រាយបញ្ហាខ្វះទិន្នន័យបន្សាំបានយ៉ាងមានប្រសិទ្ធភាព ដោយផ្តល់នូវការសន្និដ្ឋានរឹងមាំ (Robust inference) ជាង ML ឬ MAP សម្រាប់ប្រយោគនិយាយខ្លីៗ។	ទាមទារការគណនាស្មុគស្មាញ និងស៊ីពេលយូរ ដោយសារត្រូវប្រើប្រាស់ក្បួន N-Best list rescoring និងដំណើរការធ្វើឡើងវិញ (Iterative VBEM)។	ឈ្នះ ML និង MAP យ៉ាងច្បាស់លាស់ក្នុងការបន្សាំកម្រិតប្រយោគ (Utterance-level) ដោយកាត់បន្ថយការប្រែប្រួលកំហុសទោះបីទិន្នន័យមានតិចតួចក្តី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងអង្គចងចាំម៉ាស៊ីន (RAM) យ៉ាងច្រើនសន្ធឹកសន្ធាប់សម្រាប់ការគណនាម៉ាទ្រីសស្មុគស្មាញ ជាពិសេសចំពោះការបណ្តុះបណ្តាលដែលប្រើប្រាស់ MLLR-based SAT។

Hardware: ម៉ាស៊ីនសឺវើដែលមានអង្គចងចាំធំទូលាយ។ អ្នកនិពន្ធត្រូវបោះបង់ការសាកល្បង MPE-SAT ជាមួយ MLLR មួយចំនួនដោយសារតែការខ្វះ Memory (ត្រូវការ RAM រហូតដល់ 1.6GB គ្រាន់តែសម្រាប់ការគណនា មធ្យមភាគ នៃប្រព័ន្ធតូច 16-component)។
Software: ទាមទារកម្មវិធីជំនាញសម្រាប់ Speech Recognition ដូចជា HTK (Hidden Markov Model Toolkit) សម្រាប់ការហ្វឹកហាត់ម៉ូដែល និង sctk-1.2 សម្រាប់វាយតម្លៃកំហុស។
Dataset: ទិន្នន័យសំឡេងហ្វឹកហាត់ជិត ៣០០ ម៉ោង (Switchboard, Callhome) និងអត្ថបទសម្រាប់ហ្វឹកហាត់ Language Model ទំហំរហូតដល់ ១០៤៤ លានពាក្យ។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅលើផ្នែកគណិតវិទ្យា (Bayesian Inference, Linear Algebra) ស្ថិតិ និងស្ថាបត្យកម្ម Acoustic Modeling។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសន្ទនាតាមទូរស័ព្ទជាភាសាអង់គ្លេសនៅសហរដ្ឋអាមេរិក (Switchboard, Callhome, Fisher)។ ទិន្នន័យទាំងនេះមានគុណភាពសំឡេង និងទម្រង់សូរសព្ទខុសពីបរិបទកម្ពុជាស្រឡះ។ សម្រាប់កម្ពុជា ការខ្វះខាតទិន្នន័យសំឡេងសន្ទនា (Conversational Speech) ជាភាសាខ្មែរខ្នាតធំ គឺជាឧបសគ្គចម្បងក្នុងការចម្លងលទ្ធផលនេះមកប្រើប្រាស់ដោយផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាខ្វះទិន្នន័យខ្នាតធំក៏ដោយ គោលគំនិតនៃការបន្សាំ (Adaptive Training) នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធ AI សម្គាល់សំឡេងភាសាខ្មែរ។

ការសម្គាល់គ្រាមភាសាតាមតំបន់ (Regional Dialect Recognition): វិធីសាស្ត្រ CAT អាចត្រូវបានប្រើដើម្បីបន្សាំម៉ូដែលស្តង់ដារ ទៅកាន់គ្រាមភាសាអ្នកខេត្តបាត់ដំបង សៀមរាប ឬស្វាយរៀង ដោយប្រើទិន្នន័យបន្សាំតែបន្តិចបន្តួចប៉ុណ្ណោះ។
ប្រព័ន្ធស្វ័យប្រវត្តិបម្រើសេវាអតិថិជន (Call Center Automation): ធនាគារ និងក្រុមហ៊ុនទូរគមនាគមន៍ (ដូចជា Cellcard, Smart) អាចប្រើបច្ចេកទេសរំងាប់សំឡេងរំខាន ឬបន្សាំទៅនឹងគុណភាពទូរស័ព្ទ (VTLN, CMN) ដើម្បីប្រតិចារឹក និងឆ្លើយតបការហៅចូលរបស់អតិថិជនដោយស្វ័យប្រវត្តិ។
ការប្រតិចារឹកព័ត៌មាននិងវិទ្យុ (Broadcast News Transcription): បច្ចេកទេស Variational Bayes អាចជួយឱ្យប្រព័ន្ធចាប់យកសំឡេងអ្នកអានព័ត៌មានពីប្រភពទូរទស្សន៍ផ្សេងៗគ្នាបានយ៉ាងរឹងមាំ ទោះជាក្នុងបរិស្ថានដែលមានភ្លេងកំដរ ឬសម្លេងរំខានផ្សេងៗក្តី។

សរុបមក ក្របខ័ណ្ឌបណ្តុះបណ្តាលបន្សាំនិងការប្រើប្រាស់ Variational Bayes គឺជាដំណោះស្រាយដ៏ប្រសើរមួយសម្រាប់កម្ពុជា ក្នុងការយកឈ្នះលើបញ្ហាភាពចម្រុះនៃបរិស្ថាន និងការខ្វះខាតទិន្នន័យហ្វឹកហាត់ទ្រង់ទ្រាយធំ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

យល់ដឹងពីមូលដ្ឋានគ្រឹះនៃ Acoustic Modeling: ចាប់ផ្តើមដោយការសិក្សាឲ្យយល់ច្បាស់អំពី Hidden Markov Models (HMM) និង Gaussian Mixture Models (GMM) ព្រមទាំងគណិតវិទ្យានៃ Variational Inference ដែលជាសសៃឈាមនៃការស្រាវជ្រាវនេះ។
អនុវត្តផ្ទាល់ជាមួយឧបករណ៍រៀបចំម៉ូដែល: សាកល្បងកសាងប្រព័ន្ធ Speech Recognition ខ្នាតតូចជាមូលដ្ឋាន ដោយប្រើប្រាស់ HTK (Hidden Markov Model Toolkit) ឬប្រើ Kaldi Toolkit ដែលពេញនិយមជាងសម្រាប់ការស្រាវជ្រាវបែប GMM-HMM នេះ។
សាកល្បងបច្ចេកទេសបន្សាំទិន្នន័យ: សរសេរកូដដើម្បីអនុវត្តបច្ចេកទេសងាយៗដូចជា Cepstral Mean Normalization (CMN) ឬ VTLN ទៅលើសំណុំទិន្នន័យសំឡេងភាសាខ្មែរខ្នាតតូច មុននឹងឈានដល់ក្បួន MLLR ដែលស្មុគស្មាញ។
សិក្សាពីការបណ្តុះបណ្តាលរើសអើង (Discriminative Training): អនុវត្ត និងប្រៀបធៀបលក្ខណៈវិនិច្ឆ័យម៉ូដែលដោយប្រើ Minimum Phone Error (MPE) និងប្រៀបធៀបវាជាមួយលទ្ធផលនៃវិធីសាស្ត្រ Maximum Likelihood (ML) ស្តង់ដារ។
ធ្វើបដិរូបកម្មចំណេះដឹងទៅកាន់ AI ទំនើប: ទាញយកគោលគំនិតនៃការបន្សាំសំឡេង និងទម្ងន់ចង្កោមពីនិក្ខេបបទនេះ ទៅសាកល្បងអនុវត្តជាមួយស្ថាបត្យកម្មទំនើបៗដូចជា End-to-End Neural Networks (Wav2Vec2, Whisper) តាមរយៈការធ្វើ Fine-tuning សម្រាប់ភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Models (HMM)	ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង ដើម្បីតំណាងឱ្យការប្រែប្រួលនៃលក្ខណៈសំឡេងនិយាយតាមពេលវេលា ដោយសន្មតថាសំឡេងដែលយើងឮត្រូវបានបង្កើតឡើងដោយស៊េរីនៃស្ថានភាពដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់ (Hidden States)។	ដូចជាការទស្សន៍ទាយថាមានអ្នកណាម្នាក់កំពុងធ្វើអ្វីនៅក្នុងបន្ទប់បិទជិត ដោយគ្រាន់តែវិភាគលើសំឡេងបន្តបន្ទាប់ដែលលេចចេញមកក្រៅបន្ទប់នោះ។
Minimum Phone Error (MPE)	ជាលក្ខណៈវិនិច្ឆ័យនៃការបណ្តុះបណ្តាលរើសអើង (Discriminative Training) ដែលកែតម្រូវប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែលក្នុងគោលបំណងកាត់បន្ថយចំនួនកំហុសនៃការទស្សន៍ទាយសូរសព្ទឱ្យនៅតិចបំផុត ជាជាងការព្យាយាមបង្កើនតែប្រូបាប៊ីលីតេនៃចម្លើយដែលត្រឹមត្រូវ។	ដូចជាគ្រូបង្រៀនដែលមិនត្រឹមតែឱ្យពិន្ទុសិស្សលើចម្លើយត្រូវប៉ុណ្ណោះទេ តែថែមទាំងកាត់ពិន្ទុរាល់កំហុសតូចៗ ដើម្បីជំរុញឱ្យសិស្សកាន់តែមានភាពប្រុងប្រយ័ត្ន។
Cluster Adaptive Training (CAT)	ជាបច្ចេកទេសបណ្តុះបណ្តាលម៉ូដែលសំឡេងដោយការបំបែកទិន្នន័យជាក្រុមៗ (Clusters) រួចប្រើប្រាស់ទម្ងន់រួមបញ្ចូលគ្នា (Interpolation weights) ដើម្បីបន្សាំនិងបង្កើតម៉ូដែលថ្មីមួយយ៉ាងរហ័សដែលស័ក្តិសមបំផុតសម្រាប់អ្នកនិយាយឬបរិស្ថានថ្មីណាមួយ។	ដូចជាការលាយថ្នាំពណ៌គោលផ្សេងៗគ្នា (ឧ. ក្រហម ខៀវ លឿង) ក្នុងបរិមាណខុសៗគ្នា ដើម្បីបង្កើតបានជាពណ៌ថ្មីមួយដែលត្រូវគ្នាបេះបិទទៅនឹងពណ៌ដែលយើងចង់បាន។
Variational Bayes (VB)	ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានប្រូបាប៊ីលីតេស្មុគស្មាញ ដោយប្រើប្រាស់បម្រែបម្រួលនៃការចែកចាយទិន្នន័យដើម្បីស្វែងរកព្រំដែនខាងក្រោម (Lower bound) ដែលជួយឱ្យប្រព័ន្ធធ្វើការសន្និដ្ឋានបានរឹងមាំ ទោះបីជាមានទិន្នន័យសម្រាប់បន្សាំតិចតួចក៏ដោយ។	ដូចជាការប៉ាន់ស្មានទម្ងន់របស់វត្ថុមួយយ៉ាងលឿនដោយប្រើប្រាស់ប្រវត្តិធ្លាប់ស្គាល់វត្ថុស្រដៀងគ្នា ជាជាងការព្យាយាមថ្លឹងវាឱ្យជាក់លាក់ដែលត្រូវការពេលវេលានិងទិន្នន័យច្រើន។
Maximum Likelihood Linear Regression (MLLR)	ជាបច្ចេកទេសកែប្រែមធ្យមភាគនៃម៉ូដែលសំឡេងដើម (Canonical model) ដោយប្រើប្រាស់សមីការលីនេអ៊ែរ ដើម្បីបន្សាំប្រព័ន្ធទៅនឹងទម្រង់សំឡេងឬបរិស្ថានរបស់អ្នកប្រើប្រាស់ថ្មី ដោយពឹងផ្អែកលើគោលការណ៍ប្រូបាប៊ីលីតេអតិបរមា (Maximum Likelihood)។	ដូចជាការសារ៉េកញ្ចក់ឆ្លុះ (កែវយឹត) ឱ្យត្រូវនឹងកម្រិតភ្នែករបស់មនុស្សម្នាក់ៗ ដើម្បីឱ្យមើលឃើញរូបភាពបានច្បាស់ល្អជាងការប្រើកម្រិតស្តង់ដាររួម។
N-Best List Rescoring	ជាដំណើរការដែលប្រព័ន្ធសម្គាល់សំឡេងបង្កើតបញ្ជីជម្រើសចម្លើយដែលល្អបំផុតចំនួន N ជាមុនសិន រួចទើបប្រើប្រាស់ម៉ូដែលឬក្បួនស្មុគស្មាញជាងមុនដើម្បីដាក់ពិន្ទុនិងរៀបចំលំដាប់ថ្នាក់ចម្លើយទាំងនោះឡើងវិញ ដើម្បីជ្រើសរើសចម្លើយដែលត្រឹមត្រូវបំផុត។	ដូចជាគណៈកម្មការជ្រើសរើសបេក្ខជនចុងក្រោយចំនួន ១០នាក់សិន រួចទើបយកប្រវត្តិរូបនិងសមត្ថភាពរបស់ពួកគេមកពិនិត្យលម្អិតម្តងទៀតដើម្បីរកអ្នកដែលស័ក្តិសមទទួលបានចំណាត់ថ្នាក់លេខ១។
Cepstral Mean Normalisation (CMN)	ជាបច្ចេកទេសកែសម្រួលទិន្នន័យសំឡេង (Feature normalization) ដែលដកចេញនូវមធ្យមភាគនៃលក្ខណៈសំឡេងរវាងរយៈពេលណាមួយ ដើម្បីកាត់បន្ថយឥទ្ធិពលនៃសំឡេងរំខានក្នុងបរិស្ថាន ឬភាពខុសគ្នានៃមីក្រូហ្វូនដែលប្រើសម្រាប់ថត។	ដូចជាការចុចកំណត់សូន្យ (Tare/Zero) នៅលើជញ្ជីងថ្លឹងទម្ងន់ឡើងវិញ បន្ទាប់ពីដាក់កន្ត្រកទទេរលើនោះ ដើម្បីថ្លឹងយកតែទម្ងន់ផ្លែឈើពិតប្រាកដដែលនៅខាងក្នុងកន្ត្រក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖