Original Title: Training Methods for Deep Neural Network-Based Acoustic Models in Speech Recognition
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របណ្តុះបណ្តាលសម្រាប់ម៉ូដែលសូរស័ព្ទផ្អែកលើបណ្តាញសរសៃប្រសាទជ្រៅក្នុងការសម្គាល់សំឡេងនិយាយ

ចំណងជើងដើម៖ Training Methods for Deep Neural Network-Based Acoustic Models in Speech Recognition

អ្នកនិពន្ធ៖ Tamás Grósz (University of Szeged)

ឆ្នាំបោះពុម្ព៖ 2018 (University of Szeged)

វិស័យសិក្សា៖ Computer Science, Automatic Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បណ្តាញសរសៃប្រសាទជ្រៅ (DNN) ផ្តល់លទ្ធផលល្អប្រសើរក្នុងការសម្គាល់សំឡេង ប៉ុន្តែការបណ្តុះបណ្តាលរបស់វាជាប្រពៃណីនៅតែពឹងផ្អែកលើម៉ូដែល Gaussian Mixture (GMM) ចាស់ៗសម្រាប់ការតម្រឹមពេលវេលាដំបូង និងការចងរដ្ឋ។ ការសិក្សានេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធបណ្តុះបណ្តាល DNN ដែលមិនពឹងផ្អែកលើ GMM (GMM-free) និងការដោះស្រាយបញ្ហាអតុល្យភាពនៃទិន្នន័យថ្នាក់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបវិធីសាស្ត្របណ្តុះបណ្តាល DNN ផ្សេងៗគ្នា និងបានស្នើកែសម្រួលក្បួនដោះស្រាយដើម្បីលុបបំបាត់ការពឹងផ្អែកលើ GMM ។

ការប្រៀបធៀបបណ្តាញសរសៃប្រសាទកែតម្រូវជ្រៅ (Deep Rectifier Networks) ជាមួយវិធីសាស្ត្រមុនៗ
ការបណ្តុះបណ្តាលជាបន្តបន្ទាប់សម្រាប់ការចាប់ផ្តើមទទេ (Sequence Training for Flat Start) ដោយប្រើ MMI ដែលបានកែប្រែ
ការចងរដ្ឋពឹងផ្អែកលើបរិបទ (Context-Dependent State Tying) ដោយប្រើ KL-divergence ជាលក្ខណៈវិនិច្ឆ័យ
ការយកគំរូតាមប្រូបាប៊ីលីតេ (Probabilistic Sampling) ដើម្បីដោះស្រាយអតុល្យភាពទិន្នន័យ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

បណ្តាញសរសៃប្រសាទកែតម្រូវជ្រៅ (DRN) ផ្តល់លទ្ធផលលឿន និងត្រឹមត្រូវជាងវិធីសាស្ត្របណ្តុះបណ្តាល DNN ដទៃទៀត។
វិធីសាស្ត្រ Flat Start ដោយផ្អែកលើ MMI រួមបញ្ចូលជាមួយការចងរដ្ឋ KL-divergence អាចបង្កើតប្រព័ន្ធ GMM-free ទាំងស្រុង ដែលសម្រេចបានអត្រាកំហុសពាក្យ (WER) ១៥,៧៩% ល្អជាងប្រព័ន្ធចាស់។
ការអនុវត្តការយកគំរូតាមប្រូបាប៊ីលីតេជាមួយនឹងការកែតម្រូវ Prior អាចកាត់បន្ថយអត្រាកំហុសពាក្យធៀបពី ៥% ទៅ ៦% លើកម្រងទិន្នន័យ TED-LIUM និង AMI។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GMM-HMM Baseline ម៉ូដែលមូលដ្ឋាន GMM-HMM	ជាវិធីសាស្ត្រស្តង់ដារចាស់ មានស្ថេរភាព និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការបង្កើតទិន្នន័យតម្រឹម (Alignments)។	ត្រូវការការតម្រឹមពេលវេលា (time-alignment) មុនពេលបណ្តុះបណ្តាល DNN និងផ្តល់លទ្ធផលអន់ជាងវិធីសាស្ត្រ Deep Learning។	អត្រាកំហុសពាក្យ (WER) ២០,០៧% លើទិន្នន័យពត៌មានភាសាហុងគ្រី។
Deep Rectifier Networks (DRN) បណ្តាញសរសៃប្រសាទកែតម្រូវជ្រៅ (DRN)	ដំណើរការបណ្តុះបណ្តាលលឿនជាងមុន និងមិនត្រូវការដំណើរការ Pre-training ស្មុគស្មាញឡើយ។	ទាមទារការកំណត់ទម្ងន់ត្រឹមត្រូវ និង Regularization ដូចជា L2 Normalization ដើម្បីទប់ស្កាត់កំហុស gradient។	កាត់បន្ថយអត្រាកំហុសពាក្យមកត្រឹម ១៦,៥៩% (ប្រសើរជាង GMM ១៧%)។
MMI Flat-Start + KL-Divergence State Tying ការចាប់ផ្តើមទទេរដោយប្រើ MMI រួមជាមួយការចងរដ្ឋ KL-Divergence (GMM-free)	លុបបំបាត់ការពឹងផ្អែកទាំងស្រុងលើម៉ូដែល GMM ចាស់ៗ និងអាចចាប់ផ្តើមបណ្តុះបណ្តាលទោះបីជាគ្មានទិន្នន័យតម្រឹមពេលវេលា (Time-aligned labels)។	ទាមទារការតាមដានយ៉ាងប្រុងប្រយ័ត្នដើម្បីចៀសវាងបញ្ហា 'Runaway silence model' កំឡុងពេលហ្វឹកហាត់។	សម្រេចបានអត្រាកំហុសពាក្យ (WER) ល្អបំផុតត្រឹម ១៥,៧៩% សម្រាប់ការបណ្តុះបណ្តាលដែលមិនប្រើប្រាស់ GMM សោះ។
Probabilistic Sampling with Adjusted Priors ការយកគំរូតាមប្រូបាប៊ីលីតេជាមួយនឹងការកែតម្រូវ Prior	ដោះស្រាយបញ្ហាអតុល្យភាពនៃទិន្នន័យថ្នាក់ (Class imbalance) បានយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យសំឡេងកម្រ។	ទាមទារការព្យាករណ៍ និងកែតម្រូវតម្លៃ Prior ជាថ្មី បើមិនដូច្នេះទេអាចធ្វើឱ្យការគណនាលទ្ធផលធ្លាក់ចុះ។	កាត់បន្ថយកំហុសធៀបពី ៥% ទៅ ៦% បន្ថែមទៀតលើកម្រងទិន្នន័យធំៗដូចជា TED-LIUM និង AMI។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រខ្លាំងជាពិសេសផ្នែក Hardware និងទិន្នន័យសំឡេងរាប់សិបទៅរាប់រយម៉ោងដើម្បីបណ្តុះបណ្តាលម៉ូដែលសរសៃប្រសាទជ្រៅ។

Hardware: តម្រូវឱ្យប្រើប្រាស់ Graphics Processing Unit (GPU) ឧទាហរណ៍ធៀបនឹងជំនាន់ចាស់គឺ NVIDIA GTX-560 Ti ឬទំនើបជាងនេះ ដើម្បីពន្លឿនការបណ្តុះបណ្តាល DNN។
Software: ប្រើប្រាស់កម្មវិធី Kaldi Speech Recognition Toolkit, HTK Toolkit និងប្រព័ន្ធ Deep Learning Framework ផ្ទាល់ខ្លួន។
Dataset: ត្រូវការទិន្នន័យសំឡេងចាប់ពីខ្នាតមធ្យមទៅធំ (TIMIT, ទិន្នន័យភាសាហុងគ្រី 28h, TED-LIUM 118h, និង AMI 100h) ដើម្បីឱ្យម៉ូដែលទទួលបានលទ្ធផលល្អ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងដោយផ្អែកលើកម្រងទិន្នន័យភាសាអង់គ្លេស និងភាសាហុងគ្រី។ អ្វីដែលគួរឱ្យចាប់អារម្មណ៍ ភាសាហុងគ្រីមានលក្ខណៈតភ្ជាប់ពាក្យ (Agglutinative) ច្រើន ដែលធ្វើឱ្យការវាស់វែង Word Error Rate (WER) ប្រឈមនឹងបញ្ហា Compounding errors ស្រដៀងទៅនឹងភាសាខ្មែរដែរ ដែលជារឿយៗគ្មានការដកឃ្លារវាងពាក្យច្បាស់លាស់។ នេះជាចំណុចសំខាន់ដែលអ្នកស្រាវជ្រាវកម្ពុជាត្រូវយកចិត្តទុកដាក់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ GMM-free នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ជាពិសេសក្នុងបរិបទដែលខ្វះខាតទិន្នន័យតម្រឹមស្រាប់ (Low-resource)។

សាកលវិទ្យាល័យ និងវិទ្យាស្ថានស្រាវជ្រាវកម្ពុជា (ឧទាហរណ៍៖ ITC ឬ NIPTICT): និស្សិត និងអ្នកស្រាវជ្រាវអាចប្រើប្រាស់វិធី Flat Start Training ដោយផ្អែកលើ MMI ដើម្បីបង្កើតប្រព័ន្ធ Khmer ASR ពីចំណុចសូន្យ ដោយមិនបាច់ចំណាយពេលរាប់ពាន់ម៉ោងក្នុងការកាត់តម្រឹមសំឡេងជាមួយអត្ថបទតាមបែបសៀវភៅឡើយ។
ការអភិវឌ្ឍកម្មវិធី និងធុរកិច្ចថ្មី (Tech Startups ផ្នែក AI): ក្រុមហ៊ុនក្នុងស្រុកអាចប្រើយុទ្ធសាស្ត្រ Probabilistic Sampling ដើម្បីដោះស្រាយបញ្ហាសំឡេងព្យញ្ជនៈ ឬស្រៈខ្មែរមួយចំនួនដែលមានចំនួនតិចតួចតួចនៅក្នុងទិន្នន័យ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃកម្មវិធីបំប្លែងសំឡេងជាអក្សររបស់ខ្លួន។
ការកែច្នៃរង្វាស់រង្វាល់សម្រាប់ភាសាខ្មែរ (Khmer NLP Evaluation): បញ្ហាដែលរកឃើញក្នុងភាសាហុងគ្រី អាចយកមកធ្វើជាគំរូដើម្បីកែច្នៃការគណនា Word Error Rate (WER) ឬប្តូរមកប្រើប្រាស់ Character Error Rate (CER) ដែលស័ក្តិសមជាងសម្រាប់អត្ថបទភាសាខ្មែរដែលគ្មានការដកឃ្លា។

សរុបមក ការអនុវត្តបច្ចេកទេសបណ្តុះបណ្តាលដោយមិនពឹងផ្អែកលើ GMM និងការដោះស្រាយអតុល្យភាពទិន្នន័យ គឺជាគន្លឹះដ៏សំខាន់ឆ្ពោះទៅរកការបង្កើត Khmer ASR មួយដែលមានភាពត្រឹមត្រូវខ្ពស់ និងចំណាយធនធានតិច។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ និងរៀបចំឧបករណ៍បញ្ចូន: និស្សិតគប្បីចាប់ផ្តើមជាមួយនឹងការស្វែងយល់ស៊ីជម្រៅពី Deep Neural Networks (DNN) និងដំណើរការរបស់កម្មវិធី Kaldi Speech Recognition Toolkit ឬការប្រើប្រាស់ PyTorch សម្រាប់ការអភិវឌ្ឍន៍ម៉ូដែល Acoustic។
ប្រមូលនិងរៀបចំទិន្នន័យភាសាខ្មែរជាឯកសារអត្ថបទ: ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (ឧទាហរណ៍ពីការផ្សាយព័ត៌មាន ឬសៀវភៅសំឡេង) ដោយគ្រាន់តែប្រើប្រាស់អត្ថបទសរសេរទាំងស្រុង (Orthographic transcripts) ដោយមិនចាំបាច់មានការតម្រឹមពេលវេលា (Time-alignments) ជាមុននោះទេ។
អនុវត្តការបណ្តុះបណ្តាលដោយក្បួន MMI Flat-Start: ប្រើប្រាស់ក្បួនដោះស្រាយ Sequence Discriminative Training (MMI) ដើម្បីបណ្តុះបណ្តាលម៉ូដែល Deep Rectifier Networks (DRN) ដោយផ្ទាល់ ជំនួសការសាងសង់ GMM/HMM ស្តង់ដារដែលហួសសម័យ។
អនុវត្តប្រព័ន្ធ Probabilistic Sampling សំរាប់ភាសាខ្មែរ: សរសេរកូដដើម្បីធ្វើការថ្លឹងថ្លែងចំនួនទិន្នន័យរវាងថ្នាក់សំឡេង (Phonemes) ដោយប្រើ Probabilistic Sampling ដើម្បីធានាថាសំឡេងដែលកម្រជួបប្រទះក្នុងភាសាខ្មែរត្រូវបានកត់ត្រាចូលក្នុងម៉ូដែល ហើយត្រូវធ្វើការកែតម្រូវ Prior Probabilities ឱ្យបានត្រឹមត្រូវ។
វាយតម្លៃ និងកែសម្រួលមេទ្រីក (Evaluation Metrics): ធ្វើការវាយតម្លៃលទ្ធផលម៉ូដែលដោយវិភាគកំហុស Word Error Rate (WER) ហើយកែសម្រួលប្រព័ន្ធរាប់កំហុសនេះ ដោយសារភាសាខ្មែរមិនមានការដកឃ្លា ដូចនេះគួរពិចារណាសរសេរស្គ្រីបគណនា Character Error Rate (CER) បន្ថែម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deep Rectifier Networks (DRN)	គឺជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់លាក់ច្រើន (Deep) ហើយប្រើប្រាស់អនុគមន៍សកម្ម Rectifier (ReLU) ដែលអនុញ្ញាតឱ្យការបណ្តុះបណ្តាលមានភាពរហ័ស និងជៀសវាងបញ្ហាបាត់បង់ទិន្នន័យ (Vanishing gradient) ជាងបណ្តាញជំនាន់ចាស់ដែលប្រើអនុគមន៍ Sigmoid ។	ដូចជារោងចក្រច្រោះពត៌មានតូចៗតភ្ជាប់គ្នាជាច្រើនជាន់ ដែលបញ្ជូនតែសញ្ញាវិជ្ជមាន និងទប់ស្កាត់សញ្ញាអវិជ្ជមានដើម្បីធ្វើឱ្យការរៀនកាន់តែលឿននិងត្រឹមត្រូវ។
Connectionist Temporal Classification (CTC)	ជាក្បួនដោះស្រាយសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលសម្គាល់សំឡេងដោយមិនចាំបាច់មានការកាត់តម្រឹមពេលវេលាជាក់លាក់ (Time-alignment) នៃពាក្យ ឬអក្សរឡើយ ដោយវាទស្សន៍ទាយលទ្ធផលតាមរយៈការវិភាគប្រូបាប៊ីលីតេនៃលំដាប់លំដោយទិន្នន័យសរុប។	ដូចជាគ្រូបង្រៀនម្នាក់ដែលដាក់ពិន្ទុសិស្សលើចម្លើយចុងក្រោយ ដោយមិនចាំបាច់តាមដានមើលគ្រប់ជំហាននៃការគិតរបស់សិស្សនោះទេ។
Maximum Mutual Information (MMI)	ជាលក្ខណៈវិនិច្ឆ័យវាយតម្លៃ និងបណ្តុះបណ្តាលម៉ូដែល ដើម្បីបង្កើនប្រូបាប៊ីលីតេនៃចម្លើយដែលត្រឹមត្រូវ ខណៈពេលជាមួយគ្នានោះវាកាត់បន្ថយប្រូបាប៊ីលីតេនៃចម្លើយដែលខុស ដែលជួយឱ្យម៉ូដែលបែងចែកសំឡេងប្រហាក់ប្រហែលគ្នាបានកាន់តែច្បាស់។	ដូចជាការរៀនមិនត្រឹមតែចងចាំចម្លើយដែលត្រូវប៉ុណ្ណោះទេ ថែមទាំងរៀនចំណាំចំណុចដែលខុសដើម្បីចៀសវាងកុំឱ្យច្រឡំនៅពេលក្រោយ។
Flat Start Training	គឺជាដំណើរការចាប់ផ្តើមហ្វឹកហាត់ម៉ូដែលសម្គាល់សំឡេងដោយមិនប្រើប្រាស់ទិន្នន័យដែលមានការកាត់តម្រឹមពេល (Time-aligned labels) ពីប្រព័ន្ធចាស់ៗមុន គឺវាចាប់ផ្តើមពីទទេដោយការបែងចែកកូដសំឡេងស្មើៗគ្នា ហើយធ្វើការកែតម្រូវខ្លួនឯងម្តងបន្តិចៗ។	ដូចជាការចាប់ផ្តើមលេងហ្គេមផ្គុំរូបដោយការស្មានទុកជាមុនពីទម្រង់រូប មុននឹងចាប់ផ្តើមរៀបចំឱ្យត្រូវរាងបន្តិចម្តងៗនៅពេលយើងចាប់ផ្តើមមើលឃើញរូបភាពច្បាស់។
Context-Dependent (CD) State Tying	គឺជាបច្ចេកទេសដែលចង ឬដាក់បញ្ចូលក្រុមសំឡេងតូចៗដែលមានបរិបទស្រដៀងគ្នាចូលគ្នា (ឧទាហរណ៍ សំឡេងដែលមានព្យញ្ជនៈមុខ និងក្រោយដូចគ្នា) ដើម្បីកាត់បន្ថយចំនួនទិន្នន័យដែលម៉ូដែលត្រូវរៀន និងជួយដោះស្រាយបញ្ហាខ្វះទិន្នន័យ (Data sparsity) សម្រាប់សំឡេងកម្រ។	ដូចជាការរៀបចំសៀវភៅដែលមានប្រធានបទស្រដៀងគ្នាទៅក្នុងទូតែមួយ ដើម្បីងាយស្រួលរក និងសន្សំសំចៃកន្លែងទំនេរ។
Probabilistic Sampling	ជាវិធីសាស្ត្រជ្រើសរើសទិន្នន័យហ្វឹកហាត់ដោយកំណត់ប្រូបាប៊ីលីតេ ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Class Imbalance) ដែលវាជួយបង្កើនឱកាសក្នុងការទាញយកទិន្នន័យកម្រមកហ្វឹកហាត់ កុំឱ្យម៉ូដែលរៀនតែពីទិន្នន័យសាមញ្ញៗដែលសំបូរពេក។	ដូចជាការចាប់ឆ្នោតដោយដាក់ឈ្មោះមនុស្សដែលកម្រមកចូលរួមច្រើនសន្លឹកជាងមនុស្សដែលឧស្សាហ៍មក ដើម្បីឱ្យឱកាសនៃការចាប់បានឈ្មោះរបស់ពួកគេស្មើគ្នា។
Kullback-Leibler Divergence	ជារង្វាស់គណិតវិទ្យាមួយសម្រាប់គណនាពីភាពខុសគ្នារវាងរបាយប្រូបាប៊ីលីតេពីរ។ ក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីធ្វើការសម្រេចចិត្តក្នុងការចង ឬញែកក្រុមសំឡេងទៅតាមកម្រិតនៃភាពខុសគ្នារបស់វា។	ដូចជាការប្រើប្រាស់បន្ទាត់ដើម្បីវាស់កម្រិតភាពខុសគ្នានៃគំនូរពីរផ្ទាំង ដើម្បីដឹងថាគំនូរទាំងពីរនោះមានចំណុចខុសគ្នាខ្លាំងប៉ុណ្ណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖