Original Title: Improved Hindi Broadcast ASR by Adapting the Language Model and Pronunciation Model Using A Priori Syntactic and Morphophonemic Knowledge
Source: doi.org/10.21437/Interspeech.2015-637
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធសម្គាល់សំឡេងនិយាយព័ត៌មានផ្សាយជាភាសាហិណ្ឌី (Hindi Broadcast ASR) តាមរយៈការបន្សាំម៉ូដែលភាសានិងម៉ូដែលការបញ្ចេញសំឡេង ដោយប្រើប្រាស់ចំណេះដឹងផ្នែកវាក្យសម្ព័ន្ធ និងរូបវិទ្យាសូរសព្ទជាមុន

ចំណងជើងដើម៖ Improved Hindi Broadcast ASR by Adapting the Language Model and Pronunciation Model Using A Priori Syntactic and Morphophonemic Knowledge

អ្នកនិពន្ធ៖ Preethi Jyothi (Beckman Institute, University of Illinois at Urbana-Champaign), Mark Hasegawa-Johnson (Department of ECE, University of Illinois at Urbana-Champaign)

ឆ្នាំបោះពុម្ព៖ 2015 (INTERSPEECH)

វិស័យសិក្សា៖ Computer Science / Automatic Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធសម្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR) ដែលមានវាក្យសព្ទធំទូលាយសម្រាប់ភាសាហិណ្ឌី ជាពិសេសសម្រាប់ការផ្សាយព័ត៌មាន ដែលបច្ចុប្បន្ននៅមានកម្រិតនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យសំឡេងផ្សាយព័ត៌មាន រួចប្រើប្រាស់វិធីសាស្ត្របន្សាំម៉ូដែលសូរសព្ទ និងម៉ូដែលភាសាដោយស្វ័យប្រវត្តិដើម្បីបណ្តុះបណ្តាលប្រព័ន្ធ។

ការប្រៀបធៀបម៉ូដែលអក្សរ និងសូរសព្ទ (Graphemic and Phonemic Models)
ការបែងចែកពាក្យដោយស្វ័យប្រវត្តិ (Unsupervised Word Segmentation)
ការកំណត់ភាពស្របគ្នានៃវិភត្តិ (Inflectional Agreement)
ការបូកបញ្ចូលគ្នានូវបណ្ដាញសរសៃប្រសាទជ្រៅ និង SGMM (DNN and SGMM Lattice Interpolation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលផ្អែកលើតួអក្សរ (Graphemic models) ដែលមានសញ្ញាសម្គាល់ព្រំដែនពាក្យ ដំណើរការបានល្អស្ទើរតែស្មើនឹងម៉ូដែលផ្អែកលើសូរសព្ទ (Phonemic models)។
ការបន្សាំម៉ូដែលភាសាដោយផ្អែកលើចំណេះដឹងផ្នែកវាក្យសម្ព័ន្ធ និងរូបវិទ្យាសូរសព្ទ ជួយធ្វើឱ្យប្រសើរឡើងនូវអត្រាកំហុសពាក្យ (WER) ក្នុងកម្រិតតិចតួចប៉ុន្តែមានភាពថេរ។
ប្រព័ន្ធល្អបំផុតដែលប្រើការបូកបញ្ចូលគ្នា (Lattice interpolation) នៃម៉ូដែល DNN និង SGMM ទទួលបានអត្រាកំហុសពាក្យ (WER) ១១.១២% លើសំណុំទិន្នន័យសាកល្បង (Dev set) និង ១១.៥០% លើសំណុំទិន្នន័យវាយតម្លៃ (Eval set)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline Graphemic Model (G0) ម៉ូដែលតួអក្សរមូលដ្ឋានដោយគ្មានព្រំដែនពាក្យ	ងាយស្រួលក្នុងការបង្កើត ដោយគ្រាន់តែប្រើប្រព័ន្ធបំប្លែងតួអក្សរទៅជាសូរសព្ទដោយផ្ទាល់ (Deterministic mapping)។	មិនបានពិចារណាលើការប្រែប្រួលនៃការបញ្ចេញសំឡេង ដែលអាស្រ័យលើទីតាំងអក្សរនៅក្នុងពាក្យ។	អត្រាកំហុសពាក្យ (WER) ១៤.៣៦% លើសំណុំទិន្នន័យ Dev និង ១៤.២២% លើសំណុំ Eval។
Graphemic Model with Word Boundary (G1) ម៉ូដែលតួអក្សរមានកំណត់សញ្ញាព្រំដែនពាក្យ	អាចរៀនពីច្បាប់នៃការបញ្ចេញសំឡេងដោយប្រយោល តាមរយៈការកំណត់ទីតាំងអក្សរ (ដើម កណ្តាល ចុងពាក្យ)។	ទាមទារទិន្នន័យគ្រប់គ្រាន់ដើម្បីឲ្យម៉ូដែលអាចទាញយកបរិបទនៃការបញ្ចេញសំឡេងបានត្រឹមត្រូវ។	អត្រាកំហុសពាក្យ (WER) ធ្លាក់ចុះមកត្រឹម ១២.៩១% (Dev) និង ១៣.៣៦% (Eval)។
Phonemic Model with rules (P1) ម៉ូដែលសូរសព្ទប្រើច្បាប់បំបាត់ស្រៈ និងសញ្ញាច្រមុះ	ដោះស្រាយបញ្ហាសូរសព្ទជាក់លាក់ក្នុងភាសាហិណ្ឌីបានល្អ ដូចជាការបំបាត់ស្រៈ (Schwa deletion) និងសំឡេងច្រមុះ។	ត្រូវការបង្កើតក្បួនច្បាប់ភាសាវិទ្យា (Rule-based algorithms) ដែលអាចមានភាពស្មុគស្មាញ និងចំណាយពេល។	អត្រាកំហុសពាក្យ (WER) ១២.៥៦% (Dev) និង ១៣.៤៤% (Eval)។
Lattice Interpolation (DNN + SGMM) with LM Adaptations ការបូកបញ្ចូលគ្នា (DNN + SGMM) ជាមួយការបន្សាំម៉ូដែលភាសា	ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលចំណេះដឹងផ្នែកវាក្យសម្ព័ន្ធ រូបសព្ទ និងបច្ចេកវិទ្យាបណ្ដាញសរសៃប្រសាទជ្រៅ (DNN)។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ស៊ីធនធានច្រើន និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធពីររួមបញ្ចូលគ្នា។	អត្រាកំហុសពាក្យ (WER) ល្អបំផុតត្រឹម ១១.១២% (Dev) និង ១១.៥០% (Eval)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ និងការរៀបចំទិន្នន័យសំឡេងដោយផ្ទាល់ដៃមួយចំនួន។

Software: ប្រើប្រាស់ Kaldi ASR toolkit សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល និង Praat សម្រាប់ការកាត់តម្រឹមសំឡេងនិងអត្ថបទ។
Hardware: ទាមទារកុំព្យូទ័រដែលមាន GPU កម្លាំងខ្លាំង សម្រាប់បណ្តុះបណ្តាលម៉ូដែល Deep Neural Network (DNN)។
Dataset: ទិន្នន័យសំឡេងផ្សាយព័ត៌មានចំនួន ៥.៥ ម៉ោង និងសំណុំអត្ថបទធំៗ (EMILLE text corpus) សម្រាប់បណ្តុះបណ្តាលម៉ូដែលភាសា។
Expertise: ទាមទារចំណេះដឹងផ្នែកដំណើរការភាសាធម្មជាតិ (NLP) ភាសាវិទ្យាកុំព្យូទ័រ និងការសរសេរកូដផ្នែកសូរសព្ទ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងផ្សាយព័ត៌មានពីវិទ្យុ All India Radio (Bhopal) ដែលមានទម្រង់សំឡេងស្តង់ដារ បរិយាកាសថតច្បាស់ល្អ និងមិនមានសំឡេងរំខាន។ វាមិនបានគ្របដណ្តប់លើគ្រាមភាសា ឬការសន្ទនាបែបក្រៅផ្លូវការក្នុងជីវភាពប្រចាំថ្ងៃនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកតែលើទិន្នន័យព័ត៌មានផ្លូវការ អាចធ្វើឲ្យប្រព័ន្ធពិបាកសម្គាល់សំឡេងមនុស្សទូទៅដែលនិយាយលឿន ឬមានគ្រាមភាសាតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការបន្សាំម៉ូដែលភាសា និងការប្រើប្រាស់ម៉ូដែលអក្សរមានព្រំដែនពាក្យ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ ASR ភាសាខ្មែរ។

ប្រព័ន្ធផ្សព្វផ្សាយព័ត៌មាន (Broadcasting & Media): អាចប្រើដើម្បីបង្កើតប្រព័ន្ធចំណងជើងរងស្វ័យប្រវត្តិ (Automatic Subtitling) សម្រាប់ទូរទស្សន៍ជាតិកម្ពុជា (TVK) ឬបណ្តាញព័ត៌មានដូចជា Fresh News ដោយប្រើទិន្នន័យអ្នកអានព័ត៌មានផ្លូវការ។
ដំណើរការភាសាធម្មជាតិខ្មែរ (Khmer NLP & Morphology): ដោយសារភាសាខ្មែរជាភាសាដែលមិនមានការដកឃ្លារវាងពាក្យ ការប្រើប្រាស់ក្បួន Unsupervised Word Segmentation ដូចក្នុងឯកសារនេះ នឹងជួយបង្កើនភាពត្រឹមត្រូវនៃម៉ូដែលភាសាខ្មែរ (N-gram Language Model) យ៉ាងមានប្រសិទ្ធភាព។
ការថែរក្សាឯកសារសំឡេងប្រវត្តិសាស្ត្រ (Historical Audio Archiving): អាចយកទៅអនុវត្តនៅបណ្ណាល័យជាតិ ឬមជ្ឈមណ្ឌលធនធានសោតទស្សន៍បុប្ផាណា ដើម្បីបំប្លែងឯកសារសំឡេងប្រវត្តិសាស្ត្រចាស់ៗ ទៅជាអត្ថបទ (Text) សម្រាប់ងាយស្រួលស្រាវជ្រាវ។

ជារួម ការប្រើប្រាស់ម៉ូដែលអក្សររួមជាមួយព័ត៌មានព្រំដែនពាក្យ និងការកែសម្រួលម៉ូដែលភាសា គឺជាវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពដែលអាចយកមកអនុវត្តផ្ទាល់ក្នុងការកសាង ASR សម្រាប់ភាសាខ្មែរដែលស្ថិតក្នុងស្ថានភាពខ្វះខាតទិន្នន័យ (Low-resource language)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងរៀបចំទិន្នន័យសំឡេង (Data Collection & Alignment): ទាញយកសំឡេងព័ត៌មាន និងអត្ថបទពីប្រភពផ្លូវការ រួចប្រើប្រាស់កម្មវិធី Praat (តាមរយៈមុខងារ To TextGrid) ដើម្បីកាត់ និងតម្រឹមសំឡេងជាមួយអត្ថបទដោយពាក់កណ្តាលស្វ័យប្រវត្តិ។
រៀបចំបរិស្ថានឧបករណ៍សូរសព្ទ (Kaldi Setup): ដំឡើងឧបករណ៍ Kaldi ASR toolkit ក្នុងប្រព័ន្ធប្រតិបត្តិការ Linux រួចសិក្សាពីរបៀបរៀបចំរចនាសម្ព័ន្ធទិន្នន័យ និងបង្កើតគំរូមូលដ្ឋាន (GMM-HMM) ដោយប្រើយន្តការ f-MLLR។
កសាងម៉ូដែលភាសាដោយបែងចែកពាក្យ (Word Segmentation LM): សរសេរកូដអនុវត្តក្បួនដោះស្រាយ Unsupervised Word Segmentation (ដូច Algorithm 1 ក្នុងឯកសារ) ទៅលើសំណុំអត្ថបទភាសាខ្មែរ ដើម្បីបំបែកពាក្យ និងបង្កើតម៉ូដែលភាសា N-gram។
បណ្តុះបណ្តាលម៉ូដែលសូរសព្ទកម្រិតខ្ពស់ (DNN Training): ប្តូរពីការប្រើ SGMM ធម្មតា ទៅប្រើប្រាស់ Deep Neural Networks (DNN) ជាមួយនឹងការហ្វឹកហាត់ជាមុន (RBM pre-training) នៅក្នុង Kaldi ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងការសម្គាល់សំឡេង។
ការរួមបញ្ចូលគ្នានៃលទ្ធផល (Lattice Interpolation & Rescoring): អនុវត្ត Lattice interpolation ដើម្បីបូកបញ្ចូលលទ្ធផលរវាងម៉ូដែល SGMM និង DNN រួចយកទៅគណនាពិន្ទុឡើងវិញ (Rescoring) ជាមួយនឹងម៉ូដែលភាសាដែលបានបន្សាំផ្នែករូបសព្ទ (LWS & LIA FSTs) ដើម្បីទាញយកលទ្ធផលកំហុសទាបបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Word Error Rate (WER)	អត្រាកំហុសពាក្យ (WER) គឺជារង្វាស់ស្តង់ដារដែលប្រើដើម្បីវាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សំឡេង (ASR) ដោយរាប់បញ្ចូលចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមលើស បើធៀបនឹងអត្ថបទដើមពិតប្រាកដ។	ដូចជាការបូកសរុបពិន្ទុខុសរបស់សិស្សក្នុងការសរសេរតាមអាន បើខុសច្រើន ពិន្ទុ WER នឹងកាន់តែខ្ពស់ (មានន័យថាប្រព័ន្ធមិនសូវពូកែ)។
Graphemic Model	ម៉ូដែលផ្អែកលើតួអក្សរ គឺជាវិធីសាស្ត្របង្រៀនកុំព្យូទ័រឱ្យស្គាល់សំឡេងដោយផ្ទាល់ពីអក្ខរាវិរុទ្ធ (តួអក្សរ) នៃពាក្យ ដោយមិនចាំបាច់ប្រើវចនានុក្រមបំប្លែងទៅជាសូរសព្ទអន្តរជាតិ (Phonemes) មុននោះទេ។	ដូចជាក្មេងរៀនអានពាក្យដោយគ្រាន់តែមើលអក្សរផ្ទាល់ដោយមិនបាច់រៀនពីក្បួនផ្សំសូរសព្ទលម្អិត។
Phonemic Model	ម៉ូដែលផ្អែកលើសូរសព្ទ គឺជាប្រព័ន្ធដែលប្រើប្រាស់ក្បួនច្បាប់បញ្ចេញសំឡេង (ដូចជាការកាត់សូរសព្ទស្រៈចោល) ដើម្បីប្រាប់ម៉ាស៊ីនពីរបៀបដែលមនុស្សពិតប្រាកដបញ្ចេញសំឡេងពាក្យនីមួយៗ ជំនួសឱ្យការអានតាមតួអក្សរត្រង់ៗ។	ដូចជាការប្រើសៀវភៅវចនានុក្រមដែលមានសរសេរពាក្យអាន (ឧទាហរណ៍៖ ភ្នំពេញ អានថា ភ្នុំ-ពេញ) ដើម្បីដឹងពីសំឡេងពិតប្រាកដរបស់ពាក្យ។
Unsupervised Word Segmentation	ការបែងចែកពាក្យដោយគ្មានការត្រួតពិនិត្យ គឺជាក្បួនដោះស្រាយ (Algorithm) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រស្វែងរកដោយខ្លួនឯងនូវរបៀបកាត់ពាក្យធំៗទៅជាឫសពាក្យ (Stem) និងបច្ច័យ (Suffix) ដោយផ្អែកលើភាពញឹកញាប់នៃអក្សរដែលមានក្នុងសំណុំទិន្នន័យ។	ដូចជាការឱ្យក្មេងលេងផ្គុំរូប ហើយឱ្យពួកគេសង្កេតមើលដោយខ្លួនឯងថាបំណែកណាដែលតែងតែនៅជាប់គ្នាជានិច្ច។
Finite State Transducer (FST)	ប្រព័ន្ធបំប្លែង FST គឺជារចនាសម្ព័ន្ធទិន្នន័យគណិតវិទ្យាដែលប្រើក្នុងប្រព័ន្ធ ASR សម្រាប់ផ្ទុកនូវបណ្តុំពាក្យ និងច្បាប់វេយ្យាករណ៍ ដើម្បីបំប្លែងពីទម្រង់សំឡេងទៅជាទម្រង់អត្ថបទដោយរលូន និងមានល្បឿនលឿន។	ដូចជាផែនទីផ្លូវរថភ្លើងដែលប្រាប់កុំព្យូទ័រថា តើពាក្យមួយណាអាចធ្វើដំណើរតទល់នឹងពាក្យមួយណាបានខ្លះ។
Lattice interpolation	ការបូកបញ្ចូលក្រឡាពាក្យ (Lattice Interpolation) គឺជាបច្ចេកទេសមួយដែលយកលទ្ធផលនៃការទស្សន៍ទាយពីម៉ូដែលសម្គាល់សំឡេងពីរផ្សេងគ្នា (ដូចជាម៉ូដែល DNN និង SGMM) មកថ្លឹងថ្លែងបញ្ចូលគ្នា ដើម្បីគណនារកលទ្ធផលចុងក្រោយដែលត្រឹមត្រូវបំផុត។	ដូចជាការសួរមតិពីអ្នកជំនាញពីរនាក់ផ្សេងគ្នា ហើយយកចម្លើយទាំងពីរមកប្រៀបធៀបគ្នារកការពិតដែលជឿទុកចិត្តបានបំផុត។
Morphophonemic Knowledge	ចំណេះដឹងផ្នែករូបវិទ្យាសូរសព្ទ គឺជាការយល់ដឹងអំពីច្បាប់ទម្លាប់ថាតើសំឡេងនៃពាក្យមួយមានការផ្លាស់ប្តូរយ៉ាងដូចម្តេច នៅពេលដែលវាត្រូវបានបំប្លែងទម្រង់វេយ្យាករណ៍ (ដូចជាការបន្ថែមបច្ច័យខាងចុងជាដើម)។	ដូចជាការដឹងថា ពាក្យដើម និងពាក្យដែលបានបំប្លែង អាចអានខុសគ្នា ទោះបីជាមានអក្សរស្រដៀងគ្នាក៏ដោយ។
Subspace Gaussian Mixture Model (SGMM)	ម៉ូដែល SGMM គឺជាបច្ចេកទេសបង្កើតម៉ូដែលសូរសព្ទបែបស្ថិតិ ដែលប្រើប្រាស់រូបមន្តគណិតវិទ្យាដើម្បីចាប់យកទម្រង់នៃការប្រែប្រួលសម្លេងនៅក្នុងភាសា។ វាជាម៉ូដែលជំនាន់មុន ដែលត្រូវការធនធានកុំព្យូទ័រតិចជាងម៉ូដែល AI ជំនាន់ថ្មី។	ដូចជាការគូសគំនូសព្រាងនៃទម្រង់សំឡេងនីមួយៗ ដោយប្រើប្រាស់គណិតវិទ្យាដើម្បីសន្និដ្ឋានថាតើសំឡេងនេះជាពាក្យអ្វី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖