Original Title: Improved Hindi Broadcast ASR by Adapting the Language Model and Pronunciation Model Using A Priori Syntactic and Morphophonemic Knowledge
Source: doi.org/10.21437/Interspeech.2015-637
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធសម្គាល់សំឡេងនិយាយព័ត៌មានផ្សាយជាភាសាហិណ្ឌី (Hindi Broadcast ASR) តាមរយៈការបន្សាំម៉ូដែលភាសានិងម៉ូដែលការបញ្ចេញសំឡេង ដោយប្រើប្រាស់ចំណេះដឹងផ្នែកវាក្យសម្ព័ន្ធ និងរូបវិទ្យាសូរសព្ទជាមុន

ចំណងជើងដើម៖ Improved Hindi Broadcast ASR by Adapting the Language Model and Pronunciation Model Using A Priori Syntactic and Morphophonemic Knowledge

អ្នកនិពន្ធ៖ Preethi Jyothi (Beckman Institute, University of Illinois at Urbana-Champaign), Mark Hasegawa-Johnson (Department of ECE, University of Illinois at Urbana-Champaign)

ឆ្នាំបោះពុម្ព៖ 2015 (INTERSPEECH)

វិស័យសិក្សា៖ Computer Science / Automatic Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធសម្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR) ដែលមានវាក្យសព្ទធំទូលាយសម្រាប់ភាសាហិណ្ឌី ជាពិសេសសម្រាប់ការផ្សាយព័ត៌មាន ដែលបច្ចុប្បន្ននៅមានកម្រិតនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យសំឡេងផ្សាយព័ត៌មាន រួចប្រើប្រាស់វិធីសាស្ត្របន្សាំម៉ូដែលសូរសព្ទ និងម៉ូដែលភាសាដោយស្វ័យប្រវត្តិដើម្បីបណ្តុះបណ្តាលប្រព័ន្ធ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline Graphemic Model (G0)
ម៉ូដែលតួអក្សរមូលដ្ឋានដោយគ្មានព្រំដែនពាក្យ
ងាយស្រួលក្នុងការបង្កើត ដោយគ្រាន់តែប្រើប្រព័ន្ធបំប្លែងតួអក្សរទៅជាសូរសព្ទដោយផ្ទាល់ (Deterministic mapping)។ មិនបានពិចារណាលើការប្រែប្រួលនៃការបញ្ចេញសំឡេង ដែលអាស្រ័យលើទីតាំងអក្សរនៅក្នុងពាក្យ។ អត្រាកំហុសពាក្យ (WER) ១៤.៣៦% លើសំណុំទិន្នន័យ Dev និង ១៤.២២% លើសំណុំ Eval។
Graphemic Model with Word Boundary (G1)
ម៉ូដែលតួអក្សរមានកំណត់សញ្ញាព្រំដែនពាក្យ
អាចរៀនពីច្បាប់នៃការបញ្ចេញសំឡេងដោយប្រយោល តាមរយៈការកំណត់ទីតាំងអក្សរ (ដើម កណ្តាល ចុងពាក្យ)។ ទាមទារទិន្នន័យគ្រប់គ្រាន់ដើម្បីឲ្យម៉ូដែលអាចទាញយកបរិបទនៃការបញ្ចេញសំឡេងបានត្រឹមត្រូវ។ អត្រាកំហុសពាក្យ (WER) ធ្លាក់ចុះមកត្រឹម ១២.៩១% (Dev) និង ១៣.៣៦% (Eval)។
Phonemic Model with rules (P1)
ម៉ូដែលសូរសព្ទប្រើច្បាប់បំបាត់ស្រៈ និងសញ្ញាច្រមុះ
ដោះស្រាយបញ្ហាសូរសព្ទជាក់លាក់ក្នុងភាសាហិណ្ឌីបានល្អ ដូចជាការបំបាត់ស្រៈ (Schwa deletion) និងសំឡេងច្រមុះ។ ត្រូវការបង្កើតក្បួនច្បាប់ភាសាវិទ្យា (Rule-based algorithms) ដែលអាចមានភាពស្មុគស្មាញ និងចំណាយពេល។ អត្រាកំហុសពាក្យ (WER) ១២.៥៦% (Dev) និង ១៣.៤៤% (Eval)។
Lattice Interpolation (DNN + SGMM) with LM Adaptations
ការបូកបញ្ចូលគ្នា (DNN + SGMM) ជាមួយការបន្សាំម៉ូដែលភាសា
ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលចំណេះដឹងផ្នែកវាក្យសម្ព័ន្ធ រូបសព្ទ និងបច្ចេកវិទ្យាបណ្ដាញសរសៃប្រសាទជ្រៅ (DNN)។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ស៊ីធនធានច្រើន និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធពីររួមបញ្ចូលគ្នា។ អត្រាកំហុសពាក្យ (WER) ល្អបំផុតត្រឹម ១១.១២% (Dev) និង ១១.៥០% (Eval)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ និងការរៀបចំទិន្នន័យសំឡេងដោយផ្ទាល់ដៃមួយចំនួន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងផ្សាយព័ត៌មានពីវិទ្យុ All India Radio (Bhopal) ដែលមានទម្រង់សំឡេងស្តង់ដារ បរិយាកាសថតច្បាស់ល្អ និងមិនមានសំឡេងរំខាន។ វាមិនបានគ្របដណ្តប់លើគ្រាមភាសា ឬការសន្ទនាបែបក្រៅផ្លូវការក្នុងជីវភាពប្រចាំថ្ងៃនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកតែលើទិន្នន័យព័ត៌មានផ្លូវការ អាចធ្វើឲ្យប្រព័ន្ធពិបាកសម្គាល់សំឡេងមនុស្សទូទៅដែលនិយាយលឿន ឬមានគ្រាមភាសាតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការបន្សាំម៉ូដែលភាសា និងការប្រើប្រាស់ម៉ូដែលអក្សរមានព្រំដែនពាក្យ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ ASR ភាសាខ្មែរ។

ជារួម ការប្រើប្រាស់ម៉ូដែលអក្សររួមជាមួយព័ត៌មានព្រំដែនពាក្យ និងការកែសម្រួលម៉ូដែលភាសា គឺជាវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពដែលអាចយកមកអនុវត្តផ្ទាល់ក្នុងការកសាង ASR សម្រាប់ភាសាខ្មែរដែលស្ថិតក្នុងស្ថានភាពខ្វះខាតទិន្នន័យ (Low-resource language)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងរៀបចំទិន្នន័យសំឡេង (Data Collection & Alignment): ទាញយកសំឡេងព័ត៌មាន និងអត្ថបទពីប្រភពផ្លូវការ រួចប្រើប្រាស់កម្មវិធី Praat (តាមរយៈមុខងារ To TextGrid) ដើម្បីកាត់ និងតម្រឹមសំឡេងជាមួយអត្ថបទដោយពាក់កណ្តាលស្វ័យប្រវត្តិ។
  2. រៀបចំបរិស្ថានឧបករណ៍សូរសព្ទ (Kaldi Setup): ដំឡើងឧបករណ៍ Kaldi ASR toolkit ក្នុងប្រព័ន្ធប្រតិបត្តិការ Linux រួចសិក្សាពីរបៀបរៀបចំរចនាសម្ព័ន្ធទិន្នន័យ និងបង្កើតគំរូមូលដ្ឋាន (GMM-HMM) ដោយប្រើយន្តការ f-MLLR។
  3. កសាងម៉ូដែលភាសាដោយបែងចែកពាក្យ (Word Segmentation LM): សរសេរកូដអនុវត្តក្បួនដោះស្រាយ Unsupervised Word Segmentation (ដូច Algorithm 1 ក្នុងឯកសារ) ទៅលើសំណុំអត្ថបទភាសាខ្មែរ ដើម្បីបំបែកពាក្យ និងបង្កើតម៉ូដែលភាសា N-gram។
  4. បណ្តុះបណ្តាលម៉ូដែលសូរសព្ទកម្រិតខ្ពស់ (DNN Training): ប្តូរពីការប្រើ SGMM ធម្មតា ទៅប្រើប្រាស់ Deep Neural Networks (DNN) ជាមួយនឹងការហ្វឹកហាត់ជាមុន (RBM pre-training) នៅក្នុង Kaldi ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងការសម្គាល់សំឡេង។
  5. ការរួមបញ្ចូលគ្នានៃលទ្ធផល (Lattice Interpolation & Rescoring): អនុវត្ត Lattice interpolation ដើម្បីបូកបញ្ចូលលទ្ធផលរវាងម៉ូដែល SGMM និង DNN រួចយកទៅគណនាពិន្ទុឡើងវិញ (Rescoring) ជាមួយនឹងម៉ូដែលភាសាដែលបានបន្សាំផ្នែករូបសព្ទ (LWS & LIA FSTs) ដើម្បីទាញយកលទ្ធផលកំហុសទាបបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Word Error Rate (WER) អត្រាកំហុសពាក្យ (WER) គឺជារង្វាស់ស្តង់ដារដែលប្រើដើម្បីវាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សំឡេង (ASR) ដោយរាប់បញ្ចូលចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមលើស បើធៀបនឹងអត្ថបទដើមពិតប្រាកដ។ ដូចជាការបូកសរុបពិន្ទុខុសរបស់សិស្សក្នុងការសរសេរតាមអាន បើខុសច្រើន ពិន្ទុ WER នឹងកាន់តែខ្ពស់ (មានន័យថាប្រព័ន្ធមិនសូវពូកែ)។
Graphemic Model ម៉ូដែលផ្អែកលើតួអក្សរ គឺជាវិធីសាស្ត្របង្រៀនកុំព្យូទ័រឱ្យស្គាល់សំឡេងដោយផ្ទាល់ពីអក្ខរាវិរុទ្ធ (តួអក្សរ) នៃពាក្យ ដោយមិនចាំបាច់ប្រើវចនានុក្រមបំប្លែងទៅជាសូរសព្ទអន្តរជាតិ (Phonemes) មុននោះទេ។ ដូចជាក្មេងរៀនអានពាក្យដោយគ្រាន់តែមើលអក្សរផ្ទាល់ដោយមិនបាច់រៀនពីក្បួនផ្សំសូរសព្ទលម្អិត។
Phonemic Model ម៉ូដែលផ្អែកលើសូរសព្ទ គឺជាប្រព័ន្ធដែលប្រើប្រាស់ក្បួនច្បាប់បញ្ចេញសំឡេង (ដូចជាការកាត់សូរសព្ទស្រៈចោល) ដើម្បីប្រាប់ម៉ាស៊ីនពីរបៀបដែលមនុស្សពិតប្រាកដបញ្ចេញសំឡេងពាក្យនីមួយៗ ជំនួសឱ្យការអានតាមតួអក្សរត្រង់ៗ។ ដូចជាការប្រើសៀវភៅវចនានុក្រមដែលមានសរសេរពាក្យអាន (ឧទាហរណ៍៖ ភ្នំពេញ អានថា ភ្នុំ-ពេញ) ដើម្បីដឹងពីសំឡេងពិតប្រាកដរបស់ពាក្យ។
Unsupervised Word Segmentation ការបែងចែកពាក្យដោយគ្មានការត្រួតពិនិត្យ គឺជាក្បួនដោះស្រាយ (Algorithm) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រស្វែងរកដោយខ្លួនឯងនូវរបៀបកាត់ពាក្យធំៗទៅជាឫសពាក្យ (Stem) និងបច្ច័យ (Suffix) ដោយផ្អែកលើភាពញឹកញាប់នៃអក្សរដែលមានក្នុងសំណុំទិន្នន័យ។ ដូចជាការឱ្យក្មេងលេងផ្គុំរូប ហើយឱ្យពួកគេសង្កេតមើលដោយខ្លួនឯងថាបំណែកណាដែលតែងតែនៅជាប់គ្នាជានិច្ច។
Finite State Transducer (FST) ប្រព័ន្ធបំប្លែង FST គឺជារចនាសម្ព័ន្ធទិន្នន័យគណិតវិទ្យាដែលប្រើក្នុងប្រព័ន្ធ ASR សម្រាប់ផ្ទុកនូវបណ្តុំពាក្យ និងច្បាប់វេយ្យាករណ៍ ដើម្បីបំប្លែងពីទម្រង់សំឡេងទៅជាទម្រង់អត្ថបទដោយរលូន និងមានល្បឿនលឿន។ ដូចជាផែនទីផ្លូវរថភ្លើងដែលប្រាប់កុំព្យូទ័រថា តើពាក្យមួយណាអាចធ្វើដំណើរតទល់នឹងពាក្យមួយណាបានខ្លះ។
Lattice interpolation ការបូកបញ្ចូលក្រឡាពាក្យ (Lattice Interpolation) គឺជាបច្ចេកទេសមួយដែលយកលទ្ធផលនៃការទស្សន៍ទាយពីម៉ូដែលសម្គាល់សំឡេងពីរផ្សេងគ្នា (ដូចជាម៉ូដែល DNN និង SGMM) មកថ្លឹងថ្លែងបញ្ចូលគ្នា ដើម្បីគណនារកលទ្ធផលចុងក្រោយដែលត្រឹមត្រូវបំផុត។ ដូចជាការសួរមតិពីអ្នកជំនាញពីរនាក់ផ្សេងគ្នា ហើយយកចម្លើយទាំងពីរមកប្រៀបធៀបគ្នារកការពិតដែលជឿទុកចិត្តបានបំផុត។
Morphophonemic Knowledge ចំណេះដឹងផ្នែករូបវិទ្យាសូរសព្ទ គឺជាការយល់ដឹងអំពីច្បាប់ទម្លាប់ថាតើសំឡេងនៃពាក្យមួយមានការផ្លាស់ប្តូរយ៉ាងដូចម្តេច នៅពេលដែលវាត្រូវបានបំប្លែងទម្រង់វេយ្យាករណ៍ (ដូចជាការបន្ថែមបច្ច័យខាងចុងជាដើម)។ ដូចជាការដឹងថា ពាក្យដើម និងពាក្យដែលបានបំប្លែង អាចអានខុសគ្នា ទោះបីជាមានអក្សរស្រដៀងគ្នាក៏ដោយ។
Subspace Gaussian Mixture Model (SGMM) ម៉ូដែល SGMM គឺជាបច្ចេកទេសបង្កើតម៉ូដែលសូរសព្ទបែបស្ថិតិ ដែលប្រើប្រាស់រូបមន្តគណិតវិទ្យាដើម្បីចាប់យកទម្រង់នៃការប្រែប្រួលសម្លេងនៅក្នុងភាសា។ វាជាម៉ូដែលជំនាន់មុន ដែលត្រូវការធនធានកុំព្យូទ័រតិចជាងម៉ូដែល AI ជំនាន់ថ្មី។ ដូចជាការគូសគំនូសព្រាងនៃទម្រង់សំឡេងនីមួយៗ ដោយប្រើប្រាស់គណិតវិទ្យាដើម្បីសន្និដ្ឋានថាតើសំឡេងនេះជាពាក្យអ្វី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖