Original Title: ROBUST SPEECH RECOGNITION USING NEURAL NETWORKS AND HIDDEN MARKOV MODELS - ADAPTATIONS USING NON-LINEAR TRANSFORMATIONS -
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសម្គាល់សំឡេងដ៏រឹងមាំដោយប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ និងម៉ូដែល Hidden Markov - ការបន្សាំដោយប្រើការបំប្លែងមិនមែនលីនេអ៊ែរ -

ចំណងជើងដើម៖ ROBUST SPEECH RECOGNITION USING NEURAL NETWORKS AND HIDDEN MARKOV MODELS - ADAPTATIONS USING NON-LINEAR TRANSFORMATIONS -

អ្នកនិពន្ធ៖ Dongsuk Yuk (Rutgers, The State University of New Jersey)

ឆ្នាំបោះពុម្ព៖ 1999, Rutgers University

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ក្បួនដោះស្រាយការសម្គាល់សំឡេងតាមបែបស្ថិតិទទួលរងនូវការធ្លាក់ចុះប្រសិទ្ធភាពយ៉ាងខ្លាំងនៅពេលដែលបរិយាកាសសំឡេងនៃការហ្វឹកហាត់ និងការធ្វើតេស្តជាក់ស្តែង (សំឡេងរំខាន ការបន្ទរ) មិនស្របគ្នា ហើយការប្រមូលទិន្នន័យដើម្បីហ្វឹកហាត់ប្រព័ន្ធឡើងវិញសម្រាប់គ្រប់បរិស្ថានទាំងអស់ទាមទារចំណាយច្រើនពេក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវមុខងារគោលបំណងថ្មីនៃបណ្ដាញសរសៃប្រសាទអតិបរមា (Maximum Likelihood Neural Network - MLNN) សម្រាប់បន្សាំឧបករណ៍សម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ តាមរយៈការអនុវត្តការបំប្លែងមិនមែនលីនេអ៊ែរដោយធ្វើឱ្យប្រសើរឡើងនូវបណ្ដាញសរសៃប្រសាទរួមគ្នាជាមួយ HMMs។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline (with Cepstral Mean Normalization - CMN)
ម៉ូដែលមូលដ្ឋានដែលមានការធ្វើឱ្យមធ្យមភាគ Cepstral មានលក្ខណៈធម្មតា (CMN)
ងាយស្រួលអនុវត្ត ដំណើរការលឿន និងជួយកាត់បន្ថយឥទ្ធិពលនៃការបង្អាក់សំឡេងដោយមិនតម្រូវឱ្យមានទិន្នន័យបន្សាំ (Adaptation data) នោះទេ។ មានប្រសិទ្ធភាពទាបនៅពេលជួបប្រទះសំឡេងរំខានខ្លាំង ការបន្ទរ ឬការខូចទ្រង់ទ្រាយមិនមែនលីនេអ៊ែរដែលស្មុគស្មាញ។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ២៣.៧% ប៉ុណ្ណោះ សម្រាប់សំឡេងនិយាយពីចម្ងាយដែលមានសំឡេងរំខានកម្រិត 20dB។
Maximum Likelihood Linear Regression (MLLR)
ការតំរែតំរង់លីនេអ៊ែរដោយប្រូបាប៊ីលីតេអតិបរមា
ជាវិធីសាស្ត្រស្តង់ដារដែលដំណើរការបានយ៉ាងល្អសម្រាប់ការបន្សាំអ្នកនិយាយ តាមរយៈការតម្រូវប៉ារ៉ាម៉ែត្រលីនេអ៊ែរ។ មិនសូវមានប្រសិទ្ធភាពចំពោះបញ្ហាសំឡេងរំខានមិនមែនលីនេអ៊ែរ និងទាមទារប៉ារ៉ាម៉ែត្រច្រើនក្នុងការប្រមាណ។ សម្រេចបានភាពត្រឹមត្រូវ ៥៤.៤% ជាមួយប្រយោគបន្សាំចំនួន ១០ ក្នុងបរិស្ថានមានសំឡេងរំខាន។
Mean Squared Error Neural Network (MSENN)
បណ្ដាញសរសៃប្រសាទផ្អែកលើកំហុសការ៉េមធ្យម
មានសមត្ថភាពខ្ពស់ក្នុងការរៀន និងបំប្លែងភាពខុសគ្នាមិនមែនលីនេអ៊ែររវាងបរិស្ថានហ្វឹកហាត់ និងបរិស្ថានធ្វើតេស្តជាក់ស្តែង។ ទាមទារយ៉ាងដាច់ខាតនូវទិន្នន័យស្តេរ៉េអូ (Stereo Data - ការថតចម្លងស្របគ្នារវាងសំឡេងច្បាស់ និងសំឡេងរំខាន) ដែលពិបាករកក្នុងស្ថានភាពជាក់ស្តែង។ ផ្តល់ភាពត្រឹមត្រូវ ៦៤.៣% ដោយប្រើប្រាស់ទិន្នន័យបន្សាំចំនួន ១០០ ប្រយោគ។
Maximum Likelihood Neural Network (MLNN)
បណ្ដាញសរសៃប្រសាទប្រូបាប៊ីលីតេអតិបរមា (វិធីសាស្ត្រស្នើឡើង)
មិនត្រូវការទិន្នន័យស្តេរ៉េអូ មានភាពស៊ីសង្វាក់គ្នាជាមួយប្រព័ន្ធ HMM និងប្រើប្រាស់ទិន្នន័យបន្សាំតិចតួចបំផុត (១០ ទៅ ១០០ ប្រយោគ)។ ការបំប្លែងលក្ខណៈពិសេសអាចជួបបញ្ហាក្នុងការរៀន (Trainability / Local Minima) ប្រសិនបើប្រើទិន្នន័យតិចតួចពេកដោយគ្មានការបន្សាំម៉ូដែលរួមបញ្ចូលគ្នា។ សម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៧៧.៤% (ពេលបន្សាំ Mean និង Variance) និង ៨៣.២% សម្រាប់ការបន្សាំដោយគ្មានការត្រួតពិនិត្យរួមបញ្ចូលជាមួយ MSENN។
Retrained Recognizer
ឧបករណ៍សម្គាល់ដែលបានហ្វឹកហាត់ឡើងវិញទាំងស្រុង
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត (Upper Bound) ដោយសារម៉ូដែលត្រូវបានហ្វឹកហាត់ផ្ទាល់ជាមួយបរិស្ថានថ្មីនោះតែម្តង។ ចំណាយថវិកា និងពេលវេលាច្រើនបំផុតក្នុងការប្រមូលទិន្នន័យរាប់ពាន់ប្រយោគសម្រាប់រាល់បរិស្ថាននីមួយៗ។ ភាពត្រឹមត្រូវ ៧៩.០% ដោយត្រូវប្រើប្រាស់ប្រយោគហ្វឹកហាត់រហូតដល់ ៣,៩៧៩ ប្រយោគ (ប្រើទិន្នន័យច្រើនជាង MLNN ៤០ ដង)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញពីអត្ថប្រយោជន៍ដ៏ធំធេងក្នុងការកាត់បន្ថយតម្រូវការទិន្នន័យហ្វឹកហាត់សម្រាប់ការបន្សាំបរិស្ថាន ពីការប្រើប្រាស់រាប់ពាន់ប្រយោគមកត្រឹមតែ ១០ ទៅ ១០០ ប្រយោគប៉ុណ្ណោះ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យ Resource Management (RM) ដែលជាភាសាអង់គ្លេសសុទ្ធ មានវាក្យសព្ទកំណត់ត្រឹម ៩៩១ ពាក្យ និងត្រូវបានថតក្នុងបរិយាកាសស្ងាត់ បន្ទាប់មកទើបបញ្ចូលសំឡេងរំខានសិប្បនិម្មិត។ សម្រាប់ប្រទេសកម្ពុជា កត្តានេះជារឿងសំខាន់ ពីព្រោះភាសាខ្មែរមានលក្ខណៈសូរសព្ទខុសគ្នាស្រឡះ ហើយការអនុវត្តជាក់ស្តែងទាមទារឱ្យមានការសាកល្បងជាមួយនឹងសំឡេងរំខានពិតប្រាកដនៅក្នុងស្រុក (ឧទាហរណ៍៖ សំឡេងតាមដងផ្លូវ សំឡេងម៉ូតូ ធុករ៉ឺម៉ក)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ MLNN ដែលអាចបន្សាំប្រព័ន្ធសម្គាល់សំឡេងទៅនឹងបរិស្ថានថ្មីដោយប្រើទិន្នន័យតិចតួចបំផុតនេះ គឺមានសក្តានុពលខ្លាំងណាស់សម្រាប់ការអភិវឌ្ឍ AI ផ្នែកភាសាខ្មែរ ដែលបច្ចុប្បន្ននៅខ្វះខាតទិន្នន័យ (Low-resource language) យ៉ាងខ្លាំង។

សរុបមក ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ (Neural Networks) ដើម្បីកែតម្រូវភាពខុសគ្នានៃបរិស្ថាន គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃដើម្បីពន្លឿនការដាក់ឱ្យប្រើប្រាស់បច្ចេកវិទ្យា AI សំឡេងនៅកម្ពុជា ដោយមិនចាំបាច់ចំណាយធនធានច្រើនសន្ធឹកសន្ធាប់ក្នុងការប្រមូលទិន្នន័យគ្រប់កាលៈទេសៈនោះទេ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលសំឡេង និងបណ្តាញសរសៃប្រសាទ: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃ Hidden Markov Models (HMM) និង Multi-Layer Perceptrons (MLP)។ អាចប្រើប្រាស់ឯកសារឬការបង្រៀនទាក់ទងនឹងឧបករណ៍ HTK (Hidden Markov Model Toolkit) ដើម្បីយល់ច្បាស់ពីរបៀបដែលប្រព័ន្ធសម្គាល់សំឡេងបែបបុរាណដំណើរការ។
  2. ជំហានទី២៖ ប្រមូល និងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ: រៀបចំសំណុំទិន្នន័យសំឡេងភាសាខ្មែរដែលថតក្នុងបន្ទប់ស្ងាត់ (ឧ. ១០ ទៅ ៥០ ម៉ោង) រួចប្រើប្រាស់បណ្ណាល័យ Librosa នៅក្នុង Python ដើម្បីស្រخراجយកលក្ខណៈពិសេសនៃសំឡេង MFCCs (Mel-Frequency Cepstral Coefficients) និងរៀបចំវាជាទម្រង់វ៉ិចទ័រ។
  3. ជំហានទី៣៖ បង្កើតម៉ូដែលមូលដ្ឋាន និងធ្វើតេស្តជាមួយសំឡេងរំខានសិប្បនិម្មិត: ប្រើប្រាស់ Kaldi Speech Recognition ToolkitPyTorch ដើម្បីហ្វឹកហាត់ម៉ូដែលសម្គាល់សំឡេងមូលដ្ឋាន (Baseline)។ បន្ទាប់មក បន្ថែមសំឡេងរំខាន (Noise) ដែលប្រមូលបាននៅកម្ពុជា (ឧ. សំឡេងតាមទីផ្សារ ឬផ្លូវថ្នល់) ទៅក្នុងទិន្នន័យសាកល្បង ដើម្បីវាយតម្លៃការធ្លាក់ចុះនៃភាពត្រឹមត្រូវ។
  4. ជំហានទី៤៖ អនុវត្តក្បួនដោះស្រាយការបន្សាំបណ្តាញសរសៃប្រសាទ (MLNN): សរសេរកូដអភិវឌ្ឍមុខងារបន្សាំដោយប្រើ Maximum Likelihood Neural Network (MLNN) ដើម្បីធ្វើការបំប្លែង Mean និង Variance នៃម៉ូដែល HMM របស់អ្នក ដោយកំណត់ប្រើប្រាស់ទិន្នន័យសម្លេងមានរំខានត្រឹមតែ ១០ ទៅ ៥០ ប្រយោគប៉ុណ្ណោះសម្រាប់ការហ្វឹកហាត់បន្សាំនេះ។
  5. ជំហានទី៥៖ វាយតម្លៃ និងរាយការណ៍លទ្ធផលធៀបនឹងវិធីសាស្ត្រផ្សេងៗ: ធ្វើការវាស់ស្ទង់អត្រាកំហុសពាក្យ (Word Error Rate - WER) ដោយប្រៀបធៀបលទ្ធផលរវាងម៉ូដែលដើម (Baseline), ម៉ូដែលដែលកែតម្រូវដោយ MLLR, និងម៉ូដែលដែលប្រើប្រាស់ MLNN របស់អ្នក។ ធ្វើការសន្និដ្ឋានអំពីប្រសិទ្ធភាពក្នុងការអនុវត្តជាក់ស្តែងសម្រាប់ភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model (HMM) ម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង ដើម្បីតំណាងឱ្យបម្រែបម្រួលនៃសំឡេងតាមពេលវេលា ដោយគណនាលើប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរពីសម្លេងមួយទៅសម្លេងមួយទៀត។ ដូចជាការទស្សន៍ទាយអាកាសធាតុនៅថ្ងៃស្អែក ដោយពឹងផ្អែកលើអាកាសធាតុថ្ងៃនេះ និងទិន្នន័យស្ថិតិប្រែប្រួលកាលពីមុន។
Maximum Likelihood Neural Network (MLNN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានហ្វឹកហាត់ដោយស្វែងរកតម្លៃប៉ារ៉ាម៉ែត្រណាដែលធ្វើឱ្យប្រូបាប៊ីលីតេនៃការកើតឡើងនៃទិន្នន័យជាក់ស្តែងមានកម្រិតខ្ពស់បំផុត (Maximum Likelihood) ជាជាងត្រឹមតែគណនាកំហុសជាមធ្យម។ ដូចជាជាងកាត់ដេរដែលកែតម្រូវរ៉ូបមិនមែនត្រឹមតែឱ្យមានទំហំប៉ុនគ្នានឹងរ៉ូបគំរូទេ តែត្រូវកែច្នៃឱ្យស័ក្តិសមបំផុតជាមួយរូបរាងរបស់អ្នកស្លៀកផ្ទាល់តែម្តង។
Mel-Frequency Cepstral Coefficients (MFCC) វ៉ិចទ័រលក្ខណៈពិសេសដែលត្រូវបានចម្រាញ់ចេញពីរលកសំឡេង ដោយធ្វើត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សចាប់យកកម្រិតសំឡេង (Frequency) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងវិភាគសំឡេងមនុស្សបាន។ ដូចជាការបំព្រួញសៀវភៅក្រាស់មួយក្បាលឱ្យនៅសល់ត្រឹមចំណុចសង្ខេបសំខាន់ៗ ដើម្បីឱ្យខួរក្បាលមនុស្សងាយស្រួលចងចាំនិងចំណាំទុក។
Viterbi algorithm ក្បួនដោះស្រាយតាមបែបគណិតវិទ្យា (Dynamic Programming) ដែលត្រូវបានប្រើដើម្បីស្វែងរកលំដាប់លំដោយនៃពាក្យ ឬស្ថានភាពដែលត្រឹមត្រូវបំផុត និងមានប្រូបាប៊ីលីតេខ្ពស់បំផុតចេញពីសញ្ញាសំឡេងដែលបានបញ្ចូល។ ដូចជាការប្រើកម្មវិធី Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿន និងល្អបំផុតដើម្បីទៅដល់គោលដៅ ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងរាប់ពាន់ជម្រើស។
Cepstral Mean Normalization (CMN) បច្ចេកទេសសម្រាប់កាត់បន្ថយឥទ្ធិពលសម្លេងរំខាន ឬការបង្អាក់សម្លេងដែលបង្កឡើងដោយឧបករណ៍ (ដូចជាមេក្រូហ្វូនជាដើម) ដោយដកតម្លៃមធ្យមចេញពីវ៉ិចទ័រសំឡេង។ ដូចជាការដកវ៉ែនតាពណ៌ចេញពីភ្នែក ដើម្បីអាចមើលឃើញពណ៌ពិតប្រាកដរបស់វត្ថុមួយ ដោយបំបាត់ឥទ្ធិពលពណ៌ក្លែងក្លាយពីកញ្ចក់វ៉ែនតា។
Maximum Likelihood Linear Regression (MLLR) បច្ចេកទេសគណនាតាមលីនេអ៊ែរ ដើម្បីផ្លាស់ប្តូរ និងកែតម្រូវប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែល HMM ដែលជួយបន្សាំប្រព័ន្ធសម្គាល់សំឡេងឱ្យត្រូវទៅនឹងអ្នកនិយាយថ្មី ឬបរិស្ថានជុំវិញថ្មីបានយ៉ាងឆាប់រហ័ស។ ដូចជាការសារ៉េកែចង្កូតរថយន្តបន្តិចបន្តួចឱ្យស្របនឹងទិសដៅខ្យល់បក់ ឬស្ថានភាពផ្លូវរអិល ដើម្បីឱ្យឡាននៅតែអាចរត់ត្រង់ទៅមុខបានល្អ។
Multi-Layer Perceptrons (MLP) ទម្រង់ដ៏ពេញនិយមមួយនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានស្រទាប់កោសិកាបញ្ជូនទិន្នន័យច្រើនជាន់ ប្រើសម្រាប់រៀនបំប្លែងទិន្នន័យស្មុគស្មាញបែបមិនមែនលីនេអ៊ែរ។ ដូចជារោងចក្រកាត់ដេរដែលមានបុគ្គលិកច្រើនផ្នែក រង់ចាំត្រួតពិនិត្យ និងកែច្នៃវត្ថុធាតុដើមតៗគ្នាពីមួយដំណាក់កាលទៅមួយដំណាក់កាលរហូតបានជាអាវមួយ។
Mean Squared Error (MSE) រង្វាស់សម្រាប់វាយតម្លៃកំហុសនៅក្នុងការទស្សន៍ទាយ ដោយគណនាមធ្យមភាគនៃផលដកការ៉េរវាងតម្លៃទិន្នន័យពិត និងតម្លៃដែលប្រព័ន្ធម៉ាស៊ីនទាយបាន។ ដូចជាការបាញ់ព្រួញទៅរកគោលដៅ ដែលពិន្ទុរបស់អ្នកនឹងត្រូវកាត់បន្ថយកាន់តែខ្លាំង (គុណជាការ៉េ) ប្រសិនបើព្រួញនោះឃ្លាតឆ្ងាយពីចំណុចកណ្តាល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖