Original Title: Articulatory Phonetic Features for Improved Speech Recognition
Source: gphuang.github.io
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

លក្ខណៈនៃការបញ្ចេញសូរសព្ទសម្រាប់ការធ្វើឱ្យប្រសើរឡើងនូវការសម្គាល់សំឡេងនិយាយ

ចំណងជើងដើម៖ Articulatory Phonetic Features for Improved Speech Recognition

អ្នកនិពន្ធ៖ Huang Guangpu (School of Electrical & Electronic Engineering, Nanyang Technological University)

ឆ្នាំបោះពុម្ព៖ 2012

វិស័យសិក្សា៖ Speech Processing and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសម្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR) បច្ចុប្បន្នជួបប្រទះបញ្ហាប្រឈមធំៗក្នុងការរក្សាភាពត្រឹមត្រូវ និងភាពធន់នៅពេលជួបប្រទះការប្រែប្រួលនៃការនិយាយរបស់អ្នកប្រើប្រាស់ និងសំឡេងរំខាន ដោយសារប្រព័ន្ធទាំងនេះពឹងផ្អែកតែលើលក្ខណៈសូរសព្ទ (Acoustic features) តែមួយមុខ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះដោះស្រាយបញ្ហាដោយការរួមបញ្ចូលចំណេះដឹងអំពីការបង្កើតសំឡេង (Speech production knowledge) តាមរយៈការបង្កើតម៉ូដែលបណ្ដាញសរសៃប្រសាទដើម្បីទាញយកលក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory features) ។

ម៉ូដែលត្រួតពិនិត្យបណ្ដាញសរសៃប្រសាទកម្រិតខ្ពស់ (Extended Fuzzy Neural Network - E-FNN): ត្រូវបានប្រើប្រាស់សម្រាប់តាមដាន និងត្រាប់តាមចលនាបញ្ចេញសំឡេងក្នុងប្រព័ន្ធសំយោគជីវមេកានិក។
ការបង្កើតម៉ូដែលបញ្ចេញសំឡេងអង់គ្លេស (English Pronunciation Modeling): បង្កើតគំរូទិន្នន័យដោយប្រើក្បួនកាត់បន្ថយកំហុសសូរសព្ទរួមផ្សំជាមួយគោលការណ៍នៃការស្ដាប់របស់មនុស្ស។
ការប្រែត្រឡប់សូរសព្ទនៃការបញ្ចេញសំឡេង (Articulatory Phonetic Inversion - API): ប្រើប្រាស់បណ្ដាញសរសៃប្រសាទវិលជុំ (RNN) ដើម្បីប៉ាន់ស្មានលក្ខណៈនៃការបញ្ចេញសំឡេង (APFs) ពីទិន្នន័យសំឡេងរលកសញ្ញា (Acoustic signal)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល E-FNN ដែលបានស្នើឡើងអាចតាមដានគន្លងនៃការបញ្ចេញសំឡេងបានយ៉ាងជាក់លាក់ ដោយមានអត្រាកំហុសមធ្យម (RMSE) ត្រឹមតែ ១,៦០៨ មីលីម៉ែត្រប៉ុណ្ណោះ។
ប្រព័ន្ធសម្គាល់សំឡេងដែលរួមបញ្ចូលលក្ខណៈ API ទទួលបានភាពត្រឹមត្រូវនៃការសម្គាល់សូរសព្ទ (Phoneme recognition accuracy) កម្រិត ៧៤,៤% លើទិន្នន័យស្តង់ដារ TIMIT ដែលជាលទ្ធផលល្អជាងប្រព័ន្ធ HMM បច្ចុប្បន្ន។
លក្ខណៈពិសេសនៃការបញ្ចេញសំឡេង (APFs) បានបង្ហាញពីភាពធន់កាន់តែប្រសើរប្រឆាំងនឹងសំឡេងរំខាន ដោយមានអត្រាធ្លាក់ចុះគុណភាពត្រឹមតែ ០,៩៥% ក្នុងមួយ dB ដែលទាបជាងការធ្លាក់ចុះកម្រិត ១% ទៅជាងនៃប្រព័ន្ធផ្អែកលើ MFCC ស្តង់ដារ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
MFCC + HMM (CD tri-phone) ម៉ូដែល MFCC រួមបញ្ចូលជាមួយ Hidden Markov Model ផ្អែកលើបរិបទ	ងាយស្រួលក្នុងការគណនា មានការស្រាវជ្រាវច្រើន និងជាប្រព័ន្ធស្តង់ដារដែលប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការសម្គាល់សំឡេង។	ខ្វះភាពធន់នៅពេលមានសំឡេងរំខាន (Noise) និងមិនមានសមត្ថភាពក្នុងការចាប់យកទំនាក់ទំនងប្រែប្រួលនៃចលនាបញ្ចេញសំឡេង (Articulatory dynamics) បានល្អនោះទេ។	ទទួលបានភាពត្រឹមត្រូវ ៥១,៩% (Best-1) និងមានអត្រាធ្លាក់ចុះគុណភាពប្រមាណ ១,០៤% ក្នុងមួយ dB ពេលមានសំឡេងរំខាន។
MFCC + RNN (1 delay) ម៉ូដែល MFCC រួមបញ្ចូលជាមួយ Recurrent Neural Network	មានសមត្ថភាពរក្សាអង្គចងចាំរយៈពេលខ្លី (Short-term memory) ដើម្បីចាប់យកទំនាក់ទំនងទិន្នន័យតាមពេលវេលា (Temporal dynamics)។	នៅតែពឹងផ្អែកទាំងស្រុងលើលក្ខណៈសូរសព្ទ (Acoustic features) ដដែល ដែលធ្វើឱ្យវានៅតែងាយរងឥទ្ធិពលពីសំឡេងរំខានខាងក្រៅ។	ទទួលបានភាពត្រឹមត្រូវ ៦៨,៩% (Best-1) និងមានអត្រាធ្លាក់ចុះគុណភាព ១,០៦% ក្នុងមួយ dB។
BFCC + API (APF) ម៉ូដែលប្រែត្រឡប់សូរសព្ទ (API) ប្រើប្រាស់លក្ខណៈពិសេសនៃការបញ្ចេញសំឡេង (APF) កាត់បន្ថយសំឡេងរំខានដោយ BFCC	មានភាពធន់ខ្ពស់បំផុតប្រឆាំងនឹងសំឡេងរំខាន និងអាចចាប់យកចលនានៃការបញ្ចេញសំឡេងបានយ៉ាងល្អតាមរយៈការប្រើប្រាស់ចំណេះដឹងពីការផលិតសំឡេងពិតរបស់មនុស្ស។	ទាមទារការព្យាករណ៍បំប្លែងត្រឡប់ (Inversion mapping) និងការកសាងទិន្នន័យសំយោគដែលមានភាពស្មុគស្មាញ រួមទាំងការប្រើប្រាស់ធនធានគណនាខ្ពស់សម្រាប់ Neural Networks ច្រើនតំណាក់កាល។	ទទួលបានភាពត្រឹមត្រូវ ៧៥,០% (Best-1) លើទិន្នន័យ TIMIT ជាមួយនឹងអត្រាធ្លាក់ចុះគុណភាពទាបបំផុតត្រឹមតែ ០,៩៥% ក្នុងមួយ dB ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់តួលេខជាក់លាក់អំពីទំហំ Hardware ក៏ដោយ ប៉ុន្តែការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទប្រភេទ RNN, MLP និង E-FNN ទាមទារធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យមទៅខ្ពស់។

Hardware: ចាំបាច់ត្រូវមានកុំព្យូទ័រដែលមានអង្គគណនាក្រាហ្វិក (GPU) សម្រាប់ដំណើរការបង្វឹក Neural Networks ច្រើនស្រទាប់ និង RAM ធំល្មមសម្រាប់ផ្ទុកទិន្នន័យ Frames រាប់សែនពីមូលដ្ឋានទិន្នន័យ។
Software: ត្រូវការកម្មវិធីវិភាគសំឡេងដូចជា PRAAT សម្រាប់វិភាគសូរសព្ទ កម្មវិធី HTK (Hidden Markov Model Toolkit) សម្រាប់បង្កើត Baseline និងបណ្ណាល័យសរសេរកូដ Neural Networks (ដូចជា TensorFlow ឬ PyTorch នាពេលបច្ចុប្បន្ន)។
Dataset: ទាមទារសំណុំទិន្នន័យពិសេសៗដូចជា TIMIT, SCRIBE-TIMIT និងទិន្នន័យថតចលនាបញ្ចេញសំឡេងដោយផ្ទាល់ MOCHA (EMA data) ដែលមានតម្លៃថ្លៃក្នុងការបង្កើត។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅខាងផ្នែកសូរសព្ទវិទ្យា (Phonetics) ការវិភាគសញ្ញា (Signal Processing) និងការរៀនម៉ាស៊ីន (Machine Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យភាសាអង់គ្លេស (TIMIT, SCRIBE-TIMIT, MOCHA) ពីអ្នកនិយាយភាសាអង់គ្លេសចក្រភពអង់គ្លេស និងអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ព្រោះភាសាខ្មែរមានរចនាសម្ព័ន្ធខុសគ្នាស្រឡះ មានព្យញ្ជនៈតម្រួត ស្រៈច្រើនប្រភេទ និងមិនសង្កត់សំឡេងខ្យល់ (Unaspirated vs Aspirated) ដូចអង់គ្លេសឡើយ ដែលធ្វើឱ្យម៉ូដែលជីវមេកានិកនេះត្រូវការការកែតម្រូវទ្រង់ទ្រាយធំ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីបើមានឧបសគ្គផ្នែកទិន្នន័យភាសា បច្ចេកទេសបំប្លែងចលនាបញ្ចេញសំឡេង (Articulatory Inversion) នេះនៅតែមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធ ASR ភាសាខ្មែរ។

ប្រព័ន្ធបម្រើសេវាកម្មអតិថិជន (Call Centers): ស្ថាប័នទូរគមនាគមន៍ (ឧទាហរណ៍ Smart, Cellcard) ឬធនាគារ (ឧទាហរណ៍ ABA, ACLEDA) អាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីកសាងប្រព័ន្ធឆ្លើយតបអូតូម៉ាតិក (Voice Bot) ដែលមានភាពធន់ខ្ពស់ទោះជាអតិថិជនទូរស័ព្ទពីទីតាំងមានសំឡេងរំខានខ្លាំងដូចជាតាមដងផ្លូវ ឬចំណតឡានក្រុងក៏ដោយ។
ការអភិវឌ្ឍសំណុំទិន្នន័យកាយវិការសូរសព្ទភាសាខ្មែរ (Khmer Articulatory Database): សាកលវិទ្យាល័យ ឬវិទ្យាស្ថានស្រាវជ្រាវ (ដូចជា RUPP ឬ NIPTICT) អាចប្រើប្រាស់កម្មវិធី Speech Synthesizer ដើម្បីធ្វើការក្លែងធ្វើ (Simulate) ចលនាអណ្តាត និងបបូរមាត់របស់ការនិយាយភាសាខ្មែរ ជាជាងការចំណាយលុយទិញឧបករណ៍ EMA ដែលមានតម្លៃថ្លៃ។
ឧបករណ៍ជំនួយការបញ្ចេញសំឡេង (Speech Therapy & Education): អាចប្រើជាមូលដ្ឋានក្នុងការបង្កើតកម្មវិធីទូរស័ព្ទសម្រាប់ជំនួយដល់កុមារ ឬអ្នករៀនភាសាខ្មែរ ដើម្បីកែតម្រូវការប្រកបពាក្យ តាមរយៈការបង្ហាញគំរូចលនាអណ្តាត (2-D Vocal Tract) លើអេក្រង់។

ជារួម ការប្រើប្រាស់ចំណេះដឹងពីការផលិតសំឡេងពិតប្រាកដ (Speech Production Knowledge) អាចជាកូនសោរដ៏សំខាន់មួយក្នុងការដោះស្រាយបញ្ហាសម្គាល់សំឡេងមិនច្បាស់នៅក្នុងបរិស្ថានជាក់ស្តែងនៃប្រទេសកម្ពុជា ទោះបីជាត្រូវទាមទារការស្រាវជ្រាវបឋមច្រើនលើសូរសព្ទខ្មែរក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះសូរសព្ទវិទ្យា និងការវិភាគសំឡេង: និស្សិតគួរចាប់ផ្តើមស្វែងយល់អំពីការផលិតសំឡេងរបស់មនុស្ស និងរៀនប្រើប្រាស់កម្មវិធី PRAAT ដើម្បីវិភាគ Formants, Spectrogram និងទាញយកទិន្នន័យសូរសព្ទមូលដ្ឋានពីសំឡេងភាសាខ្មែរ។
ស្វែងយល់ និងអនុវត្តកសាង Baseline: ធ្វើការដំឡើង និងរៀនប្រើប្រាស់កញ្ចប់កម្មវិធី HTK (Hidden Markov Model Toolkit) ដើម្បីសាកល្បងបង្កើតម៉ូដែលសម្គាល់សំឡេង HMM ដោយប្រើលក្ខណៈ MFCC ជាមួយទិន្នន័យសំឡេងខ្មែរខ្នាតតូច។
ការកសាងម៉ូដែល Deep Learning: សិក្សាអំពីការសរសេរកូដម៉ូដែល RNN និង MLP ដោយប្រើប្រាស់ Framework ទំនើបៗដូចជា PyTorch ឬ TensorFlow ដើម្បីជំនួសរចនាសម្ព័ន្ធចាស់ៗនៅក្នុងការកសាងម៉ូដែល ASR ។
សាកល្បងជាមួយកម្មវិធីក្លែងសំឡេង (Speech Synthesizer): រៀនប្រើប្រាស់កម្មវិធីក្លែងសំឡេង VocalTractLab ឬ Boersma's Articulatory Synthesizer ដើម្បីស្វែងយល់ពីរបៀបបំប្លែងប៉ារ៉ាម៉ែត្រកាយវិការបញ្ចេញសំឡេង (Articulatory parameters) ទៅជាទិន្នន័យសំឡេង (Acoustic data) ដោយមិនចាំបាច់មានឧបករណ៍កត់ត្រា EMA ថ្លៃៗ។
អនុវត្តការស្រាវជ្រាវលើភាសាខ្មែរ (Khmer Articulatory Inversion): ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (ព្យញ្ជនៈ និងស្រៈ) រួចធ្វើការបង្ហាត់ម៉ូដែល Neural Network ដើម្បីប៉ាន់ស្មានទម្រង់អណ្តាត និងបបូរមាត់ (Articulatory features) ពីទិន្នន័យសំឡេង (Acoustic signal) ហើយវាស់ស្ទង់មើលថាតើវាអាចទប់ទល់នឹងសំឡេងរំខានបានកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Articulatory Phonetic Inversion	គឺជាដំណើរការគណនាបញ្ច្រាសនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដើម្បីទាញយកព័ត៌មានពីចលនានៃសរីរាង្គបញ្ចេញសំឡេង (ដូចជាទម្រង់អណ្តាត ឬបបូរមាត់) ដោយផ្អែកលើទិន្នន័យរលកសំឡេងដែលបានថតទុក ក្នុងគោលបំណងជួយឱ្យប្រព័ន្ធសម្គាល់សំឡេងមានភាពធន់នឹងសំឡេងរំខាន។	ដូចជាការស្តាប់ស្នូរជើងសេះរត់ រួចអាចទាយដឹងថាវាកំពុងបោលក្នុងល្បឿន និងកាយវិការបែបណាអញ្ចឹងដែរ។
Hidden Markov Model (HMM)	គឺជាម៉ូដែលស្ថិតិដែលប្រព័ន្ធកុំព្យូទ័រប្រើសម្រាប់ទស្សន៍ទាយលំដាប់នៃពាក្យ ឬសូរសព្ទដែលកំបាំង (អ្វីដែលមនុស្សចង់និយាយពិតប្រាកដ) តាមរយៈការវិភាគកាត់ស្មានលើលំដាប់នៃទិន្នន័យសំឡេងដែលប្រព័ន្ធអាចវាស់វែងបានជាបន្តបន្ទាប់។	ដូចជាការទស្សន៍ទាយអាកាសធាតុដែលយើងមិនអាចមើលឃើញផ្ទាល់ (ឧទាហរណ៍៖ អាកាសធាតុនៅលើភ្នំ) ដោយពឹងផ្អែកលើការសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សស្លៀកពាក់ចុះពីលើភ្នំនោះ។
Fuzzy Neural Network	គឺជាបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលរួមបញ្ចូលក្បួនតក្កវិជ្ជាស្រពិចស្រពិល (Fuzzy Logic) ដើម្បីរៀន និងធ្វើការសម្រេចចិត្តគ្រប់គ្រងប្រព័ន្ធរូបវន្តស្មុគស្មាញ (ដូចជាសាច់ដុំអណ្តាត) ដែលទិន្នន័យរបស់វាមានភាពមិនច្បាស់លាស់ ឬគ្មានព្រំដែនដាច់ខាត។	ដូចជាមនុស្សដែលពូកែវាយតម្លៃសភាពការណ៍ ដោយមិនត្រឹមតែគិតថា "ក្តៅ" ឬ "ត្រជាក់" ដាច់អហង្ការនោះទេ តែអាចយល់ពីកម្រិតលម្អិតដូចជា "ក្តៅល្មម" ឬ "ត្រជាក់ខ្លាំង" ដើម្បីធ្វើការសម្រេចចិត្តបានល្អបំផុត។
Mel Frequency Cepstral Coefficient (MFCC)	គឺជាក្បួនគណនាដើម្បីទាញយកលក្ខណៈពិសេសរបស់រលកសំឡេង (Acoustic features) ដោយធ្វើការបំប្លែងទិន្នន័យត្រាប់តាមប្រព័ន្ធស្តាប់ឮរបស់ត្រចៀកមនុស្ស (ដែលពូកែចាប់ប្រេកង់ទាបជាងប្រេកង់ខ្ពស់) ដើម្បីប្រាប់ម៉ាស៊ីនឱ្យស្គាល់ពីទម្រង់សំឡេងនិយាយ។	ដូចជាការប្រើប្រាស់តម្រងកញ្ចក់វ៉ែនតាពិសេស ដើម្បីច្រោះយកតែពណ៌ណាដែលភ្នែកមនុស្សងាយមើលឃើញ និងងាយចំណាំបំផុតសម្រាប់យកទៅវិភាគបន្ត។
Articulatory Synthesizer	គឺជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានប្រើប្រាស់ដើម្បីបង្កើតសំឡេងមនុស្សនិយាយ ដោយធ្វើការក្លែងធ្វើ (Simulate) នូវចលនារូបវន្តពិតៗនៃសរីរាង្គបញ្ចេញសំឡេង ដូចជាសាច់ដុំអណ្តាត បបូរមាត់ និងថ្គាម ជាជាងការយកបំណែកសំឡេងថតស្រាប់មកតភ្ជាប់គ្នា។	ដូចជាហ្គេម 3D អាយ៉ង ដែលបញ្ជាឱ្យតួអង្គកម្រើកមាត់ បើកថ្គាម និងបត់អណ្តាតដើម្បីបង្កើតជាសំឡេងនិយាយដោយផ្ទាល់។
Co-articulation	គឺជាបាតុភូតធម្មជាតិនៃការនិយាយ ដែលសូរសព្ទមួយត្រូវរងឥទ្ធិពលពីសូរសព្ទនៅខាងមុខ ឬខាងក្រោយវា ដែលធ្វើឱ្យទម្រង់កាយវិការមាត់ត្រូវផ្លាស់ប្តូររលូនចូលគ្នា ខុសពីការបញ្ចេញសំឡេងសូរសព្ទនោះតែឯង។	ដូចជាការសរសេរអក្សរផ្ចង់ ដែលរាងរៅនៃអក្សរនីមួយៗត្រូវកែប្រែបន្តិចបន្តួចដើម្បីអាចតភ្ជាប់កន្ទុយទៅអក្សរបន្ទាប់ឱ្យបានលឿននិងរលូន។
Voice Onset Time (VOT)	គឺជារង្វាស់រយៈពេលដែលគិតចាប់ពីការបើកសរីរាង្គបញ្ចេញសំឡេង (ឧទាហរណ៍៖ ការរបើកបបូរមាត់ពេលបញ្ចេញសំឡេង "ផ" ឬ "ប") រហូតដល់ខ្សែសំឡេង (Vocal Cords) ចាប់ផ្តើមញ័រ ដែលកត្តានេះជួយកុំព្យូទ័របែងចែកប្រភេទព្យញ្ជនៈខ្យល់ និងមិនមានខ្យល់បានយ៉ាងច្បាស់។	ដូចជារង្វាស់រយៈពេលរង់ចាំ ដែលយើងឃើញពន្លឺផ្លេកបន្ទោរហើយ មុនពេលយើងឮស្នូរទង្គិចនៃសំឡេងផ្គរលាន់មកដល់ត្រចៀក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖