Original Title: Articulatory Phonetic Features for Improved Speech Recognition
Source: gphuang.github.io
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

លក្ខណៈនៃការបញ្ចេញសូរសព្ទសម្រាប់ការធ្វើឱ្យប្រសើរឡើងនូវការសម្គាល់សំឡេងនិយាយ

ចំណងជើងដើម៖ Articulatory Phonetic Features for Improved Speech Recognition

អ្នកនិពន្ធ៖ Huang Guangpu (School of Electrical & Electronic Engineering, Nanyang Technological University)

ឆ្នាំបោះពុម្ព៖ 2012

វិស័យសិក្សា៖ Speech Processing and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសម្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR) បច្ចុប្បន្នជួបប្រទះបញ្ហាប្រឈមធំៗក្នុងការរក្សាភាពត្រឹមត្រូវ និងភាពធន់នៅពេលជួបប្រទះការប្រែប្រួលនៃការនិយាយរបស់អ្នកប្រើប្រាស់ និងសំឡេងរំខាន ដោយសារប្រព័ន្ធទាំងនេះពឹងផ្អែកតែលើលក្ខណៈសូរសព្ទ (Acoustic features) តែមួយមុខ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះដោះស្រាយបញ្ហាដោយការរួមបញ្ចូលចំណេះដឹងអំពីការបង្កើតសំឡេង (Speech production knowledge) តាមរយៈការបង្កើតម៉ូដែលបណ្ដាញសរសៃប្រសាទដើម្បីទាញយកលក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory features) ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
MFCC + HMM (CD tri-phone)
ម៉ូដែល MFCC រួមបញ្ចូលជាមួយ Hidden Markov Model ផ្អែកលើបរិបទ
ងាយស្រួលក្នុងការគណនា មានការស្រាវជ្រាវច្រើន និងជាប្រព័ន្ធស្តង់ដារដែលប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការសម្គាល់សំឡេង។ ខ្វះភាពធន់នៅពេលមានសំឡេងរំខាន (Noise) និងមិនមានសមត្ថភាពក្នុងការចាប់យកទំនាក់ទំនងប្រែប្រួលនៃចលនាបញ្ចេញសំឡេង (Articulatory dynamics) បានល្អនោះទេ។ ទទួលបានភាពត្រឹមត្រូវ ៥១,៩% (Best-1) និងមានអត្រាធ្លាក់ចុះគុណភាពប្រមាណ ១,០៤% ក្នុងមួយ dB ពេលមានសំឡេងរំខាន។
MFCC + RNN (1 delay)
ម៉ូដែល MFCC រួមបញ្ចូលជាមួយ Recurrent Neural Network
មានសមត្ថភាពរក្សាអង្គចងចាំរយៈពេលខ្លី (Short-term memory) ដើម្បីចាប់យកទំនាក់ទំនងទិន្នន័យតាមពេលវេលា (Temporal dynamics)។ នៅតែពឹងផ្អែកទាំងស្រុងលើលក្ខណៈសូរសព្ទ (Acoustic features) ដដែល ដែលធ្វើឱ្យវានៅតែងាយរងឥទ្ធិពលពីសំឡេងរំខានខាងក្រៅ។ ទទួលបានភាពត្រឹមត្រូវ ៦៨,៩% (Best-1) និងមានអត្រាធ្លាក់ចុះគុណភាព ១,០៦% ក្នុងមួយ dB។
BFCC + API (APF)
ម៉ូដែលប្រែត្រឡប់សូរសព្ទ (API) ប្រើប្រាស់លក្ខណៈពិសេសនៃការបញ្ចេញសំឡេង (APF) កាត់បន្ថយសំឡេងរំខានដោយ BFCC
មានភាពធន់ខ្ពស់បំផុតប្រឆាំងនឹងសំឡេងរំខាន និងអាចចាប់យកចលនានៃការបញ្ចេញសំឡេងបានយ៉ាងល្អតាមរយៈការប្រើប្រាស់ចំណេះដឹងពីការផលិតសំឡេងពិតរបស់មនុស្ស។ ទាមទារការព្យាករណ៍បំប្លែងត្រឡប់ (Inversion mapping) និងការកសាងទិន្នន័យសំយោគដែលមានភាពស្មុគស្មាញ រួមទាំងការប្រើប្រាស់ធនធានគណនាខ្ពស់សម្រាប់ Neural Networks ច្រើនតំណាក់កាល។ ទទួលបានភាពត្រឹមត្រូវ ៧៥,០% (Best-1) លើទិន្នន័យ TIMIT ជាមួយនឹងអត្រាធ្លាក់ចុះគុណភាពទាបបំផុតត្រឹមតែ ០,៩៥% ក្នុងមួយ dB ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់តួលេខជាក់លាក់អំពីទំហំ Hardware ក៏ដោយ ប៉ុន្តែការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទប្រភេទ RNN, MLP និង E-FNN ទាមទារធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យមទៅខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យភាសាអង់គ្លេស (TIMIT, SCRIBE-TIMIT, MOCHA) ពីអ្នកនិយាយភាសាអង់គ្លេសចក្រភពអង់គ្លេស និងអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ព្រោះភាសាខ្មែរមានរចនាសម្ព័ន្ធខុសគ្នាស្រឡះ មានព្យញ្ជនៈតម្រួត ស្រៈច្រើនប្រភេទ និងមិនសង្កត់សំឡេងខ្យល់ (Unaspirated vs Aspirated) ដូចអង់គ្លេសឡើយ ដែលធ្វើឱ្យម៉ូដែលជីវមេកានិកនេះត្រូវការការកែតម្រូវទ្រង់ទ្រាយធំ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីបើមានឧបសគ្គផ្នែកទិន្នន័យភាសា បច្ចេកទេសបំប្លែងចលនាបញ្ចេញសំឡេង (Articulatory Inversion) នេះនៅតែមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធ ASR ភាសាខ្មែរ។

ជារួម ការប្រើប្រាស់ចំណេះដឹងពីការផលិតសំឡេងពិតប្រាកដ (Speech Production Knowledge) អាចជាកូនសោរដ៏សំខាន់មួយក្នុងការដោះស្រាយបញ្ហាសម្គាល់សំឡេងមិនច្បាស់នៅក្នុងបរិស្ថានជាក់ស្តែងនៃប្រទេសកម្ពុជា ទោះបីជាត្រូវទាមទារការស្រាវជ្រាវបឋមច្រើនលើសូរសព្ទខ្មែរក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះសូរសព្ទវិទ្យា និងការវិភាគសំឡេង: និស្សិតគួរចាប់ផ្តើមស្វែងយល់អំពីការផលិតសំឡេងរបស់មនុស្ស និងរៀនប្រើប្រាស់កម្មវិធី PRAAT ដើម្បីវិភាគ Formants, Spectrogram និងទាញយកទិន្នន័យសូរសព្ទមូលដ្ឋានពីសំឡេងភាសាខ្មែរ។
  2. ស្វែងយល់ និងអនុវត្តកសាង Baseline: ធ្វើការដំឡើង និងរៀនប្រើប្រាស់កញ្ចប់កម្មវិធី HTK (Hidden Markov Model Toolkit) ដើម្បីសាកល្បងបង្កើតម៉ូដែលសម្គាល់សំឡេង HMM ដោយប្រើលក្ខណៈ MFCC ជាមួយទិន្នន័យសំឡេងខ្មែរខ្នាតតូច។
  3. ការកសាងម៉ូដែល Deep Learning: សិក្សាអំពីការសរសេរកូដម៉ូដែល RNN និង MLP ដោយប្រើប្រាស់ Framework ទំនើបៗដូចជា PyTorchTensorFlow ដើម្បីជំនួសរចនាសម្ព័ន្ធចាស់ៗនៅក្នុងការកសាងម៉ូដែល ASR ។
  4. សាកល្បងជាមួយកម្មវិធីក្លែងសំឡេង (Speech Synthesizer): រៀនប្រើប្រាស់កម្មវិធីក្លែងសំឡេង VocalTractLabBoersma's Articulatory Synthesizer ដើម្បីស្វែងយល់ពីរបៀបបំប្លែងប៉ារ៉ាម៉ែត្រកាយវិការបញ្ចេញសំឡេង (Articulatory parameters) ទៅជាទិន្នន័យសំឡេង (Acoustic data) ដោយមិនចាំបាច់មានឧបករណ៍កត់ត្រា EMA ថ្លៃៗ។
  5. អនុវត្តការស្រាវជ្រាវលើភាសាខ្មែរ (Khmer Articulatory Inversion): ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (ព្យញ្ជនៈ និងស្រៈ) រួចធ្វើការបង្ហាត់ម៉ូដែល Neural Network ដើម្បីប៉ាន់ស្មានទម្រង់អណ្តាត និងបបូរមាត់ (Articulatory features) ពីទិន្នន័យសំឡេង (Acoustic signal) ហើយវាស់ស្ទង់មើលថាតើវាអាចទប់ទល់នឹងសំឡេងរំខានបានកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Articulatory Phonetic Inversion គឺជាដំណើរការគណនាបញ្ច្រាសនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដើម្បីទាញយកព័ត៌មានពីចលនានៃសរីរាង្គបញ្ចេញសំឡេង (ដូចជាទម្រង់អណ្តាត ឬបបូរមាត់) ដោយផ្អែកលើទិន្នន័យរលកសំឡេងដែលបានថតទុក ក្នុងគោលបំណងជួយឱ្យប្រព័ន្ធសម្គាល់សំឡេងមានភាពធន់នឹងសំឡេងរំខាន។ ដូចជាការស្តាប់ស្នូរជើងសេះរត់ រួចអាចទាយដឹងថាវាកំពុងបោលក្នុងល្បឿន និងកាយវិការបែបណាអញ្ចឹងដែរ។
Hidden Markov Model (HMM) គឺជាម៉ូដែលស្ថិតិដែលប្រព័ន្ធកុំព្យូទ័រប្រើសម្រាប់ទស្សន៍ទាយលំដាប់នៃពាក្យ ឬសូរសព្ទដែលកំបាំង (អ្វីដែលមនុស្សចង់និយាយពិតប្រាកដ) តាមរយៈការវិភាគកាត់ស្មានលើលំដាប់នៃទិន្នន័យសំឡេងដែលប្រព័ន្ធអាចវាស់វែងបានជាបន្តបន្ទាប់។ ដូចជាការទស្សន៍ទាយអាកាសធាតុដែលយើងមិនអាចមើលឃើញផ្ទាល់ (ឧទាហរណ៍៖ អាកាសធាតុនៅលើភ្នំ) ដោយពឹងផ្អែកលើការសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សស្លៀកពាក់ចុះពីលើភ្នំនោះ។
Fuzzy Neural Network គឺជាបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលរួមបញ្ចូលក្បួនតក្កវិជ្ជាស្រពិចស្រពិល (Fuzzy Logic) ដើម្បីរៀន និងធ្វើការសម្រេចចិត្តគ្រប់គ្រងប្រព័ន្ធរូបវន្តស្មុគស្មាញ (ដូចជាសាច់ដុំអណ្តាត) ដែលទិន្នន័យរបស់វាមានភាពមិនច្បាស់លាស់ ឬគ្មានព្រំដែនដាច់ខាត។ ដូចជាមនុស្សដែលពូកែវាយតម្លៃសភាពការណ៍ ដោយមិនត្រឹមតែគិតថា "ក្តៅ" ឬ "ត្រជាក់" ដាច់អហង្ការនោះទេ តែអាចយល់ពីកម្រិតលម្អិតដូចជា "ក្តៅល្មម" ឬ "ត្រជាក់ខ្លាំង" ដើម្បីធ្វើការសម្រេចចិត្តបានល្អបំផុត។
Mel Frequency Cepstral Coefficient (MFCC) គឺជាក្បួនគណនាដើម្បីទាញយកលក្ខណៈពិសេសរបស់រលកសំឡេង (Acoustic features) ដោយធ្វើការបំប្លែងទិន្នន័យត្រាប់តាមប្រព័ន្ធស្តាប់ឮរបស់ត្រចៀកមនុស្ស (ដែលពូកែចាប់ប្រេកង់ទាបជាងប្រេកង់ខ្ពស់) ដើម្បីប្រាប់ម៉ាស៊ីនឱ្យស្គាល់ពីទម្រង់សំឡេងនិយាយ។ ដូចជាការប្រើប្រាស់តម្រងកញ្ចក់វ៉ែនតាពិសេស ដើម្បីច្រោះយកតែពណ៌ណាដែលភ្នែកមនុស្សងាយមើលឃើញ និងងាយចំណាំបំផុតសម្រាប់យកទៅវិភាគបន្ត។
Articulatory Synthesizer គឺជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានប្រើប្រាស់ដើម្បីបង្កើតសំឡេងមនុស្សនិយាយ ដោយធ្វើការក្លែងធ្វើ (Simulate) នូវចលនារូបវន្តពិតៗនៃសរីរាង្គបញ្ចេញសំឡេង ដូចជាសាច់ដុំអណ្តាត បបូរមាត់ និងថ្គាម ជាជាងការយកបំណែកសំឡេងថតស្រាប់មកតភ្ជាប់គ្នា។ ដូចជាហ្គេម 3D អាយ៉ង ដែលបញ្ជាឱ្យតួអង្គកម្រើកមាត់ បើកថ្គាម និងបត់អណ្តាតដើម្បីបង្កើតជាសំឡេងនិយាយដោយផ្ទាល់។
Co-articulation គឺជាបាតុភូតធម្មជាតិនៃការនិយាយ ដែលសូរសព្ទមួយត្រូវរងឥទ្ធិពលពីសូរសព្ទនៅខាងមុខ ឬខាងក្រោយវា ដែលធ្វើឱ្យទម្រង់កាយវិការមាត់ត្រូវផ្លាស់ប្តូររលូនចូលគ្នា ខុសពីការបញ្ចេញសំឡេងសូរសព្ទនោះតែឯង។ ដូចជាការសរសេរអក្សរផ្ចង់ ដែលរាងរៅនៃអក្សរនីមួយៗត្រូវកែប្រែបន្តិចបន្តួចដើម្បីអាចតភ្ជាប់កន្ទុយទៅអក្សរបន្ទាប់ឱ្យបានលឿននិងរលូន។
Voice Onset Time (VOT) គឺជារង្វាស់រយៈពេលដែលគិតចាប់ពីការបើកសរីរាង្គបញ្ចេញសំឡេង (ឧទាហរណ៍៖ ការរបើកបបូរមាត់ពេលបញ្ចេញសំឡេង "ផ" ឬ "ប") រហូតដល់ខ្សែសំឡេង (Vocal Cords) ចាប់ផ្តើមញ័រ ដែលកត្តានេះជួយកុំព្យូទ័របែងចែកប្រភេទព្យញ្ជនៈខ្យល់ និងមិនមានខ្យល់បានយ៉ាងច្បាស់។ ដូចជារង្វាស់រយៈពេលរង់ចាំ ដែលយើងឃើញពន្លឺផ្លេកបន្ទោរហើយ មុនពេលយើងឮស្នូរទង្គិចនៃសំឡេងផ្គរលាន់មកដល់ត្រចៀក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖