Original Title: DEEP REINFORCEMENT LEARNING WITH HIDDEN MARKOV MODEL FOR SPEECH RECOGNITION
Source: doi.org/10.26480/jtin.01.2023.01.05
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងស៊ីជម្រៅជាមួយម៉ូដែល Hidden Markov សម្រាប់ការសម្គាល់សំឡេង

ចំណងជើងដើម៖ DEEP REINFORCEMENT LEARNING WITH HIDDEN MARKOV MODEL FOR SPEECH RECOGNITION

អ្នកនិពន្ធ៖ Samson Isaac, Department of Computer Science, Kaduna State University, Kaduna, Nigeria, Khalid Haruna, Department of Computer Science, Kaduna State University, Kaduna, Nigeria, Muhammad Aminu Ahmad, Department of Computer Science, Kaduna State University, Kaduna, Nigeria, Rabi Mustapha, Department of Computer Science, Kaduna State University, Kaduna, Nigeria

ឆ្នាំបោះពុម្ព៖ 2023, Journal of Technology & Innovation (JTIN)

វិស័យសិក្សា៖ Computer Science, Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេង (Speech Recognition) សម្រាប់គ្រាមភាសាក្នុងស្រុករបស់ប្រទេសនីហ្សេរីយ៉ា ជាពិសេសការបកប្រែពាក្យនិយាយជាភាសា Hausa, Igbo និង Yoruba ទៅជាអត្ថបទ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់បច្ចេកទេសស្រង់លក្ខណៈពិសេសនៃសំឡេងរួមបញ្ចូលគ្នាជាមួយបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដើម្បីបង្កើតម៉ូដែលសម្គាល់សំឡេងប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

ការស្រង់យកលក្ខណៈពិសេសនៃរលកសំឡេងដោយប្រើ MFCC (Mel-Frequency Cepstral-Coefficient)
ការសិក្សាពីការពឹងផ្អែករយៈពេលវែងនៃទិន្នន័យជាស៊េរីដោយប្រើប្រាស់បណ្តាញ LSTM (Long-Short-Time-Memory)
ការបណ្តុះបណ្តាល និងការទស្សន៍ទាយលំដាប់ពាក្យដោយប្រើម៉ូដែល HMM (Hidden Markov Model)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធកូនកាត់ដែលបានស្នើឡើង (LSTM-HMM) សម្រេចបានអត្រាភាពត្រឹមត្រូវរហូតដល់ ៩៦,៦២% លើសំណុំទិន្នន័យសំឡេងភាសា Hausa, Igbo និង Yoruba ។
ម៉ូដែលថ្មីនេះបង្ហាញពីអត្រាបរាជ័យទាប (Low miss rate) និងមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយវាក្យសព្ទនៃក្រុមផ្លែឈើផ្សេងៗ។
លទ្ធផលនៃការស្រាវជ្រាវនេះនឹងជួយជំរុញការអភិវឌ្ឍកម្មវិធីសំឡេងស្វ័យប្រវត្តិឲ្យកាន់តែប្រសើរ និងផ្តល់អត្ថប្រយោជន៍យ៉ាងធំធេងដល់ការសិក្សាស្រាវជ្រាវក្នុងវិស័យដំណើរការភាសាធម្មជាតិ (NLP)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
MAP-GD-HMM (Samr & Nizar, 2021) ម៉ូដែល MAP-GD-HMM	ទទួលបានភាពត្រឹមត្រូវខ្ពស់គួរសមសម្រាប់ការសម្គាល់សំឡេង។ ម៉ូដែលនេះប្រើប្រាស់វិធីសាស្ត្រស្ថិតិដែលងាយស្រួលយល់ និងបកស្រាយបាន។	មិនមានសមត្ថភាពរៀនពីទំនាក់ទំនងទិន្នន័យដែលមានរយៈពេលវែង (Long-term dependencies) បានល្អដូចបច្ចេកវិទ្យា Deep Learning នោះទេ។	ទទួលបានភាពត្រឹមត្រូវ ៩៣,៣៣% លើសំណុំទិន្នន័យ TIMIT។
LSTM-CTC (Graves & Jaitly, 2014) ម៉ូដែល LSTM-CTC	មានសមត្ថភាពខ្ពស់ក្នុងការរៀនពីទិន្នន័យជាស៊េរី និងដំណើរការលំដាប់សំឡេងបានយ៉ាងល្អដោយប្រើប្រាស់បណ្តាញ LSTM។	អត្រាកំហុសពាក្យ (WER) នៅតែមានកម្រិតខ្ពស់ ប្រសិនបើមិនមានការរួមបញ្ចូលជាមួយទម្រង់ភាសា (Language Model) ត្រឹមត្រូវ។	មានអត្រាកំហុសពាក្យ (WER) ៨,២% នៅពេលប្រើទម្រង់ភាសា និង ២៧,៣% នៅពេលមិនប្រើទម្រង់ភាសា។
Ours (LSTM-HMM) ម៉ូដែលស្នើឡើង (LSTM-HMM) ផ្សំជាមួយ MFCC	រួមបញ្ចូលចំណុចខ្លាំងរបស់ MFCC សម្រាប់ការទាញយកលក្ខណៈសំឡេងរួមជាមួយប្រព័ន្ធ LSTM និង HMM ធ្វើឲ្យមានអត្រាបរាជ័យទាប (Low miss rate) និងភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយវាក្យសព្ទឯកោ។	ការអភិវឌ្ឍប្រព័ន្ធទាំងមូលមានទំហំធំ ហើយអាចទាមទារការព្យាយាមច្រើនក្នុងការកំណត់ប៉ារ៉ាម៉ែត្ររវាង LSTM និង HMM ឲ្យស៊ីសង្វាក់គ្នា។	ទទួលបានភាពត្រឹមត្រូវ ៩៦,៦២% លើសំណុំទិន្នន័យសូរសព្ទភាសា Hausa, Igbo និង Yoruba សម្រាប់វាក្យសព្ទផ្លែឈើ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃ ឬធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់នោះទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ Deep Learning យើងអាចសន្និដ្ឋានពីតម្រូវការទូទៅបានដូចខាងក្រោម។

Hardware: ត្រូវការកុំព្យូទ័រដែលមានអង្គគណនាក្រាហ្វិក (GPU) ខ្លាំង ដើម្បីកាត់បន្ថយពេលវេលាក្នុងការហ្វឹកហាត់ម៉ូដែល LSTM ព្រមទាំងត្រូវការម៉ៃក្រូហ្វូនសម្រាប់ថតទិន្នន័យសំឡេង។
Software: ឧបករណ៍ដំណើរការកូដ និងបណ្ណាល័យ AI (ឧទាហរណ៍៖ Python, TensorFlow ឬ PyTorch) សម្រាប់រៀបចំបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត។
Dataset: ទិន្នន័យសំឡេងដែលថតច្បាស់លាស់ (ជាទម្រង់ WAV, MP4, ឬ WMA) ដែលមានអត្ថបទកត់ត្រាត្រឹមត្រូវ (Transcriptions) សម្រាប់បណ្តុះបណ្តាលម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងគ្រាមភាសាក្នុងស្រុករបស់ប្រទេសនីហ្សេរីយ៉ា (Hausa, Igbo និង Yoruba) ដោយផ្តោតលើពាក្យឯកោតំណាងឲ្យឈ្មោះផ្លែឈើ។ ចំណុចនេះមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរក៏ជាភាសាដែលមានធនធានទិន្នន័យឌីជីថលតិចតួច (Low-resource language) ដូចគ្នា ដែលទាមទារការប្រមូលទិន្នន័យដោយផ្ទាល់ និងតម្រូវតាមបរិបទភាសាក្នុងស្រុកដើម្បីឲ្យម៉ូដែលស្គាល់ច្បាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រស្រាវជ្រាវនេះមានសក្តានុពល និងអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាសម្គាល់សំឡេង (Speech Recognition) សម្រាប់ភាសាខ្មែរ។

វិស័យកសិកម្ម (Agricultural Sector): អាចយកទៅបង្កើតកម្មវិធីទូរស័ព្ទដៃដែលអនុញ្ញាតឲ្យកសិករខ្មែរនិយាយឈ្មោះដំណាំ ឬសត្វល្អិតជាភាសាខ្មែរ ដើម្បីស្វែងរកព័ត៌មានពីការដាំដុះដោយមិនចាំបាច់វាយអក្សរ។
សេវាកម្មបម្រើអតិថិជន (Customer Service Data Analytics): ការបង្កើតប្រព័ន្ធឆ្លើយតបសំឡេងស្វ័យប្រវត្តិ (Voice Bot) សម្រាប់ក្រុមហ៊ុនទូរគមនាគមន៍ (ឧ. Smart, Cellcard) ឬធនាគារក្នុងស្រុក ដើម្បីឆ្លើយតបសំនួរទូទៅជាភាសាខ្មែរ។
ឧបករណ៍ឆ្លាតវៃ (Smart Home/IoT): អាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីអភិវឌ្ឍឧបករណ៍វៃឆ្លាតដែលអាចស្តាប់ និងអនុវត្តតាមការបញ្ជាជាសូរសព្ទខ្មែរ សម្រួលដល់ជីវភាពរស់នៅប្រចាំថ្ងៃ។

ជារួម ការអនុវត្តម៉ូដែលកូនកាត់ LSTM-HMM នេះនឹងជួយជំរុញការប្រើប្រាស់ភាសាខ្មែរនៅក្នុងប្រព័ន្ធឌីជីថល និងជួយសម្រួលដល់ប្រជាជនដែលមិនសូវមានជំនាញក្នុងការវាយអក្សរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះការកែច្នៃសំឡេង (Audio Processing Fundamentals): រៀនអំពីរបៀបទាញយកលក្ខណៈពិសេសពីសំឡេងដោយប្រើ MFCC (Mel-Frequency Cepstral Coefficients) និងការអនុវត្តជាក់ស្តែងតាមរយៈបណ្ណាល័យ Librosa នៅក្នុង Python ដើម្បីបំប្លែងរលកសំឡេងទៅជាទិន្នន័យលេខ។
ប្រមូល និងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ (Khmer Voice Data Collection): រៀបចំយុទ្ធនាការប្រមូលទិន្នន័យសំឡេងពាក្យខ្លីៗជាភាសាខ្មែរ (ឧទាហរណ៍៖ លេខ ឈ្មោះខេត្ត ឬឈ្មោះផ្លែឈើ) ថតជាទម្រង់ .wav និងប្រើប្រាស់កម្មវិធីដូចជា Audacity ឬ Praat ដើម្បីកាត់ត និងធ្វើចំណារពន្យល់ (Labeling) ឲ្យបានច្បាស់លាស់។
កសាង និងហ្វឹកហាត់ម៉ូដែលកូនកាត់ (Build and Train Hybrid Model): សរសេរកូដកសាងម៉ូដែលដោយប្រើប្រាស់ LSTM សម្រាប់រៀនពីលំដាប់ទិន្នន័យ និងបញ្ចូលវាជាមួយ HMM ដោយប្រើប្រាស់ PyTorch ឬ TensorFlow ព្រមទាំងបណ្ណាល័យ hmmlearn។
វាយតម្លៃ និងធ្វើឲ្យប្រសើរឡើង (Model Evaluation & Optimization): វាស់ស្ទង់ប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកដោយផ្អែកលើអត្រាភាពត្រឹមត្រូវ (Accuracy) និងអត្រាកំហុសពាក្យ (WER) ព្រមទាំងសាកល្បងកែតម្រូវទំហំ Hyperparameters (ដូចជាចំនួន Hidden Layers ក្នុង LSTM) ដើម្បីទទួលបានលទ្ធផលកម្រិតខ្ពស់បំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deep Reinforcement Learning	ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិតដែលរួមបញ្ចូលគ្នារវាង Deep Learning និង Reinforcement Learning ដោយបង្រៀនកុំព្យូទ័រឲ្យចេះរៀនពីកំហុស និងទទួលបានរង្វាន់ (Reward) ជាពិន្ទុនៅពេលវាធ្វើសកម្មភាព ឬធ្វើការសម្រេចចិត្តបានត្រឹមត្រូវនៅក្នុងបរិស្ថានណាមួយ។	ដូចជាការបង្រៀនសត្វសុនខឲ្យចេះធ្វើតាមបញ្ជាដោយផ្តល់នំចំណីនៅពេលវាធ្វើត្រូវ និងមិនឲ្យនំនៅពេលវាធ្វើខុស ដើម្បីឲ្យវារៀនកែប្រែកំហុសខ្លួនឯងបន្តិចម្តងៗ។
Hidden Markov Model	ជាម៉ូដែលស្ថិតិដែលប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពអនាគតដោយពឹងផ្អែកតែលើស្ថានភាពបច្ចុប្បន្ន មិនមែនប្រវត្តិអតីតកាលទាំងមូលនោះទេ។ នៅក្នុងប្រព័ន្ធ ASR វាត្រូវបានគេប្រើដើម្បីស្វែងរកលំដាប់ពាក្យដែលលាក់កំបាំងដោយវិភាគលើទិន្នន័យសំឡេងដែលវាទទួលបាន។	ដូចជាការទាយថាថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ឬអត់ ដោយមើលតែលើអាកាសធាតុថ្ងៃនេះ ជំនួសឲ្យការមើលរបាយការណ៍អាកាសធាតុពេញមួយខែកន្លងមក។
Long-Short-Time-Memory	ជាប្រភេទមួយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលក្នុងរយៈពេលវែង និងអាចរៀនពីទំនាក់ទំនងរវាងទិន្នន័យដែលមានលក្ខណៈជាស៊េរី ឬលំដាប់លំដោយ ដូចជាលំដាប់នៃពាក្យនៅក្នុងប្រយោគ។	ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅរឿង ហើយអាចចងចាំតួអង្គ និងសាច់រឿងតាំងពីទំព័រដំបូងៗ ដើម្បីយល់ន័យនៃសាច់រឿងនៅក្នុងទំព័របច្ចុប្បន្ន។
Mel-Frequency Cepstral-Coefficient	ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរលកសំឡេង ដែលបំប្លែងសំឡេងទៅជាទិន្នន័យលេខដោយផ្អែកលើរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮប្រេកង់ផ្សេងៗគ្នា ដើម្បីឲ្យកុំព្យូទ័រអាចស្គាល់លក្ខណៈសម្គាល់នៃសំឡេងនីមួយៗ។	ដូចជាការចម្រាញ់យកតែចំណុចពិសេសៗនៃស្នាមម្រាមដៃរបស់មនុស្សម្នាក់ៗ ដើម្បីងាយស្រួលចំណាំថានរណាជានរណា។
Word Error Rate	ជារង្វាស់ស្តង់ដារមួយដែលប្រើសម្រាប់វាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សំឡេង ដោយគណនាពីភាគរយនៃពាក្យដែលប្រព័ន្ធទាយខុស (ដូចជាបាត់ពាក្យ ពាក្យលើស ឬបកប្រែពាក្យខុស) ធៀបនឹងពាក្យដែលត្រូវបាននិយាយពិតប្រាកដ។	ដូចជាការដាក់ពិន្ទុក្នុងការប្រឡងសរសេរតាមអាន ប្រសិនបើសិស្សសរសេរខុសកាន់តែតិច នោះពិន្ទុ (ឬប្រព័ន្ធ) គឺកាន់តែល្អ។
Natural Language Processing	ជាបច្ចេកវិទ្យាមួយដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចយល់ បកស្រាយ និងឆ្លើយតបទៅនឹងភាសារបស់មនុស្ស ទាំងជាទម្រង់អត្ថបទ និងទម្រង់សំឡេង។	ដូចជាការបណ្តុះបណ្តាលកុំព្យូទ័រឲ្យធ្វើជាអ្នកបកប្រែភាសា ដើម្បីជួយឲ្យមនុស្ស និងម៉ាស៊ីនអាចទំនាក់ទំនងគ្នាបានយល់។
Automatic Speech Recognition	ជាដំណើរការនៃការបំប្លែងរលកសំឡេងនៃការនិយាយរបស់មនុស្ស ទៅជាអត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ ដោយប្រើប្រាស់ក្បួនដោះស្រាយ និងម៉ូដែលកុំព្យូទ័រ។	ដូចជាអ្នកលេខាដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ ហើយវាយអត្ថបទបញ្ចូលក្នុងកុំព្យូទ័រភ្លាមៗ។
Gaussian Mixture Models	ជាម៉ូដែលប្រូបាប៊ីលីតេដែលសន្មតថាទិន្នន័យទាំងអស់ត្រូវបានបង្កើតឡើងចេញពីការបូកបញ្ចូលគ្នានៃរបាយ Gaussian (Normal distributions) មួយចំនួន។ នៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងជំនាន់ចាស់ វាត្រូវបានប្រើប្រាស់ជាទូទៅសម្រាប់ធ្វើការចំណាត់ថ្នាក់ទិន្នន័យសំឡេង មុនពេលមានវត្តមាន Deep Learning។	ដូចជាការញែកក្រុមមនុស្សរាប់រយនាក់នៅក្នុងបន្ទប់មួយទៅជាក្រុមតូចៗតាមកម្ពស់និងទម្ងន់របស់ពួកគេ ដើម្បីងាយស្រួលរៀបចំកន្លែងអង្គុយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖