Original Title: Speech Recognition and Hidden Markov Model
Source: www.ijmra.us
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសម្គាល់សំឡេង និងម៉ូដែល Hidden Markov

ចំណងជើងដើម៖ Speech Recognition and Hidden Markov Model

អ្នកនិពន្ធ៖ Dr. Anuradha Kanade (Udayana University Denpasar)

ឆ្នាំបោះពុម្ព៖ 2018 International Journal of Management, IT & Engineering

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហានៃការបំប្លែងសញ្ញាសំឡេងអូឌីយ៉ូទៅជាអត្ថបទ (Text) តាមរយៈប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR) ដោយផ្តោតលើភាពស្មុគស្មាញនៃបច្ចេកវិទ្យានេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ (Review) ទៅលើវិធីសាស្ត្រ និងឧបករណ៍ផ្សេងៗដែលត្រូវបានប្រើប្រាស់ក្នុងដំណើរការសម្គាល់សំឡេង ជាពិសេសការយកគំរូតាមលក្ខណៈស្ថិតិរបស់ម៉ូដែល Hidden Markov (HMM)។

ការទាញយកលក្ខណៈពិសេសនៃសញ្ញាសំឡេង (Feature Extraction) និងការប្រើប្រាស់វ៉ិចទ័រ (Cepstral Vectors)
ការប្រើប្រាស់បច្ចេកទេសតម្រៀបពេលវេលាថាមវន្ត (Dynamic Time Warping - DTW)
ការប្រើប្រាស់ម៉ូដែលស្ថិតិដើម្បីវាយតម្លៃប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរស្ថានភាព (Hidden Markov Model - HMM)
ការច្របាច់បញ្ចូលគ្នាជាមួយបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Networks - ANN)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល HMM គឺជាបច្ចេកទេសស្ថិតិដ៏មានប្រជាប្រិយភាពបំផុតសម្រាប់ការសម្គាល់សំឡេង ដោយសារវាមានមូលដ្ឋានស្ថិតិរឹងមាំ និងមានក្បួនដោះស្រាយការរៀនសូត្រ (Learning Algorithms) ប្រកបដោយប្រសិទ្ធភាពខ្ពស់។
ការសម្គាល់សំឡេងដែលនិយាយជាប់ៗគ្នា (Continuous Speech Recognition) មានភាពស្មុគស្មាញខ្លាំងជាងការសម្គាល់ពាក្យដាច់ដោយឡែក (Isolated Recognition) ដោយសារប្រព័ន្ធមិនដឹងពីចំណុចបញ្ចប់ និងចំនួនឯកតាសំឡេងសរុបនៅក្នុងប្រយោគ។
ទោះបីជា HMM មានភាពពេញនិយមក៏ពិតមែន ប៉ុន្តែប្រព័ន្ធកូនកាត់ដែលរួមបញ្ចូល HMM ជាមួយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Hybrid HMM/ANN) អាចផ្តល់នូវអត្រានៃការសម្គាល់និងភាពសុក្រឹតខ្ពស់ជាងការប្រើម៉ូដែល HMM តែមួយមុខ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Hidden Markov Model (HMM) ម៉ូដែលម៉ាកូវលាក់កំបាំង	មានមូលដ្ឋានស្ថិតិរឹងមាំ អាចហ្វឹកហាត់ដោយស្វ័យប្រវត្តិ និងចាត់ចែងទិន្នន័យដែលមានប្រវែងប្រែប្រួលបានល្អ។	ទាមទារទិន្នន័យហ្វឹកហាត់ដែលមានចំណារពន្យល់ច្រេីន ហើយមានភាពស្មុគស្មាញខ្ពស់ក្នុងការសម្គាល់សំឡេងនិយាយជាប់ៗគ្នា (Continuous speech)។	ក្លាយជាបច្ចេកទេសស្ថិតិស្នូលដ៏ជោគជ័យនិងពេញនិយមបំផុតសម្រាប់ការសម្គាល់សំឡេងទូទៅ។
Artificial Neural Networks (ANN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត	អាចដោះស្រាយកិច្ចការសម្គាល់សំឡេងស្មុគស្មាញ ទិន្នន័យមានសំឡេងរំខាន និងមិនពឹងផ្អែកលើអ្នកនិយាយ (Speaker independence)។	មិនអាចពង្រីកទំហំបានល្អសម្រាប់វាក្យសព្ទធំៗ (Large vocabularies) បើធៀបនឹងម៉ូដែល HMM នោះទេ។	ផ្តល់ភាពសុក្រឹតខ្ពស់ជាង HMM សម្រាប់ការសម្គាល់សូរសព្ទ (Phoneme) និងវាក្យសព្ទដែលមានទំហំកំណត់។
Hybrid HMM-ANN ប្រព័ន្ធកូនកាត់ HMM និង ANN	ទាញយកអត្ថប្រយោជន៍ពីសមត្ថភាពសម្គាល់សូរសព្ទរបស់ ANN និងសមត្ថភាពគ្រប់គ្រងលំដាប់ភាសារបស់ HMM ចូលគ្នា។	ទាមទារធនធានគណនា និងភាពស្មុគស្មាញក្នុងការតំឡើងប្រព័ន្ធច្រើនជាងការប្រើម៉ូដែលទោល។	ជួយបង្កើនអត្រានៃការសម្គាល់ពាក្យបានយ៉ាងពិតប្រាកដ ជាពិសេសសម្រាប់ពាក្យដាច់ដោយឡែក (Isolated words)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ ឬទំហំផ្នែករឹងជាក់លាក់នាពេលបច្ចុប្បន្ននោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់យ៉ាងច្បាស់លើតម្រូវការទិន្នន័យសម្រាប់ការហ្វឹកហាត់។

Dataset: ទាមទារទិន្នន័យសំឡេងដែលត្រូវបានកត់ត្រា និងមានចំណារពន្យល់ដោយដៃ (Annotated data/Manual markup) ក្នុងបរិមាណច្រើន និងមានគុណភាពខ្ពស់។
Software/Algorithm: ត្រូវការក្បួនដោះស្រាយសម្រាប់ដំណើរការលក្ខណៈពិសេសដូចជា Viterbi algorithm, Fourier transform, និងបច្ចេកទេស Discriminative training។
Hardware: ទាមទារម៉ាស៊ីនកុំព្យូទ័រដែលមានសមត្ថភាពដំណើរការខ្ពស់ (CPU/GPU) ជាពិសេសនៅពេលប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) និងវាក្យសព្ទខ្នាតធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការពិនិត្យឡើងវិញនូវប្រវត្តិ និងទ្រឹស្តីទូទៅ ដោយផ្អែកលើការស្រាវជ្រាវនៅបស្ចិមប្រទេស (ដូចជាគម្រោងរបស់ DARPA និង IBM)។ វាមិនមានការបញ្ជាក់ពីការសាកល្បងលើភាសាដែលមានធនធានតិចតួចឡើយ ដែលនេះជាបញ្ហាប្រឈមសម្រាប់កម្ពុជាដែលត្រូវការសំណុំទិន្នន័យភាសាខ្មែរ (Khmer Corpus) ធំៗដើម្បីឲ្យម៉ូដែលទាំងនេះដំណើរការបានល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនៅក្នុងឯកសារនេះ គឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់អ្នកស្រាវជ្រាវនៅកម្ពុជាដើម្បីអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ឲ្យមានភាពច្បាស់លាស់។

វិស័យទូរគមនាគមន៍ និងសេវាកម្មអតិថិជន: អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិ (Voicebots/IVR) ជាភាសាខ្មែរ សម្រាប់ក្រុមហ៊ុនទូរស័ព្ទដូចជា Cellcard ឬ Smart ដើម្បីសម្រួលដល់ការផ្តល់ព័ត៌មាន។
ប្រព័ន្ធរដ្ឋបាល និងតុលាការនៅកម្ពុជា: ជួយសម្រួលដល់ការកត់ត្រាកំណត់ហេតុប្រជុំ ឬការសួរចម្លើយ ដោយបំប្លែងសំឡេងនិយាយទៅជាអត្ថបទ (Speech-to-Text) ដោយស្វ័យប្រវត្តិ ចំណេញពេលវេលា។
បច្ចេកវិទ្យាអប់រំ និងជំនួយជនពិការ: ជួយសិស្សានុសិស្ស ឬជនពិការភ្នែកនៅកម្ពុជាក្នុងការប្រើប្រាស់កុំព្យូទ័រ ឬទូរស័ព្ទដៃតាមរយៈការបញ្ជាដោយសំឡេងជាភាសាជាតិដោយមិនចាំបាច់វាយអត្ថបទ។

ការយល់ដឹងពីការប្រើប្រាស់ម៉ូដែលកូនកាត់ HMM/ANN នឹងបើកផ្លូវដល់ការបង្កើតកម្មវិធី AI ឆ្លាតវៃដែលអាចស្តាប់និងយល់ភាសាខ្មែរបានយ៉ាងរលូនក្នុងបរិបទអាជីវកម្មនិងសង្គមជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីដំណើរការសញ្ញាសំឡេង (Speech Signal Processing): ផ្តើមពីការរៀនបំប្លែងសញ្ញាសំឡេងអូឌីយ៉ូទៅជាទិន្នន័យឌីជីថល ដោយប្រើបច្ចេកទេសទាញយកលក្ខណៈពិសេសដូចជា MFCC (Mel-frequency cepstral coefficients) តាមរយៈភាសាកម្មវិធី Python និងបណ្ណាល័យ Librosa។
ស្វែងយល់ពីម៉ូដែល HMM និងស្ថិតិ: សិក្សាអំពីការកសាងម៉ូដែល Hidden Markov Model និងការប្រើប្រាស់ Viterbi Algorithm ដើម្បីយល់ពីរបៀបដែលប្រព័ន្ធគណនាប្រូបាប៊ីលីតេ និងស្វែងរកពាក្យដែលត្រឹមត្រូវបំផុតពីសញ្ញាសំឡេង។
ប្រមូល និងរៀបចំទិន្នន័យភាសាខ្មែរ (Data Annotation): ចាប់ផ្តើមប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ និងធ្វើចំណារពន្យល់អត្ថបទ (Annotate) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Praat សម្រាប់ស្រាវជ្រាវសូរសព្ទ ដើម្បីបង្កើតសំណុំទិន្នន័យដែលមានគុណភាពសម្រាប់ការហ្វឹកហាត់។
អភិវឌ្ឍប្រព័ន្ធកូនកាត់ (Hybrid HMM/ANN Development): អនុវត្តការកសាងប្រព័ន្ធសម្គាល់សំឡេងកម្រិតខ្ពស់ ដោយប្រើប្រាស់ឧបករណ៍ Kaldi Speech Recognition Toolkit ឬ PyTorch ដើម្បីរួមបញ្ចូល HMM ជាមួយ Neural Networks សម្រាប់បង្កើនភាពសុក្រឹតនៃម៉ូដែល។
វាយតម្លៃ និងកែលម្អម៉ូដែល (Model Evaluation): ធ្វើតេស្តម៉ូដែលរបស់អ្នកក្នុងបរិស្ថានពិតប្រាកដ (ឧទាហរណ៍៖ កន្លែងមានសំឡេងរំខាន) និងវាស់វែងប្រសិទ្ធភាពដោយប្រើប្រាស់រង្វាស់ Word Error Rate (WER) រួចធ្វើការកែសម្រួលលក្ខណៈពិសេស (Feature optimization) ជាបន្តបន្ទាប់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model (HMM)	ម៉ូដែលស្ថិតិដែលប្រើដើម្បីទស្សន៍ទាយលំដាប់លំដោយនៃស្ថានភាពដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់ (Hidden states) ដោយធ្វើការវិភាគទៅលើទិន្នន័យដែលយើងអាចសង្កេតនិងវាស់វែងបាន (Observations) ដូចជាសញ្ញាសំឡេងជាដើម។	ដូចជាការទស្សន៍ទាយថាអាកាសធាតុថ្ងៃនេះមានភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សដើរតាមផ្លូវកាន់ឆ័ត្រឬពាក់អាវភ្លៀងដែរឬទេ។
Automatic Speech Recognition (ASR)	បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអាចស្តាប់ វិភាគ និងបំប្លែងរលកសំឡេងនិយាយរបស់មនុស្សទៅជាទម្រង់អត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ។	ដូចជាលេខាធិការម្នាក់ដែលអង្គុយស្តាប់អ្នកនិយាយ រួចវាយអត្ថបទតាមពាក្យដែលអ្នកបាននិយាយនោះចូលទៅក្នុងកុំព្យូទ័រភ្លាមៗ។
Dynamic Time Warping (DTW)	ក្បួនដោះស្រាយសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងសញ្ញាសំឡេងពីរ ដែលមានល្បឿន ឬប្រវែងពេលវេលាខុសគ្នា (ឧទាហរណ៍៖ មនុស្សពីរនាក់និយាយពាក្យដដែល តែម្នាក់និយាយលឿន ម្នាក់ទៀតនិយាយយឺត)។	ដូចជាការយកខ្សែយឺតពីរខ្សែមកទាញពន្លូតឲ្យមានប្រវែងស្មើគ្នា ដើម្បីប្រៀបធៀបមើលថាតើវាមានពណ៌និងក្បាច់ដូចគ្នាដែរឬទេ។
Cepstral coefficients	តម្លៃលេខដែលតំណាងឱ្យលក្ខណៈពិសេសនៃរលកសំឡេង (Acoustic features) ដែលត្រូវបានទាញយកតាមរយៈការបំប្លែងគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលប្រៀបធៀបនិងចំណាំទម្រង់នៃសំឡេងនោះ។	ដូចជាការដកស្រង់យកតែលក្ខណៈពិសេសនៃស្នាមម្រាមដៃរបស់មនុស្សម្នាក់ៗ ដើម្បីងាយស្រួលក្នុងការផ្ទៀងផ្ទាត់និងស្វែងរកអត្តសញ្ញាណ។
Viterbi algorithm	ក្បួនដោះស្រាយគណិតវិទ្យាដែលត្រូវបានប្រើយ៉ាងទូលំទូលាយក្នុងម៉ូដែល HMM សម្រាប់គណនា និងស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃស្ថានភាពដែលត្រឹមត្រូវនិងមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ពីទិន្នន័យសំឡេង។	ដូចជាការប្រើប្រាស់កម្មវិធីផែនទី (Google Maps) ដើម្បីគណនា និងស្វែងរកផ្លូវដែលលឿន និងមានប្រសិទ្ធភាពបំផុតក្នុងការធ្វើដំណើរពីចំណុចមួយទៅចំណុចមួយទៀត។
Artificial Neural Networks (ANN)	ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដោយយកគំរូតាមបណ្ដាញសរសៃប្រសាទខួរក្បាលរបស់មនុស្ស ដើម្បីរៀនចំណាំទម្រង់ទិន្នន័យ និងដោះស្រាយបញ្ហាស្មុគស្មាញដូចជាការសម្គាល់សំឡេងដែលមិនច្បាស់។	ដូចជាការបង្រៀនកូនក្មេងឲ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបភាពសត្វឆ្កែជាច្រើនដងរហូតដល់ក្មេងនោះចំណាំលក្ខណៈរបស់វាបានដោយខ្លួនឯង។
Gaussian distributions	ការចែកចាយទិន្នន័យតាមបែបស្ថិតិដែលមានរាងដូចជួង (Bell curve) ដែលក្នុងបច្ចេកវិទ្យាសម្គាល់សំឡេង វាត្រូវបានប្រើដើម្បីគណនាប្រូបាប៊ីលីតេនៃលក្ខណៈពិសេសរបស់សំឡេងនៅក្នុងស្ថានភាពនីមួយៗរបស់ម៉ូដែល។	ដូចជាការវាស់កម្ពស់សិស្សក្នុងថ្នាក់ ដែលសិស្សភាគច្រើនមានកម្ពស់មធ្យម (នៅកណ្តាលជួង) ហើយសិស្សខ្ពស់ពេកឬទាបពេកមានចំនួនតិចតួចនៅសងខាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖