Original Title: Speech Recognition and Hidden Markov Model
Source: www.ijmra.us
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសម្គាល់សំឡេង និងម៉ូដែល Hidden Markov

ចំណងជើងដើម៖ Speech Recognition and Hidden Markov Model

អ្នកនិពន្ធ៖ Dr. Anuradha Kanade (Udayana University Denpasar)

ឆ្នាំបោះពុម្ព៖ 2018 International Journal of Management, IT & Engineering

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហានៃការបំប្លែងសញ្ញាសំឡេងអូឌីយ៉ូទៅជាអត្ថបទ (Text) តាមរយៈប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR) ដោយផ្តោតលើភាពស្មុគស្មាញនៃបច្ចេកវិទ្យានេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ (Review) ទៅលើវិធីសាស្ត្រ និងឧបករណ៍ផ្សេងៗដែលត្រូវបានប្រើប្រាស់ក្នុងដំណើរការសម្គាល់សំឡេង ជាពិសេសការយកគំរូតាមលក្ខណៈស្ថិតិរបស់ម៉ូដែល Hidden Markov (HMM)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Hidden Markov Model (HMM)
ម៉ូដែលម៉ាកូវលាក់កំបាំង
មានមូលដ្ឋានស្ថិតិរឹងមាំ អាចហ្វឹកហាត់ដោយស្វ័យប្រវត្តិ និងចាត់ចែងទិន្នន័យដែលមានប្រវែងប្រែប្រួលបានល្អ។ ទាមទារទិន្នន័យហ្វឹកហាត់ដែលមានចំណារពន្យល់ច្រេីន ហើយមានភាពស្មុគស្មាញខ្ពស់ក្នុងការសម្គាល់សំឡេងនិយាយជាប់ៗគ្នា (Continuous speech)។ ក្លាយជាបច្ចេកទេសស្ថិតិស្នូលដ៏ជោគជ័យនិងពេញនិយមបំផុតសម្រាប់ការសម្គាល់សំឡេងទូទៅ។
Artificial Neural Networks (ANN)
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត
អាចដោះស្រាយកិច្ចការសម្គាល់សំឡេងស្មុគស្មាញ ទិន្នន័យមានសំឡេងរំខាន និងមិនពឹងផ្អែកលើអ្នកនិយាយ (Speaker independence)។ មិនអាចពង្រីកទំហំបានល្អសម្រាប់វាក្យសព្ទធំៗ (Large vocabularies) បើធៀបនឹងម៉ូដែល HMM នោះទេ។ ផ្តល់ភាពសុក្រឹតខ្ពស់ជាង HMM សម្រាប់ការសម្គាល់សូរសព្ទ (Phoneme) និងវាក្យសព្ទដែលមានទំហំកំណត់។
Hybrid HMM-ANN
ប្រព័ន្ធកូនកាត់ HMM និង ANN
ទាញយកអត្ថប្រយោជន៍ពីសមត្ថភាពសម្គាល់សូរសព្ទរបស់ ANN និងសមត្ថភាពគ្រប់គ្រងលំដាប់ភាសារបស់ HMM ចូលគ្នា។ ទាមទារធនធានគណនា និងភាពស្មុគស្មាញក្នុងការតំឡើងប្រព័ន្ធច្រើនជាងការប្រើម៉ូដែលទោល។ ជួយបង្កើនអត្រានៃការសម្គាល់ពាក្យបានយ៉ាងពិតប្រាកដ ជាពិសេសសម្រាប់ពាក្យដាច់ដោយឡែក (Isolated words)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ ឬទំហំផ្នែករឹងជាក់លាក់នាពេលបច្ចុប្បន្ននោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់យ៉ាងច្បាស់លើតម្រូវការទិន្នន័យសម្រាប់ការហ្វឹកហាត់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការពិនិត្យឡើងវិញនូវប្រវត្តិ និងទ្រឹស្តីទូទៅ ដោយផ្អែកលើការស្រាវជ្រាវនៅបស្ចិមប្រទេស (ដូចជាគម្រោងរបស់ DARPA និង IBM)។ វាមិនមានការបញ្ជាក់ពីការសាកល្បងលើភាសាដែលមានធនធានតិចតួចឡើយ ដែលនេះជាបញ្ហាប្រឈមសម្រាប់កម្ពុជាដែលត្រូវការសំណុំទិន្នន័យភាសាខ្មែរ (Khmer Corpus) ធំៗដើម្បីឲ្យម៉ូដែលទាំងនេះដំណើរការបានល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនៅក្នុងឯកសារនេះ គឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់អ្នកស្រាវជ្រាវនៅកម្ពុជាដើម្បីអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ឲ្យមានភាពច្បាស់លាស់។

ការយល់ដឹងពីការប្រើប្រាស់ម៉ូដែលកូនកាត់ HMM/ANN នឹងបើកផ្លូវដល់ការបង្កើតកម្មវិធី AI ឆ្លាតវៃដែលអាចស្តាប់និងយល់ភាសាខ្មែរបានយ៉ាងរលូនក្នុងបរិបទអាជីវកម្មនិងសង្គមជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីដំណើរការសញ្ញាសំឡេង (Speech Signal Processing): ផ្តើមពីការរៀនបំប្លែងសញ្ញាសំឡេងអូឌីយ៉ូទៅជាទិន្នន័យឌីជីថល ដោយប្រើបច្ចេកទេសទាញយកលក្ខណៈពិសេសដូចជា MFCC (Mel-frequency cepstral coefficients) តាមរយៈភាសាកម្មវិធី Python និងបណ្ណាល័យ Librosa
  2. ស្វែងយល់ពីម៉ូដែល HMM និងស្ថិតិ: សិក្សាអំពីការកសាងម៉ូដែល Hidden Markov Model និងការប្រើប្រាស់ Viterbi Algorithm ដើម្បីយល់ពីរបៀបដែលប្រព័ន្ធគណនាប្រូបាប៊ីលីតេ និងស្វែងរកពាក្យដែលត្រឹមត្រូវបំផុតពីសញ្ញាសំឡេង។
  3. ប្រមូល និងរៀបចំទិន្នន័យភាសាខ្មែរ (Data Annotation): ចាប់ផ្តើមប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ និងធ្វើចំណារពន្យល់អត្ថបទ (Annotate) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Praat សម្រាប់ស្រាវជ្រាវសូរសព្ទ ដើម្បីបង្កើតសំណុំទិន្នន័យដែលមានគុណភាពសម្រាប់ការហ្វឹកហាត់។
  4. អភិវឌ្ឍប្រព័ន្ធកូនកាត់ (Hybrid HMM/ANN Development): អនុវត្តការកសាងប្រព័ន្ធសម្គាល់សំឡេងកម្រិតខ្ពស់ ដោយប្រើប្រាស់ឧបករណ៍ Kaldi Speech Recognition ToolkitPyTorch ដើម្បីរួមបញ្ចូល HMM ជាមួយ Neural Networks សម្រាប់បង្កើនភាពសុក្រឹតនៃម៉ូដែល។
  5. វាយតម្លៃ និងកែលម្អម៉ូដែល (Model Evaluation): ធ្វើតេស្តម៉ូដែលរបស់អ្នកក្នុងបរិស្ថានពិតប្រាកដ (ឧទាហរណ៍៖ កន្លែងមានសំឡេងរំខាន) និងវាស់វែងប្រសិទ្ធភាពដោយប្រើប្រាស់រង្វាស់ Word Error Rate (WER) រួចធ្វើការកែសម្រួលលក្ខណៈពិសេស (Feature optimization) ជាបន្តបន្ទាប់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model (HMM) ម៉ូដែលស្ថិតិដែលប្រើដើម្បីទស្សន៍ទាយលំដាប់លំដោយនៃស្ថានភាពដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់ (Hidden states) ដោយធ្វើការវិភាគទៅលើទិន្នន័យដែលយើងអាចសង្កេតនិងវាស់វែងបាន (Observations) ដូចជាសញ្ញាសំឡេងជាដើម។ ដូចជាការទស្សន៍ទាយថាអាកាសធាតុថ្ងៃនេះមានភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សដើរតាមផ្លូវកាន់ឆ័ត្រឬពាក់អាវភ្លៀងដែរឬទេ។
Automatic Speech Recognition (ASR) បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអាចស្តាប់ វិភាគ និងបំប្លែងរលកសំឡេងនិយាយរបស់មនុស្សទៅជាទម្រង់អត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ។ ដូចជាលេខាធិការម្នាក់ដែលអង្គុយស្តាប់អ្នកនិយាយ រួចវាយអត្ថបទតាមពាក្យដែលអ្នកបាននិយាយនោះចូលទៅក្នុងកុំព្យូទ័រភ្លាមៗ។
Dynamic Time Warping (DTW) ក្បួនដោះស្រាយសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងសញ្ញាសំឡេងពីរ ដែលមានល្បឿន ឬប្រវែងពេលវេលាខុសគ្នា (ឧទាហរណ៍៖ មនុស្សពីរនាក់និយាយពាក្យដដែល តែម្នាក់និយាយលឿន ម្នាក់ទៀតនិយាយយឺត)។ ដូចជាការយកខ្សែយឺតពីរខ្សែមកទាញពន្លូតឲ្យមានប្រវែងស្មើគ្នា ដើម្បីប្រៀបធៀបមើលថាតើវាមានពណ៌និងក្បាច់ដូចគ្នាដែរឬទេ។
Cepstral coefficients តម្លៃលេខដែលតំណាងឱ្យលក្ខណៈពិសេសនៃរលកសំឡេង (Acoustic features) ដែលត្រូវបានទាញយកតាមរយៈការបំប្លែងគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលប្រៀបធៀបនិងចំណាំទម្រង់នៃសំឡេងនោះ។ ដូចជាការដកស្រង់យកតែលក្ខណៈពិសេសនៃស្នាមម្រាមដៃរបស់មនុស្សម្នាក់ៗ ដើម្បីងាយស្រួលក្នុងការផ្ទៀងផ្ទាត់និងស្វែងរកអត្តសញ្ញាណ។
Viterbi algorithm ក្បួនដោះស្រាយគណិតវិទ្យាដែលត្រូវបានប្រើយ៉ាងទូលំទូលាយក្នុងម៉ូដែល HMM សម្រាប់គណនា និងស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃស្ថានភាពដែលត្រឹមត្រូវនិងមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ពីទិន្នន័យសំឡេង។ ដូចជាការប្រើប្រាស់កម្មវិធីផែនទី (Google Maps) ដើម្បីគណនា និងស្វែងរកផ្លូវដែលលឿន និងមានប្រសិទ្ធភាពបំផុតក្នុងការធ្វើដំណើរពីចំណុចមួយទៅចំណុចមួយទៀត។
Artificial Neural Networks (ANN) ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដោយយកគំរូតាមបណ្ដាញសរសៃប្រសាទខួរក្បាលរបស់មនុស្ស ដើម្បីរៀនចំណាំទម្រង់ទិន្នន័យ និងដោះស្រាយបញ្ហាស្មុគស្មាញដូចជាការសម្គាល់សំឡេងដែលមិនច្បាស់។ ដូចជាការបង្រៀនកូនក្មេងឲ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបភាពសត្វឆ្កែជាច្រើនដងរហូតដល់ក្មេងនោះចំណាំលក្ខណៈរបស់វាបានដោយខ្លួនឯង។
Gaussian distributions ការចែកចាយទិន្នន័យតាមបែបស្ថិតិដែលមានរាងដូចជួង (Bell curve) ដែលក្នុងបច្ចេកវិទ្យាសម្គាល់សំឡេង វាត្រូវបានប្រើដើម្បីគណនាប្រូបាប៊ីលីតេនៃលក្ខណៈពិសេសរបស់សំឡេងនៅក្នុងស្ថានភាពនីមួយៗរបស់ម៉ូដែល។ ដូចជាការវាស់កម្ពស់សិស្សក្នុងថ្នាក់ ដែលសិស្សភាគច្រើនមានកម្ពស់មធ្យម (នៅកណ្តាលជួង) ហើយសិស្សខ្ពស់ពេកឬទាបពេកមានចំនួនតិចតួចនៅសងខាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖