Original Title: Thai Word Recognition Using Hybrid MLP-HMM
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសម្គាល់ពាក្យភាសាថៃដោយប្រើប្រព័ន្ធកូនកាត់ MLP-HMM

ចំណងជើងដើម៖ Thai Word Recognition Using Hybrid MLP-HMM

អ្នកនិពន្ធ៖ Maleerat Sodanil (King Mongkut’s University of Technology North Bangkok), Supot Nitsuwat (King Mongkut’s University of Technology North Bangkok), Choochart Haruechaiyasak (National Electronics and Computer Technology Center)

ឆ្នាំបោះពុម្ព៖ 2010, IJCSNS International Journal of Computer Science and Network Security

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការសម្គាល់សម្លេងនិយាយជាភាសាថៃ (Thai speech recognition) ដោយសារតែភាសាថៃជាភាសាដែលមានសំនៀង (tonal language) ដែលធ្វើឱ្យម៉ូដែល Hidden Markov Model (HMM) ធម្មតាពិបាកក្នុងការចាប់យកលក្ខណៈសម្លេង និងផ្តល់នូវការប៉ាន់ស្មានប្រូបាប៊ីលីតេបានច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខណ្ឌកូនកាត់ថ្មីមួយដែលរួមបញ្ចូលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) ប្រភេទ Multi-Layer Perceptrons (MLPs) ជាមួយនឹងម៉ូដែល HMM រួមទាំងការប្រើប្រាស់ព័ត៌មាននៃសំនៀងដើម្បីបង្កើនភាពត្រឹមត្រូវ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline HMM (GMM-HMM)
ប្រព័ន្ធគោល HMM ផ្អែកលើ GMM
ងាយស្រួលក្នុងការអនុវត្ត និងជាវិធីសាស្ត្រស្តង់ដារដែលមានស្រាប់សម្រាប់ការសម្គាល់សម្លេងនិយាយ។ មានដែនកំណត់ដោយសារការសន្មត់លើការចែកចាយទិន្នន័យតាមបែប Gaussian និងមិនសូវពូកែចាប់យកលក្ខណៈសម្លេងស្មុគស្មាញ។ អត្រាកំហុសពាក្យ (WER) ស្មើនឹង 25.6%។
MLP-HMM
ប្រព័ន្ធកូនកាត់ MLP-HMM (គ្មានចំណាត់ថ្នាក់សំនៀង)
បណ្តាញសរសៃប្រសាទ MLP អាចប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទបានច្បាស់លាស់ជាង និងមិនពឹងផ្អែកខ្លាំងលើការសន្មត់នៃការចែកចាយទិន្នន័យ។ ទាមទារថាមពលគណនាក្នុងការបង្វឹកបណ្តាញសរសៃប្រសាទច្រើនជាងម៉ូដែល GMM ធម្មតា។ អត្រាកំហុសពាក្យ (WER) ថយចុះមកត្រឹម 21.2%។
Tone + Baseline
ប្រព័ន្ធគោលរួមបញ្ចូលជាមួយលក្ខណៈសំនៀង (Tone Features)
បង្កើនភាពត្រឹមត្រូវដោយប្រើព័ត៌មាននៃកម្រិតសំនៀងបន្ថែមទៅលើទិន្នន័យសូរសព្ទ MFCC ធម្មតា។ នៅតែបន្តទទួលរងនូវដែនកំណត់របស់ម៉ូដែល GMM ក្នុងការធ្វើចំណាត់ថ្នាក់មិនមែនលីនេអ៊ែរ (non-linear classification)។ អត្រាកំហុសពាក្យ (WER) ថយចុះមកត្រឹម 20.3%។
Tone + MLP-HMM
ប្រព័ន្ធកូនកាត់ MLP-HMM បូករួមនឹងចំណាត់ថ្នាក់សំនៀង
ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលទាំងភាពខ្លាំងរបស់បណ្តាញ MLP ក្នុងការប៉ាន់ស្មានសូរសព្ទ និងសមត្ថភាពក្នុងការវិភាគសំនៀង។ មានភាពស្មុគស្មាញបំផុតក្នុងការរៀបចំរចនាសម្ព័ន្ធ និងទាមទារការបង្វឹកម៉ូដែលច្រើនដំណាក់កាល។ ទទួលបានលទ្ធផលល្អបំផុត ដោយមានអត្រាកំហុសពាក្យ (WER) ទាបបំផុតត្រឹមតែ 19.5%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែដោយផ្អែកលើការប្រើប្រាស់បណ្តាញសរសៃប្រសាទ វាទាមទារនូវកម្លាំងគណនានិងទិន្នន័យជាក់លាក់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យពីអ្នកនិយាយជនជាតិថៃចំនួន ១០ នាក់ប៉ុណ្ណោះ (ប្រុស ៥ ស្រី ៥) នៅក្នុងមន្ទីរពិសោធន៍ ដែលចំនួននេះគឺតូច និងមិនតំណាងឱ្យភាពចម្រុះនៃគ្រាមភាសាទូលំទូលាយនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទំហំទិន្នន័យតូចតាចបែបនេះអាចបណ្តាលឱ្យប្រព័ន្ធមិនអាចស្គាល់សម្លេងជនជាតិខ្មែរនៅតាមតំបន់ផ្សេងៗបានល្អនោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាភាសាខ្មែរមិនមែនជាភាសាដែលមានសំនៀង (Tonal language) ដូចភាសាថៃក៏ដោយ ក៏វិធីសាស្ត្រ MLP-HMM នេះនៅតែមានសារៈប្រយោជន៍ខ្ពស់សម្រាប់ការសម្គាល់ពាក្យខ្មែរ។

ជារួម ក្របខណ្ឌកូនកាត់ MLP-HMM នេះផ្តល់នូវគំរូដ៏រឹងមាំមួយសម្រាប់អ្នកស្រាវជ្រាវកម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធ AI ដែលអាចស្តាប់ និងយល់ភាសាខ្មែរបានកាន់តែច្បាស់លាស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងរៀបចំទិន្នន័យសម្លេង (Data Collection & Preprocessing): ចាប់ផ្តើមដោយការថតសម្លេងពាក្យខ្មែរជាមូលដ្ឋាន (ពាក្យព្យាង្គទោល និងពហុព្យាង្គ) ដោយប្រើប្រាស់កម្មវិធី Audacity ក្នុងទម្រង់ 22kHz, 16-bit ដូចការសិក្សានេះ រួចធ្វើការកត់ត្រា (transcribe) អត្ថបទឱ្យបានត្រឹមត្រូវតាមស្តង់ដារ IPA សម្រាប់ភាសាខ្មែរ។
  2. ទាញយកលក្ខណៈពិសេសនៃសម្លេង (Feature Extraction): សិក្សាប្រើប្រាស់កូដ Python ជាមួយបណ្ណាល័យ Librosa ដើម្បីទាញយកទិន្នន័យ MFCCs 39-dimensional ព្រមទាំងទាញយកប្រេកង់មូលដ្ឋាន (F0) និងថាមពលសម្លេង (Energy)។
  3. បង្កើតប្រព័ន្ធគោលដោយប្រើ HMM (Build Baseline Model): អនុវត្តការប្រើប្រាស់ HTK (Hidden Markov Model Toolkit) ដើម្បីបង្កើតម៉ូដែលគោល (Baseline GMM-HMM) ដោយតំណាងសូរសព្ទនីមួយៗជា 5-state left-to-right model ដើម្បីយកមកធ្វើជាគោលវាស់ស្ទង់ (Benchmark)។
  4. សាងសង់និងបង្វឹកបណ្តាញសរសៃប្រសាទ (Build & Train MLP Network): ប្រើប្រាស់ PyTorchTensorFlow ដើម្បីរចនាបណ្តាញ Multi-Layer Perceptron (MLP) ដែលយក Contextual frames (ឧ. ៩ ហ្វ្រេមជាប់គ្នា) ជា Input ដើម្បីទស្សន៍ទាយប្រូបាប៊ីលីតេសូរសព្ទ (Phoneme Posterior Probabilities)។
  5. ធ្វើសមាហរណកម្មប្រព័ន្ធ និងកាត់កូដ (Integrate Hybrid Model & Decoding): រួមបញ្ចូលលទ្ធផល Scaled Likelihood ពីបណ្តាញ MLP ទៅក្នុងប្រព័ន្ធ HMM វិញ ដោយប្រើក្បួន Viterbi Algorithm ជា Decoder ដើម្បីស្វែងរកលំដាប់ពាក្យដែលត្រឹមត្រូវបំផុត រួចប្រៀបធៀបអត្រាកំហុស (WER) ជាមួយប្រព័ន្ធគោល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model (HMM) ជាម៉ូដែលស្ថិតិដែលប្រើដើម្បីព្យាករណ៍ពីលំដាប់នៃព្រឹត្តិការណ៍ដែលយើងមិនអាចមើលឃើញ (hidden states) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតបាន។ ក្នុងប្រព័ន្ធសម្គាល់សម្លេង វាត្រូវបានប្រើដើម្បីទាយថាតើសញ្ញាសម្លេងដែលបានបញ្ចេញមកនោះ គឺជាលំដាប់នៃពាក្យ ឬសូរសព្ទអ្វីខ្លះ។ ដូចជាការទស្សន៍ទាយថាតើថ្ងៃនេះមិត្តភក្តិរបស់អ្នកមានអារម្មណ៍ល្អឬអត់ (លាក់កំបាំង) ដោយគ្រាន់តែសង្កេតមើលសកម្មភាពខាងក្រៅរបស់គាត់ដូចជាការញញឹម ឬការដើរ (អាចសង្កេតឃើញ)។
Multi-Layer Perceptrons (MLPs) ជាប្រភេទមួយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានស្រទាប់ច្រើន (input, hidden, និង output) ប្រើសម្រាប់រៀនធ្វើចំណាត់ថ្នាក់ទិន្នន័យដែលស្មុគស្មាញ។ ក្នុងឯកសារនេះ វាជួយគណនាប្រូបាប៊ីលីតេនៃសូរសព្ទ និងសំនៀងឱ្យបានច្បាស់លាស់។ ដូចជាក្រុមអ្នកវិភាគដែលមានច្រើនតំណែង ដោយម្នាក់ៗទទួលព័ត៌មាន បកស្រាយបន្តិច រួចបញ្ជូនទៅម្នាក់ទៀតជាបន្តបន្ទាប់ រហូតដល់បានការសន្និដ្ឋានចុងក្រោយដ៏ត្រឹមត្រូវមួយ។
MFCC feature vectors Mel-Frequency Cepstral Coefficients ជាបណ្តុំនៃទិន្នន័យលេខដែលតំណាងឱ្យលក្ខណៈពិសេសនៃសម្លេងរបស់មនុស្ស។ វាត្រូវបានគណនាដោយត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮប្រេកង់សម្លេង ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងកត់សម្គាល់ពីសម្លេងនោះបាន។ ដូចជាការបម្លែងរូបរាងមុខរបស់មនុស្សទៅជារង្វាស់ប្រវែងចន្លោះភ្នែកនិងច្រមុះ ដើម្បីឱ្យម៉ាស៊ីនស្កេនអាចចំណាំមុខនោះបាន គ្រាន់តែ MFCC នេះប្រើសម្រាប់ការសម្គាល់សម្លេង។
Viterbi algorithm ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់នៅក្នុងម៉ូដែល HMM ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃសូរសព្ទ (states) ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ឬសមហេតុផលបំផុត ផ្អែកលើបំណែកទិន្នន័យសម្លេងដែលម៉ាស៊ីនទទួលបាន។ ដូចជាការប្រើប្រាស់កម្មវិធី Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតនិងល្អបំផុតទៅកាន់គោលដៅ ដោយវាយតម្លៃលើគ្រប់ជម្រើសផ្លូវទាំងអស់។
Gaussian Mixture Models (GMMs) ជាម៉ូដែលប្រូបាប៊ីលីតេដែលសន្មត់ថាទិន្នន័យទាំងអស់កើតចេញពីការបូកបញ្ចូលគ្នានៃការចែកចាយបែប Gaussian (Normal distributions) ជាច្រើន។ វាតែងតែត្រូវបានប្រើជាប្រព័ន្ធគោលក្នុងប្រព័ន្ធ HMM ដើម្បីប៉ាន់ស្មានលក្ខណៈនៃការបញ្ចេញសម្លេង។ ដូចជាការសន្និដ្ឋានថា កម្ពស់របស់សិស្សក្នុងសាលាមួយ គឺជាការបូកបញ្ចូលគ្នានៃក្រុមសិស្សតូចៗជាច្រើនក្រុម (ក្រុមទាប ក្រុមកណ្តាល ក្រុមខ្ពស់) ជាជាងចាត់ទុកពួកគេជាក្រុមធំតែមួយ។
Word Error Rate ជារង្វាស់ស្តង់ដារដែលប្រើសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សម្លេង ដោយធ្វើការគណនាលើចំនួនពាក្យដែលម៉ាស៊ីនស្តាប់ខុស បាត់ ឬបន្ថែមលើស រួចបែងចែកនឹងចំនួនពាក្យសរុប។ ដូចជាការដាក់ពិន្ទុក្នុងការសរសេរតាមអាន (Dictation) ប្រសិនបើសិស្សសរសេរខុស២ពាក្យក្នុងចំណោម២០ពាក្យ នោះអត្រាកំហុសគឺ១០ភាគរយ។
Fundamental frequency (F0) ជាប្រេកង់ទាបបំផុតនៃរលកសម្លេងដែលបង្កើតឡើងដោយការញ័រនៃខ្សែសម្លេង (vocal cords) នៅពេលមនុស្សនិយាយ។ វាត្រូវបានប្រើប្រាស់ជាទិន្នន័យគោល ដើម្បីកំណត់ពីកម្រិតសំនៀង (Pitch/Tone) នៃពាក្យក្នុងភាសាដែលមានសំនៀងដូចជាភាសាថៃជាដើម។ ដូចជាកម្រិតសម្លេងក្រាស់ឬស្តើងនៅពេលអ្នកច្រៀង ដែលជួយឱ្យគេដឹងថាអ្នកកំពុងបញ្ចេញសម្លេងក្នុងកម្រិតខ្ពស់ឬទាប។
Continuous Density Hidden Markov Model (CDHMM) ជាប្រភេទមួយនៃ HMM ដែលប្រើប្រាស់អនុគមន៍ដង់ស៊ីតេប្រូបាប៊ីលីតេជាប់គ្នា (continuous probability density functions) ដើម្បីវាយតម្លៃប្រូបាប៊ីលីតេនៃសូរសព្ទ ជំនួសឱ្យការប្រើទិន្នន័យដាច់ៗពីគ្នា។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការពិពណ៌នាពីបម្រែបម្រួលនៃសម្លេង។ ដូចជាការវាស់សីតុណ្ហភាពដោយប្រើទែម៉ូម៉ែត្រដែលមានលេខលម្អិតជាប់គ្នារហូត (ឧ. 25.1, 25.2...) ជាជាងការគ្រាន់តែប្រាប់ជារួមថាក្តៅឬត្រជាក់ (ទិន្នន័យដាច់ៗ)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖