បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការសម្គាល់សម្លេងនិយាយជាភាសាថៃ (Thai speech recognition) ដោយសារតែភាសាថៃជាភាសាដែលមានសំនៀង (tonal language) ដែលធ្វើឱ្យម៉ូដែល Hidden Markov Model (HMM) ធម្មតាពិបាកក្នុងការចាប់យកលក្ខណៈសម្លេង និងផ្តល់នូវការប៉ាន់ស្មានប្រូបាប៊ីលីតេបានច្បាស់លាស់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខណ្ឌកូនកាត់ថ្មីមួយដែលរួមបញ្ចូលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) ប្រភេទ Multi-Layer Perceptrons (MLPs) ជាមួយនឹងម៉ូដែល HMM រួមទាំងការប្រើប្រាស់ព័ត៌មាននៃសំនៀងដើម្បីបង្កើនភាពត្រឹមត្រូវ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline HMM (GMM-HMM) ប្រព័ន្ធគោល HMM ផ្អែកលើ GMM |
ងាយស្រួលក្នុងការអនុវត្ត និងជាវិធីសាស្ត្រស្តង់ដារដែលមានស្រាប់សម្រាប់ការសម្គាល់សម្លេងនិយាយ។ | មានដែនកំណត់ដោយសារការសន្មត់លើការចែកចាយទិន្នន័យតាមបែប Gaussian និងមិនសូវពូកែចាប់យកលក្ខណៈសម្លេងស្មុគស្មាញ។ | អត្រាកំហុសពាក្យ (WER) ស្មើនឹង 25.6%។ |
| MLP-HMM ប្រព័ន្ធកូនកាត់ MLP-HMM (គ្មានចំណាត់ថ្នាក់សំនៀង) |
បណ្តាញសរសៃប្រសាទ MLP អាចប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទបានច្បាស់លាស់ជាង និងមិនពឹងផ្អែកខ្លាំងលើការសន្មត់នៃការចែកចាយទិន្នន័យ។ | ទាមទារថាមពលគណនាក្នុងការបង្វឹកបណ្តាញសរសៃប្រសាទច្រើនជាងម៉ូដែល GMM ធម្មតា។ | អត្រាកំហុសពាក្យ (WER) ថយចុះមកត្រឹម 21.2%។ |
| Tone + Baseline ប្រព័ន្ធគោលរួមបញ្ចូលជាមួយលក្ខណៈសំនៀង (Tone Features) |
បង្កើនភាពត្រឹមត្រូវដោយប្រើព័ត៌មាននៃកម្រិតសំនៀងបន្ថែមទៅលើទិន្នន័យសូរសព្ទ MFCC ធម្មតា។ | នៅតែបន្តទទួលរងនូវដែនកំណត់របស់ម៉ូដែល GMM ក្នុងការធ្វើចំណាត់ថ្នាក់មិនមែនលីនេអ៊ែរ (non-linear classification)។ | អត្រាកំហុសពាក្យ (WER) ថយចុះមកត្រឹម 20.3%។ |
| Tone + MLP-HMM ប្រព័ន្ធកូនកាត់ MLP-HMM បូករួមនឹងចំណាត់ថ្នាក់សំនៀង |
ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលទាំងភាពខ្លាំងរបស់បណ្តាញ MLP ក្នុងការប៉ាន់ស្មានសូរសព្ទ និងសមត្ថភាពក្នុងការវិភាគសំនៀង។ | មានភាពស្មុគស្មាញបំផុតក្នុងការរៀបចំរចនាសម្ព័ន្ធ និងទាមទារការបង្វឹកម៉ូដែលច្រើនដំណាក់កាល។ | ទទួលបានលទ្ធផលល្អបំផុត ដោយមានអត្រាកំហុសពាក្យ (WER) ទាបបំផុតត្រឹមតែ 19.5%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែដោយផ្អែកលើការប្រើប្រាស់បណ្តាញសរសៃប្រសាទ វាទាមទារនូវកម្លាំងគណនានិងទិន្នន័យជាក់លាក់។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យពីអ្នកនិយាយជនជាតិថៃចំនួន ១០ នាក់ប៉ុណ្ណោះ (ប្រុស ៥ ស្រី ៥) នៅក្នុងមន្ទីរពិសោធន៍ ដែលចំនួននេះគឺតូច និងមិនតំណាងឱ្យភាពចម្រុះនៃគ្រាមភាសាទូលំទូលាយនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទំហំទិន្នន័យតូចតាចបែបនេះអាចបណ្តាលឱ្យប្រព័ន្ធមិនអាចស្គាល់សម្លេងជនជាតិខ្មែរនៅតាមតំបន់ផ្សេងៗបានល្អនោះទេ។
ទោះបីជាភាសាខ្មែរមិនមែនជាភាសាដែលមានសំនៀង (Tonal language) ដូចភាសាថៃក៏ដោយ ក៏វិធីសាស្ត្រ MLP-HMM នេះនៅតែមានសារៈប្រយោជន៍ខ្ពស់សម្រាប់ការសម្គាល់ពាក្យខ្មែរ។
ជារួម ក្របខណ្ឌកូនកាត់ MLP-HMM នេះផ្តល់នូវគំរូដ៏រឹងមាំមួយសម្រាប់អ្នកស្រាវជ្រាវកម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធ AI ដែលអាចស្តាប់ និងយល់ភាសាខ្មែរបានកាន់តែច្បាស់លាស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Model (HMM) | ជាម៉ូដែលស្ថិតិដែលប្រើដើម្បីព្យាករណ៍ពីលំដាប់នៃព្រឹត្តិការណ៍ដែលយើងមិនអាចមើលឃើញ (hidden states) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតបាន។ ក្នុងប្រព័ន្ធសម្គាល់សម្លេង វាត្រូវបានប្រើដើម្បីទាយថាតើសញ្ញាសម្លេងដែលបានបញ្ចេញមកនោះ គឺជាលំដាប់នៃពាក្យ ឬសូរសព្ទអ្វីខ្លះ។ | ដូចជាការទស្សន៍ទាយថាតើថ្ងៃនេះមិត្តភក្តិរបស់អ្នកមានអារម្មណ៍ល្អឬអត់ (លាក់កំបាំង) ដោយគ្រាន់តែសង្កេតមើលសកម្មភាពខាងក្រៅរបស់គាត់ដូចជាការញញឹម ឬការដើរ (អាចសង្កេតឃើញ)។ |
| Multi-Layer Perceptrons (MLPs) | ជាប្រភេទមួយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានស្រទាប់ច្រើន (input, hidden, និង output) ប្រើសម្រាប់រៀនធ្វើចំណាត់ថ្នាក់ទិន្នន័យដែលស្មុគស្មាញ។ ក្នុងឯកសារនេះ វាជួយគណនាប្រូបាប៊ីលីតេនៃសូរសព្ទ និងសំនៀងឱ្យបានច្បាស់លាស់។ | ដូចជាក្រុមអ្នកវិភាគដែលមានច្រើនតំណែង ដោយម្នាក់ៗទទួលព័ត៌មាន បកស្រាយបន្តិច រួចបញ្ជូនទៅម្នាក់ទៀតជាបន្តបន្ទាប់ រហូតដល់បានការសន្និដ្ឋានចុងក្រោយដ៏ត្រឹមត្រូវមួយ។ |
| MFCC feature vectors | Mel-Frequency Cepstral Coefficients ជាបណ្តុំនៃទិន្នន័យលេខដែលតំណាងឱ្យលក្ខណៈពិសេសនៃសម្លេងរបស់មនុស្ស។ វាត្រូវបានគណនាដោយត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮប្រេកង់សម្លេង ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងកត់សម្គាល់ពីសម្លេងនោះបាន។ | ដូចជាការបម្លែងរូបរាងមុខរបស់មនុស្សទៅជារង្វាស់ប្រវែងចន្លោះភ្នែកនិងច្រមុះ ដើម្បីឱ្យម៉ាស៊ីនស្កេនអាចចំណាំមុខនោះបាន គ្រាន់តែ MFCC នេះប្រើសម្រាប់ការសម្គាល់សម្លេង។ |
| Viterbi algorithm | ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់នៅក្នុងម៉ូដែល HMM ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃសូរសព្ទ (states) ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ឬសមហេតុផលបំផុត ផ្អែកលើបំណែកទិន្នន័យសម្លេងដែលម៉ាស៊ីនទទួលបាន។ | ដូចជាការប្រើប្រាស់កម្មវិធី Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតនិងល្អបំផុតទៅកាន់គោលដៅ ដោយវាយតម្លៃលើគ្រប់ជម្រើសផ្លូវទាំងអស់។ |
| Gaussian Mixture Models (GMMs) | ជាម៉ូដែលប្រូបាប៊ីលីតេដែលសន្មត់ថាទិន្នន័យទាំងអស់កើតចេញពីការបូកបញ្ចូលគ្នានៃការចែកចាយបែប Gaussian (Normal distributions) ជាច្រើន។ វាតែងតែត្រូវបានប្រើជាប្រព័ន្ធគោលក្នុងប្រព័ន្ធ HMM ដើម្បីប៉ាន់ស្មានលក្ខណៈនៃការបញ្ចេញសម្លេង។ | ដូចជាការសន្និដ្ឋានថា កម្ពស់របស់សិស្សក្នុងសាលាមួយ គឺជាការបូកបញ្ចូលគ្នានៃក្រុមសិស្សតូចៗជាច្រើនក្រុម (ក្រុមទាប ក្រុមកណ្តាល ក្រុមខ្ពស់) ជាជាងចាត់ទុកពួកគេជាក្រុមធំតែមួយ។ |
| Word Error Rate | ជារង្វាស់ស្តង់ដារដែលប្រើសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សម្លេង ដោយធ្វើការគណនាលើចំនួនពាក្យដែលម៉ាស៊ីនស្តាប់ខុស បាត់ ឬបន្ថែមលើស រួចបែងចែកនឹងចំនួនពាក្យសរុប។ | ដូចជាការដាក់ពិន្ទុក្នុងការសរសេរតាមអាន (Dictation) ប្រសិនបើសិស្សសរសេរខុស២ពាក្យក្នុងចំណោម២០ពាក្យ នោះអត្រាកំហុសគឺ១០ភាគរយ។ |
| Fundamental frequency (F0) | ជាប្រេកង់ទាបបំផុតនៃរលកសម្លេងដែលបង្កើតឡើងដោយការញ័រនៃខ្សែសម្លេង (vocal cords) នៅពេលមនុស្សនិយាយ។ វាត្រូវបានប្រើប្រាស់ជាទិន្នន័យគោល ដើម្បីកំណត់ពីកម្រិតសំនៀង (Pitch/Tone) នៃពាក្យក្នុងភាសាដែលមានសំនៀងដូចជាភាសាថៃជាដើម។ | ដូចជាកម្រិតសម្លេងក្រាស់ឬស្តើងនៅពេលអ្នកច្រៀង ដែលជួយឱ្យគេដឹងថាអ្នកកំពុងបញ្ចេញសម្លេងក្នុងកម្រិតខ្ពស់ឬទាប។ |
| Continuous Density Hidden Markov Model (CDHMM) | ជាប្រភេទមួយនៃ HMM ដែលប្រើប្រាស់អនុគមន៍ដង់ស៊ីតេប្រូបាប៊ីលីតេជាប់គ្នា (continuous probability density functions) ដើម្បីវាយតម្លៃប្រូបាប៊ីលីតេនៃសូរសព្ទ ជំនួសឱ្យការប្រើទិន្នន័យដាច់ៗពីគ្នា។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការពិពណ៌នាពីបម្រែបម្រួលនៃសម្លេង។ | ដូចជាការវាស់សីតុណ្ហភាពដោយប្រើទែម៉ូម៉ែត្រដែលមានលេខលម្អិតជាប់គ្នារហូត (ឧ. 25.1, 25.2...) ជាជាងការគ្រាន់តែប្រាប់ជារួមថាក្តៅឬត្រជាក់ (ទិន្នន័យដាច់ៗ)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖