បញ្ហា (The Problem)៖ ប្រព័ន្ធសម្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR) បច្ចុប្បន្នជួបប្រទះបញ្ហាប្រឈមធំៗក្នុងការរក្សាភាពត្រឹមត្រូវ និងភាពធន់នៅពេលជួបប្រទះការប្រែប្រួលនៃការនិយាយរបស់អ្នកប្រើប្រាស់ និងសំឡេងរំខាន ដោយសារប្រព័ន្ធទាំងនេះពឹងផ្អែកតែលើលក្ខណៈសូរសព្ទ (Acoustic features) តែមួយមុខ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះដោះស្រាយបញ្ហាដោយការរួមបញ្ចូលចំណេះដឹងអំពីការបង្កើតសំឡេង (Speech production knowledge) តាមរយៈការបង្កើតម៉ូដែលបណ្ដាញសរសៃប្រសាទដើម្បីទាញយកលក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory features) ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| MFCC + HMM (CD tri-phone) ម៉ូដែល MFCC រួមបញ្ចូលជាមួយ Hidden Markov Model ផ្អែកលើបរិបទ |
ងាយស្រួលក្នុងការគណនា មានការស្រាវជ្រាវច្រើន និងជាប្រព័ន្ធស្តង់ដារដែលប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការសម្គាល់សំឡេង។ | ខ្វះភាពធន់នៅពេលមានសំឡេងរំខាន (Noise) និងមិនមានសមត្ថភាពក្នុងការចាប់យកទំនាក់ទំនងប្រែប្រួលនៃចលនាបញ្ចេញសំឡេង (Articulatory dynamics) បានល្អនោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ ៥១,៩% (Best-1) និងមានអត្រាធ្លាក់ចុះគុណភាពប្រមាណ ១,០៤% ក្នុងមួយ dB ពេលមានសំឡេងរំខាន។ |
| MFCC + RNN (1 delay) ម៉ូដែល MFCC រួមបញ្ចូលជាមួយ Recurrent Neural Network |
មានសមត្ថភាពរក្សាអង្គចងចាំរយៈពេលខ្លី (Short-term memory) ដើម្បីចាប់យកទំនាក់ទំនងទិន្នន័យតាមពេលវេលា (Temporal dynamics)។ | នៅតែពឹងផ្អែកទាំងស្រុងលើលក្ខណៈសូរសព្ទ (Acoustic features) ដដែល ដែលធ្វើឱ្យវានៅតែងាយរងឥទ្ធិពលពីសំឡេងរំខានខាងក្រៅ។ | ទទួលបានភាពត្រឹមត្រូវ ៦៨,៩% (Best-1) និងមានអត្រាធ្លាក់ចុះគុណភាព ១,០៦% ក្នុងមួយ dB។ |
| BFCC + API (APF) ម៉ូដែលប្រែត្រឡប់សូរសព្ទ (API) ប្រើប្រាស់លក្ខណៈពិសេសនៃការបញ្ចេញសំឡេង (APF) កាត់បន្ថយសំឡេងរំខានដោយ BFCC |
មានភាពធន់ខ្ពស់បំផុតប្រឆាំងនឹងសំឡេងរំខាន និងអាចចាប់យកចលនានៃការបញ្ចេញសំឡេងបានយ៉ាងល្អតាមរយៈការប្រើប្រាស់ចំណេះដឹងពីការផលិតសំឡេងពិតរបស់មនុស្ស។ | ទាមទារការព្យាករណ៍បំប្លែងត្រឡប់ (Inversion mapping) និងការកសាងទិន្នន័យសំយោគដែលមានភាពស្មុគស្មាញ រួមទាំងការប្រើប្រាស់ធនធានគណនាខ្ពស់សម្រាប់ Neural Networks ច្រើនតំណាក់កាល។ | ទទួលបានភាពត្រឹមត្រូវ ៧៥,០% (Best-1) លើទិន្នន័យ TIMIT ជាមួយនឹងអត្រាធ្លាក់ចុះគុណភាពទាបបំផុតត្រឹមតែ ០,៩៥% ក្នុងមួយ dB ប៉ុណ្ណោះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់តួលេខជាក់លាក់អំពីទំហំ Hardware ក៏ដោយ ប៉ុន្តែការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទប្រភេទ RNN, MLP និង E-FNN ទាមទារធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យមទៅខ្ពស់។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យភាសាអង់គ្លេស (TIMIT, SCRIBE-TIMIT, MOCHA) ពីអ្នកនិយាយភាសាអង់គ្លេសចក្រភពអង់គ្លេស និងអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ព្រោះភាសាខ្មែរមានរចនាសម្ព័ន្ធខុសគ្នាស្រឡះ មានព្យញ្ជនៈតម្រួត ស្រៈច្រើនប្រភេទ និងមិនសង្កត់សំឡេងខ្យល់ (Unaspirated vs Aspirated) ដូចអង់គ្លេសឡើយ ដែលធ្វើឱ្យម៉ូដែលជីវមេកានិកនេះត្រូវការការកែតម្រូវទ្រង់ទ្រាយធំ។
ថ្វីបើមានឧបសគ្គផ្នែកទិន្នន័យភាសា បច្ចេកទេសបំប្លែងចលនាបញ្ចេញសំឡេង (Articulatory Inversion) នេះនៅតែមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធ ASR ភាសាខ្មែរ។
ជារួម ការប្រើប្រាស់ចំណេះដឹងពីការផលិតសំឡេងពិតប្រាកដ (Speech Production Knowledge) អាចជាកូនសោរដ៏សំខាន់មួយក្នុងការដោះស្រាយបញ្ហាសម្គាល់សំឡេងមិនច្បាស់នៅក្នុងបរិស្ថានជាក់ស្តែងនៃប្រទេសកម្ពុជា ទោះបីជាត្រូវទាមទារការស្រាវជ្រាវបឋមច្រើនលើសូរសព្ទខ្មែរក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Articulatory Phonetic Inversion | គឺជាដំណើរការគណនាបញ្ច្រាសនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដើម្បីទាញយកព័ត៌មានពីចលនានៃសរីរាង្គបញ្ចេញសំឡេង (ដូចជាទម្រង់អណ្តាត ឬបបូរមាត់) ដោយផ្អែកលើទិន្នន័យរលកសំឡេងដែលបានថតទុក ក្នុងគោលបំណងជួយឱ្យប្រព័ន្ធសម្គាល់សំឡេងមានភាពធន់នឹងសំឡេងរំខាន។ | ដូចជាការស្តាប់ស្នូរជើងសេះរត់ រួចអាចទាយដឹងថាវាកំពុងបោលក្នុងល្បឿន និងកាយវិការបែបណាអញ្ចឹងដែរ។ |
| Hidden Markov Model (HMM) | គឺជាម៉ូដែលស្ថិតិដែលប្រព័ន្ធកុំព្យូទ័រប្រើសម្រាប់ទស្សន៍ទាយលំដាប់នៃពាក្យ ឬសូរសព្ទដែលកំបាំង (អ្វីដែលមនុស្សចង់និយាយពិតប្រាកដ) តាមរយៈការវិភាគកាត់ស្មានលើលំដាប់នៃទិន្នន័យសំឡេងដែលប្រព័ន្ធអាចវាស់វែងបានជាបន្តបន្ទាប់។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុដែលយើងមិនអាចមើលឃើញផ្ទាល់ (ឧទាហរណ៍៖ អាកាសធាតុនៅលើភ្នំ) ដោយពឹងផ្អែកលើការសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សស្លៀកពាក់ចុះពីលើភ្នំនោះ។ |
| Fuzzy Neural Network | គឺជាបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលរួមបញ្ចូលក្បួនតក្កវិជ្ជាស្រពិចស្រពិល (Fuzzy Logic) ដើម្បីរៀន និងធ្វើការសម្រេចចិត្តគ្រប់គ្រងប្រព័ន្ធរូបវន្តស្មុគស្មាញ (ដូចជាសាច់ដុំអណ្តាត) ដែលទិន្នន័យរបស់វាមានភាពមិនច្បាស់លាស់ ឬគ្មានព្រំដែនដាច់ខាត។ | ដូចជាមនុស្សដែលពូកែវាយតម្លៃសភាពការណ៍ ដោយមិនត្រឹមតែគិតថា "ក្តៅ" ឬ "ត្រជាក់" ដាច់អហង្ការនោះទេ តែអាចយល់ពីកម្រិតលម្អិតដូចជា "ក្តៅល្មម" ឬ "ត្រជាក់ខ្លាំង" ដើម្បីធ្វើការសម្រេចចិត្តបានល្អបំផុត។ |
| Mel Frequency Cepstral Coefficient (MFCC) | គឺជាក្បួនគណនាដើម្បីទាញយកលក្ខណៈពិសេសរបស់រលកសំឡេង (Acoustic features) ដោយធ្វើការបំប្លែងទិន្នន័យត្រាប់តាមប្រព័ន្ធស្តាប់ឮរបស់ត្រចៀកមនុស្ស (ដែលពូកែចាប់ប្រេកង់ទាបជាងប្រេកង់ខ្ពស់) ដើម្បីប្រាប់ម៉ាស៊ីនឱ្យស្គាល់ពីទម្រង់សំឡេងនិយាយ។ | ដូចជាការប្រើប្រាស់តម្រងកញ្ចក់វ៉ែនតាពិសេស ដើម្បីច្រោះយកតែពណ៌ណាដែលភ្នែកមនុស្សងាយមើលឃើញ និងងាយចំណាំបំផុតសម្រាប់យកទៅវិភាគបន្ត។ |
| Articulatory Synthesizer | គឺជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានប្រើប្រាស់ដើម្បីបង្កើតសំឡេងមនុស្សនិយាយ ដោយធ្វើការក្លែងធ្វើ (Simulate) នូវចលនារូបវន្តពិតៗនៃសរីរាង្គបញ្ចេញសំឡេង ដូចជាសាច់ដុំអណ្តាត បបូរមាត់ និងថ្គាម ជាជាងការយកបំណែកសំឡេងថតស្រាប់មកតភ្ជាប់គ្នា។ | ដូចជាហ្គេម 3D អាយ៉ង ដែលបញ្ជាឱ្យតួអង្គកម្រើកមាត់ បើកថ្គាម និងបត់អណ្តាតដើម្បីបង្កើតជាសំឡេងនិយាយដោយផ្ទាល់។ |
| Co-articulation | គឺជាបាតុភូតធម្មជាតិនៃការនិយាយ ដែលសូរសព្ទមួយត្រូវរងឥទ្ធិពលពីសូរសព្ទនៅខាងមុខ ឬខាងក្រោយវា ដែលធ្វើឱ្យទម្រង់កាយវិការមាត់ត្រូវផ្លាស់ប្តូររលូនចូលគ្នា ខុសពីការបញ្ចេញសំឡេងសូរសព្ទនោះតែឯង។ | ដូចជាការសរសេរអក្សរផ្ចង់ ដែលរាងរៅនៃអក្សរនីមួយៗត្រូវកែប្រែបន្តិចបន្តួចដើម្បីអាចតភ្ជាប់កន្ទុយទៅអក្សរបន្ទាប់ឱ្យបានលឿននិងរលូន។ |
| Voice Onset Time (VOT) | គឺជារង្វាស់រយៈពេលដែលគិតចាប់ពីការបើកសរីរាង្គបញ្ចេញសំឡេង (ឧទាហរណ៍៖ ការរបើកបបូរមាត់ពេលបញ្ចេញសំឡេង "ផ" ឬ "ប") រហូតដល់ខ្សែសំឡេង (Vocal Cords) ចាប់ផ្តើមញ័រ ដែលកត្តានេះជួយកុំព្យូទ័របែងចែកប្រភេទព្យញ្ជនៈខ្យល់ និងមិនមានខ្យល់បានយ៉ាងច្បាស់។ | ដូចជារង្វាស់រយៈពេលរង់ចាំ ដែលយើងឃើញពន្លឺផ្លេកបន្ទោរហើយ មុនពេលយើងឮស្នូរទង្គិចនៃសំឡេងផ្គរលាន់មកដល់ត្រចៀក។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖