បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេង (Speech Recognition) សម្រាប់គ្រាមភាសាក្នុងស្រុករបស់ប្រទេសនីហ្សេរីយ៉ា ជាពិសេសការបកប្រែពាក្យនិយាយជាភាសា Hausa, Igbo និង Yoruba ទៅជាអត្ថបទ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់បច្ចេកទេសស្រង់លក្ខណៈពិសេសនៃសំឡេងរួមបញ្ចូលគ្នាជាមួយបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដើម្បីបង្កើតម៉ូដែលសម្គាល់សំឡេងប្រកបដោយប្រសិទ្ធភាពខ្ពស់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| MAP-GD-HMM (Samr & Nizar, 2021) ម៉ូដែល MAP-GD-HMM |
ទទួលបានភាពត្រឹមត្រូវខ្ពស់គួរសមសម្រាប់ការសម្គាល់សំឡេង។ ម៉ូដែលនេះប្រើប្រាស់វិធីសាស្ត្រស្ថិតិដែលងាយស្រួលយល់ និងបកស្រាយបាន។ | មិនមានសមត្ថភាពរៀនពីទំនាក់ទំនងទិន្នន័យដែលមានរយៈពេលវែង (Long-term dependencies) បានល្អដូចបច្ចេកវិទ្យា Deep Learning នោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៣,៣៣% លើសំណុំទិន្នន័យ TIMIT។ |
| LSTM-CTC (Graves & Jaitly, 2014) ម៉ូដែល LSTM-CTC |
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនពីទិន្នន័យជាស៊េរី និងដំណើរការលំដាប់សំឡេងបានយ៉ាងល្អដោយប្រើប្រាស់បណ្តាញ LSTM។ | អត្រាកំហុសពាក្យ (WER) នៅតែមានកម្រិតខ្ពស់ ប្រសិនបើមិនមានការរួមបញ្ចូលជាមួយទម្រង់ភាសា (Language Model) ត្រឹមត្រូវ។ | មានអត្រាកំហុសពាក្យ (WER) ៨,២% នៅពេលប្រើទម្រង់ភាសា និង ២៧,៣% នៅពេលមិនប្រើទម្រង់ភាសា។ |
| Ours (LSTM-HMM) ម៉ូដែលស្នើឡើង (LSTM-HMM) ផ្សំជាមួយ MFCC |
រួមបញ្ចូលចំណុចខ្លាំងរបស់ MFCC សម្រាប់ការទាញយកលក្ខណៈសំឡេងរួមជាមួយប្រព័ន្ធ LSTM និង HMM ធ្វើឲ្យមានអត្រាបរាជ័យទាប (Low miss rate) និងភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយវាក្យសព្ទឯកោ។ | ការអភិវឌ្ឍប្រព័ន្ធទាំងមូលមានទំហំធំ ហើយអាចទាមទារការព្យាយាមច្រើនក្នុងការកំណត់ប៉ារ៉ាម៉ែត្ររវាង LSTM និង HMM ឲ្យស៊ីសង្វាក់គ្នា។ | ទទួលបានភាពត្រឹមត្រូវ ៩៦,៦២% លើសំណុំទិន្នន័យសូរសព្ទភាសា Hausa, Igbo និង Yoruba សម្រាប់វាក្យសព្ទផ្លែឈើ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃ ឬធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់នោះទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ Deep Learning យើងអាចសន្និដ្ឋានពីតម្រូវការទូទៅបានដូចខាងក្រោម។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងគ្រាមភាសាក្នុងស្រុករបស់ប្រទេសនីហ្សេរីយ៉ា (Hausa, Igbo និង Yoruba) ដោយផ្តោតលើពាក្យឯកោតំណាងឲ្យឈ្មោះផ្លែឈើ។ ចំណុចនេះមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរក៏ជាភាសាដែលមានធនធានទិន្នន័យឌីជីថលតិចតួច (Low-resource language) ដូចគ្នា ដែលទាមទារការប្រមូលទិន្នន័យដោយផ្ទាល់ និងតម្រូវតាមបរិបទភាសាក្នុងស្រុកដើម្បីឲ្យម៉ូដែលស្គាល់ច្បាស់។
វិធីសាស្ត្រស្រាវជ្រាវនេះមានសក្តានុពល និងអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាសម្គាល់សំឡេង (Speech Recognition) សម្រាប់ភាសាខ្មែរ។
ជារួម ការអនុវត្តម៉ូដែលកូនកាត់ LSTM-HMM នេះនឹងជួយជំរុញការប្រើប្រាស់ភាសាខ្មែរនៅក្នុងប្រព័ន្ធឌីជីថល និងជួយសម្រួលដល់ប្រជាជនដែលមិនសូវមានជំនាញក្នុងការវាយអក្សរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Deep Reinforcement Learning | ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិតដែលរួមបញ្ចូលគ្នារវាង Deep Learning និង Reinforcement Learning ដោយបង្រៀនកុំព្យូទ័រឲ្យចេះរៀនពីកំហុស និងទទួលបានរង្វាន់ (Reward) ជាពិន្ទុនៅពេលវាធ្វើសកម្មភាព ឬធ្វើការសម្រេចចិត្តបានត្រឹមត្រូវនៅក្នុងបរិស្ថានណាមួយ។ | ដូចជាការបង្រៀនសត្វសុនខឲ្យចេះធ្វើតាមបញ្ជាដោយផ្តល់នំចំណីនៅពេលវាធ្វើត្រូវ និងមិនឲ្យនំនៅពេលវាធ្វើខុស ដើម្បីឲ្យវារៀនកែប្រែកំហុសខ្លួនឯងបន្តិចម្តងៗ។ |
| Hidden Markov Model | ជាម៉ូដែលស្ថិតិដែលប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពអនាគតដោយពឹងផ្អែកតែលើស្ថានភាពបច្ចុប្បន្ន មិនមែនប្រវត្តិអតីតកាលទាំងមូលនោះទេ។ នៅក្នុងប្រព័ន្ធ ASR វាត្រូវបានគេប្រើដើម្បីស្វែងរកលំដាប់ពាក្យដែលលាក់កំបាំងដោយវិភាគលើទិន្នន័យសំឡេងដែលវាទទួលបាន។ | ដូចជាការទាយថាថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ឬអត់ ដោយមើលតែលើអាកាសធាតុថ្ងៃនេះ ជំនួសឲ្យការមើលរបាយការណ៍អាកាសធាតុពេញមួយខែកន្លងមក។ |
| Long-Short-Time-Memory | ជាប្រភេទមួយនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលក្នុងរយៈពេលវែង និងអាចរៀនពីទំនាក់ទំនងរវាងទិន្នន័យដែលមានលក្ខណៈជាស៊េរី ឬលំដាប់លំដោយ ដូចជាលំដាប់នៃពាក្យនៅក្នុងប្រយោគ។ | ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅរឿង ហើយអាចចងចាំតួអង្គ និងសាច់រឿងតាំងពីទំព័រដំបូងៗ ដើម្បីយល់ន័យនៃសាច់រឿងនៅក្នុងទំព័របច្ចុប្បន្ន។ |
| Mel-Frequency Cepstral-Coefficient | ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរលកសំឡេង ដែលបំប្លែងសំឡេងទៅជាទិន្នន័យលេខដោយផ្អែកលើរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮប្រេកង់ផ្សេងៗគ្នា ដើម្បីឲ្យកុំព្យូទ័រអាចស្គាល់លក្ខណៈសម្គាល់នៃសំឡេងនីមួយៗ។ | ដូចជាការចម្រាញ់យកតែចំណុចពិសេសៗនៃស្នាមម្រាមដៃរបស់មនុស្សម្នាក់ៗ ដើម្បីងាយស្រួលចំណាំថានរណាជានរណា។ |
| Word Error Rate | ជារង្វាស់ស្តង់ដារមួយដែលប្រើសម្រាប់វាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សំឡេង ដោយគណនាពីភាគរយនៃពាក្យដែលប្រព័ន្ធទាយខុស (ដូចជាបាត់ពាក្យ ពាក្យលើស ឬបកប្រែពាក្យខុស) ធៀបនឹងពាក្យដែលត្រូវបាននិយាយពិតប្រាកដ។ | ដូចជាការដាក់ពិន្ទុក្នុងការប្រឡងសរសេរតាមអាន ប្រសិនបើសិស្សសរសេរខុសកាន់តែតិច នោះពិន្ទុ (ឬប្រព័ន្ធ) គឺកាន់តែល្អ។ |
| Natural Language Processing | ជាបច្ចេកវិទ្យាមួយដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចយល់ បកស្រាយ និងឆ្លើយតបទៅនឹងភាសារបស់មនុស្ស ទាំងជាទម្រង់អត្ថបទ និងទម្រង់សំឡេង។ | ដូចជាការបណ្តុះបណ្តាលកុំព្យូទ័រឲ្យធ្វើជាអ្នកបកប្រែភាសា ដើម្បីជួយឲ្យមនុស្ស និងម៉ាស៊ីនអាចទំនាក់ទំនងគ្នាបានយល់។ |
| Automatic Speech Recognition | ជាដំណើរការនៃការបំប្លែងរលកសំឡេងនៃការនិយាយរបស់មនុស្ស ទៅជាអត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ ដោយប្រើប្រាស់ក្បួនដោះស្រាយ និងម៉ូដែលកុំព្យូទ័រ។ | ដូចជាអ្នកលេខាដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ ហើយវាយអត្ថបទបញ្ចូលក្នុងកុំព្យូទ័រភ្លាមៗ។ |
| Gaussian Mixture Models | ជាម៉ូដែលប្រូបាប៊ីលីតេដែលសន្មតថាទិន្នន័យទាំងអស់ត្រូវបានបង្កើតឡើងចេញពីការបូកបញ្ចូលគ្នានៃរបាយ Gaussian (Normal distributions) មួយចំនួន។ នៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងជំនាន់ចាស់ វាត្រូវបានប្រើប្រាស់ជាទូទៅសម្រាប់ធ្វើការចំណាត់ថ្នាក់ទិន្នន័យសំឡេង មុនពេលមានវត្តមាន Deep Learning។ | ដូចជាការញែកក្រុមមនុស្សរាប់រយនាក់នៅក្នុងបន្ទប់មួយទៅជាក្រុមតូចៗតាមកម្ពស់និងទម្ងន់របស់ពួកគេ ដើម្បីងាយស្រួលរៀបចំកន្លែងអង្គុយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖