បញ្ហា (The Problem)៖ បណ្តាញសរសៃប្រសាទជ្រៅ (DNN) ផ្តល់លទ្ធផលល្អប្រសើរក្នុងការសម្គាល់សំឡេង ប៉ុន្តែការបណ្តុះបណ្តាលរបស់វាជាប្រពៃណីនៅតែពឹងផ្អែកលើម៉ូដែល Gaussian Mixture (GMM) ចាស់ៗសម្រាប់ការតម្រឹមពេលវេលាដំបូង និងការចងរដ្ឋ។ ការសិក្សានេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធបណ្តុះបណ្តាល DNN ដែលមិនពឹងផ្អែកលើ GMM (GMM-free) និងការដោះស្រាយបញ្ហាអតុល្យភាពនៃទិន្នន័យថ្នាក់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបវិធីសាស្ត្របណ្តុះបណ្តាល DNN ផ្សេងៗគ្នា និងបានស្នើកែសម្រួលក្បួនដោះស្រាយដើម្បីលុបបំបាត់ការពឹងផ្អែកលើ GMM ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| GMM-HMM Baseline ម៉ូដែលមូលដ្ឋាន GMM-HMM |
ជាវិធីសាស្ត្រស្តង់ដារចាស់ មានស្ថេរភាព និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការបង្កើតទិន្នន័យតម្រឹម (Alignments)។ | ត្រូវការការតម្រឹមពេលវេលា (time-alignment) មុនពេលបណ្តុះបណ្តាល DNN និងផ្តល់លទ្ធផលអន់ជាងវិធីសាស្ត្រ Deep Learning។ | អត្រាកំហុសពាក្យ (WER) ២០,០៧% លើទិន្នន័យពត៌មានភាសាហុងគ្រី។ |
| Deep Rectifier Networks (DRN) បណ្តាញសរសៃប្រសាទកែតម្រូវជ្រៅ (DRN) |
ដំណើរការបណ្តុះបណ្តាលលឿនជាងមុន និងមិនត្រូវការដំណើរការ Pre-training ស្មុគស្មាញឡើយ។ | ទាមទារការកំណត់ទម្ងន់ត្រឹមត្រូវ និង Regularization ដូចជា L2 Normalization ដើម្បីទប់ស្កាត់កំហុស gradient។ | កាត់បន្ថយអត្រាកំហុសពាក្យមកត្រឹម ១៦,៥៩% (ប្រសើរជាង GMM ១៧%)។ |
| MMI Flat-Start + KL-Divergence State Tying ការចាប់ផ្តើមទទេរដោយប្រើ MMI រួមជាមួយការចងរដ្ឋ KL-Divergence (GMM-free) |
លុបបំបាត់ការពឹងផ្អែកទាំងស្រុងលើម៉ូដែល GMM ចាស់ៗ និងអាចចាប់ផ្តើមបណ្តុះបណ្តាលទោះបីជាគ្មានទិន្នន័យតម្រឹមពេលវេលា (Time-aligned labels)។ | ទាមទារការតាមដានយ៉ាងប្រុងប្រយ័ត្នដើម្បីចៀសវាងបញ្ហា 'Runaway silence model' កំឡុងពេលហ្វឹកហាត់។ | សម្រេចបានអត្រាកំហុសពាក្យ (WER) ល្អបំផុតត្រឹម ១៥,៧៩% សម្រាប់ការបណ្តុះបណ្តាលដែលមិនប្រើប្រាស់ GMM សោះ។ |
| Probabilistic Sampling with Adjusted Priors ការយកគំរូតាមប្រូបាប៊ីលីតេជាមួយនឹងការកែតម្រូវ Prior |
ដោះស្រាយបញ្ហាអតុល្យភាពនៃទិន្នន័យថ្នាក់ (Class imbalance) បានយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យសំឡេងកម្រ។ | ទាមទារការព្យាករណ៍ និងកែតម្រូវតម្លៃ Prior ជាថ្មី បើមិនដូច្នេះទេអាចធ្វើឱ្យការគណនាលទ្ធផលធ្លាក់ចុះ។ | កាត់បន្ថយកំហុសធៀបពី ៥% ទៅ ៦% បន្ថែមទៀតលើកម្រងទិន្នន័យធំៗដូចជា TED-LIUM និង AMI។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រខ្លាំងជាពិសេសផ្នែក Hardware និងទិន្នន័យសំឡេងរាប់សិបទៅរាប់រយម៉ោងដើម្បីបណ្តុះបណ្តាលម៉ូដែលសរសៃប្រសាទជ្រៅ។
ការសិក្សានេះធ្វើឡើងដោយផ្អែកលើកម្រងទិន្នន័យភាសាអង់គ្លេស និងភាសាហុងគ្រី។ អ្វីដែលគួរឱ្យចាប់អារម្មណ៍ ភាសាហុងគ្រីមានលក្ខណៈតភ្ជាប់ពាក្យ (Agglutinative) ច្រើន ដែលធ្វើឱ្យការវាស់វែង Word Error Rate (WER) ប្រឈមនឹងបញ្ហា Compounding errors ស្រដៀងទៅនឹងភាសាខ្មែរដែរ ដែលជារឿយៗគ្មានការដកឃ្លារវាងពាក្យច្បាស់លាស់។ នេះជាចំណុចសំខាន់ដែលអ្នកស្រាវជ្រាវកម្ពុជាត្រូវយកចិត្តទុកដាក់។
វិធីសាស្ត្រ GMM-free នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ជាពិសេសក្នុងបរិបទដែលខ្វះខាតទិន្នន័យតម្រឹមស្រាប់ (Low-resource)។
សរុបមក ការអនុវត្តបច្ចេកទេសបណ្តុះបណ្តាលដោយមិនពឹងផ្អែកលើ GMM និងការដោះស្រាយអតុល្យភាពទិន្នន័យ គឺជាគន្លឹះដ៏សំខាន់ឆ្ពោះទៅរកការបង្កើត Khmer ASR មួយដែលមានភាពត្រឹមត្រូវខ្ពស់ និងចំណាយធនធានតិច។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Deep Rectifier Networks (DRN) | គឺជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់លាក់ច្រើន (Deep) ហើយប្រើប្រាស់អនុគមន៍សកម្ម Rectifier (ReLU) ដែលអនុញ្ញាតឱ្យការបណ្តុះបណ្តាលមានភាពរហ័ស និងជៀសវាងបញ្ហាបាត់បង់ទិន្នន័យ (Vanishing gradient) ជាងបណ្តាញជំនាន់ចាស់ដែលប្រើអនុគមន៍ Sigmoid ។ | ដូចជារោងចក្រច្រោះពត៌មានតូចៗតភ្ជាប់គ្នាជាច្រើនជាន់ ដែលបញ្ជូនតែសញ្ញាវិជ្ជមាន និងទប់ស្កាត់សញ្ញាអវិជ្ជមានដើម្បីធ្វើឱ្យការរៀនកាន់តែលឿននិងត្រឹមត្រូវ។ |
| Connectionist Temporal Classification (CTC) | ជាក្បួនដោះស្រាយសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលសម្គាល់សំឡេងដោយមិនចាំបាច់មានការកាត់តម្រឹមពេលវេលាជាក់លាក់ (Time-alignment) នៃពាក្យ ឬអក្សរឡើយ ដោយវាទស្សន៍ទាយលទ្ធផលតាមរយៈការវិភាគប្រូបាប៊ីលីតេនៃលំដាប់លំដោយទិន្នន័យសរុប។ | ដូចជាគ្រូបង្រៀនម្នាក់ដែលដាក់ពិន្ទុសិស្សលើចម្លើយចុងក្រោយ ដោយមិនចាំបាច់តាមដានមើលគ្រប់ជំហាននៃការគិតរបស់សិស្សនោះទេ។ |
| Maximum Mutual Information (MMI) | ជាលក្ខណៈវិនិច្ឆ័យវាយតម្លៃ និងបណ្តុះបណ្តាលម៉ូដែល ដើម្បីបង្កើនប្រូបាប៊ីលីតេនៃចម្លើយដែលត្រឹមត្រូវ ខណៈពេលជាមួយគ្នានោះវាកាត់បន្ថយប្រូបាប៊ីលីតេនៃចម្លើយដែលខុស ដែលជួយឱ្យម៉ូដែលបែងចែកសំឡេងប្រហាក់ប្រហែលគ្នាបានកាន់តែច្បាស់។ | ដូចជាការរៀនមិនត្រឹមតែចងចាំចម្លើយដែលត្រូវប៉ុណ្ណោះទេ ថែមទាំងរៀនចំណាំចំណុចដែលខុសដើម្បីចៀសវាងកុំឱ្យច្រឡំនៅពេលក្រោយ។ |
| Flat Start Training | គឺជាដំណើរការចាប់ផ្តើមហ្វឹកហាត់ម៉ូដែលសម្គាល់សំឡេងដោយមិនប្រើប្រាស់ទិន្នន័យដែលមានការកាត់តម្រឹមពេល (Time-aligned labels) ពីប្រព័ន្ធចាស់ៗមុន គឺវាចាប់ផ្តើមពីទទេដោយការបែងចែកកូដសំឡេងស្មើៗគ្នា ហើយធ្វើការកែតម្រូវខ្លួនឯងម្តងបន្តិចៗ។ | ដូចជាការចាប់ផ្តើមលេងហ្គេមផ្គុំរូបដោយការស្មានទុកជាមុនពីទម្រង់រូប មុននឹងចាប់ផ្តើមរៀបចំឱ្យត្រូវរាងបន្តិចម្តងៗនៅពេលយើងចាប់ផ្តើមមើលឃើញរូបភាពច្បាស់។ |
| Context-Dependent (CD) State Tying | គឺជាបច្ចេកទេសដែលចង ឬដាក់បញ្ចូលក្រុមសំឡេងតូចៗដែលមានបរិបទស្រដៀងគ្នាចូលគ្នា (ឧទាហរណ៍ សំឡេងដែលមានព្យញ្ជនៈមុខ និងក្រោយដូចគ្នា) ដើម្បីកាត់បន្ថយចំនួនទិន្នន័យដែលម៉ូដែលត្រូវរៀន និងជួយដោះស្រាយបញ្ហាខ្វះទិន្នន័យ (Data sparsity) សម្រាប់សំឡេងកម្រ។ | ដូចជាការរៀបចំសៀវភៅដែលមានប្រធានបទស្រដៀងគ្នាទៅក្នុងទូតែមួយ ដើម្បីងាយស្រួលរក និងសន្សំសំចៃកន្លែងទំនេរ។ |
| Probabilistic Sampling | ជាវិធីសាស្ត្រជ្រើសរើសទិន្នន័យហ្វឹកហាត់ដោយកំណត់ប្រូបាប៊ីលីតេ ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Class Imbalance) ដែលវាជួយបង្កើនឱកាសក្នុងការទាញយកទិន្នន័យកម្រមកហ្វឹកហាត់ កុំឱ្យម៉ូដែលរៀនតែពីទិន្នន័យសាមញ្ញៗដែលសំបូរពេក។ | ដូចជាការចាប់ឆ្នោតដោយដាក់ឈ្មោះមនុស្សដែលកម្រមកចូលរួមច្រើនសន្លឹកជាងមនុស្សដែលឧស្សាហ៍មក ដើម្បីឱ្យឱកាសនៃការចាប់បានឈ្មោះរបស់ពួកគេស្មើគ្នា។ |
| Kullback-Leibler Divergence | ជារង្វាស់គណិតវិទ្យាមួយសម្រាប់គណនាពីភាពខុសគ្នារវាងរបាយប្រូបាប៊ីលីតេពីរ។ ក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីធ្វើការសម្រេចចិត្តក្នុងការចង ឬញែកក្រុមសំឡេងទៅតាមកម្រិតនៃភាពខុសគ្នារបស់វា។ | ដូចជាការប្រើប្រាស់បន្ទាត់ដើម្បីវាស់កម្រិតភាពខុសគ្នានៃគំនូរពីរផ្ទាំង ដើម្បីដឹងថាគំនូរទាំងពីរនោះមានចំណុចខុសគ្នាខ្លាំងប៉ុណ្ណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖