បញ្ហា (The Problem)៖ នៅក្នុងការសម្គាល់សំឡេងនិយាយបន្តបន្ទាប់ដែលមានវាក្យសព្ទធំ (LVCSR) ម៉ូដែលដែលបណ្តុះបណ្តាលលើទិន្នន័យចម្រុះតែងតែជួបប្រទះនឹងបញ្ហាប្រែប្រួលដែលមិនមែនជាសំឡេង ដូចជាភាពខុសគ្នានៃអ្នកនិយាយ និងសំឡេងរំខានបរិស្ថាន។ ការបណ្តុះបណ្តាល Maximum Likelihood (ML) ស្តង់ដារ មិនអាចបែងចែកពាក្យបានល្អបំផុត ឬដោះស្រាយទិន្នន័យបន្សាំដែលមានកម្រិតបានរឹងមាំឡើយ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវការពង្រីកសំខាន់ៗពីរ៖ ការបណ្តុះបណ្តាលសម្របតាមចង្កោមរើសអើង (Discriminative Cluster Adaptive Training) ដោយប្រើលក្ខណៈវិនិច្ឆ័យ MPE និងក្របខ័ណ្ឌបាយេស (Bayesian framework) ដែលស៊ីសង្វាក់គ្នាសម្រាប់ការសន្និដ្ឋានបន្សាំដ៏រឹងមាំ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard Maximum Likelihood (ML-SI Baseline) ការបណ្តុះបណ្តាលដោយប្រើប្រូបាប៊ីលីតេអតិបរមាស្តង់ដារ (ម៉ូដែលមិនពឹងផ្អែកលើអ្នកនិយាយ) |
ងាយស្រួលក្នុងការអនុវត្ត និងចំណាយពេលឬធនធានម៉ាស៊ីនតិចតួចក្នុងការបណ្តុះបណ្តាល។ វាជាមូលដ្ឋានគ្រឹះដ៏ល្អសម្រាប់ប្រៀបធៀប។ | មិនបានបែងចែកភាពខុសគ្នានៃសំឡេងអ្នកនិយាយ និងបរិស្ថាន ដែលធ្វើឱ្យមានកំហុសខ្ពស់នៅពេលជួបទិន្នន័យជាក់ស្តែងចម្រុះ។ | មានអត្រាកំហុសពាក្យ (WER) ខ្ពស់ជាងគេ គឺ 33.4% លើទិន្នន័យ dev01sub និង 32.6% លើទិន្នន័យ eval03 សម្រាប់ប្រព័ន្ធ 16-component។ |
| Minimum Phone Error Cluster Adaptive Training (MPE-CAT) ការបណ្តុះបណ្តាលសម្របតាមចង្កោមដោយកាត់បន្ថយកំហុសសូរសព្ទអប្បបរមា |
ផ្តល់នូវសមត្ថភាពបន្សាំបានយ៉ាងរហ័ស (Rapid adaptation) សម្រាប់ទិន្នន័យមានកម្រិត និងមានភាពរឹងមាំខ្ពស់ដោយសារវាផ្តោតលើការកាត់បន្ថយកំហុសដោយផ្ទាល់។ | ត្រូវការអង្គចងចាំ និងការគណនាច្រើនជាងម៉ូដែលស្តង់ដារបន្តិច ហើយអាចប្រឈមនឹងការ overtraining ប្រសិនបើមិនប្រើប្រាស់ prior ឱ្យបានត្រឹមត្រូវ។ | កាត់បន្ថយអត្រាកំហុសពាក្យ (WER) បានលើសពី 3% ធៀបនឹងម៉ូដែល ML-CAT ធម្មតា និងដំណើរការល្អជាងប្រព័ន្ធ MPE ដែលពឹងផ្អែកលើភេទ (GD MPE-MAP)។ |
| Structured Transforms (ST: CMLLR + CAT) ការបំប្លែងមានរចនាសម្ព័ន្ធ (រួមបញ្ចូល CMLLR និង CAT) |
មានសមត្ថភាពដោះស្រាយបញ្ហាប្រែប្រួលសូរសព្ទច្រើនយ៉ាង (Multiple acoustic factors) ក្នុងពេលតែមួយ ដូចជាការបន្សាំទៅនឹងសំឡេងរំខានបរិស្ថានផង និងអ្នកនិយាយផង។ | មានភាពស្មុគស្មាញខ្លាំងក្នុងការកសាងប្រព័ន្ធ និងទាមទារអង្គចងចាំម៉ាស៊ីន (RAM) ធំមែនទែនក្នុងការរក្សាទុកទិន្នន័យស្ថិតិអំឡុងពេលហ្វឹកហាត់។ | ផ្តល់នូវលទ្ធផលល្អបំផុតប្រចាំការស្រាវជ្រាវ (WER ទាបបំផុត 26.6% លើ dev01sub និង 25.5% លើ eval03 សម្រាប់ប្រព័ន្ធ 28-component)។ |
| Variational Bayes (VB) Adaptive Inference ការសន្និដ្ឋានបន្សាំដោយប្រើវិធីសាស្ត្រ Variational Bayes |
ដោះស្រាយបញ្ហាខ្វះទិន្នន័យបន្សាំបានយ៉ាងមានប្រសិទ្ធភាព ដោយផ្តល់នូវការសន្និដ្ឋានរឹងមាំ (Robust inference) ជាង ML ឬ MAP សម្រាប់ប្រយោគនិយាយខ្លីៗ។ | ទាមទារការគណនាស្មុគស្មាញ និងស៊ីពេលយូរ ដោយសារត្រូវប្រើប្រាស់ក្បួន N-Best list rescoring និងដំណើរការធ្វើឡើងវិញ (Iterative VBEM)។ | ឈ្នះ ML និង MAP យ៉ាងច្បាស់លាស់ក្នុងការបន្សាំកម្រិតប្រយោគ (Utterance-level) ដោយកាត់បន្ថយការប្រែប្រួលកំហុសទោះបីទិន្នន័យមានតិចតួចក្តី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងអង្គចងចាំម៉ាស៊ីន (RAM) យ៉ាងច្រើនសន្ធឹកសន្ធាប់សម្រាប់ការគណនាម៉ាទ្រីសស្មុគស្មាញ ជាពិសេសចំពោះការបណ្តុះបណ្តាលដែលប្រើប្រាស់ MLLR-based SAT។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសន្ទនាតាមទូរស័ព្ទជាភាសាអង់គ្លេសនៅសហរដ្ឋអាមេរិក (Switchboard, Callhome, Fisher)។ ទិន្នន័យទាំងនេះមានគុណភាពសំឡេង និងទម្រង់សូរសព្ទខុសពីបរិបទកម្ពុជាស្រឡះ។ សម្រាប់កម្ពុជា ការខ្វះខាតទិន្នន័យសំឡេងសន្ទនា (Conversational Speech) ជាភាសាខ្មែរខ្នាតធំ គឺជាឧបសគ្គចម្បងក្នុងការចម្លងលទ្ធផលនេះមកប្រើប្រាស់ដោយផ្ទាល់។
ទោះបីជាខ្វះទិន្នន័យខ្នាតធំក៏ដោយ គោលគំនិតនៃការបន្សាំ (Adaptive Training) នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធ AI សម្គាល់សំឡេងភាសាខ្មែរ។
សរុបមក ក្របខ័ណ្ឌបណ្តុះបណ្តាលបន្សាំនិងការប្រើប្រាស់ Variational Bayes គឺជាដំណោះស្រាយដ៏ប្រសើរមួយសម្រាប់កម្ពុជា ក្នុងការយកឈ្នះលើបញ្ហាភាពចម្រុះនៃបរិស្ថាន និងការខ្វះខាតទិន្នន័យហ្វឹកហាត់ទ្រង់ទ្រាយធំ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Models (HMM) | ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង ដើម្បីតំណាងឱ្យការប្រែប្រួលនៃលក្ខណៈសំឡេងនិយាយតាមពេលវេលា ដោយសន្មតថាសំឡេងដែលយើងឮត្រូវបានបង្កើតឡើងដោយស៊េរីនៃស្ថានភាពដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់ (Hidden States)។ | ដូចជាការទស្សន៍ទាយថាមានអ្នកណាម្នាក់កំពុងធ្វើអ្វីនៅក្នុងបន្ទប់បិទជិត ដោយគ្រាន់តែវិភាគលើសំឡេងបន្តបន្ទាប់ដែលលេចចេញមកក្រៅបន្ទប់នោះ។ |
| Minimum Phone Error (MPE) | ជាលក្ខណៈវិនិច្ឆ័យនៃការបណ្តុះបណ្តាលរើសអើង (Discriminative Training) ដែលកែតម្រូវប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែលក្នុងគោលបំណងកាត់បន្ថយចំនួនកំហុសនៃការទស្សន៍ទាយសូរសព្ទឱ្យនៅតិចបំផុត ជាជាងការព្យាយាមបង្កើនតែប្រូបាប៊ីលីតេនៃចម្លើយដែលត្រឹមត្រូវ។ | ដូចជាគ្រូបង្រៀនដែលមិនត្រឹមតែឱ្យពិន្ទុសិស្សលើចម្លើយត្រូវប៉ុណ្ណោះទេ តែថែមទាំងកាត់ពិន្ទុរាល់កំហុសតូចៗ ដើម្បីជំរុញឱ្យសិស្សកាន់តែមានភាពប្រុងប្រយ័ត្ន។ |
| Cluster Adaptive Training (CAT) | ជាបច្ចេកទេសបណ្តុះបណ្តាលម៉ូដែលសំឡេងដោយការបំបែកទិន្នន័យជាក្រុមៗ (Clusters) រួចប្រើប្រាស់ទម្ងន់រួមបញ្ចូលគ្នា (Interpolation weights) ដើម្បីបន្សាំនិងបង្កើតម៉ូដែលថ្មីមួយយ៉ាងរហ័សដែលស័ក្តិសមបំផុតសម្រាប់អ្នកនិយាយឬបរិស្ថានថ្មីណាមួយ។ | ដូចជាការលាយថ្នាំពណ៌គោលផ្សេងៗគ្នា (ឧ. ក្រហម ខៀវ លឿង) ក្នុងបរិមាណខុសៗគ្នា ដើម្បីបង្កើតបានជាពណ៌ថ្មីមួយដែលត្រូវគ្នាបេះបិទទៅនឹងពណ៌ដែលយើងចង់បាន។ |
| Variational Bayes (VB) | ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានប្រូបាប៊ីលីតេស្មុគស្មាញ ដោយប្រើប្រាស់បម្រែបម្រួលនៃការចែកចាយទិន្នន័យដើម្បីស្វែងរកព្រំដែនខាងក្រោម (Lower bound) ដែលជួយឱ្យប្រព័ន្ធធ្វើការសន្និដ្ឋានបានរឹងមាំ ទោះបីជាមានទិន្នន័យសម្រាប់បន្សាំតិចតួចក៏ដោយ។ | ដូចជាការប៉ាន់ស្មានទម្ងន់របស់វត្ថុមួយយ៉ាងលឿនដោយប្រើប្រាស់ប្រវត្តិធ្លាប់ស្គាល់វត្ថុស្រដៀងគ្នា ជាជាងការព្យាយាមថ្លឹងវាឱ្យជាក់លាក់ដែលត្រូវការពេលវេលានិងទិន្នន័យច្រើន។ |
| Maximum Likelihood Linear Regression (MLLR) | ជាបច្ចេកទេសកែប្រែមធ្យមភាគនៃម៉ូដែលសំឡេងដើម (Canonical model) ដោយប្រើប្រាស់សមីការលីនេអ៊ែរ ដើម្បីបន្សាំប្រព័ន្ធទៅនឹងទម្រង់សំឡេងឬបរិស្ថានរបស់អ្នកប្រើប្រាស់ថ្មី ដោយពឹងផ្អែកលើគោលការណ៍ប្រូបាប៊ីលីតេអតិបរមា (Maximum Likelihood)។ | ដូចជាការសារ៉េកញ្ចក់ឆ្លុះ (កែវយឹត) ឱ្យត្រូវនឹងកម្រិតភ្នែករបស់មនុស្សម្នាក់ៗ ដើម្បីឱ្យមើលឃើញរូបភាពបានច្បាស់ល្អជាងការប្រើកម្រិតស្តង់ដាររួម។ |
| N-Best List Rescoring | ជាដំណើរការដែលប្រព័ន្ធសម្គាល់សំឡេងបង្កើតបញ្ជីជម្រើសចម្លើយដែលល្អបំផុតចំនួន N ជាមុនសិន រួចទើបប្រើប្រាស់ម៉ូដែលឬក្បួនស្មុគស្មាញជាងមុនដើម្បីដាក់ពិន្ទុនិងរៀបចំលំដាប់ថ្នាក់ចម្លើយទាំងនោះឡើងវិញ ដើម្បីជ្រើសរើសចម្លើយដែលត្រឹមត្រូវបំផុត។ | ដូចជាគណៈកម្មការជ្រើសរើសបេក្ខជនចុងក្រោយចំនួន ១០នាក់សិន រួចទើបយកប្រវត្តិរូបនិងសមត្ថភាពរបស់ពួកគេមកពិនិត្យលម្អិតម្តងទៀតដើម្បីរកអ្នកដែលស័ក្តិសមទទួលបានចំណាត់ថ្នាក់លេខ១។ |
| Cepstral Mean Normalisation (CMN) | ជាបច្ចេកទេសកែសម្រួលទិន្នន័យសំឡេង (Feature normalization) ដែលដកចេញនូវមធ្យមភាគនៃលក្ខណៈសំឡេងរវាងរយៈពេលណាមួយ ដើម្បីកាត់បន្ថយឥទ្ធិពលនៃសំឡេងរំខានក្នុងបរិស្ថាន ឬភាពខុសគ្នានៃមីក្រូហ្វូនដែលប្រើសម្រាប់ថត។ | ដូចជាការចុចកំណត់សូន្យ (Tare/Zero) នៅលើជញ្ជីងថ្លឹងទម្ងន់ឡើងវិញ បន្ទាប់ពីដាក់កន្ត្រកទទេរលើនោះ ដើម្បីថ្លឹងយកតែទម្ងន់ផ្លែឈើពិតប្រាកដដែលនៅខាងក្នុងកន្ត្រក។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖