បញ្ហា (The Problem)៖ បច្ចេកវិទ្យាសម្គាល់សំឡេង និងអ្នកនិយាយដោយស្វ័យប្រវត្តិ (Automatic Speech and Speaker Recognition) តាមរយៈប្រព័ន្ធទូរស័ព្ទជួបប្រទះបញ្ហាប្រឈមធំៗដោយសារការប្រែប្រួលនៃលក្ខណៈសូរស័ព្ទ សំឡេងរំខានខាងក្រៅ និងការកម្រិតនៃម៉ូដែលស្ថិតិបុរាណដែលមិនសូវមានភាពបត់បែន។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវការជំនួសសមាសធាតុមួយចំនួននៃម៉ូដែលម៉ាកូវលាក់កំបាំង (HMMs) ដោយប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (ANNs) តាមរយៈការតាក់តែងប្រព័ន្ធចំនួនបីផ្សេងគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| K-means and LBG Vector Quantization ក្បួនដោះស្រាយ k-means និង LBG សម្រាប់បែងចែកក្រុមវ៉ិចទ័រ (Vector Quantization) |
ងាយស្រួលក្នុងការអនុវត្ត និងមានភាពរហ័សក្នុងការស្វែងរកទិន្នន័យសម្រាប់ការអនុវត្តជាក់ស្តែងនៅពេលដំណើរការប្រព័ន្ធសម្គាល់។ | ងាយរងឥទ្ធិពលពីលក្ខខណ្ឌចាប់ផ្តើម (initial conditions) មិនសូវតំណាងឲ្យបំណែងចែកទិន្នន័យបានល្អ និងមានអត្រាកំហុសខ្ពស់ជាង។ | ផ្តល់អត្រាកំហុសខ្ពស់ជាង (ឧទាហរណ៍ ២០.៧% សម្រាប់ k-means បើធៀបនឹង ១៨.៧% សម្រាប់ SOM លើទិន្នន័យ HIM)។ |
| Kohonen Self-Organizing Maps (SOM) ផែនទីរៀបចំដោយខ្លួនឯង Kohonen (បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតមិនមានការគ្រប់គ្រង) |
មានសមត្ថភាពក្នុងការរក្សានូវទម្រង់ទិន្នន័យដើម (topology preserving) ដែលជួយសម្រួលដល់ការសម្គាល់បានល្អប្រសើរជាងក្បួនដោះស្រាយបុរាណ។ | កម្រិត Distorsion ខ្ពស់ជាង k-means ដែលអាចធ្វើឲ្យមានការភាន់ច្រឡំក្នុងការបកស្រាយគុណភាពរបស់វាប្រសិនបើមិនវាស់វែងលើលទ្ធផលចុងក្រោយ។ | ផ្តល់អត្រាកំហុសនៃការសម្គាល់សំឡេងទាបជាង k-means និង LBG យ៉ាងច្បាស់នៅពេលប្រើជាទម្រង់ Vector Quantizer ក្នុង Discrete HMM។ |
| Gaussian Mixture Models (GMM) ម៉ូដែល Gaussian Mixtures សម្រាប់ការប៉ាន់ស្មានប្រូបាប៊ីលីតេ |
ងាយស្រួលក្នុងការធ្វើមាត្រដ្ឋានឡើងវិញ (rescaling) និងមិនទាមទារការបណ្តុះបណ្តាលឡើងវិញទាំងស្រុងនៅពេលផ្លាស់ប្តូរស្តង់ដារ។ | ទាមទារការសន្មត (assumptions) យ៉ាងតឹងរ៉ឹងទៅលើរបាយទិន្នន័យ និងខ្វះសមត្ថភាពបែងចែកដាច់ស្រឡះ (discriminative properties)។ | មានអត្រាកំហុសខ្ពស់ជាងប្រព័ន្ធ Hybrid HMM/ANN នៅពេលប្រើចំនួនប៉ារ៉ាម៉ែត្រ (parameters) ប្រហាក់ប្រហែលគ្នា។ |
| Hybrid HMM/ANN (MLP trained with Viterbi / Forward-Backward) ប្រព័ន្ធកូនកាត់ដែលប្រើ HMM រួមជាមួយ MLP (Multilayer Perceptrons) |
មិនទាមទារសម្មតិកម្មតឹងរ៉ឹងលើទិន្នន័យ មានសមត្ថភាពបែងចែកចំណាត់ថ្នាក់ដាច់ស្រឡះល្អ និងផ្តល់ដំណើរការ CPU លឿននៅពេល Decoding។ | ដំណើរការបណ្តុះបណ្តាល (Training) ទាមទារពេលវេលាយូរ និងអាចប្រឈមនឹងការស្ទះ (local minima) ឬការហួសកម្រិត (overtraining) ប្រសិនបើការគ្រប់គ្រងមិនបានល្អ។ | កាត់បន្ថយអត្រាកំហុសបានយ៉ាងមានប្រសិទ្ធភាព និងស៊ី CPU តិចជាងនៅពេល Decode ធៀបនឹង GMM (ជាពិសេសលើមូលដ្ឋានទិន្នន័យ Phonebook)។ |
| Segmental Approach for Speaker Verification វិធីសាស្រ្តផ្អែកលើការបំបែកផ្នែកសម្រាប់ការផ្ទៀងផ្ទាត់អ្នកនិយាយ (ប្រើប្រាស់ Temporal Decomposition) |
មានភាពធន់ខ្ពស់ក្នុងការផ្ទៀងផ្ទាត់អត្តសញ្ញាណអ្នកនិយាយ នៅពេលដែលលក្ខខណ្ឌសាកល្បងនិងការបណ្តុះបណ្តាលមិនស្របគ្នា។ | ទាមទារប្រព័ន្ធរៀបចំបំបែកផ្នែក (Segmentation) និងកំណត់ចំណាត់ថ្នាក់ (Labelling) ដែលមានភាពស្មុគស្មាញ និងតម្រូវឲ្យកំណត់ប៉ារ៉ាម៉ែត្រដោយការសាកល្បងច្រើន។ | ដំណើរការបានយ៉ាងល្អជាងប្រព័ន្ធ Global នៅក្នុងលក្ខខណ្ឌ Mismatched (ឧទាហរណ៍ប្រើប្រាស់ប្រភេទកាសទូរស័ព្ទខុសគ្នា)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍនិងការបណ្តុះបណ្តាលប្រព័ន្ធកូនកាត់ HMM/ANN ទាមទារនូវធនធានម៉ាស៊ីន (Hardware) និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ប៉ុន្តែផ្តល់នូវប្រសិទ្ធភាព និងភាពរហ័សទាន់ចិត្តនៅពេលដាក់ឲ្យដំណើរការជាក់ស្តែង។
ការសិក្សានេះត្រូវបានដំណើរការដោយប្រើប្រាស់ទិន្នន័យសំឡេងជាភាសាអង់គ្លេស និងស្វីស-អាល្លឺម៉ង់ (តាមរយៈគម្រោង Nynex, HIM, HER) ក្នុងប្រព័ន្ធទូរស័ព្ទបរទេស។ ទិន្នន័យទាំងនេះមិនតំណាងឲ្យសូរស័ព្ទ និងបែបបទនៃការបញ្ចេញសំឡេងនៃភាសាខ្មែរនោះទេ ដែលធ្វើឲ្យការអនុវត្តវិធីសាស្ត្រទាំងនេះនៅកម្ពុជា អាចនឹងប្រឈមនឹងការថយចុះប្រសិទ្ធភាពយ៉ាងខ្លាំងប្រសិនបើគ្មានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម។
ថ្វីត្បិតតែការធ្វើតេស្តមានការកំណត់លើភាសាបរទេស វិធីសាស្ត្រប្រើប្រាស់ប្រព័ន្ធកូនកាត់ HMM/ANN នេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្ពស់សម្រាប់បដិវត្តន៍បច្ចេកវិទ្យាបញ្ជាដោយសំឡេងនៅកម្ពុជា។
សរុបមក ការសាងសង់ប្រព័ន្ធកូនកាត់នេះ និងការអនុវត្ត Segmental Approach គឺជាគន្លឹះដ៏សំខាន់ឆ្ពោះទៅរកការបង្កើតបច្ចេកវិទ្យាសម្គាល់សំឡេងភាសាខ្មែរដែលអាចប្រើប្រាស់បានជាក់ស្តែងនៅក្នុងវិស័យពាណិជ្ជកម្មកម្ពុជាប្រកបដោយទំនុកចិត្តខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Models | ជាម៉ូដែលស្ថិតិមួយដែលប្រើសម្រាប់ទស្សន៍ទាយពីលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងមិនអាចមើលឃើញផ្ទាល់ (Hidden States) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតឃើញ (Observations)។ ក្នុងការសម្គាល់សំឡេង វាជួយទស្សន៍ទាយថាតើសំឡេងដែលយើងឮជារលកសូរស័ព្ទនោះ តំណាងឱ្យពាក្យ ឬព្យញ្ជនៈអ្វីខ្លះតាមលំដាប់លំដោយពេលវេលា។ | វាដូចជាការសន្និដ្ឋានថាអាកាសធាតុថ្ងៃនេះជាអ្វី (អ្វីដែលលាក់កំបាំង) ដោយគ្រាន់តែមើលទៅលើសម្លៀកបំពាក់ដែលមនុស្សពាក់នៅតាមផ្លូវ (អ្វីដែលមើលឃើញ)។ |
| Self-Organizing Maps | ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលរៀនដោយខ្លួនឯង (Unsupervised Learning) ក្នុងការចាត់ថ្នាក់ទិន្នន័យ។ វាព្យាយាមរៀបចំទិន្នន័យដែលមានភាពស្មុគស្មាញច្រើនវិមាត្រ ឱ្យទៅជាទម្រង់ផែនទីតូចៗ ដោយរក្សានូវទម្រង់ប្រហាក់ប្រហែលគ្នានៃទិន្នន័យដើម ពោលគឺទិន្នន័យដែលស្រដៀងគ្នានឹងត្រូវស្ថិតនៅក្បែរគ្នាជានិច្ច។ | វាដូចជាការបោះសៀវភៅរាប់ពាន់ក្បាលទៅលើឥដ្ឋ រួចសៀវភៅទាំងនោះចេះរត់ទៅតម្រៀបគ្នាជាក្រុមៗដោយស្វ័យប្រវត្តិ តាមប្រភេទសាច់រឿងដូចៗគ្នានៅក្បែរៗគ្នា។ |
| Vector Quantization | ជាបច្ចេកទេសបង្រួមទិន្នន័យ ដែលយកក្រុមនៃចំណុចទិន្នន័យជាច្រើន (វ៉ិចទ័រ) ទៅចងក្រងជាក្រុមធំៗ រួចតំណាងក្រុមនីមួយៗដោយចំណុចកណ្តាលមួយ (Centroid)។ នៅក្នុងការសម្គាល់សំឡេង វាជួយបំប្លែងរលកសំឡេងបន្តបន្ទាប់គ្នាឱ្យទៅជានិមិត្តសញ្ញាដាច់ៗពីគ្នា ដើម្បីងាយស្រួលឱ្យកុំព្យូទ័រធ្វើការគណនាបានលឿន។ | វាដូចជាការចាប់ក្រុមមនុស្សរាប់រយនាក់ដែលឈររាយប៉ាយ ឱ្យទៅឈរជា ៤ ឬ ៥ ក្រុមធំៗ រួចជ្រើសរើសមេក្រុមម្នាក់ជាតំណាងឱ្យក្រុមនីមួយៗ។ |
| Viterbi Algorithm | ជាក្បួនដោះស្រាយគណិតវិទ្យាដ៏មានប្រសិទ្ធភាពមួយសម្រាប់ស្វែងរក 'ផ្លូវដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត' (most likely path) នៅក្នុង Hidden Markov Models។ នៅពេលកុំព្យូទ័រទទួលបានសញ្ញាសំឡេង វាប្រើក្បួននេះដើម្បីទាញយកលំដាប់ពាក្យដែលត្រឹមត្រូវបំផុត ដោយកាត់ចោលនូវជម្រើសផ្សេងៗដែលមិនសូវសមហេតុផល។ | វាដូចជាការប្រើកម្មវិធី Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿន និងមានសុវត្ថិភាពបំផុតពីផ្ទះទៅសាលារៀន ដោយមិនបាច់សាកល្បងជិះគ្រប់ផ្លូវទាំងអស់នោះទេ។ |
| Multilayer Perceptrons | ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់ច្រើន (Input, Hidden, Output) ដែលត្រូវបានបណ្តុះបណ្តាលដើម្បីរៀនសម្គាល់ទម្រង់ទិន្នន័យស្មុគស្មាញ (Non-linear)។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីប៉ាន់ស្មានថា តើសំឡេងមួយឃ្លាមានភាគរយប៉ុន្មានដែលជាសំឡេងរបស់អ្នកនិយាយពិតប្រាកដ (Posterior probabilities)។ | វាដូចជារោងចក្រកែច្នៃមួយ ដែលមានកម្មករតម្រង់ជួរគ្នាជាច្រើនដំណាក់កាល ដោយអ្នកទីមួយទទួលវត្ថុធាតុដើម បញ្ជូនទៅអ្នកបន្ទាប់ដើម្បីកែច្នៃបន្ត រហូតដល់អ្នកចុងក្រោយសម្រេចបានជាផលិតផលសម្រេច។ |
| Detection Error Tradeoff | ជាក្រាហ្វិកសម្រាប់វាយតម្លៃប្រសិទ្ធភាពនៃប្រព័ន្ធផ្ទៀងផ្ទាត់អត្តសញ្ញាណ (ដូចជាការផ្ទៀងផ្ទាត់សំឡេងជាដើម)។ វាបង្ហាញពីទំនាក់ទំនងរវាងកំហុសពីរប្រភេទគឺ៖ ការបដិសេធមនុស្សពិតប្រាកដ (False Rejection) និងការអនុញ្ញាតឱ្យជនបន្លំចូល (False Acceptance) នៅពេលអ្នកផ្លាស់ប្តូរកម្រិតនៃការអនុញ្ញាត។ | វាដូចជាការសារ៉េកម្រិតរោទិ៍នៃប្រព័ន្ធការពារផ្ទះ បើយើងដាក់ឱ្យវាឆាប់រោទិ៍ពេក វាអាចរោទិ៍ទោះបីជាសត្វឆ្មាដើរកាត់ ប៉ុន្តែបើយើងដាក់ឱ្យវាពិបាករោទិ៍ពេក ចោរចូលផ្ទះក៏វាមិនរោទិ៍ដែរ។ |
| Temporal Decomposition | ជាបច្ចេកទេសវិភាគសញ្ញាសំឡេង ដោយពុះបំបែកបន្ទាត់សំឡេងដែលប្រែប្រួលជាបន្តបន្ទាប់ ឱ្យទៅជាបំណែកតូចៗដែលមានលក្ខណៈថេរបណ្តោះអាសន្ន (Quasi-stationary) ដែលតំណាងឱ្យព្រឹត្តិការណ៍សូរស័ព្ទ (Acoustic events) ដាច់ដោយឡែកពីគ្នា។ វាជួយឱ្យប្រព័ន្ធផ្ទៀងផ្ទាត់អ្នកនិយាយចាប់យកចំនុចសំខាន់ៗនៃទម្លាប់នៃការបញ្ចេញសំឡេង។ | វាដូចជាការកាត់ខ្សែភាពយន្តវីដេអូដែលវែង ឱ្យទៅជាបំណែកឈុតឆាកខ្លីៗដាច់ពីគ្នា ដែលឈុតនីមួយៗបង្ហាញពីសកម្មភាពតែមួយប្រភេទ ដើម្បីងាយស្រួលយកទៅវិភាគ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖