បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីដែនកំណត់នៃការបណ្តុះបណ្តាលបណ្តាញណឺរ៉ូននៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេងកូនកាត់ (Hybrid Speech Recognition) ជាពិសេសការលំបាកក្នុងការបណ្តុះបណ្តាលបណ្តាញពហុស្រទាប់ ដោយសារកង្វះតម្លៃគោលដៅសម្រាប់ការធ្វើឱ្យប្រសើរតាមបែបប្រពៃណី។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតក្បួនដោះស្រាយថ្មីផ្អែកលើ gradient descent សម្រាប់បណ្តុះបណ្តាលបណ្តាញណឺរ៉ូន (MMI-NNs) ដើម្បីដើរតួជា Vector Quantizers ដ៏ប្រសើរបំផុតនៅក្នុងរចនាសម្ព័ន្ធ HMM។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| K-means system (Baseline) ប្រព័ន្ធ K-means (ប្រព័ន្ធគោល) |
ងាយស្រួលក្នុងការអនុវត្ត និងជាវិធីសាស្ត្រស្តង់ដារសម្រាប់ការដាក់ជាក្រុមទិន្នន័យដោយមិនបាច់ប្រើប្រាស់បណ្តាញណឺរ៉ូន។ | ខ្វះសមត្ថភាពក្នុងការទាញយកលក្ខណៈពិសេសនៃសូរសព្ទប្រកបដោយប្រសិទ្ធភាពខ្ពស់ ធៀបនឹងម៉ូដែលបណ្តាញណឺរ៉ូន។ | សម្រេចបានអត្រាទទួលស្គាល់ពាក្យជាមធ្យម ៩៣,២% លើមូលដ្ឋានទិន្នន័យ RM។ |
| Traditional MMI-NN (Euclidean NN) បណ្តាញណឺរ៉ូន MMI បែបប្រពៃណី (ផ្អែកលើ Euclidean) |
អាចធ្វើឱ្យប្រសើរឡើងនូវការទទួលស្គាល់សំឡេងបានប្រសើរជាង k-means តាមរយៈការរៀនទម្ងន់ទិន្នន័យ។ | ប្រើវិធីសាស្ត្រសាកល្បងនិងកំហុស (trial-and-error) ដែលស៊ីពេលយូរ និងមានការលំបាកខ្លាំងក្នុងការបណ្តុះបណ្តាលបណ្តាញដែលមានស្រទាប់លាក់ (hidden layers) ច្រើន។ | ដំណើរការយឺត និងតម្រូវឱ្យមានរចនាសម្ព័ន្ធបណ្តាញដែលជាក់លាក់ខ្លាំង។ |
| Gradient-based MMI-NN (Proposed MLP) បណ្តាញណឺរ៉ូន MMI ផ្អែកលើ Gradient (វិធីសាស្ត្រថ្មី) |
អនុញ្ញាតឱ្យមានការបណ្តុះបណ្តាលបណ្តាញពហុស្រទាប់ (MLP) ដែលបង្កើនភាពត្រឹមត្រូវខ្ពស់ និងប្រើពេលបណ្តុះបណ្តាលលឿនជាងមុន ២ ដង។ | ទាមទារការគណនាគណិតវិទ្យាស្មុគស្មាញ និងត្រូវការអនុគមន៍ Softmax ក៏ដូចជាក្បួនដោះស្រាយល្បឿនបណ្តុះបណ្តាល (ឧ. RProp)។ | សម្រេចបានអត្រាទទួលស្គាល់ពាក្យជាមធ្យម ៩៥,៦% លើមូលដ្ឋានទិន្នន័យ RM ដែលជាលទ្ធផលល្អបំផុត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងទិន្នន័យដែលចាំបាច់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលប្រកបដោយប្រសិទ្ធភាព។
ការសិក្សានេះប្រើប្រាស់មូលដ្ឋានទិន្នន័យ DARPA RM ដែលផ្តោតលើភាសាអង់គ្លេសនៅក្នុងបរិបទយោធា និងការគ្រប់គ្រងធនធាន។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យបែបនេះអាចបណ្តាលឱ្យមានភាពលំអៀងភាសា ដោយសារវាគ្មានតំណាងសូរសព្ទ និងវេយ្យាករណ៍នៃភាសាខ្មែរទាល់តែសោះ។ ដូច្នេះ ដើម្បីអនុវត្តវិធីសាស្ត្រនេះបាន គេចាំបាច់ត្រូវប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលមានទំហំធំ និងមានគុណភាព។
ទោះបីជាបច្ចេកវិទ្យានេះមានអាយុកាលច្រើនឆ្នាំ ប៉ុន្តែគោលការណ៍កូនកាត់ NN-HMM របស់វាគឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់អភិវឌ្ឍប្រព័ន្ធទទួលស្គាល់សំឡេងសម្រាប់ភាសាដែលមានធនធានតិចដូចជាភាសាខ្មែរ។
ជារួម វិធីសាស្ត្រនៃក្បួនដោះស្រាយនេះផ្តល់នូវចំណេះដឹងជាមូលដ្ឋានដ៏រឹងមាំមួយ សម្រាប់ការចាប់ផ្តើមអភិវឌ្ឍប្រព័ន្ធ AI ផ្នែកភាសាខ្មែរ បើទោះបីជាយើងត្រូវបំប្លែងវាទៅអនុវត្តជាមួយឧបករណ៍កម្មវិធីជំនាន់ថ្មីក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Models (HMM) | ម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការទទួលស្គាល់សំឡេង ដើម្បីគណនាប្រូបាប៊ីលីតេនៃលំដាប់លំដោយនៃសំឡេង ក្នុងគោលបំណងទាយរកពាក្យ ឬសូរសព្ទដែលលាក់កំបាំងនៅពីក្រោយរលកសំឡេងនោះ។ | ដូចជាការទស្សន៍ទាយថាអាកាសធាតុថ្ងៃនេះជារដូវអ្វី ដោយគ្រាន់តែសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សពាក់ដើរតាមផ្លូវជារៀងរាល់ថ្ងៃដោយមិនបាច់មើលមេឃ។ |
| Maximum Mutual Information (MMI) | មុខងារគោលដៅសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលកុំព្យូទ័រ ដែលព្យាយាមពង្រីកទំនាក់ទំនងរវាងលទ្ធផលដែលម៉ូដែលទាយ និងលទ្ធផលពិតប្រាកដ ដើម្បីឱ្យម៉ូដែលចេះបែងចែកភាពខុសគ្នានៃសំឡេងនីមួយៗបានកាន់តែច្បាស់លាស់។ | ដូចជាការកែសម្រួលប៉ុស្តិ៍វិទ្យុឱ្យច្បាស់ល្អបំផុត ដោយព្យាយាមកាត់បន្ថយសំឡេងរំខានផ្សេងៗ និងចាប់យកតែសំឡេងអ្នកផ្សាយដែលយើងចង់ស្តាប់ប៉ុណ្ណោះ។ |
| Vector Quantizer (VQ) | បច្ចេកទេសបំប្លែងទិន្នន័យដែលមានទំហំធំ និងបន្តបន្ទាប់គ្នា ឱ្យទៅជាក្រុមតូចៗដាច់ៗពីគ្នា (ហៅថា Codebooks) ដើម្បីងាយស្រួលក្នុងការចាត់ថ្នាក់ទិន្នន័យ និងជួយឱ្យប្រព័ន្ធម៉ាស៊ីនរៀនដំណើរការបានលឿនជាងមុន។ | ដូចជាការចាត់ថ្នាក់សិស្សរាប់ពាន់នាក់ទៅតាមកម្រិតនិទ្ទេស A, B, C, D ដើម្បីងាយស្រួលគ្រប់គ្រង ជាជាងការហៅពិន្ទុជាក់លាក់របស់ពួកគេម្នាក់ៗ។ |
| Gradient Descent | ក្បួនដោះស្រាយគណិតវិទ្យាសម្រាប់ស្វែងរកចំណុចទាបបំផុតនៃអនុគមន៍ ដែលជួយកែតម្រូវទម្ងន់ (weights) របស់បណ្តាញណឺរ៉ូនបន្តិចម្តងៗរហូតដល់កំហុសមានកម្រិតទាបបំផុត។ | ដូចជាមនុស្សបិទភ្នែកដើរចុះពីលើភ្នំ ដោយរាវរកផ្លូវណាដែលចំណោតចុះក្រោមខ្លាំងជាងគេរហូតដល់បានដើរទៅដល់បាតជ្រលងភ្នំដោយសុវត្ថិភាព។ |
| Multi-Layer Perceptron (MLP) | ប្រភេទនៃបណ្តាញណឺរ៉ូនសិប្បនិម្មិតដែលមានស្រទាប់ថ្នាំងយ៉ាងតិចបី (ស្រទាប់បញ្ចូល ស្រទាប់លាក់ និងស្រទាប់បញ្ចេញ) ដែលមានសមត្ថភាពរៀន និងដោះស្រាយបញ្ហាស្មុគស្មាញដែលមិនមែនជាបន្ទាត់ត្រង់។ | ដូចជារោងចក្រដែលមានខ្សែសង្វាក់ផលិតកម្មច្រើនតំណាក់កាល ដោយកម្មករនៅផ្នែកនីមួយៗទទួលភារកិច្ចបន្តបន្ទាប់គ្នាដើម្បីប្រែក្លាយវត្ថុធាតុដើមឱ្យទៅជាផលិតផលសម្រេចមួយដ៏ស្មុគស្មាញ។ |
| Probability Density Function (pdf) | អនុគមន៍ស្ថិតិដែលបង្ហាញពីរបាយប្រូបាប៊ីលីតេនៃអថេរបន្តបន្ទាប់ណាមួយ ដែលក្នុងឯកសារនេះត្រូវបានប្រើសម្រាប់វាស់ស្ទង់ឱកាស ឬភាគរយដែលលក្ខណៈសំឡេងណាមួយនឹងលេចឡើង។ | ដូចជាក្រាហ្វដែលបង្ហាញពីកម្ពស់ជាមធ្យមរបស់មនុស្សក្នុងប្រទេសមួយ ដែលចំណុចខ្ពស់បំផុតនៃក្រាហ្វបញ្ជាក់ពីកម្ពស់ដែលមានមនុស្សភាគច្រើនបំផុត។ |
| Mel-Frequency Cepstral Coefficients (MFCCs) | លក្ខណៈពិសេសដែលកុំព្យូទ័រទាញយកចេញពីរលកសំឡេង ដោយផ្អែកលើរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ ដើម្បីធ្វើជាទិន្នន័យបញ្ចូលដ៏សំខាន់សម្រាប់ឱ្យប្រព័ន្ធកុំព្យូទ័រធ្វើការសម្គាល់សំឡេង។ | ដូចជាការចម្លងស្នាមម្រាមដៃនៃសំឡេង ដែលជួយឱ្យកុំព្យូទ័រអាចសម្គាល់ភាពខុសគ្នារវាងសំឡេង "ក" និងសំឡេង "ខ" ដូចដែលត្រចៀករបស់មនុស្សយើងឮពិតៗអ៊ីចឹងដែរ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖