បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការស្វែងរករង្វាស់ទំនុកចិត្ត (confidence measures) ដែលអាចជឿទុកចិត្តបានសម្រាប់ការផ្ទៀងផ្ទាត់សម្មតិកម្មនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេង (speech recognition) ដោយមិនពឹងផ្អែកលើម៉ូដែលបន្ថែម (filler/garbage models)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានណែនាំរង្វាស់ទំនុកចិត្តសូរស័ព្ទចំនួន ៤ ដោយផ្អែកលើការប៉ាន់ស្មានប្រូបាប៊ីលីតេបន្តបន្ទាប់មូលដ្ឋាន (local posterior probability estimates) ដែលគណនាដោយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) រួចប្រៀបធៀបលទ្ធផលកម្រិតពាក្យ និងសូរសព្ទ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Lattice Density (CM_lat) រង្វាស់ដង់ស៊ីតេបណ្តាញ (Lattice Density) |
ផ្តល់លទ្ធផលល្អបំផុតសម្រាប់ការផ្ទៀងផ្ទាត់សម្មតិកម្មនៅកម្រិតពាក្យ (Word level) ដោយសារវាប្រើប្រាស់ព័ត៌មានទាំងពីម៉ូដែលភាសានិងម៉ូដែលសូរស័ព្ទបញ្ចូលគ្នា។ | វាមិនមែនជារង្វាស់ទំនុកចិត្តដែលពឹងផ្អែកលើសូរស័ព្ទសុទ្ធសាធនោះទេ ហើយការទាញយកទិន្នន័យចេញពីបណ្តាញពាក្យ (Word lattice) មានភាពស្មុគស្មាញ។ | ទទួលបានប្រូបាប៊ីលីតេកំហុស (Type I + Type II) ទាបបំផុតត្រឹម ០.២៧ នៅកម្រិតពាក្យ ដែលជាលទ្ធផលល្អជាងគេបំផុតសម្រាប់ការធ្វើតេស្តកម្រិតពាក្យ។ |
| Normalised Posterior (CM_npost) រង្វាស់ប្រូបាប៊ីលីតេបន្តបន្ទាប់ស្តង់ដារ |
ដោះស្រាយបញ្ហាការប៉ាន់ស្មានទាបនៃប្រូបាប៊ីលីតេសូរស័ព្ទដោយការចែករំលែកជាមួយរយៈពេល (Duration) នៃសូរសព្ទ។ វាផ្តល់លទ្ធផលល្អបំផុតនៅកម្រិតសូរសព្ទ (Phone level)។ | ប្រសិទ្ធភាពរបស់វានៅកម្រិតពាក្យ អាចត្រូវបានកាត់បន្ថយយ៉ាងខ្លាំង ប្រសិនបើវចនានុក្រមបញ្ចេញសំឡេង (Pronunciation lexicon) មិនមានគុណភាពល្អ។ | ទទួលបានប្រូបាប៊ីលីតេកំហុស ០.២៦ ពេលប្រើលក្ខខណ្ឌកម្រិតពាក្យ និង ០.២២ ពេលប្រើតែលក្ខខណ្ឌកម្រិតសូរសព្ទ ដែលល្អបំផុតប្រចាំកម្រិតសូរសព្ទ។ |
| Posterior (CM_post) រង្វាស់ប្រូបាប៊ីលីតេបន្តបន្ទាប់ |
ងាយស្រួលគណនាដោយផ្អែកលើលទ្ធផលប៉ាន់ស្មានដោយផ្ទាល់ពីបណ្តាញសរសៃប្រសាទ (ANN) និងជួយសន្សំសំចៃការបូកសរុប។ | ការគណនាសន្មតថាទិន្នន័យដើម (Training data priors) គឺត្រឹមត្រូវទាំងស្រុង ដែលអាចបណ្តាលឱ្យមានគម្លាតខុសឆ្គង។ | ដំណើរការបានល្អបង្គួរ ប៉ុន្តែនៅតែមានកម្រិតកំហុសខ្ពស់ជាងបន្តិចបើប្រៀបធៀបជាមួយ CM_npost។ |
| Entropy (CM_ent) រង្វាស់អង់ត្រូបពី (Entropy) |
វាស់វែងភាពមិនប្រាកដប្រជារបស់ម៉ូដែល (ANN) ផ្ទាល់នៅរៀងរាល់វិនាទី (Frame) ដោយមិនចាំបាច់ផ្អែកលើលំដាប់លំដោយ Viterbi (Optimal state sequence) ឡើយ។ | មានអត្រាកំហុសខ្ពស់ជាងគេក្នុងការធ្វើតេស្តសម្មតិកម្ម ដោយសារតែវាមិនបានឆ្លុះបញ្ចាំងពីទិដ្ឋភាពរួមនៃពាក្យ ឬសូរសព្ទមួយពេញលេញ។ | មានដំណើរការខ្សោយជាងគេទាំងកម្រិតពាក្យ និងកម្រិតសូរសព្ទ បើធៀបនឹងរង្វាស់ ៤ ផ្សេងទៀត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់តួលេខលម្អិតអំពីទំហំកុំព្យូទ័រនោះទេ ប៉ុន្តែប្រព័ន្ធ Hybrid HMM/ANN ទាមទារថាមពលគណនា និងទិន្នន័យជាក់លាក់សម្រាប់ការហ្វឹកហាត់។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យព័ត៌មានពាណិជ្ជកម្មអាមេរិកខាងជើង ដែលជាភាសាអង់គ្លេសទម្រង់ផ្លូវការ និងមិនសូវមានសំឡេងរំខាន។ សម្រាប់ប្រទេសកម្ពុជា ការយកទិន្នន័យបែបនេះមកធ្វើជាគំរូអាចនឹងបរាជ័យ ព្រោះភាសាខ្មែរមានសូរសព្ទស្មុគស្មាញ មានពាក្យកម្ចីច្រើន និងបរិបទនិយាយប្រចាំថ្ងៃមិនមានទម្រង់ស្តង់ដារច្បាស់លាស់។
ទោះបីជាឯកសារនេះជារបកគំហើញតាំងពីឆ្នាំ ១៩៩៧ ប៉ុន្តែគំនិតនៃការបង្កើតរង្វាស់ទំនុកចិត្តដោយមិនបាច់ប្រើ Garbage models គឺនៅតែមានសារៈសំខាន់សម្រាប់ការសន្សំសំចៃធនធានក្នុងការអភិវឌ្ឍ AI នៅកម្ពុជា។
ការអភិវឌ្ឍប្រព័ន្ធ Confidence Measures នេះនឹងជួយបង្កើនទំនុកចិត្តក្នុងការដាក់ឱ្យប្រើប្រាស់កម្មវិធីសម្គាល់សំឡេងភាសាខ្មែរនៅក្នុងវិស័យផ្លូវការ ដែលទាមទារភាពសុក្រឹតខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| confidence measure | ជារង្វាស់ស្ថិតិដែលបង្ហាញពីកម្រិតនៃភាពប្រាកដប្រជា ឬកម្រិតដែលម៉ូដែលមួយស៊ីសង្វាក់គ្នាជាមួយទិន្នន័យជាក់ស្តែង។ ក្នុងបរិបទនេះ វាជួយកំណត់ថាពាក្យដែលម៉ាស៊ីនស្តាប់បានពិតជាត្រឹមត្រូវឬអត់ ដើម្បីបដិសេធចោលនូវពាក្យដែលមិនត្រឹមត្រូវ។ | ដូចជាសិស្សម្នាក់ប្រាប់គ្រូវាថាគេប្រាកដ ៨០% លើចម្លើយដែលគេបានឆ្លើយ។ |
| Hybrid HMM/ANN | ជាប្រព័ន្ធកូនកាត់ដែលរួមបញ្ចូលគ្នានូវម៉ូដែល Hidden Markov Model (HMM) សម្រាប់តាមដានលំដាប់លំដោយនៃសំឡេង និង Artificial Neural Network (ANN) សម្រាប់គណនាប្រូបាប៊ីលីតេនៃសំឡេងនៅពេលនីមួយៗ ដើម្បីបង្កើតប្រព័ន្ធសម្គាល់សំឡេងមួយដែលកាន់តែច្បាស់លាស់។ | ដូចជាការធ្វើការជាក្រុម ដែលម្នាក់ពូកែស្តាប់សំឡេងកាត់ៗ (ANN) និងម្នាក់ទៀតពូកែផ្គុំសំឡេងទាំងនោះឲ្យចេញជាពាក្យ (HMM)។ |
| posterior probability | ជាប្រូបាប៊ីលីតេ (ឱកាសកើតឡើង) ដែលត្រូវបានគណនាក្រោយពេលទទួលបានទិន្នន័យសូរស័ព្ទ (acoustic data) រួចរាល់។ វាបង្ហាញថាថាតើសម្មតិកម្ម ឬការព្យាករណ៍មួយត្រឹមត្រូវកម្រិតណា ដោយផ្អែកលើសំឡេងពិតប្រាកដដែលប្រព័ន្ធទទួលបាន។ | ដូចជាការសន្និដ្ឋានថាអាកាសធាតុពិតជានឹងភ្លៀង ដោយផ្អែកលើការមើលឃើញពពកខ្មៅនៅលើមេឃជាក់ស្តែង។ |
| hypothesis test | ជាវិធីសាស្ត្រស្ថិតិមួយដើម្បីធ្វើការសម្រេចចិត្តថា តើត្រូវទទួលយក ឬបដិសេធសម្មតិកម្មណាមួយ។ ក្នុងការស្រាវជ្រាវនេះ វាគឺជាការតេស្តដើម្បីបញ្ជាក់ថាពាក្យដែលម៉ាស៊ីនទាយ (សម្មតិកម្ម) ពិតជាត្រឹមត្រូវឬទេ ដោយប្រៀបធៀបតម្លៃនៃរង្វាស់ទំនុកចិត្តទៅនឹងកម្រិតស្តង់ដារណាមួយ។ | ដូចជាចៅក្រមស្តាប់សាក្សីនិងភស្តុតាង ដើម្បីសម្រេចថាជនជាប់ចោទមានទោស ឬគ្មានទោស។ |
| out-of-vocabulary (OOV) | សំដៅលើពាក្យដែលមិនមាននៅក្នុងវចនានុក្រម ឬប្រព័ន្ធទិន្នន័យបណ្តុះបណ្តាលរបស់ម៉ាស៊ីនសម្គាល់សំឡេង ដែលនេះជាមូលហេតុចម្បងធ្វើឱ្យម៉ាស៊ីនស្តាប់ខុស ឬទាយពាក្យដោយមានកម្រិតទំនុកចិត្តទាប។ | ដូចជាការដែលយើងស្តាប់ជនបរទេសនិយាយពាក្យមួយ ដែលយើងមិនធ្លាប់រៀនពីមុនមកសោះ ទើបធ្វើឲ្យយើងស្តាប់មិនយល់។ |
| Viterbi algorithm | ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃ state ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត (ត្រឹមត្រូវបំផុត) នៅក្នុងប្រព័ន្ធ HMM ដើម្បីកំណត់ថាជាពាក្យអ្វី។ | ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីរកផ្លូវដែលលឿននិងត្រឹមត្រូវបំផុតទៅកាន់គោលដៅ។ |
| Lattice density | ជាចំនួននៃសម្មតិកម្ម ឬជម្រើសពាក្យដែលកំពុងប្រកួតប្រជែងគ្នានៅក្នុងប្រព័ន្ធ នៅពេលវេលាជាក់លាក់ណាមួយ (frame)។ ដង់ស៊ីតេកាន់តែខ្ពស់ មានន័យថាម៉ាស៊ីនមានជម្រើសច្រើនដែលធ្វើឱ្យការសម្រេចចិត្តកាន់តែមានភាពស្មុគស្មាញ និងបន្ថយទំនុកចិត្តរបស់ម៉ាស៊ីន។ | ដូចជាការឈរនៅផ្លូវបំបែកដែលមានផ្លូវតូចៗជាច្រើន ធ្វើឲ្យយើងស្ទាក់ស្ទើរពិបាកសម្រេចចិត្តថាត្រូវទៅផ្លូវណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖