បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើការបង្កើតនិងវាយតម្លៃប្រព័ន្ធសម្គាល់សំឡេងនិយាយលេខជាភាសាអ៊ីតាលី ដោយប្រៀបធៀបប្រសិទ្ធភាពរវាងការប្រើប្រាស់ក្នុងបរិស្ថានសំឡេងច្បាស់ល្អ និងបរិស្ថានសំឡេងតាមទូរស័ព្ទដែលមានការរំខាន។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអនុវត្តប្រព័ន្ធកូនកាត់ HMM/ANN តាមរយៈកម្មវិធី CSLU Toolkit ដោយធ្វើការសាកល្បងជាពីរដំណាក់កាលជាមួយនឹងទិន្នន័យ SPK-IRST និង PANDA-CSELT។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline Training (B1/B2) ការបណ្តុះបណ្តាលបណ្តាញគោលដោយប្រើ HMM/ANN |
មានភាពងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលត្រឹមត្រូវខ្ពស់បំផុត (៩៩,៦៥%) សម្រាប់បរិស្ថានសំឡេងច្បាស់ល្អ។ | ភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលសាកល្បងជាមួយទិន្នន័យពីប្រព័ន្ធទូរស័ព្ទពិតប្រាកដ ដោយសារភាពមិនស៊ីគ្នានៃសំឡេងរំខាន។ | ទទួលបានភាពត្រឹមត្រូវនៃពាក្យ ៩៩,៦៥% (B1) លើទិន្នន័យសំឡេងច្បាស់ និង ៩១,៨៦% (B2) លើការតេស្តសំឡេងតាមទូរស័ព្ទពិតប្រាកដ។ |
| Forced Alignment Training (FA1/FA2) ការបណ្តុះបណ្តាលដោយការតម្រឹមទិន្នន័យបង្ខំ |
ជួយបង្កើតស្លាកសូរសព្ទ (Phonetic labels) ដែលមានភាពច្បាស់លាស់ និងពេលវេលាត្រឹមត្រូវជាងមុនដោយស្វ័យប្រវត្តិ។ វាបង្កើនប្រសិទ្ធភាពនៃម៉ូដែលគោលបន្ថែមទៀត។ | ទាមទារឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងគោល (Baseline) ដែលមានដំណើរការល្អជាមុនសិន ទើបអាចធ្វើការតម្រឹមទិន្នន័យបានត្រឹមត្រូវ។ | សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៩២,២១% លើសំណុំទិន្នន័យអភិវឌ្ឍន៍សម្រាប់ការសាកល្បងបរិស្ថានទូរស័ព្ទ (FA2)។ |
| Forward-Backward Training (FB2) ការបណ្តុះបណ្តាលដោយប៉ាន់ស្មានប្រូបាប៊ីលីតេ Forward-Backward |
កែលម្អការប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទបានកាន់តែល្អប្រសើរ ដោយមិនពឹងផ្អែកតែលើគោលដៅគោលពីរ (Binary targets) ដែលជួយសម្របទៅនឹងសំឡេងរំខានបានល្អ។ | មានភាពស្មុគស្មាញក្នុងការគណនា និងទាមទារម៉ូដែលបណ្តាញគោលជាមុន (FA2) ដើម្បីផ្តើមដំណើរការបណ្តុះបណ្តាលនេះ។ | ទទួលបានលទ្ធផលល្អបំផុតគឺ ៩២,៥៥% នៃភាពត្រឹមត្រូវនៃពាក្យលើសំណុំទិន្នន័យអភិវឌ្ឍន៍សម្រាប់បរិស្ថានទូរស័ព្ទ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យសំឡេងចំនួនច្រើនសម្រាប់ការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទកូនកាត់ (Hybrid Neural Networks)។
ការសិក្សានេះប្រមូលផ្តុំទិន្នន័យសំឡេងភាសាអ៊ីតាលីពីតំបន់ North-East និងទូទាំងប្រទេសសម្រាប់ទិន្នន័យទូរស័ព្ទ។ ដោយសារវាផ្តោតតែលើភាសា និងគ្រាមភាសាអ៊ីតាលី វាមិនអាចយកមកអនុវត្តផ្ទាល់លើភាសាខ្មែរបានទេ បើគ្មានការប្រមូលទិន្នន័យសំឡេងខ្មែរក្នុងបរិបទស្រដៀងគ្នា។ យ៉ាងណាមិញ វាបង្ហាញពីគំរូដ៏ល្អសម្រាប់ដោះស្រាយបញ្ហាសំឡេងរំខានពេលខលទូរស័ព្ទនៅកម្ពុជា។
វិធីសាស្ត្រក្នុងការស្រាវជ្រាវនេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងជាភាសាខ្មែរ ពិសេសលើការសម្គាល់លេខ (Digit Recognition) ក្នុងបរិស្ថានដែលមានសំឡេងរំខាន។
ការអនុវត្តស្ថាបត្យកម្ម HMM/ANN រួមជាមួយនឹងបច្ចេកទេសកាត់បន្ថយសំឡេងរំខាន (ដូចជា RASTA និង CMS) អាចជួយឱ្យស្ថាប័ននៅកម្ពុជាបង្កើតសេវាកម្មទូរស័ព្ទស្វ័យប្រវត្តិដែលដំណើរការយ៉ាងរលូន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hybrid HMM/ANN | ជាប្រព័ន្ធកូនកាត់ដែលរួមបញ្ចូលគ្នារវាង Hidden Markov Model (HMM) សម្រាប់តាមដានលំដាប់លំដោយនៃពាក្យក្នុងពេលវេលា និង Artificial Neural Network (ANN) សម្រាប់ប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទនីមួយៗ។ ការរួមបញ្ចូលគ្នានេះជួយឲ្យប្រព័ន្ធស្គាល់សំឡេងដំណើរការបានកាន់តែសុក្រឹត និងមានប្រសិទ្ធភាពខ្ពស់។ | ដូចជាការធ្វើការជាក្រុម ដែលម្នាក់ពូកែស្តាប់ចំណែកសំឡេង (ANN) និងម្នាក់ទៀតពូកែខាងតម្រៀបពាក្យឲ្យត្រូវតាមវេយ្យាករណ៍និងលំដាប់ (HMM)។ |
| Viterbi search | ជាក្បួនអាល់កូរីតដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃពាក្យដែលទំនងជាត្រឹមត្រូវបំផុត ដោយផ្អែកលើម៉ាទ្រីសប្រូបាប៊ីលីតេដែលបញ្ចេញដោយបណ្តាញសរសៃប្រសាទ ដើម្បីកាត់បន្ថយជម្រើសខុស និងស្វែងរកចម្លើយចុងក្រោយ។ | ដូចជាការប្រើប្រព័ន្ធ GPS ដើម្បីគណនារកផ្លូវដែលលឿន និងត្រឹមត្រូវបំផុតពីចំណុចមួយទៅចំណុចមួយទៀតក្នុងចំណោមជម្រើសផ្លូវរាប់ពាន់។ |
| Forced alignment | ជាដំណើរការដែលប្រើប្រព័ន្ធសម្គាល់សំឡេងមានស្រាប់ ដើម្បីតម្រឹមអត្ថបទដែលគេដឹងមុន ឲ្យស៊ីគ្នានឹងពេលវេលាជាក់លាក់នៃឯកសារសំឡេង ដើម្បីបង្កើតជាស្លាកសូរសព្ទ (Phonetic labels) ដោយស្វ័យប្រវត្តិសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលថ្មីបន្តទៀត។ | ដូចជាការយកអត្ថបទចម្រៀងទៅតម្រឹមឲ្យត្រូវគ្នានឹងចង្វាក់ភ្លេងនាទីនីមួយៗក្នុងម៉ាស៊ីនខារ៉ាអូខេដោយស្វ័យប្រវត្តិ។ |
| Forward-backward algorithm | ជាក្បួនគណនាដែលប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃស្ថានភាពសូរសព្ទនីមួយៗ ដោយមើលទាំងទិន្នន័យពីអតីតកាល (Forward) និងទិន្នន័យពីអនាគត (Backward) នៅក្នុងស៊េរីនៃសំឡេង ដើម្បីបង្កើតគោលដៅបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទដែលមានភាពសុក្រឹតជាងការប្រើគោលដៅសូន្យឬមួយ។ | ដូចជាការទាយពាក្យដែលបាត់ក្នុងប្រយោគ ដោយអានទាំងពាក្យខាងមុខ និងពាក្យខាងក្រោយនៃចន្លោះនោះ ដើម្បីឲ្យប្រាកដថាអត្ថន័យពិតជាត្រឹមត្រូវ។ |
| RASTA (RelAtive SpecTrAl) | ជាបច្ចេកទេសដំណើរការមុន (Pre-processing) លើសំឡេងដែលផ្តោតលើការផ្លាស់ប្តូរនៃសូរសព្ទ និងកាត់បន្ថយ ឬច្រោះចោលនូវឥទ្ធិពលនៃសំឡេងរំខានដែលនៅថេរ (ដូចជាសំឡេងរ៉ែៗក្នុងទូរស័ព្ទ) ដើម្បីធ្វើឲ្យការស្គាល់សំឡេងកាន់តែមានភាពធន់នឹងបរិស្ថានមិនល្អ។ | ដូចជាវ៉ែនតាការពារពន្លឺថ្ងៃ ដែលជួយបិទបាំងពន្លឺចាំងខ្លាំងដែលនៅថេរ និងធ្វើឲ្យយើងមើលឃើញវត្ថុច្បាស់ល្អ។ |
| Cepstral Mean Subtraction (CMS) | ជាវិធីសាស្ត្រក្នុងការដកតម្លៃមធ្យមនៃលក្ខណៈសំឡេងចេញពីសញ្ញាសំឡេងនីមួយៗ ដើម្បីកាត់បន្ថយឥទ្ធិពលមិនល្អដែលបណ្តាលមកពីឧបករណ៍ថតសំឡេងខុសៗគ្នា ឬបណ្តាញទូរស័ព្ទផ្សេងៗគ្នា។ | ដូចជាការថ្លឹងទម្ងន់ផ្លែឈើក្នុងកន្ត្រក ដោយយើងត្រូវដកទម្ងន់កន្ត្រកចេញជាមុនសិនទើបបានទម្ងន់ផ្លែឈើពិតប្រាកដ។ |
| MFCCs (Mel Frequency Cepstral Coefficients) | ជាលក្ខណៈពិសេសនៃសញ្ញាសំឡេងដែលត្រូវបានស្រង់ចេញដោយត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ (កម្រិតប្រេកង់ Mel)។ វាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយដើម្បីតំណាងឲ្យទិន្នន័យសំឡេងនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ។ | ដូចជាការបំប្លែងសំឡេងនិយាយឲ្យទៅជាលេខកូដពិសេស ដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់បាន ស្រដៀងនឹងរបៀបដែលត្រចៀកមនុស្សចាប់យកសំឡេងដែរ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖