បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតសំឡេងថ្មីសម្រាប់ប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេងនិយាយ (TTS) ដែលជាទូទៅត្រូវការទិន្នន័យច្រើន និងចំណាយពេលយូរ ដោយស្នើឡើងនូវប្រព័ន្ធបន្សាំសំឡេងដែលអាចឱ្យអ្នកប្រើប្រាស់បង្កើតសំឡេងផ្ទាល់ខ្លួនបានយ៉ាងឆាប់រហ័ស។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របំប្លែងលីនេអ៊ែរតាមមូលដ្ឋានដោយផ្អែកលើគំរូល្បាយហ្គោសៀន (Gaussian Mixture Model) ដើម្បីបន្សាំកម្រិតសំឡេង និងវិសាលគម ហើយធ្វើការប្រៀបធៀបជាមួយវិធីសាស្ត្រទូទៅផ្សេងៗទៀត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Joint Density Estimation (JD) ការប៉ាន់ស្មានដង់ស៊ីតេរួម |
ដំណើរការបានគួរឱ្យទុកចិត្ត និងមានស្ថិរភាពជាង ជាពិសេសសម្រាប់ទិន្នន័យបណ្តុះបណ្តាលដែលមានទំហំតូច និងទាមទារប្រតិបត្តិការរួមតិចជាងក្នុងពេលបណ្តុះបណ្តាល។ | ទាមទារការគណនាច្រើនក្នុងអំឡុងពេលវគ្គ EM (Expectation-Maximization) ដោយសារវិមាត្រនៃលំហត្រូវប៉ាន់ស្មានកើនឡើងទ្វេដង។ | ផ្តល់កំហុសតេស្តទាប និងមិនសូវជួបបញ្ហាកំហុសលេខ (numerical errors) កំឡុងពេលបណ្តុះបណ្តាល។ |
| Least-Squares (LS) Estimation ការប៉ាន់ស្មានការ៉េអប្បបរមា |
មិនសូវប្រើកម្លាំងគណនាច្រើនលើវិមាត្រនៃលំហក្នុងវគ្គទីមួយបើធៀបនឹង JD ។ | ជួបប្រទះបញ្ហាកំឡុងពេលធ្វើឱ្យប្រសើរ (optimization) ដែលបណ្តាលឱ្យមានកំហុសលេខ និងទាមទារប្រតិបត្តិការសរុបប្រហែលពីរដងនៃ JD ដោយសារម៉ាទ្រីសធំជាង។ | មានកំហុសខ្ពស់ជាង JD ក្នុងករណីជាច្រើន ជាពិសេសពេលទិន្នន័យបណ្តុះបណ្តាលមានទំហំតូច។ |
| Data Augmentation (DA) Method វិធីសាស្ត្របន្ថែមទិន្នន័យ |
រក្សាបាននូវភាពច្បាស់លាស់នៃការនិយាយខ្ពស់ និងកាត់បន្ថយកំហុសបានច្រើនសម្រាប់ទិន្នន័យដែលខ្វះខាតសូរសព្ទមួយចំនួន។ | អាចមានការភាន់ច្រឡំក្នុងការបំប្លែងសម្រាប់សូរសព្ទដែលមានសំឡេងស្រដៀងគ្នា (ដូចជា diphthongs) ប្រសិនបើទិន្នន័យបន្ថែមមានការប្រែប្រួលខ្លាំងពេក។ | កាត់បន្ថយកំហុសបានរហូតដល់ពាក់កណ្តាលសម្រាប់សូរសព្ទដែលបានបណ្តុះបណ្តាល បើធៀបនឹងវិធីសាស្ត្រធម្មតា ពេលទិន្នន័យមានកំណត់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រជាមូលដ្ឋាន និងទាមទារទិន្នន័យសំឡេងតិចតួចសម្រាប់ការបណ្តុះបណ្តាល។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងភាសាអង់គ្លេសពីមូលដ្ឋានទិន្នន័យ Harvard sentences ដែលមានអ្នកនិយាយប្រុសនិងស្រី។ ទិន្នន័យនេះមិនតំណាងឱ្យភាពចម្រុះនៃសូរសព្ទភាសាខ្មែរដែលមានស្រៈច្រើននិងព្យញ្ជនៈស្មុគស្មាញនោះទេ។ ដូច្នេះ ការយកមកអនុវត្តផ្ទាល់លើភាសាខ្មែរទាមទារឱ្យមានការប្រមូលទិន្នន័យថ្មីដែលឆ្លុះបញ្ចាំងពីលក្ខណៈសូរសព្ទខ្មែរឱ្យបានពេញលេញ។
ទោះបីជាវិធីសាស្ត្រនេះត្រូវបានធ្វើតេស្តលើភាសាអង់គ្លេសក៏ដោយ ក៏ទ្រឹស្តីនៃការបន្សាំសំឡេងអាចមានប្រយោជន៍ច្រើនសម្រាប់ការអភិវឌ្ឍន៍បច្ចេកវិទ្យាភាសាខ្មែរ។
សរុបមក បច្ចេកវិទ្យានេះជាមូលដ្ឋានគ្រឹះដ៏ល្អមួយក្នុងការអភិវឌ្ឍប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេងនិយាយភាសាខ្មែរ (Khmer TTS) ឱ្យកាន់តែមានភាពបត់បែន ចំណាយពេលតិច និងអាចប្ដូរតាមតម្រូវការផ្ទាល់ខ្លួនបាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Text-to-speech (TTS) synthesizer | ប្រព័ន្ធកុំព្យូទ័រដែលបំលែងអត្ថបទសរសេរទៅជាសំឡេងនិយាយដោយស្វ័យប្រវត្តិ។ វាវិភាគអត្ថបទ បំបែកជាសូរសព្ទ និងភ្ជាប់ទិន្នន័យសំឡេងចូលគ្នាដើម្បីបង្កើតជាពាក្យ និងឃ្លាដែលអាចស្តាប់បាន។ | ដូចជាមនុស្សយន្តម្នាក់ដែលអាចអានសៀវភៅ ឬអត្ថបទនៅលើអេក្រង់ឱ្យយើងស្តាប់លឺជាសំឡេងមនុស្សពិតៗ។ |
| Gaussian Mixture Model | ម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់តំណាងឱ្យរបាយទិន្នន័យស្មុគស្មាញ ដោយការផ្សំបញ្ចូលគ្នានូវរបាយកោងធម្មតា (Gaussian distributions) ជាច្រើន។ ក្នុងឯកសារនេះ វាជួយទស្សន៍ទាយនិងបង្កើតអនុគមន៍បំប្លែងរវាងលក្ខណៈសំឡេងដើម និងសំឡេងគោលដៅ។ | ដូចជាការប្រើប្រាស់រូបមន្តលាយពណ៌មូលដ្ឋានជាច្រើនផ្ទាំងចូលគ្នា ដើម្បីក្លែងបន្លំបង្កើតជាផ្ទាំងគំនូរដ៏ស្មុគស្មាញមួយផ្ទាំង។ |
| Line spectral frequencies (LSF) | ទម្រង់គណិតវិទ្យានៃការតំណាងឱ្យលក្ខណៈរលកសំឡេង (spectral envelope) ដែលមានស្ថិរភាពខ្ពស់ ងាយស្រួលក្នុងការធ្វើអន្តរប៉ូល (interpolate) និងមានទំនាក់ទំនងយ៉ាងជិតស្និទ្ធទៅនឹងទម្រង់សម្លេងដែលសម្គាល់អត្តសញ្ញាណអ្នកនិយាយ។ | ដូចជាប្លង់មេ (Blueprint) នៃបំពង់កមនុស្ស ដែលបង្ហាញពីទីតាំងប្រេកង់ណាដែលសំឡេងនឹងលាន់ឮខ្លាំងជាងគេដើម្បីបង្កើតជាសូរសព្ទប្លែកៗពីគ្នា។ |
| Joint density estimation | វិធីសាស្ត្រស្ថិតិដើម្បីស្វែងយល់ពីប្រូបាប៊ីលីតេដែលអថេរពីរ (ឧទាហរណ៍ ទិន្នន័យសំឡេងអ្នកនិយាយទី១ និងទី២) កើតឡើងក្នុងពេលតែមួយ ដើម្បីសិក្សាពីទំនាក់ទំនងនិងបង្កើតរូបមន្តបំប្លែងរវាងពួកវា។ | ដូចជាការសង្កេតមើលទម្លាប់រវាងមនុស្សពីរនាក់ដែលតែងតែដើរជាមួយគ្នា ដើម្បីទស្សន៍ទាយថាបើម្នាក់ដើរទៅឆ្វេង តើម្នាក់ទៀតនឹងប្រែខ្លួនទៅខាងណា។ |
| estimation maximization (EM) algorithm | ក្បួនដោះស្រាយសម្រាប់ស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុតនៃម៉ូដែលស្ថិតិ នៅពេលដែលទិន្នន័យមានភាពមិនច្បាស់លាស់ ឬបាត់បង់ ដោយដំណើរការជាពីរវគ្គគឺ ការស្មាន (Expectation) និងការធ្វើឱ្យប្រសើរបំផុត (Maximization) ធ្វើឡើងចុះឡើងៗទាល់តែម៉ូដែលនោះសុក្រឹត។ | ដូចជាការលេងផ្គុំរូប (Jigsaw puzzle) ដែលបាត់កង់ខ្លះ ដោយដំបូងយើងស្មានរូបរាងវា រួចសាកល្បងដាក់បន្តបន្ទាប់ និងកែតម្រូវរហូតដល់បានរូបរាងមួយដែលសមហេតុផលបំផុត។ |
| data augmentation | បច្ចេកទេសក្នុងការបង្កើតទិន្នន័យថ្មីបន្ថែមដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់។ ក្នុងបរិបទនេះ គេយកលក្ខណៈសំឡេងរបស់អ្នកនិយាយដើមមកបំពេញបន្ថែមត្រង់ចន្លោះសូរសព្ទដែលសំណុំទិន្នន័យអ្នកនិយាយគោលដៅមិនមាន ដើម្បីការពារកុំឱ្យប្រព័ន្ធគាំង ឬអានមិនចេញ។ | ដូចជាការយកក្រណាត់ចាស់ៗមកប៉ះប៉ូវកាត់តលើខោអាវដែលធ្លុះ ដើម្បីឱ្យវាមានទម្រង់ពេញលេញ និងអាចយកទៅស្លៀកពាក់បាន។ |
| Spectral envelope | ខ្សែកោងដែលគ្របដណ្ដប់លើកំពូលនៃវិសាលគមប្រេកង់នៃសំឡេង ដែលកំណត់ពីទម្រង់រូបរាងនៃរលកសំឡេង និងដើរតួនាទីយ៉ាងសំខាន់បំផុតក្នុងការកំណត់អត្តសញ្ញាណ (Speaker identity) និងពណ៌សូរសព្ទរបស់បុគ្គលម្នាក់ៗ។ | ដូចជាទម្រង់ផ្ទៃមុខ និងទំហំឆ្អឹងថ្គាមរបស់មនុស្សម្នាក់ៗ ដែលធ្វើឱ្យយើងអាចចំណាំពួកគេបាន ទោះបីជាពួកគេនិយាយពាក្យដូចគ្នាក៏ដោយ។ |
| diphone databases | មូលដ្ឋានទិន្នន័យដែលផ្ទុកសំណាកសំឡេងដែលថតជាគូៗនៃសូរសព្ទ ពោលគឺវាផ្ទុកសំឡេងចាប់ពីចំណុចកណ្តាលនៃសូរសព្ទទីមួយ ទៅដល់ចំណុចកណ្តាលនៃសូរសព្ទបន្ទាប់ ដើម្បីចាប់យកការផ្លាស់ប្តូរ (transition) រវាងសម្លេងទាំងពីរ ដែលធ្វើឱ្យការនិយាយស្តាប់ទៅរលូន។ | ដូចជាបំណែកកូប៉ាស់ (Lego) ដែលដុំនីមួយៗមានក្បាលតំណខុសៗគ្នា ដើម្បីអាចយកមកតភ្ជាប់គ្នាបង្កើតជាពាក្យថ្មីៗបានយ៉ាងរលូននិងមិនដាច់ៗពីគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖