បញ្ហា (The Problem)៖ ឯកសារនេះបង្ហាញពីកំណែទី 2.0 នៃប្រព័ន្ធសំយោគសំឡេងផ្អែកលើម៉ូដែល Hidden Markov (HTS) ដោយរៀបរាប់ពីមុខងារថ្មីៗដើម្បីដោះស្រាយការលំបាកក្នុងការកត់ត្រាទិន្នន័យសំឡេងទំហំធំ និងកែលម្អគុណភាពនៃការសំយោគសំឡេង។
វិធីសាស្ត្រ (The Methodology)៖ ប្រព័ន្ធ HTS នេះធ្វើការម៉ូដែលវិសាលគម (Spectrum) រលកសំឡេង (Excitation) និងថិរវេលា (Duration) ដោយប្រើប្រាស់ម៉ូដែល HMM អាស្រ័យលើបរិបទដើម្បីបង្កើតរលកសំឡេងដោយផ្ទាល់ពីម៉ូដែល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Unit Selection Speech Synthesis ការសំយោគសំឡេងដោយការជ្រើសរើសឯកតា |
អាចបង្កើតសំឡេងបានគុណភាពខ្ពស់ និងស្តាប់ទៅមានលក្ខណៈធម្មជាតិបំផុត ដោយសារការប្រើប្រាស់ទិន្នន័យសំឡេងពិតៗ។ | ត្រូវការមូលដ្ឋានទិន្នន័យធំខ្លាំងណាស់សម្រាប់ការផ្លាស់ប្តូរស្ទីល ឬអារម្មណ៍ ហើយមានការលំបាកខ្លាំងក្នុងការកែប្រែលក្ខណៈសំឡេងឱ្យបត់បែន។ | ជាបច្ចេកទេសដ៏មានប្រជាប្រិយភាព ប៉ុន្តែត្រូវបានកម្រិតដោយទំហំទិន្នន័យ និងមិនងាយស្រួលក្នុងការបង្កើតទម្រង់សំឡេងថ្មីៗ។ |
| HMM-based Speech Synthesis (HTS) ការសំយោគសំឡេងផ្អែកលើម៉ូដែល HMM |
មានភាពបត់បែនខ្ពស់ ងាយស្រួលកែប្រែលក្ខណៈសំឡេង ស្ទីលនិយាយ និងអារម្មណ៍ ដោយប្រើប្រាស់បច្ចេកទេសផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ (Adaptation/Interpolation)។ | គុណភាពនៃសំឡេងដើមដែលបានសំយោគអាចមិនទាន់ស្មើនឹងគុណភាពដ៏ល្អឥតខ្ចោះនៃវិធីសាស្ត្រ Unit Selection នោះទេ។ | អាចបង្កើតសំឡេងដែលមានលក្ខណៈចម្រុះបានយ៉ាងងាយស្រួល និងម៉ូដែលវិសាលគម (Spectrum) និងរលកសំឡេង (Excitation) ក្នុងពេលតែមួយដោយមិនត្រូវការទិន្នន័យធំពេក។ |
| EM-based Speech Parameter Generation (Case 3) ការបង្កើតប៉ារ៉ាម៉ែត្រសំឡេងផ្អែកលើ EM Algorithm |
អនុញ្ញាតឱ្យប្រើប្រាស់ Gaussian mixtures សម្រាប់ការធ្វើម៉ូដែលកាន់តែសុក្រឹតនៅពេលដែលលំដាប់ស្ថានភាព (state sequences) ត្រូវបានលាក់។ | ទាមទារការគណនាច្រើន (Computationally expensive) ស្មុគស្មាញ និងស៊ីពេលជាងក្បួនដោះស្រាយ Case 1 ដែលប្រើត្រឹមសមីការលីនេអ៊ែរ។ | ផ្តល់នូវភាពបត់បែនក្នុងការស្វែងរកតម្លៃអតិបរមា និងការដោះស្រាយម៉ូដែលស្មុគស្មាញនៅក្នុងមុខងារ HMGenS។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការបង្កើតម៉ូដែល ប៉ុន្តែម៉ាស៊ីនសំយោគពេលដំណើរការ (hts_engine) ត្រូវបានរចនាឡើងឱ្យមានទំហំតូច និងប្រើប្រាស់ធនធានតិចបំផុត។
ការសិក្សានេះត្រូវបានធ្វើតេស្ត និងប្រើប្រាស់ទិន្នន័យភាសាអង់គ្លេស (CMU ARCTIC) និងភាសាជប៉ុន (Nitech) ជាចម្បង។ វាមិនមានការធ្វើតេស្តលើភាសាដែលមានសូរសៀងស្មុគស្មាញ (Tonal languages) ឬភាសាដែលមានការបំបែកព្យាង្គពិបាកដូចជាភាសាខ្មែរឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាយើងត្រូវប្រឈមមុខនឹងការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ និងការបង្កើតប្រព័ន្ធវិភាគអត្ថបទ (Text Analysis) ដោយខ្លួនឯង។
ប្រព័ន្ធ HTS នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់ប្រទេសកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធអានអត្ថបទជាសំឡេង (Text-to-Speech) ជាភាសាខ្មែរដែលមានតម្លៃដើមទាប។
ការទាញយកប្រយោជន៍ពី HTS ជំនាន់ទី២ នេះនឹងជួយពន្លឿនការអភិវឌ្ឍប្រព័ន្ធអន្តរកម្មដោយសំឡេងជាភាសាខ្មែរ ដោយដោះស្រាយបញ្ហាកង្វះខាតមូលដ្ឋានទិន្នន័យសំឡេងខ្នាតធំនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Models (HMMs) | ជាម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយនិងតំណាងឱ្យលំដាប់លំដោយនៃទិន្នន័យដែលផ្លាស់ប្តូរតាមពេលវេលា (ដូចជាការប្រែប្រួលនៃសូរសព្ទ) ដោយផ្អែកលើប្រូបាប៊ីលីតេនៃស្ថានភាពដែលយើងមើលមិនឃើញផ្ទាល់ (Hidden states) ដើម្បីយកមកគណនារកសញ្ញាដែលយើងចង់បាន។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុថ្ងៃស្អែកថានឹងភ្លៀងឬរាំង ដោយគ្រាន់តែផ្អែកលើការសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងឬកាន់ឆ័ត្រដើរតាមផ្លូវក្នុងថ្ងៃនេះ។ |
| Unit selection | ជាបច្ចេកទេសសំយោគសំឡេងម៉្យាងដែលដំណើរការដោយការស្វែងរក និងជ្រើសរើសកាត់តបំណែកសំឡេងខ្លីៗ (Units) ពីមូលដ្ឋានទិន្នន័យសំឡេងមនុស្សពិតដែលបានថតទុក យកមកផ្ដុំតភ្ជាប់គ្នាបង្កើតជាប្រយោគនិយាយថ្មី។ | ដូចជាការកាត់តអក្សរឬពាក្យនីមួយៗពីទស្សនាវដ្តីចាស់ៗ យកមកតម្រៀបបិទភ្ជាប់គ្នាបង្កើតជាសំបុត្រ ឬអត្ថបទថ្មីមួយ។ |
| Statistical parametric speech synthesis | ជាវិធីសាស្ត្របង្កើតសំឡេងដោយប្រើប្រាស់ទិន្នន័យដើម្បីបង្រៀនកុំព្យូទ័រឱ្យចងចាំនូវលក្ខណៈរូបវន្តនៃសំឡេង (ប៉ារ៉ាម៉ែត្រដូចជា រំញ័រ ឬកម្រិតសំឡេង) រួចប្រើគំរូស្ថិតិទាំងនោះដើម្បីគណនា និងផលិតចេញជារលកសំឡេងថ្មីដោយខ្លួនឯង ដោយមិនបាច់ថតចម្លងសំឡេងដើម។ | ដូចជាការរៀនគូររូបមុខមនុស្សដោយចងចាំពីទំហំភ្នែក ច្រមុះ និងមាត់ (ប៉ារ៉ាម៉ែត្រ) រួចគូររូបថ្មីដោយខ្លួនឯង ជាជាងការកាត់តរូបថតមនុស្សពិតយកមកបិទភ្ជាប់។ |
| Mel-cepstral coefficients | ជាស៊េរីនៃតួលេខប៉ារ៉ាម៉ែត្រដែលតំណាងឱ្យទម្រង់វិសាលគមនៃរលកសំឡេង (Spectrum) ដែលត្រូវបានគណនាដើម្បីត្រាប់តាមរបៀបដែលត្រចៀករបស់មនុស្សស្តាប់ និងចាប់យកកម្រិតប្រេកង់ (Frequencies) សំឡេងផ្សេងៗគ្នា។ | ដូចជាលេខកូដរូបមន្តលាយពណ៌ដែលប្រាប់ម៉ាស៊ីនបោះពុម្ពឱ្យបញ្ចេញកម្រិតពណ៌នីមួយៗឱ្យបានត្រឹមត្រូវតាមដែលភ្នែកមនុស្សអាចមើលឃើញ។ |
| Speaker adaptation | ជាដំណើរការកែតម្រូវម៉ូដែលសំឡេងដើមដែលម៉ាស៊ីនមានស្រាប់ ដោយប្រើប្រាស់ទិន្នន័យសំឡេងបន្តិចបន្តួចរបស់អ្នកនិយាយគោលដៅ ដើម្បីផ្លាស់ប្តូរលក្ខណៈសំឡេងបញ្ចេញឱ្យស្រដៀងទៅនឹងសំឡេងអ្នកនិយាយគោលដៅនោះ។ | ដូចជាអ្នកដែលចេះលេងហ្គីតាយ៉ាងស្ទាត់ជំនាញស្រាប់ គ្រាន់តែចំណាយពេលស្តាប់បទភ្លេងថ្មីមួយភ្លែត ក៏អាចកែសម្រួលរបៀបលេងរបស់ខ្លួនឱ្យត្រូវនឹងស្តាយ (Style) នៃអ្នកតែងបទថ្មីនោះបាន។ |
| Decision tree-based context clustering | ជាបច្ចេកទេសរៀបចំចង្កោមទិន្នន័យដោយប្រើគំនូសតារាងមែកធាង (Decision Tree) ដើម្បីស្វែងរកនិងចាត់ថ្នាក់សូរសព្ទដែលមានបរិបទបញ្ចេញសំឡេងស្រដៀងគ្នា ដែលជួយដោះស្រាយបញ្ហានៅពេលប្រព័ន្ធជួបប្រទះពាក្យថ្មីដែលមិនធ្លាប់មានក្នុងទិន្នន័យបណ្តុះបណ្តាល។ | ដូចជាការចាត់ថ្នាក់សិស្សទៅតាមចំណង់ចំណូលចិត្តអានសៀវភៅរបស់ពួកគេ ដើម្បីងាយស្រួលទាយថាតើសិស្សថ្មីម្នាក់គួរតែចូលចិត្តអានសៀវភៅប្រភេទណា ទោះបីយើងមិនដែលស្គាល់គេពីមុនមកក៏ដោយ។ |
| Expectation-Maximization (EM) algorithm | ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលធ្វើការប៉ាន់ស្មាន និងកែលម្អតម្លៃរបស់ប៉ារ៉ាម៉ែត្រម្តងហើយម្តងទៀតជាវដ្ត (Iterative) ដើម្បីស្វែងរកលទ្ធផលដែលមានភាពសុក្រឹតនិងត្រឹមត្រូវបំផុត សម្រាប់ទិន្នន័យដែលយើងមិនអាចមើលឃើញផ្ទាល់ (Unobserved latent variables)។ | ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងស៊ីបក្នុងទីងងឹត ដោយរាល់ពេលបាញ់រួច មានគេប្រាប់ថាកៀកចំណុចកណ្តាលប៉ុណ្ណា រួចយើងកែតម្រូវទិសដៅបាញ់ម្តងបន្តិចៗរហូតដល់ចំគោលដៅ។ |
| Fundamental frequencies (log F0) | ជារង្វាស់នៃកម្រិតប្រេកង់រំញ័រទាបបំផុតរបស់រលកសំឡេង (Pitch) ដែលកំណត់ថាសំឡេងមនុស្សម្នាក់ធ្ងន់ឬស្រួច ហើយវាត្រូវបានគណនាជាទម្រង់លោការីត (Logarithmic) ដើម្បីងាយស្រួលក្នុងការធ្វើម៉ូដែលឱ្យស្របនឹងការស្តាប់របស់មនុស្ស។ | ដូចជាការមួលប៉ូតុងកែតម្រូវសម្លេងបាស (Bass ធ្ងន់) ឬសម្លេងស្រួច (Treble) នៅលើម៉ាស៊ីនចាក់ភ្លេងដើម្បីធ្វើឱ្យសម្លេងអ្នកចម្រៀងស្តាប់ទៅពីរោះ និងមានទម្ងន់ខុសៗគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖