បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការថយចុះភាពច្បាស់នៃការនិយាយសំយោគ (Synthetic speech) នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខាន ដោយស្វែងរកវិធីសាស្ត្រកែប្រែសំឡេងឱ្យមានលក្ខណៈបន្ស៊ាំដូចទៅនឹងការនិយាយរបស់មនុស្សធម្មតានៅពេលមានរំខាន (Lombard effect)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានវាយតម្លៃរង្វាស់វត្ថុបំណងផ្សេងៗ និងស្នើឡើងនូវវិធីសាស្ត្រកែប្រែសំឡេងសំយោគដោយស្វ័យប្រវត្តិដោយផ្អែកលើគំរូសោតវិញ្ញាណ និងការធ្វើតេស្តស្តាប់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Unmodified Baseline TTS ប្រព័ន្ធសំយោគសំឡេងមូលដ្ឋាន (មិនមានការកែប្រែ) |
ងាយស្រួលក្នុងការបង្កើត និងផ្តល់នូវសំឡេងធម្មជាតិល្អនៅពេលស្តាប់ក្នុងបរិស្ថានស្ងាត់។ | ភាពច្បាស់នៃសំឡេងធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលមានសំឡេងរំខាន ឬការនិយាយប្រជែងគ្នា។ | ត្រូវបានប្រើជាចំណុចមូលដ្ឋាន (0 dB) សម្រាប់ការប្រៀបធៀប។ |
| TTSGP (Glimpse Proportion Modification) ការកែប្រែដោយផ្អែកលើសមាមាត្រ Glimpse (TTSGP) |
អាចអនុវត្តបានក្នុងពេលសំយោគសំឡេងដោយស្វ័យប្រវត្តិ និងមិនតម្រូវឱ្យមានព័ត៌មានពីស្រោមវិសាលគម (spectral envelope) នៃសំឡេងធម្មជាតិឡើយ។ | ការបង្កើនប្រសិទ្ធភាព GP ដោយគ្មានដែនកំណត់អាចបង្កើតឱ្យមានការបង្ខូចទ្រង់ទ្រាយសំឡេង (audible distortions) ខ្លះៗ។ | បង្កើនប្រេកង់ចន្លោះពី 1-4 kHz ដែលជួយពង្រឹងសំឡេងស្រៈ និងសំឡេងច្រមុះ (nasals)។ |
| TTSGP-DRC (GP + Dynamic Range Compression) ការរួមបញ្ចូលទី TTSGP និងការបង្ហាប់ជួរថាមវន្ត (DRC) |
ជួយពង្រឹងប្រេកង់ខ្ពស់ៗ និងធ្វើឱ្យរលកវិសាលគម (spectral tilt) មានភាពរាបស្មើ ដែលងាយស្រួលស្តាប់ជាងមុន។ | គុណភាពនៃភាពជាធម្មជាតិអាចនឹងត្រូវកាត់បន្ថយបន្តិចបន្តួចដោយសារការកែប្រែកម្រិតថាមពលតាមពេលវេលា។ | រួមចំណែកយ៉ាងធំក្នុងការបង្កើនភាពច្បាស់នៅកម្រិតសំឡេងរំខានមធ្យម (SNR=-4dB)។ |
| TTSLGP-DRC (GP + DRC + Lombard Adaptation) ការរួមបញ្ចូល GP, DRC និងការបន្ស៊ាំម៉ូដែល Lombard |
ផ្តល់នូវភាពច្បាស់ខ្ពស់បំផុត ជាពិសេសក្នុងស្ថានភាពដែលមានអ្នកនិយាយប្រជែង (competing talker) ដោយសារមានការកែប្រែរលកសំឡេង (F0) និងរយៈពេល។ | ទាមទារឱ្យមានទិន្នន័យសំឡេងដែលថតក្នុងស្ថានភាព Lombard (និយាយស្រែកពេលមានរំខាន) របស់អ្នកនិយាយដើម។ | ទទួលបានកំណើនអាំងតង់ស៊ីតេសមមូលរហូតដល់ ៤,២ dB បើប្រៀបធៀបនឹងប្រព័ន្ធមូលដ្ឋាន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនៅក្នុងឯកសារនេះ ទាមទារទាំងការគណនាកុំព្យូទ័រសម្រាប់ការបង្កើនប្រសិទ្ធភាព និងសំណុំទិន្នន័យសំឡេងកម្រិតខ្ពស់។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងបុរសតែម្នាក់ និងផ្អែកលើទិន្នន័យភាសាអង់គ្លេសសម្រាប់ការវាយតម្លៃក្នុងគម្រោង Hurricane Challenge។ សម្រាប់បរិបទប្រទេសកម្ពុជា ភាសាខ្មែរមានលក្ខណៈសូរសព្ទខុសប្លែកគ្នា (មានស្រៈច្រើន កម្រិតសំឡេងខ្យល់ និងព្យញ្ជនៈសង្កត់) ហេតុនេះការកំណត់ប្រេកង់ 1-4 kHz អាចនឹងត្រូវការការកែសម្រួលដើម្បីឲ្យស្របនឹងសូរសព្ទភាសាខ្មែរ។
បច្ចេកទេសនេះពិតជាមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាសំឡេងនៅកម្ពុជា ជាពិសេសក្នុងបរិស្ថានដែលមានសំឡេងអ៊ូអរ។
ការសម្របវិធីសាស្ត្រ Glimpse Proportion និង Lombard Effect ទៅក្នុងប្រព័ន្ធ TTS ភាសាខ្មែរ នឹងធ្វើឱ្យឧបករណ៍ទំនាក់ទំនងឌីជីថលកាន់តែមានភាពធន់នឹងសំឡេងរំខាន និងងាយស្រួលប្រើប្រាស់ក្នុងជីវិតប្រចាំថ្ងៃ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Lombard effect | បាតុភូតដែលមនុស្សផ្លាស់ប្តូររបៀបនិយាយដោយស្វ័យប្រវត្តិ (ដូចជាការនិយាយខ្លាំងៗ បញ្ចេញសំឡេងច្បាស់ៗ អូសបន្លាយពាក្យ ឬដំឡើងសំនៀង) នៅពេលពួកគេស្ថិតក្នុងបរិស្ថានដែលមានសំឡេងរំខាន ដើម្បីឱ្យអ្នកស្តាប់អាចចាប់បាន។ នៅក្នុងការសិក្សានេះ គេយកលំនាំបាតុភូតនេះមកអនុវត្តលើប្រព័ន្ធកុំព្យូទ័រដើម្បីឱ្យវាចេះនិយាយច្បាស់ពេលមានរំខាន។ | ដូចជាពេលយើងស្រែកនិយាយគ្នានៅក្នុងក្លឹបកម្សាន្ត ឬការដ្ឋានសំណង់ដែលមានសំឡេងខ្លាំងៗ ដើម្បីឱ្យគេស្តាប់ឮ។ |
| Glimpse proportion (GP) | រង្វាស់វាយតម្លៃតាមរយៈការគណនាថាតើមានផ្នែកប៉ុន្មាននៃប្រេកង់សំឡេងនិយាយដែលមិនត្រូវបានបិទបាំងដោយសំឡេងរំខាន។ វាជួយឱ្យប្រព័ន្ធអាចទស្សន៍ទាយបានថា តើអ្នកស្តាប់អាចចាប់បានពាក្យនីមួយៗក្នុងកម្រិតណា ដើម្បីកែសម្រួលសំឡេងឱ្យកាន់តែច្បាស់។ | ដូចជាការមើលឃើញផ្ទៃមេឃពណ៌ខៀវតាមចន្លោះពពក ដែលពពកជាសំឡេងរំខាន ហើយមេឃខៀវជាសំឡេងនិយាយដែលកាត់ផ្តាច់សំឡេងរំខានបាន។ |
| Dynamic range compression (DRC) | ដំណើរការកែច្នៃសញ្ញាសំឡេង ដែលបន្ថយគម្លាតរវាងកម្រិតសំឡេងខ្លាំង និងសំឡេងខ្សោយ ដោយវាទាញបង្កើនកម្រិតសំឡេងនៅត្រង់ផ្នែកដែលខ្សោយ (ច្រើនតែជាសូរស័ព្ទប្រេកង់ខ្ពស់) ឱ្យខ្លាំងជាងមុន ដើម្បីឱ្យគេស្តាប់បានច្បាស់គ្រប់ពាក្យពេចន៍។ | ដូចជាការប្រើមុខងារតម្រូវពន្លឺដោយស្វ័យប្រវត្តិលើកាមេរ៉ា ដើម្បីទាញយកកន្លែងងងឹតៗក្នុងរូបភាពឱ្យភ្លឺឡើង និងងាយស្រួលមើលឃើញច្បាស់។ |
| Mel cepstral coefficients | ប៉ារ៉ាម៉ែត្រគណិតវិទ្យាដែលតំណាងឱ្យស្រោមវិសាលគម (spectral envelope) នៃសញ្ញាសំឡេង ដោយធ្វើត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សចាប់យក និងបែងចែកប្រេកង់សំឡេង។ វាត្រូវបានប្រើប្រាស់ជាទូទៅក្នុងការបង្រៀនប្រព័ន្ធសំយោគសំឡេងឱ្យចេះបញ្ចេញសំឡេង។ | ដូចជា DNA ឬអត្តសញ្ញាណប័ណ្ណនៃសំឡេង ដែលប្រាប់កុំព្យូទ័រពីរូបរាងនៃរលកសំឡេង ដើម្បីអាចបង្កើតសំឡេងនោះបានត្រឹមត្រូវ។ |
| Spectral tilt | ការបែងចែកថាមពលនៃសំឡេងទៅតាមប្រេកង់ផ្សេងៗ។ ការធ្វើឱ្យវារាបស្មើ (flattening) គឺសំដៅលើការទាញបង្កើនថាមពលនៅប្រេកង់ខ្ពស់ៗ ដែលធ្វើឱ្យសំឡេងស្តាប់ទៅស្រួចនិងអាចទម្លុះសំឡេងរំខានបានល្អជាងមុន។ | ដូចជាការសារ៉េប៊ូតុង "Treble" (សំឡេងស្រួច) នៅលើធុងបាសឱ្យខ្លាំងជាងមុន ដើម្បីឱ្យលឺសំឡេងអ្នកច្រៀងច្បាស់ជាងសំឡេងភ្លេងបាស (Bass)។ |
| HMM-generated synthetic speech | ការបង្កើតសំឡេងនិយាយតាមរយៈអត្ថបទ (Text-to-Speech) ដោយប្រើប្រាស់ម៉ូដែលស្ថិតិ Hidden Markov Models (HMM) ដើម្បីរៀនពីលំនាំនៃការបញ្ចេញសំឡេងរបស់មនុស្ស និងកសាងរលកសំឡេងថ្មីដែលស្រដៀងនឹងសំឡេងដើម។ | ដូចជាមនុស្សយន្តដែលរៀនស្តាប់ពីទម្លាប់នៃការនិយាយរបស់មនុស្ស រួចព្យាយាមនិយាយត្រាប់តាមដោយផ្អែកលើអត្ថបទដែលយើងសរសេរឱ្យវាអាន។ |
| Auditory masking | បាតុភូតសោតវិញ្ញាណដែលត្រចៀកមនុស្សមិនអាចចាប់យកសំឡេងគោលដៅបាន ដោយសារមានសំឡេងមួយទៀត (សំឡេងរំខាន) ដែលមានប្រេកង់ ឬកម្រិតស្រដៀងគ្នាគ្របដណ្ដប់ ឬលុបពីលើ។ | ដូចជាការព្យាយាមមើលពន្លឺពិលតូចមួយនៅពេលថ្ងៃត្រង់ ដែលពន្លឺព្រះអាទិត្យដ៏ខ្លាំង (សំឡេងរំខាន) បានបិទបាំងពន្លឺពិលនោះមិនឱ្យយើងមើលឃើញ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖