Original Title: Personalizing a Speech Synthesizer by Voice Adaptation
Source: cse.ogi.edu
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យឧបករណ៍សំយោគសំឡេងនិយាយមានលក្ខណៈផ្ទាល់ខ្លួនតាមរយៈការបន្សាំសំឡេង

ចំណងជើងដើម៖ Personalizing a Speech Synthesizer by Voice Adaptation

អ្នកនិពន្ធ៖ Alexander Kain (Center for Spoken Language Understanding (CSLU), Oregon Graduate Institute of Science and Technology), Mike Macon (Center for Spoken Language Understanding (CSLU), Oregon Graduate Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 1998

វិស័យសិក្សា៖ Speech Processing and Synthesis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតសំឡេងថ្មីសម្រាប់ប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេងនិយាយ (TTS) ដែលជាទូទៅត្រូវការទិន្នន័យច្រើន និងចំណាយពេលយូរ ដោយស្នើឡើងនូវប្រព័ន្ធបន្សាំសំឡេងដែលអាចឱ្យអ្នកប្រើប្រាស់បង្កើតសំឡេងផ្ទាល់ខ្លួនបានយ៉ាងឆាប់រហ័ស។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របំប្លែងលីនេអ៊ែរតាមមូលដ្ឋានដោយផ្អែកលើគំរូល្បាយហ្គោសៀន (Gaussian Mixture Model) ដើម្បីបន្សាំកម្រិតសំឡេង និងវិសាលគម ហើយធ្វើការប្រៀបធៀបជាមួយវិធីសាស្ត្រទូទៅផ្សេងៗទៀត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Joint Density Estimation (JD)
ការប៉ាន់ស្មានដង់ស៊ីតេរួម
ដំណើរការបានគួរឱ្យទុកចិត្ត និងមានស្ថិរភាពជាង ជាពិសេសសម្រាប់ទិន្នន័យបណ្តុះបណ្តាលដែលមានទំហំតូច និងទាមទារប្រតិបត្តិការរួមតិចជាងក្នុងពេលបណ្តុះបណ្តាល។ ទាមទារការគណនាច្រើនក្នុងអំឡុងពេលវគ្គ EM (Expectation-Maximization) ដោយសារវិមាត្រនៃលំហត្រូវប៉ាន់ស្មានកើនឡើងទ្វេដង។ ផ្តល់កំហុសតេស្តទាប និងមិនសូវជួបបញ្ហាកំហុសលេខ (numerical errors) កំឡុងពេលបណ្តុះបណ្តាល។
Least-Squares (LS) Estimation
ការប៉ាន់ស្មានការ៉េអប្បបរមា
មិនសូវប្រើកម្លាំងគណនាច្រើនលើវិមាត្រនៃលំហក្នុងវគ្គទីមួយបើធៀបនឹង JD ។ ជួបប្រទះបញ្ហាកំឡុងពេលធ្វើឱ្យប្រសើរ (optimization) ដែលបណ្តាលឱ្យមានកំហុសលេខ និងទាមទារប្រតិបត្តិការសរុបប្រហែលពីរដងនៃ JD ដោយសារម៉ាទ្រីសធំជាង។ មានកំហុសខ្ពស់ជាង JD ក្នុងករណីជាច្រើន ជាពិសេសពេលទិន្នន័យបណ្តុះបណ្តាលមានទំហំតូច។
Data Augmentation (DA) Method
វិធីសាស្ត្របន្ថែមទិន្នន័យ
រក្សាបាននូវភាពច្បាស់លាស់នៃការនិយាយខ្ពស់ និងកាត់បន្ថយកំហុសបានច្រើនសម្រាប់ទិន្នន័យដែលខ្វះខាតសូរសព្ទមួយចំនួន។ អាចមានការភាន់ច្រឡំក្នុងការបំប្លែងសម្រាប់សូរសព្ទដែលមានសំឡេងស្រដៀងគ្នា (ដូចជា diphthongs) ប្រសិនបើទិន្នន័យបន្ថែមមានការប្រែប្រួលខ្លាំងពេក។ កាត់បន្ថយកំហុសបានរហូតដល់ពាក់កណ្តាលសម្រាប់សូរសព្ទដែលបានបណ្តុះបណ្តាល បើធៀបនឹងវិធីសាស្ត្រធម្មតា ពេលទិន្នន័យមានកំណត់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រជាមូលដ្ឋាន និងទាមទារទិន្នន័យសំឡេងតិចតួចសម្រាប់ការបណ្តុះបណ្តាល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងភាសាអង់គ្លេសពីមូលដ្ឋានទិន្នន័យ Harvard sentences ដែលមានអ្នកនិយាយប្រុសនិងស្រី។ ទិន្នន័យនេះមិនតំណាងឱ្យភាពចម្រុះនៃសូរសព្ទភាសាខ្មែរដែលមានស្រៈច្រើននិងព្យញ្ជនៈស្មុគស្មាញនោះទេ។ ដូច្នេះ ការយកមកអនុវត្តផ្ទាល់លើភាសាខ្មែរទាមទារឱ្យមានការប្រមូលទិន្នន័យថ្មីដែលឆ្លុះបញ្ចាំងពីលក្ខណៈសូរសព្ទខ្មែរឱ្យបានពេញលេញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាវិធីសាស្ត្រនេះត្រូវបានធ្វើតេស្តលើភាសាអង់គ្លេសក៏ដោយ ក៏ទ្រឹស្តីនៃការបន្សាំសំឡេងអាចមានប្រយោជន៍ច្រើនសម្រាប់ការអភិវឌ្ឍន៍បច្ចេកវិទ្យាភាសាខ្មែរ។

សរុបមក បច្ចេកវិទ្យានេះជាមូលដ្ឋានគ្រឹះដ៏ល្អមួយក្នុងការអភិវឌ្ឍប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេងនិយាយភាសាខ្មែរ (Khmer TTS) ឱ្យកាន់តែមានភាពបត់បែន ចំណាយពេលតិច និងអាចប្ដូរតាមតម្រូវការផ្ទាល់ខ្លួនបាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីប្រព័ន្ធ Text-to-Speech (TTS) ជាមូលដ្ឋាន: ចាប់ផ្តើមដោយការសិក្សាពីរបៀបដំណើរការរបស់ប្រព័ន្ធកូដបើកចំហរដូចជា Festival TTS និងសាកល្បងប្រើប្រាស់កម្មវិធី CSLU Toolkit ដើម្បីស្វែងយល់ពីរបៀបកំណត់ព្រំដែនសូរសព្ទដោយស្វ័យប្រវត្តិ (Force-alignment)។
  2. សិក្សាពីគំរូ Gaussian Mixture Model (GMM): ស្វែងយល់ពីទ្រឹស្តីគណិតវិទ្យានៅពីក្រោយ Gaussian Mixture Models និងការប្រើប្រាស់ក្បួនដោះស្រាយ Expectation-Maximization (EM) ដោយសាកល្បងសរសេរកូដប៉ាន់ស្មានដង់ស៊ីតេរួម (Joint Density Estimation) តាមរយៈការប្រើប្រាស់បណ្ណាល័យ scikit-learn ក្នុង Python
  3. ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ: ថតសំឡេងអត្ថបទភាសាខ្មែរខ្លីៗ (ប្រហែល ១ ទៅ ៥ នាទី) ជាទម្រង់ 16kHz/16bit ហើយធ្វើចំណារពន្យល់សូរសព្ទ (Phonetic labeling) តាមរយៈឧបករណ៍ជំនួយដូចជា Praat ដើម្បីបង្កើតសំណុំទិន្នន័យសាកល្បងផ្ទាល់ខ្លួន។
  4. អនុវត្តការបន្សាំវិសាលគម និងកម្រិតសំឡេង (Pitch/Spectral Conversion): សរសេរកម្មវិធីដើម្បីស្រخراجលក្ខណៈពិសេស Bark-scaled Line Spectral Frequencies (LSF) ពីទិន្នន័យសំឡេង រួចសាកល្បងប្រើប្រាស់ GMM ដែលបានបណ្តុះបណ្តាល ដើម្បីបំប្លែងលក្ខណៈសំឡេងពីអ្នកនិយាយម្នាក់ទៅម្នាក់ទៀត។
  5. អនុវត្តវិធីសាស្ត្រ Data Augmentation សម្រាប់ទិន្នន័យខ្វះខាត: សាកល្បងកាត់បន្ថយទិន្នន័យបណ្តុះបណ្តាល (ឧទាហរណ៍ លាក់សូរសព្ទព្យញ្ជនៈមួយចំនួន) រួចអនុវត្តបច្ចេកទេស Data Augmentation ដោយប្រើទិន្នន័យដើមជំនួស ដើម្បីសង្កេតមើលថាតើប្រព័ន្ធនៅតែអាចអានពាក្យទាំងនោះបានច្បាស់ឬយ៉ាងណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Text-to-speech (TTS) synthesizer ប្រព័ន្ធកុំព្យូទ័រដែលបំលែងអត្ថបទសរសេរទៅជាសំឡេងនិយាយដោយស្វ័យប្រវត្តិ។ វាវិភាគអត្ថបទ បំបែកជាសូរសព្ទ និងភ្ជាប់ទិន្នន័យសំឡេងចូលគ្នាដើម្បីបង្កើតជាពាក្យ និងឃ្លាដែលអាចស្តាប់បាន។ ដូចជាមនុស្សយន្តម្នាក់ដែលអាចអានសៀវភៅ ឬអត្ថបទនៅលើអេក្រង់ឱ្យយើងស្តាប់លឺជាសំឡេងមនុស្សពិតៗ។
Gaussian Mixture Model ម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់តំណាងឱ្យរបាយទិន្នន័យស្មុគស្មាញ ដោយការផ្សំបញ្ចូលគ្នានូវរបាយកោងធម្មតា (Gaussian distributions) ជាច្រើន។ ក្នុងឯកសារនេះ វាជួយទស្សន៍ទាយនិងបង្កើតអនុគមន៍បំប្លែងរវាងលក្ខណៈសំឡេងដើម និងសំឡេងគោលដៅ។ ដូចជាការប្រើប្រាស់រូបមន្តលាយពណ៌មូលដ្ឋានជាច្រើនផ្ទាំងចូលគ្នា ដើម្បីក្លែងបន្លំបង្កើតជាផ្ទាំងគំនូរដ៏ស្មុគស្មាញមួយផ្ទាំង។
Line spectral frequencies (LSF) ទម្រង់គណិតវិទ្យានៃការតំណាងឱ្យលក្ខណៈរលកសំឡេង (spectral envelope) ដែលមានស្ថិរភាពខ្ពស់ ងាយស្រួលក្នុងការធ្វើអន្តរប៉ូល (interpolate) និងមានទំនាក់ទំនងយ៉ាងជិតស្និទ្ធទៅនឹងទម្រង់សម្លេងដែលសម្គាល់អត្តសញ្ញាណអ្នកនិយាយ។ ដូចជាប្លង់មេ (Blueprint) នៃបំពង់កមនុស្ស ដែលបង្ហាញពីទីតាំងប្រេកង់ណាដែលសំឡេងនឹងលាន់ឮខ្លាំងជាងគេដើម្បីបង្កើតជាសូរសព្ទប្លែកៗពីគ្នា។
Joint density estimation វិធីសាស្ត្រស្ថិតិដើម្បីស្វែងយល់ពីប្រូបាប៊ីលីតេដែលអថេរពីរ (ឧទាហរណ៍ ទិន្នន័យសំឡេងអ្នកនិយាយទី១ និងទី២) កើតឡើងក្នុងពេលតែមួយ ដើម្បីសិក្សាពីទំនាក់ទំនងនិងបង្កើតរូបមន្តបំប្លែងរវាងពួកវា។ ដូចជាការសង្កេតមើលទម្លាប់រវាងមនុស្សពីរនាក់ដែលតែងតែដើរជាមួយគ្នា ដើម្បីទស្សន៍ទាយថាបើម្នាក់ដើរទៅឆ្វេង តើម្នាក់ទៀតនឹងប្រែខ្លួនទៅខាងណា។
estimation maximization (EM) algorithm ក្បួនដោះស្រាយសម្រាប់ស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុតនៃម៉ូដែលស្ថិតិ នៅពេលដែលទិន្នន័យមានភាពមិនច្បាស់លាស់ ឬបាត់បង់ ដោយដំណើរការជាពីរវគ្គគឺ ការស្មាន (Expectation) និងការធ្វើឱ្យប្រសើរបំផុត (Maximization) ធ្វើឡើងចុះឡើងៗទាល់តែម៉ូដែលនោះសុក្រឹត។ ដូចជាការលេងផ្គុំរូប (Jigsaw puzzle) ដែលបាត់កង់ខ្លះ ដោយដំបូងយើងស្មានរូបរាងវា រួចសាកល្បងដាក់បន្តបន្ទាប់ និងកែតម្រូវរហូតដល់បានរូបរាងមួយដែលសមហេតុផលបំផុត។
data augmentation បច្ចេកទេសក្នុងការបង្កើតទិន្នន័យថ្មីបន្ថែមដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់។ ក្នុងបរិបទនេះ គេយកលក្ខណៈសំឡេងរបស់អ្នកនិយាយដើមមកបំពេញបន្ថែមត្រង់ចន្លោះសូរសព្ទដែលសំណុំទិន្នន័យអ្នកនិយាយគោលដៅមិនមាន ដើម្បីការពារកុំឱ្យប្រព័ន្ធគាំង ឬអានមិនចេញ។ ដូចជាការយកក្រណាត់ចាស់ៗមកប៉ះប៉ូវកាត់តលើខោអាវដែលធ្លុះ ដើម្បីឱ្យវាមានទម្រង់ពេញលេញ និងអាចយកទៅស្លៀកពាក់បាន។
Spectral envelope ខ្សែកោងដែលគ្របដណ្ដប់លើកំពូលនៃវិសាលគមប្រេកង់នៃសំឡេង ដែលកំណត់ពីទម្រង់រូបរាងនៃរលកសំឡេង និងដើរតួនាទីយ៉ាងសំខាន់បំផុតក្នុងការកំណត់អត្តសញ្ញាណ (Speaker identity) និងពណ៌សូរសព្ទរបស់បុគ្គលម្នាក់ៗ។ ដូចជាទម្រង់ផ្ទៃមុខ និងទំហំឆ្អឹងថ្គាមរបស់មនុស្សម្នាក់ៗ ដែលធ្វើឱ្យយើងអាចចំណាំពួកគេបាន ទោះបីជាពួកគេនិយាយពាក្យដូចគ្នាក៏ដោយ។
diphone databases មូលដ្ឋានទិន្នន័យដែលផ្ទុកសំណាកសំឡេងដែលថតជាគូៗនៃសូរសព្ទ ពោលគឺវាផ្ទុកសំឡេងចាប់ពីចំណុចកណ្តាលនៃសូរសព្ទទីមួយ ទៅដល់ចំណុចកណ្តាលនៃសូរសព្ទបន្ទាប់ ដើម្បីចាប់យកការផ្លាស់ប្តូរ (transition) រវាងសម្លេងទាំងពីរ ដែលធ្វើឱ្យការនិយាយស្តាប់ទៅរលូន។ ដូចជាបំណែកកូប៉ាស់ (Lego) ដែលដុំនីមួយៗមានក្បាលតំណខុសៗគ្នា ដើម្បីអាចយកមកតភ្ជាប់គ្នាបង្កើតជាពាក្យថ្មីៗបានយ៉ាងរលូននិងមិនដាច់ៗពីគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖