Original Title: Personalizing a Speech Synthesizer by Voice Adaptation
Source: cse.ogi.edu
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យឧបករណ៍សំយោគសំឡេងនិយាយមានលក្ខណៈផ្ទាល់ខ្លួនតាមរយៈការបន្សាំសំឡេង

ចំណងជើងដើម៖ Personalizing a Speech Synthesizer by Voice Adaptation

អ្នកនិពន្ធ៖ Alexander Kain (Center for Spoken Language Understanding (CSLU), Oregon Graduate Institute of Science and Technology), Mike Macon (Center for Spoken Language Understanding (CSLU), Oregon Graduate Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 1998

វិស័យសិក្សា៖ Speech Processing and Synthesis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតសំឡេងថ្មីសម្រាប់ប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេងនិយាយ (TTS) ដែលជាទូទៅត្រូវការទិន្នន័យច្រើន និងចំណាយពេលយូរ ដោយស្នើឡើងនូវប្រព័ន្ធបន្សាំសំឡេងដែលអាចឱ្យអ្នកប្រើប្រាស់បង្កើតសំឡេងផ្ទាល់ខ្លួនបានយ៉ាងឆាប់រហ័ស។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របំប្លែងលីនេអ៊ែរតាមមូលដ្ឋានដោយផ្អែកលើគំរូល្បាយហ្គោសៀន (Gaussian Mixture Model) ដើម្បីបន្សាំកម្រិតសំឡេង និងវិសាលគម ហើយធ្វើការប្រៀបធៀបជាមួយវិធីសាស្ត្រទូទៅផ្សេងៗទៀត។

ការប៉ាន់ស្មានដង់ស៊ីតេរួម (Joint Density Estimation) ប្រៀបធៀបជាមួយវិធីសាស្ត្រ Least-Squares (LS) សម្រាប់ការបណ្តុះបណ្តាលទិន្នន័យ
ការវាយតម្លៃដោយប្រើការវាស់វែងកំហុស (Normalized Mean Squared Error) និងការធ្វើតេស្តសូរសព្ទអន្តរកម្ម (ABX និង MOS)
វិធីសាស្ត្របន្ថែមទិន្នន័យ (Data Augmentation - DA) សម្រាប់ទិន្នន័យបណ្តុះបណ្តាលដែលមានទំហំតូច និងមានសូរសព្ទមិនពេញលេញ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រប៉ាន់ស្មានដង់ស៊ីតេរួម (Joint Density Estimation) ផ្តល់លទ្ធផលគួរឱ្យទុកចិត្តជាងវិធីសាស្ត្រ Least-Squares (LS) ជាពិសេសសម្រាប់សំណុំទិន្នន័យបណ្តុះបណ្តាលតូចៗ។
ប្រព័ន្ធបន្សាំសំឡេងអាចសម្របទៅនឹងសំឡេងថ្មីប្រកបដោយជោគជ័យក្នុងកម្រិតមធ្យម បន្ទាប់ពីការបណ្តុះបណ្តាលលើទិន្នន័យសំឡេងត្រឹមតែប្រមាណមួយនាទីប៉ុណ្ណោះ។
វិធីសាស្ត្របន្ថែមទិន្នន័យ (Data Augmentation) ជួយរក្សាបាននូវភាពច្បាស់លាស់នៃការនិយាយ និងកាត់បន្ថយកំហុសបានយ៉ាងច្រើន (រហូតដល់ពាក់កណ្តាលនៃកំហុសទូទៅ) សម្រាប់ទិន្នន័យដែលខ្វះខាតសូរសព្ទមួយចំនួន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Joint Density Estimation (JD) ការប៉ាន់ស្មានដង់ស៊ីតេរួម	ដំណើរការបានគួរឱ្យទុកចិត្ត និងមានស្ថិរភាពជាង ជាពិសេសសម្រាប់ទិន្នន័យបណ្តុះបណ្តាលដែលមានទំហំតូច និងទាមទារប្រតិបត្តិការរួមតិចជាងក្នុងពេលបណ្តុះបណ្តាល។	ទាមទារការគណនាច្រើនក្នុងអំឡុងពេលវគ្គ EM (Expectation-Maximization) ដោយសារវិមាត្រនៃលំហត្រូវប៉ាន់ស្មានកើនឡើងទ្វេដង។	ផ្តល់កំហុសតេស្តទាប និងមិនសូវជួបបញ្ហាកំហុសលេខ (numerical errors) កំឡុងពេលបណ្តុះបណ្តាល។
Least-Squares (LS) Estimation ការប៉ាន់ស្មានការ៉េអប្បបរមា	មិនសូវប្រើកម្លាំងគណនាច្រើនលើវិមាត្រនៃលំហក្នុងវគ្គទីមួយបើធៀបនឹង JD ។	ជួបប្រទះបញ្ហាកំឡុងពេលធ្វើឱ្យប្រសើរ (optimization) ដែលបណ្តាលឱ្យមានកំហុសលេខ និងទាមទារប្រតិបត្តិការសរុបប្រហែលពីរដងនៃ JD ដោយសារម៉ាទ្រីសធំជាង។	មានកំហុសខ្ពស់ជាង JD ក្នុងករណីជាច្រើន ជាពិសេសពេលទិន្នន័យបណ្តុះបណ្តាលមានទំហំតូច។
Data Augmentation (DA) Method វិធីសាស្ត្របន្ថែមទិន្នន័យ	រក្សាបាននូវភាពច្បាស់លាស់នៃការនិយាយខ្ពស់ និងកាត់បន្ថយកំហុសបានច្រើនសម្រាប់ទិន្នន័យដែលខ្វះខាតសូរសព្ទមួយចំនួន។	អាចមានការភាន់ច្រឡំក្នុងការបំប្លែងសម្រាប់សូរសព្ទដែលមានសំឡេងស្រដៀងគ្នា (ដូចជា diphthongs) ប្រសិនបើទិន្នន័យបន្ថែមមានការប្រែប្រួលខ្លាំងពេក។	កាត់បន្ថយកំហុសបានរហូតដល់ពាក់កណ្តាលសម្រាប់សូរសព្ទដែលបានបណ្តុះបណ្តាល បើធៀបនឹងវិធីសាស្ត្រធម្មតា ពេលទិន្នន័យមានកំណត់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រជាមូលដ្ឋាន និងទាមទារទិន្នន័យសំឡេងតិចតួចសម្រាប់ការបណ្តុះបណ្តាល។

Software: ប្រព័ន្ធសំយោគសំឡេង Festival text-to-speech synthesis system និងឧបករណ៍ CSLU Toolkit (សម្រាប់ Force-alignment) ។
Dataset: ទិន្នន័យសំឡេងដែលថតក្នុងកម្រិតគុណភាព 16kHz/16bit ដែលត្រូវការរយៈពេលខ្លី (ត្រឹមតែប្រហែល ១ នាទី) សម្រាប់ការបណ្តុះបណ្តាល។
Hardware: អាចដំណើរការ និងបង្កើតសំឡេងថ្មីបានយ៉ាងឆាប់រហ័សនៅលើកុំព្យូទ័រស្តង់ដារ (Standard computer equipment) ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងភាសាអង់គ្លេសពីមូលដ្ឋានទិន្នន័យ Harvard sentences ដែលមានអ្នកនិយាយប្រុសនិងស្រី។ ទិន្នន័យនេះមិនតំណាងឱ្យភាពចម្រុះនៃសូរសព្ទភាសាខ្មែរដែលមានស្រៈច្រើននិងព្យញ្ជនៈស្មុគស្មាញនោះទេ។ ដូច្នេះ ការយកមកអនុវត្តផ្ទាល់លើភាសាខ្មែរទាមទារឱ្យមានការប្រមូលទិន្នន័យថ្មីដែលឆ្លុះបញ្ចាំងពីលក្ខណៈសូរសព្ទខ្មែរឱ្យបានពេញលេញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាវិធីសាស្ត្រនេះត្រូវបានធ្វើតេស្តលើភាសាអង់គ្លេសក៏ដោយ ក៏ទ្រឹស្តីនៃការបន្សាំសំឡេងអាចមានប្រយោជន៍ច្រើនសម្រាប់ការអភិវឌ្ឍន៍បច្ចេកវិទ្យាភាសាខ្មែរ។

ប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិ (IVR/Customer Service) នៅកម្ពុជា: ក្រុមហ៊ុនទូរគមនាគមន៍ (ដូចជា Smart ឫ Cellcard) អាចប្រើប្រព័ន្ធនេះដើម្បីបង្កើតសំឡេងឆ្លើយតបអតិថិជនដែលមានលក្ខណៈប្លែកពីគេ ឬបន្សាំទៅតាមសំឡេងតំណាងណាមួយ ដោយពុំចាំបាច់ថតសំឡេងមនុស្សពិតសម្រាប់គ្រប់ឃ្លាទាំងអស់ឡើយ។
កម្មវិធីអានអត្ថបទខ្មែរសម្រាប់ជនពិការភ្នែក (Assistive Technology): អាចជួយអភិវឌ្ឍកម្មវិធី TTS ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់កែប្រែសំឡេងម៉ាស៊ីនទៅជាសំឡេងសមាជិកគ្រួសារ ឬសំឡេងដែលពួកគេចូលចិត្ត ធ្វើឱ្យការស្តាប់មានភាពស្និទ្ធស្នាលជាងមុន។
វិស័យផលិតមាតិកាឌីជីថល និងហ្គេមនៅកម្ពុជា: អ្នកផលិតហ្គេម ឬវីដេអូគំនូរជីវចលក្នុងស្រុក អាចបង្កើតសំឡេងតួអង្គច្រើនប្រភេទ انت انت انت انتដោយប្រើសំឡេងដើមតែមួយ (Source voice) ជួយសន្សំសំចៃថ្លៃចំណាយលើអ្នកបញ្ចូលសំឡេង។

សរុបមក បច្ចេកវិទ្យានេះជាមូលដ្ឋានគ្រឹះដ៏ល្អមួយក្នុងការអភិវឌ្ឍប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេងនិយាយភាសាខ្មែរ (Khmer TTS) ឱ្យកាន់តែមានភាពបត់បែន ចំណាយពេលតិច និងអាចប្ដូរតាមតម្រូវការផ្ទាល់ខ្លួនបាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីប្រព័ន្ធ Text-to-Speech (TTS) ជាមូលដ្ឋាន: ចាប់ផ្តើមដោយការសិក្សាពីរបៀបដំណើរការរបស់ប្រព័ន្ធកូដបើកចំហរដូចជា Festival TTS និងសាកល្បងប្រើប្រាស់កម្មវិធី CSLU Toolkit ដើម្បីស្វែងយល់ពីរបៀបកំណត់ព្រំដែនសូរសព្ទដោយស្វ័យប្រវត្តិ (Force-alignment)។
សិក្សាពីគំរូ Gaussian Mixture Model (GMM): ស្វែងយល់ពីទ្រឹស្តីគណិតវិទ្យានៅពីក្រោយ Gaussian Mixture Models និងការប្រើប្រាស់ក្បួនដោះស្រាយ Expectation-Maximization (EM) ដោយសាកល្បងសរសេរកូដប៉ាន់ស្មានដង់ស៊ីតេរួម (Joint Density Estimation) តាមរយៈការប្រើប្រាស់បណ្ណាល័យ scikit-learn ក្នុង Python ។
ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ: ថតសំឡេងអត្ថបទភាសាខ្មែរខ្លីៗ (ប្រហែល ១ ទៅ ៥ នាទី) ជាទម្រង់ 16kHz/16bit ហើយធ្វើចំណារពន្យល់សូរសព្ទ (Phonetic labeling) តាមរយៈឧបករណ៍ជំនួយដូចជា Praat ដើម្បីបង្កើតសំណុំទិន្នន័យសាកល្បងផ្ទាល់ខ្លួន។
អនុវត្តការបន្សាំវិសាលគម និងកម្រិតសំឡេង (Pitch/Spectral Conversion): សរសេរកម្មវិធីដើម្បីស្រخراجលក្ខណៈពិសេស Bark-scaled Line Spectral Frequencies (LSF) ពីទិន្នន័យសំឡេង រួចសាកល្បងប្រើប្រាស់ GMM ដែលបានបណ្តុះបណ្តាល ដើម្បីបំប្លែងលក្ខណៈសំឡេងពីអ្នកនិយាយម្នាក់ទៅម្នាក់ទៀត។
អនុវត្តវិធីសាស្ត្រ Data Augmentation សម្រាប់ទិន្នន័យខ្វះខាត: សាកល្បងកាត់បន្ថយទិន្នន័យបណ្តុះបណ្តាល (ឧទាហរណ៍ លាក់សូរសព្ទព្យញ្ជនៈមួយចំនួន) រួចអនុវត្តបច្ចេកទេស Data Augmentation ដោយប្រើទិន្នន័យដើមជំនួស ដើម្បីសង្កេតមើលថាតើប្រព័ន្ធនៅតែអាចអានពាក្យទាំងនោះបានច្បាស់ឬយ៉ាងណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Text-to-speech (TTS) synthesizer	ប្រព័ន្ធកុំព្យូទ័រដែលបំលែងអត្ថបទសរសេរទៅជាសំឡេងនិយាយដោយស្វ័យប្រវត្តិ។ វាវិភាគអត្ថបទ បំបែកជាសូរសព្ទ និងភ្ជាប់ទិន្នន័យសំឡេងចូលគ្នាដើម្បីបង្កើតជាពាក្យ និងឃ្លាដែលអាចស្តាប់បាន។	ដូចជាមនុស្សយន្តម្នាក់ដែលអាចអានសៀវភៅ ឬអត្ថបទនៅលើអេក្រង់ឱ្យយើងស្តាប់លឺជាសំឡេងមនុស្សពិតៗ។
Gaussian Mixture Model	ម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់តំណាងឱ្យរបាយទិន្នន័យស្មុគស្មាញ ដោយការផ្សំបញ្ចូលគ្នានូវរបាយកោងធម្មតា (Gaussian distributions) ជាច្រើន។ ក្នុងឯកសារនេះ វាជួយទស្សន៍ទាយនិងបង្កើតអនុគមន៍បំប្លែងរវាងលក្ខណៈសំឡេងដើម និងសំឡេងគោលដៅ។	ដូចជាការប្រើប្រាស់រូបមន្តលាយពណ៌មូលដ្ឋានជាច្រើនផ្ទាំងចូលគ្នា ដើម្បីក្លែងបន្លំបង្កើតជាផ្ទាំងគំនូរដ៏ស្មុគស្មាញមួយផ្ទាំង។
Line spectral frequencies (LSF)	ទម្រង់គណិតវិទ្យានៃការតំណាងឱ្យលក្ខណៈរលកសំឡេង (spectral envelope) ដែលមានស្ថិរភាពខ្ពស់ ងាយស្រួលក្នុងការធ្វើអន្តរប៉ូល (interpolate) និងមានទំនាក់ទំនងយ៉ាងជិតស្និទ្ធទៅនឹងទម្រង់សម្លេងដែលសម្គាល់អត្តសញ្ញាណអ្នកនិយាយ។	ដូចជាប្លង់មេ (Blueprint) នៃបំពង់កមនុស្ស ដែលបង្ហាញពីទីតាំងប្រេកង់ណាដែលសំឡេងនឹងលាន់ឮខ្លាំងជាងគេដើម្បីបង្កើតជាសូរសព្ទប្លែកៗពីគ្នា។
Joint density estimation	វិធីសាស្ត្រស្ថិតិដើម្បីស្វែងយល់ពីប្រូបាប៊ីលីតេដែលអថេរពីរ (ឧទាហរណ៍ ទិន្នន័យសំឡេងអ្នកនិយាយទី១ និងទី២) កើតឡើងក្នុងពេលតែមួយ ដើម្បីសិក្សាពីទំនាក់ទំនងនិងបង្កើតរូបមន្តបំប្លែងរវាងពួកវា។	ដូចជាការសង្កេតមើលទម្លាប់រវាងមនុស្សពីរនាក់ដែលតែងតែដើរជាមួយគ្នា ដើម្បីទស្សន៍ទាយថាបើម្នាក់ដើរទៅឆ្វេង តើម្នាក់ទៀតនឹងប្រែខ្លួនទៅខាងណា។
estimation maximization (EM) algorithm	ក្បួនដោះស្រាយសម្រាប់ស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុតនៃម៉ូដែលស្ថិតិ នៅពេលដែលទិន្នន័យមានភាពមិនច្បាស់លាស់ ឬបាត់បង់ ដោយដំណើរការជាពីរវគ្គគឺ ការស្មាន (Expectation) និងការធ្វើឱ្យប្រសើរបំផុត (Maximization) ធ្វើឡើងចុះឡើងៗទាល់តែម៉ូដែលនោះសុក្រឹត។	ដូចជាការលេងផ្គុំរូប (Jigsaw puzzle) ដែលបាត់កង់ខ្លះ ដោយដំបូងយើងស្មានរូបរាងវា រួចសាកល្បងដាក់បន្តបន្ទាប់ និងកែតម្រូវរហូតដល់បានរូបរាងមួយដែលសមហេតុផលបំផុត។
data augmentation	បច្ចេកទេសក្នុងការបង្កើតទិន្នន័យថ្មីបន្ថែមដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់។ ក្នុងបរិបទនេះ គេយកលក្ខណៈសំឡេងរបស់អ្នកនិយាយដើមមកបំពេញបន្ថែមត្រង់ចន្លោះសូរសព្ទដែលសំណុំទិន្នន័យអ្នកនិយាយគោលដៅមិនមាន ដើម្បីការពារកុំឱ្យប្រព័ន្ធគាំង ឬអានមិនចេញ។	ដូចជាការយកក្រណាត់ចាស់ៗមកប៉ះប៉ូវកាត់តលើខោអាវដែលធ្លុះ ដើម្បីឱ្យវាមានទម្រង់ពេញលេញ និងអាចយកទៅស្លៀកពាក់បាន។
Spectral envelope	ខ្សែកោងដែលគ្របដណ្ដប់លើកំពូលនៃវិសាលគមប្រេកង់នៃសំឡេង ដែលកំណត់ពីទម្រង់រូបរាងនៃរលកសំឡេង និងដើរតួនាទីយ៉ាងសំខាន់បំផុតក្នុងការកំណត់អត្តសញ្ញាណ (Speaker identity) និងពណ៌សូរសព្ទរបស់បុគ្គលម្នាក់ៗ។	ដូចជាទម្រង់ផ្ទៃមុខ និងទំហំឆ្អឹងថ្គាមរបស់មនុស្សម្នាក់ៗ ដែលធ្វើឱ្យយើងអាចចំណាំពួកគេបាន ទោះបីជាពួកគេនិយាយពាក្យដូចគ្នាក៏ដោយ។
diphone databases	មូលដ្ឋានទិន្នន័យដែលផ្ទុកសំណាកសំឡេងដែលថតជាគូៗនៃសូរសព្ទ ពោលគឺវាផ្ទុកសំឡេងចាប់ពីចំណុចកណ្តាលនៃសូរសព្ទទីមួយ ទៅដល់ចំណុចកណ្តាលនៃសូរសព្ទបន្ទាប់ ដើម្បីចាប់យកការផ្លាស់ប្តូរ (transition) រវាងសម្លេងទាំងពីរ ដែលធ្វើឱ្យការនិយាយស្តាប់ទៅរលូន។	ដូចជាបំណែកកូប៉ាស់ (Lego) ដែលដុំនីមួយៗមានក្បាលតំណខុសៗគ្នា ដើម្បីអាចយកមកតភ្ជាប់គ្នាបង្កើតជាពាក្យថ្មីៗបានយ៉ាងរលូននិងមិនដាច់ៗពីគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖