Original Title: Data Selection for Naturalness in HMM-based Speech Synthesis
Source: doi.org/10.21437/SpeechProsody.2016-162
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការជ្រើសរើសទិន្នន័យសម្រាប់ភាពធម្មជាតិនៃការសំយោគសំឡេងដោយផ្អែកលើ HMM

ចំណងជើងដើម៖ Data Selection for Naturalness in HMM-based Speech Synthesis

អ្នកនិពន្ធ៖ Erica Cooper, Yocheved Levitan, Julia Hirschberg

ឆ្នាំបោះពុម្ព៖ 2016, Speech Prosody

វិស័យសិក្សា៖ Speech Synthesis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះស្វែងរកវិធីសាស្ត្រក្នុងការបង្កើតសំឡេងសំយោគ Text-to-Speech (TTS) ដែលស្តាប់ទៅមានលក្ខណៈធម្មជាតិសម្រាប់ភាសាដែលខ្វះខាតធនធាន ដោយប្រើប្រាស់ទិន្នន័យដែលមានស្រាប់ (ដូចជាព័ត៌មានវិទ្យុដែលមានអ្នកនិយាយច្រើននាក់)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់ទិន្នន័យសំឡេងព័ត៌មានវិទ្យុ (BURNC) ដើម្បីហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេងដោយផ្អែកលើ HMM និងធ្វើការវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់។

ការជ្រើសរើសសំណុំទិន្នន័យតាមលក្ខណៈពិសេស (Data selection by features): ការបែងចែកទិន្នន័យតាមរយៈកម្រិតសំឡេង (f0), ថាមពល, ល្បឿននៃការនិយាយ និងប្រវែងល្បះ។
ការហ្វឹកហាត់ម៉ូដែលសំឡេង (Voice training): ការប្រើប្រាស់ប្រព័ន្ធ HMM-based Speech Synthesis System (HTS) និងការបង្កើតម៉ូដែលបូកបញ្ចូលសំឡេងថេរ (Monotone voice interpolation)។
ការវាយតម្លៃដោយមនុស្ស (Crowdsourced listening tests): ការប្រើប្រាស់ Amazon Mechanical Turk ដើម្បីធ្វើតេស្ត Mean Opinion Score (MOS) និងការប្រៀបធៀបជាគូ (Pairwise comparisons)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គ្មានវិធីសាស្ត្រជ្រើសរើសសំណុំទិន្នន័យរងណាមួយដែលទទួលបានលទ្ធផលល្អប្រសើរជាងការប្រើប្រាស់ទិន្នន័យមូលដ្ឋានរួមបញ្ចូលគ្នានោះទេ។
ការបូកបញ្ចូលម៉ូដែលសំឡេងមូលដ្ឋានជាមួយនឹងម៉ូដែលសំឡេងថេរ (Monotone voice) គឺជាវិធីសាស្ត្រតែមួយគត់ដែលទទួលបានការពេញចិត្ត និងមានភាពប្រសើរឡើងគួរឱ្យកត់សម្គាល់ (p < 0.05) កាត់បន្ថយភាពដាច់ៗនៃសំឡេងសម្រាប់អ្នកនិយាយស្ត្រី។
ការហ្វឹកហាត់ម៉ូដែលសំឡេងដោយប្រើប្រាស់ទិន្នន័យពីអ្នកនិយាយតែម្នាក់មិនទទួលបានលទ្ធផលល្អដូចការហ្វឹកហាត់លើអ្នកនិយាយច្រើននាក់ទេ ដោយសារការខ្វះខាតទំហំទិន្នន័យគ្រប់គ្រាន់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline Voice (All Data) ម៉ូដែលសំឡេងគោល (ប្រើទិន្នន័យទាំងអស់)	ងាយស្រួលក្នុងការអនុវត្ត ដោយប្រើប្រាស់ទិន្នន័យទាំងអស់ដែលមានដើម្បីផ្តល់នូវសំឡេងដែលមានស្ថិរភាពជាទូទៅ។	រួមបញ្ចូលទិន្នន័យដែលមានសំឡេងរំខាន ឬទម្រង់នៃការនិយាយដែលមិនសូវស័ក្តិសមសម្រាប់ការសំយោគសំឡេង (TTS)។	ទទួលបានពិន្ទុ MOS ២.៦៨ (សម្រាប់សំឡេងស្ត្រី) និងត្រូវបានប្រើជាគោលសម្រាប់ប្រៀបធៀប។
Feature-based Data Selection ការជ្រើសរើសទិន្នន័យតាមលក្ខណៈពិសេស (ឧ. f0, ថាមពល, ល្បឿន)	ព្យាយាមចម្រាញ់យកទិន្នន័យមិនល្អចេញ និងស្វែងរកល្បះដែលមានលក្ខណៈធម្មជាតិបំផុតដោយស្វ័យប្រវត្តិ។	មិនទទួលបានលទ្ធផលល្អជាងការប្រើទិន្នន័យទាំងអស់នោះទេ ហើយសំណុំខ្លះ (ឧ. និយាយយឺត) ទទួលបានលទ្ធផលអន់មែនទែន។	ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលគោលបន្តិចបន្តួចក្នុងករណីខ្លះ ប៉ុន្តែមិនមានលក្ខណៈសំខាន់តាមស្ថិតិ (Not statistically significant)។
Monotone Interpolation ការបូកបញ្ចូលជាមួយម៉ូដែលសំឡេងថេរ	ជួយកាត់បន្ថយភាពដាច់ៗ (choppiness) នៃកម្រិតសំឡេង (f0 contour) ធ្វើឱ្យការស្តាប់ទៅមានភាពរលូនជាងមុន។	អាចធ្វើឱ្យសំឡេងបាត់បង់ការបញ្ចេញមនោសញ្ចេតនាខ្លះដោយសារការលាយបញ្ចូលគ្នាជាមួយសំឡេងដែលមានកម្រិតថេរ។	ជាវិធីសាស្ត្រតែមួយគត់ដែលត្រូវបានអ្នកស្តាប់ពេញចិត្តច្រើនជាងម៉ូដែលគោលយ៉ាងពិតប្រាកដ (៦៣.៣%, p=0.04) សម្រាប់អ្នកនិយាយស្ត្រី។
Speaker Adaptive Training (SAT) AVM ម៉ូដែល SAT ហ្វឹកហាត់លើអ្នកនិយាយច្រើននាក់	ត្រូវបានរចនាឡើងដើម្បីបង្កើតម៉ូដែលសំឡេងដែលមានស្ថិរភាពពីទិន្នន័យរបស់អ្នកនិយាយចម្រុះគ្នា។	ទាមទារកម្លាំងកុំព្យូទ័រខ្លាំងក្នុងការហ្វឹកហាត់ និងមិនបានផ្តល់នូវសំឡេងល្អជាងម៉ូដែលគោលគួរឱ្យកត់សម្គាល់នោះទេ។	ទទួលបានការពេញចិត្ត ៥៦.៧% សម្រាប់ស្ត្រី និង ៤៨.៣% សម្រាប់បុរស បើធៀបនឹងម៉ូដែលគោល (មិនមានលក្ខណៈសំខាន់តាមស្ថិតិ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ កម្មវិធីជំនាញសម្រាប់ការវិភាគ និងទិន្នន័យសំឡេងដែលត្រូវបានកត់ត្រាអត្ថបទរួចជាស្រេចសម្រាប់ការហ្វឹកហាត់ម៉ូដែល HMM។

Software: ទាមទារកម្មវិធី Praat សម្រាប់ការវិភាគសូរសព្ទ, ប្រព័ន្ធ Festival Speech Synthesis System សម្រាប់បង្កើត Phonetic labels និង HTS សម្រាប់ហ្វឹកហាត់ម៉ូដែល HMM។
Dataset: ប្រើប្រាស់សំណុំទិន្នន័យ Boston University Radio News Corpus (BURNC) ដែលមានទំហំប្រហែល ៤ ទៅ ៥ ម៉ោងសម្រាប់អ្នកនិយាយបុរសនិងស្ត្រី។
Evaluation Platform: ត្រូវការវេទិកា Amazon Mechanical Turk សម្រាប់ជួលមនុស្សពិតប្រាកដមកស្តាប់ និងវាយតម្លៃគុណភាពសំឡេង (Crowdsourced listening tests)។
Hardware: ទាមទារកុំព្យូទ័រដែលមានកម្លាំង CPU/GPU គ្រប់គ្រាន់សម្រាប់ដំណើរការ Speaker Adaptive Training (SAT) និងការបណ្តុះបណ្តាលម៉ូដែល Machine Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងពីអ្នកអានព័ត៌មានវិទ្យុនៅទីក្រុង Boston សហរដ្ឋអាមេរិក (BURNC) ដែលជាទិន្នន័យភាសាអង់គ្លេសសុទ្ធ។ ទោះបីជាគោលដៅនៃឯកសារគឺចង់ជួយដល់ភាសាដែលខ្វះខាតធនធាន (LRLs) ក៏ដោយ ការធ្វើតេស្តបឋមនេះមានភាពលម្អៀងទៅលើទម្រង់សំឡេងនៃភាសាអង់គ្លេស។ នេះជារឿងសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់នៃការបញ្ចេញសំឡេង និងសូរសព្ទខុសគ្នាស្រឡះ ដែលទាមទារឱ្យមានការសាកល្បងដោយផ្ទាល់លើទិន្នន័យភាសាខ្មែរទើបដឹងលទ្ធផលច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការទាញយកទិន្នន័យ "Found data" នេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ក្នុងការអភិវឌ្ឍប្រព័ន្ធ Text-to-Speech (TTS) ដោយសន្សំសំចៃការចំណាយ។

ការអភិវឌ្ឍប្រព័ន្ធ TTS ភាសាខ្មែរពីការផ្សាយព័ត៌មាន: ស្ថាប័នស្រាវជ្រាវអាចប្រើប្រាស់ទិន្នន័យពីការផ្សាយព័ត៌មានរបស់ស្ថានីយ៍វិទ្យុ និងទូរទស្សន៍ក្នុងស្រុក (ឧ. វិទ្យុជាតិកម្ពុជា) ដើម្បីបង្កើតម៉ូដែលសំឡេងនិយាយភាសាខ្មែរ ដោយមិនចាំបាច់ចំណាយថវិកាច្រើនក្នុងការថតសំឡេងក្នុងស្ទូឌីយោ។
ការកែលម្អគុណភាពប្រព័ន្ធសៀវភៅសំឡេង (Audiobooks): វិធីសាស្ត្របូកបញ្ចូលម៉ូដែលសំឡេងថេរ (Monotone interpolation) អាចត្រូវបានប្រើដើម្បីកាត់បន្ថយភាពដាច់ៗនៃសំឡេង (choppiness) សម្រាប់កម្មវិធីអានអត្ថបទជាសំឡេង ជួយសម្រួលដល់ជនពិការភ្នែកនៅកម្ពុជា។
គម្រោងស្រាវជ្រាវនៅសាកលវិទ្យាល័យ (ឧ. RUPP, ITC): និស្សិតផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រអាចអនុវត្តវិធីសាស្ត្រជ្រើសរើសទិន្នន័យនេះ ដើម្បីចម្រាញ់យកល្បះដែលមានគុណភាពខ្ពស់ពីប្រភពវីដេអូ YouTube ឬ Podcast ជាភាសាខ្មែរ។

សរុបមក ការប្រើប្រាស់វិធីសាស្ត្រកាត់បន្ថយភាពដាច់ៗនៃសំឡេង និងការទាញយកប្រយោជន៍ពីទិន្នន័យព័ត៌មានដែលមានស្រាប់ គឺជាផ្លូវកាត់ដ៏មានប្រសិទ្ធភាពសម្រាប់អភិវឌ្ឍបច្ចេកវិទ្យាសំឡេង (Speech Tech) នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ HMM និង Speech Synthesis: ចាប់ផ្តើមដោយការសិក្សាពីទ្រឹស្តីនៃ Hidden Markov Model និងសាកល្បងដំឡើងកម្មវិធី HTS នៅលើប្រព័ន្ធ Linux របស់អ្នកដើម្បីស្វែងយល់ពីដំណើរការបណ្តុះបណ្តាលម៉ូដែលសំឡេង (Acoustic modeling)។
ប្រមូល និងចម្រាញ់ទិន្នន័យព័ត៌មានជាភាសាខ្មែរ: ប្រមូលទិន្នន័យសំឡេងព័ត៌មានវិទ្យុឬទូរទស្សន៍ខ្មែរឱ្យបានយ៉ាងតិច ៤ ទៅ ៥ ម៉ោង។ បន្ទាប់មក ប្រើប្រាស់កម្មវិធី Praat ដើម្បីកាត់ផ្នែកសំឡេងស្ងាត់ចោល ព្រមទាំងវិភាគនិងទាញយកកម្រិតសំឡេង (f0) និងថាមពល (Energy) របស់ល្បះនីមួយៗ។
បង្កើត Phonetic Labels សម្រាប់ភាសាខ្មែរ: ប្រើប្រាស់ឧបករណ៍ដូចជា Festival Speech Synthesis System ឬសរសេរកូដ Python (G2P - Grapheme to Phoneme) ដើម្បីបំប្លែងអត្ថបទភាសាខ្មែរទៅជាសូរសព្ទ (Phonetic sequence) ដែលត្រៀមរួចជាស្រេចសម្រាប់ការហ្វឹកហាត់។
អនុវត្តវិធីសាស្ត្រ Monotone Interpolation: ហ្វឹកហាត់ម៉ូដែលសំឡេងគោលដោយប្រើទិន្នន័យទាំងអស់ រួចបង្កើតម៉ូដែលមួយទៀតដែលកំណត់តម្លៃ f0 ឱ្យនៅថេរ (Monotone)។ បន្ទាប់មក ប្រើប្រាស់មុខងារ Interpolation ក្នុង HTS ដើម្បីបូកបញ្ចូលម៉ូដែលទាំងពីរក្នុងសមាមាត្រស្មើគ្នា ដើម្បីកាត់បន្ថយភាពដាច់ៗនៃសំឡេង។
វាយតម្លៃគុណភាពសំឡេងជាមួយអ្នកស្តាប់ជនជាតិខ្មែរ: រៀបចំការធ្វើតេស្តស្តាប់ (MOS និង Pairwise Comparison) តាមរយៈ Google Forms ដោយឱ្យអ្នកនិយាយភាសាខ្មែរដើមចំនួន ២០-៣០ នាក់ ស្តាប់និងវាយតម្លៃភាពធម្មជាតិនៃសំឡេងដែលបានសំយោគ ដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាពនៃម៉ូដែលរបស់អ្នក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Text-to-Speech (TTS)	បច្ចេកវិទ្យាក្នុងការបំប្លែងអត្ថបទសរសេរទៅជាសំឡេងនិយាយដោយប្រើប្រាស់ប្រព័ន្ធកុំព្យូទ័រ ដើម្បីបង្កើតការសន្ទនាដោយស្វ័យប្រវត្តិ។	ដូចជាការឱ្យមនុស្សយន្តអានសៀវភៅ ឬអត្ថបទព័ត៌មានឱ្យយើងស្តាប់ដោយស្វ័យប្រវត្តិ។
Hidden Markov Model (HMM)	ម៉ូដែលស្ថិតិមួយប្រភេទដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសំយោគសំឡេង ដោយវាធ្វើការទស្សន៍ទាយនិងបង្កើតលក្ខណៈសូរសព្ទបន្តបន្ទាប់គ្នាដោយផ្អែកលើទិន្នន័យដែលបានហ្វឹកហាត់។	ដូចជាការទស្សន៍ទាយពាក្យបន្ទាប់ដែលមិត្តភក្តិអ្នកនឹងនិយាយ ដោយផ្អែកលើការសង្កេតទម្លាប់នៃការនិយាយរបស់ពួកគេកន្លងមក។
Speaker Adaptive Training (SAT)	ដំណើរការហ្វឹកហាត់ម៉ូដែលសំឡេងដែលទាញយក និងសម្របតាមលក្ខណៈពិសេសរបស់អ្នកនិយាយច្រើននាក់ ដើម្បីបង្កើតបានជាម៉ូដែលមូលដ្ឋានមួយដ៏រឹងមាំ និងមានស្ថិរភាព។	ដូចជាការស្តាប់មនុស្ស១០នាក់ផ្សេងគ្នានិយាយពាក្យតែមួយ ដើម្បីទាញយកទម្រង់ស្តង់ដារនៃការបញ្ចេញសំឡេងពាក្យនោះ។
Average Voice Model (AVM)	ម៉ូដែលសំឡេងជាមធ្យមដែលត្រូវបានបង្កើតឡើងដោយការរួមបញ្ចូលទិន្នន័យសំឡេងពីអ្នកនិយាយច្រើននាក់ចូលគ្នា ដើម្បីប្រើប្រាស់ជាគ្រោងឆ្អឹងសម្រាប់បង្កើតសំឡេងថ្មី។	ដូចជាការយកទឹកដមសំឡេងរបស់មនុស្សជាច្រើននាក់មកក្រឡុកចូលគ្នា ដើម្បីបង្កើតជាសំឡេងថ្មីមួយដែលតំណាងឱ្យសំឡេងជាមធ្យមរបស់ពួកគេ។
Fundamental frequency (f0)	រលកប្រេកង់គោលនៃសំឡេង ដែលជាទូទៅវាស់កម្រិតសម្លេង (Pitch) របស់អ្នកនិយាយ ថាតើវាជាសំឡេងស្រួច ឬសំឡេងធ្ងន់។	ដូចជាកម្រិតរឹតបន្តឹងនៃខ្សែហ្គីតា បើខ្សែតឹងខ្លាំង សំឡេងនឹងលាន់ចេញមកស្រួចខ្ពស់ (f0 ខ្ពស់)។
Monotone Interpolation	ការបូកបញ្ចូលម៉ូដែលសំឡេងធម្មតាជាមួយនឹងម៉ូដែលសំឡេងដែលមានកម្រិតរលកសំឡេងថេរ (គ្មានការឡើងចុះ) ក្នុងគោលបំណងកាត់បន្ថយភាពរអាក់រអួល ឬភាពដាច់ៗនៃសំឡេងសំយោគ។	ដូចជាការលាយថ្នាំពណ៌ដែលឆើតខ្លាំងជាមួយនឹងពណ៌ស ដើម្បីឱ្យពណ៌ចេញមកទន់ស្រទន់ និងរលូនសាច់ជាងមុន។
Low Resource Languages (LRLs)	ភាសាដែលមិនសូវមានការស្រាវជ្រាវ និងខ្វះខាតទិន្នន័យឌីជីថល (ដូចជា វចនានុក្រម អត្ថបទ សម្លេង) គ្រប់គ្រាន់សម្រាប់បណ្តុះបណ្តាលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។	ដូចជាសៀវភៅកម្រដែលមានលក់តែក្នុងបណ្ណាល័យតូចមួយ ដែលពិបាករកឯកសារយោង និងព័ត៌មានលម្អិត។
Mean Opinion Score (MOS)	ប្រព័ន្ធរង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃគុណភាព និងភាពធម្មជាតិនៃសំឡេង ដោយតម្រូវឱ្យអ្នកស្តាប់ជាមនុស្សផ្តល់ពិន្ទុពី ១ (អន់បំផុត) ដល់ ៥ (ល្អបំផុត)។	ដូចជាការផ្តល់ចំណាត់ថ្នាក់ផ្កាយ ១ ដល់ ៥ ទៅលើសេវាកម្មភោជនីយដ្ឋានណាមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖