Original Title: Data Selection for Naturalness in HMM-based Speech Synthesis
Source: doi.org/10.21437/SpeechProsody.2016-162
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការជ្រើសរើសទិន្នន័យសម្រាប់ភាពធម្មជាតិនៃការសំយោគសំឡេងដោយផ្អែកលើ HMM

ចំណងជើងដើម៖ Data Selection for Naturalness in HMM-based Speech Synthesis

អ្នកនិពន្ធ៖ Erica Cooper, Yocheved Levitan, Julia Hirschberg

ឆ្នាំបោះពុម្ព៖ 2016, Speech Prosody

វិស័យសិក្សា៖ Speech Synthesis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះស្វែងរកវិធីសាស្ត្រក្នុងការបង្កើតសំឡេងសំយោគ Text-to-Speech (TTS) ដែលស្តាប់ទៅមានលក្ខណៈធម្មជាតិសម្រាប់ភាសាដែលខ្វះខាតធនធាន ដោយប្រើប្រាស់ទិន្នន័យដែលមានស្រាប់ (ដូចជាព័ត៌មានវិទ្យុដែលមានអ្នកនិយាយច្រើននាក់)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់ទិន្នន័យសំឡេងព័ត៌មានវិទ្យុ (BURNC) ដើម្បីហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេងដោយផ្អែកលើ HMM និងធ្វើការវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline Voice (All Data)
ម៉ូដែលសំឡេងគោល (ប្រើទិន្នន័យទាំងអស់)
ងាយស្រួលក្នុងការអនុវត្ត ដោយប្រើប្រាស់ទិន្នន័យទាំងអស់ដែលមានដើម្បីផ្តល់នូវសំឡេងដែលមានស្ថិរភាពជាទូទៅ។ រួមបញ្ចូលទិន្នន័យដែលមានសំឡេងរំខាន ឬទម្រង់នៃការនិយាយដែលមិនសូវស័ក្តិសមសម្រាប់ការសំយោគសំឡេង (TTS)។ ទទួលបានពិន្ទុ MOS ២.៦៨ (សម្រាប់សំឡេងស្ត្រី) និងត្រូវបានប្រើជាគោលសម្រាប់ប្រៀបធៀប។
Feature-based Data Selection
ការជ្រើសរើសទិន្នន័យតាមលក្ខណៈពិសេស (ឧ. f0, ថាមពល, ល្បឿន)
ព្យាយាមចម្រាញ់យកទិន្នន័យមិនល្អចេញ និងស្វែងរកល្បះដែលមានលក្ខណៈធម្មជាតិបំផុតដោយស្វ័យប្រវត្តិ។ មិនទទួលបានលទ្ធផលល្អជាងការប្រើទិន្នន័យទាំងអស់នោះទេ ហើយសំណុំខ្លះ (ឧ. និយាយយឺត) ទទួលបានលទ្ធផលអន់មែនទែន។ ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលគោលបន្តិចបន្តួចក្នុងករណីខ្លះ ប៉ុន្តែមិនមានលក្ខណៈសំខាន់តាមស្ថិតិ (Not statistically significant)។
Monotone Interpolation
ការបូកបញ្ចូលជាមួយម៉ូដែលសំឡេងថេរ
ជួយកាត់បន្ថយភាពដាច់ៗ (choppiness) នៃកម្រិតសំឡេង (f0 contour) ធ្វើឱ្យការស្តាប់ទៅមានភាពរលូនជាងមុន។ អាចធ្វើឱ្យសំឡេងបាត់បង់ការបញ្ចេញមនោសញ្ចេតនាខ្លះដោយសារការលាយបញ្ចូលគ្នាជាមួយសំឡេងដែលមានកម្រិតថេរ។ ជាវិធីសាស្ត្រតែមួយគត់ដែលត្រូវបានអ្នកស្តាប់ពេញចិត្តច្រើនជាងម៉ូដែលគោលយ៉ាងពិតប្រាកដ (៦៣.៣%, p=0.04) សម្រាប់អ្នកនិយាយស្ត្រី។
Speaker Adaptive Training (SAT) AVM
ម៉ូដែល SAT ហ្វឹកហាត់លើអ្នកនិយាយច្រើននាក់
ត្រូវបានរចនាឡើងដើម្បីបង្កើតម៉ូដែលសំឡេងដែលមានស្ថិរភាពពីទិន្នន័យរបស់អ្នកនិយាយចម្រុះគ្នា។ ទាមទារកម្លាំងកុំព្យូទ័រខ្លាំងក្នុងការហ្វឹកហាត់ និងមិនបានផ្តល់នូវសំឡេងល្អជាងម៉ូដែលគោលគួរឱ្យកត់សម្គាល់នោះទេ។ ទទួលបានការពេញចិត្ត ៥៦.៧% សម្រាប់ស្ត្រី និង ៤៨.៣% សម្រាប់បុរស បើធៀបនឹងម៉ូដែលគោល (មិនមានលក្ខណៈសំខាន់តាមស្ថិតិ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ កម្មវិធីជំនាញសម្រាប់ការវិភាគ និងទិន្នន័យសំឡេងដែលត្រូវបានកត់ត្រាអត្ថបទរួចជាស្រេចសម្រាប់ការហ្វឹកហាត់ម៉ូដែល HMM។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងពីអ្នកអានព័ត៌មានវិទ្យុនៅទីក្រុង Boston សហរដ្ឋអាមេរិក (BURNC) ដែលជាទិន្នន័យភាសាអង់គ្លេសសុទ្ធ។ ទោះបីជាគោលដៅនៃឯកសារគឺចង់ជួយដល់ភាសាដែលខ្វះខាតធនធាន (LRLs) ក៏ដោយ ការធ្វើតេស្តបឋមនេះមានភាពលម្អៀងទៅលើទម្រង់សំឡេងនៃភាសាអង់គ្លេស។ នេះជារឿងសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់នៃការបញ្ចេញសំឡេង និងសូរសព្ទខុសគ្នាស្រឡះ ដែលទាមទារឱ្យមានការសាកល្បងដោយផ្ទាល់លើទិន្នន័យភាសាខ្មែរទើបដឹងលទ្ធផលច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការទាញយកទិន្នន័យ "Found data" នេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ក្នុងការអភិវឌ្ឍប្រព័ន្ធ Text-to-Speech (TTS) ដោយសន្សំសំចៃការចំណាយ។

សរុបមក ការប្រើប្រាស់វិធីសាស្ត្រកាត់បន្ថយភាពដាច់ៗនៃសំឡេង និងការទាញយកប្រយោជន៍ពីទិន្នន័យព័ត៌មានដែលមានស្រាប់ គឺជាផ្លូវកាត់ដ៏មានប្រសិទ្ធភាពសម្រាប់អភិវឌ្ឍបច្ចេកវិទ្យាសំឡេង (Speech Tech) នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ HMM និង Speech Synthesis: ចាប់ផ្តើមដោយការសិក្សាពីទ្រឹស្តីនៃ Hidden Markov Model និងសាកល្បងដំឡើងកម្មវិធី HTS នៅលើប្រព័ន្ធ Linux របស់អ្នកដើម្បីស្វែងយល់ពីដំណើរការបណ្តុះបណ្តាលម៉ូដែលសំឡេង (Acoustic modeling)។
  2. ប្រមូល និងចម្រាញ់ទិន្នន័យព័ត៌មានជាភាសាខ្មែរ: ប្រមូលទិន្នន័យសំឡេងព័ត៌មានវិទ្យុឬទូរទស្សន៍ខ្មែរឱ្យបានយ៉ាងតិច ៤ ទៅ ៥ ម៉ោង។ បន្ទាប់មក ប្រើប្រាស់កម្មវិធី Praat ដើម្បីកាត់ផ្នែកសំឡេងស្ងាត់ចោល ព្រមទាំងវិភាគនិងទាញយកកម្រិតសំឡេង (f0) និងថាមពល (Energy) របស់ល្បះនីមួយៗ។
  3. បង្កើត Phonetic Labels សម្រាប់ភាសាខ្មែរ: ប្រើប្រាស់ឧបករណ៍ដូចជា Festival Speech Synthesis System ឬសរសេរកូដ Python (G2P - Grapheme to Phoneme) ដើម្បីបំប្លែងអត្ថបទភាសាខ្មែរទៅជាសូរសព្ទ (Phonetic sequence) ដែលត្រៀមរួចជាស្រេចសម្រាប់ការហ្វឹកហាត់។
  4. អនុវត្តវិធីសាស្ត្រ Monotone Interpolation: ហ្វឹកហាត់ម៉ូដែលសំឡេងគោលដោយប្រើទិន្នន័យទាំងអស់ រួចបង្កើតម៉ូដែលមួយទៀតដែលកំណត់តម្លៃ f0 ឱ្យនៅថេរ (Monotone)។ បន្ទាប់មក ប្រើប្រាស់មុខងារ Interpolation ក្នុង HTS ដើម្បីបូកបញ្ចូលម៉ូដែលទាំងពីរក្នុងសមាមាត្រស្មើគ្នា ដើម្បីកាត់បន្ថយភាពដាច់ៗនៃសំឡេង។
  5. វាយតម្លៃគុណភាពសំឡេងជាមួយអ្នកស្តាប់ជនជាតិខ្មែរ: រៀបចំការធ្វើតេស្តស្តាប់ (MOS និង Pairwise Comparison) តាមរយៈ Google Forms ដោយឱ្យអ្នកនិយាយភាសាខ្មែរដើមចំនួន ២០-៣០ នាក់ ស្តាប់និងវាយតម្លៃភាពធម្មជាតិនៃសំឡេងដែលបានសំយោគ ដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាពនៃម៉ូដែលរបស់អ្នក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Text-to-Speech (TTS) បច្ចេកវិទ្យាក្នុងការបំប្លែងអត្ថបទសរសេរទៅជាសំឡេងនិយាយដោយប្រើប្រាស់ប្រព័ន្ធកុំព្យូទ័រ ដើម្បីបង្កើតការសន្ទនាដោយស្វ័យប្រវត្តិ។ ដូចជាការឱ្យមនុស្សយន្តអានសៀវភៅ ឬអត្ថបទព័ត៌មានឱ្យយើងស្តាប់ដោយស្វ័យប្រវត្តិ។
Hidden Markov Model (HMM) ម៉ូដែលស្ថិតិមួយប្រភេទដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសំយោគសំឡេង ដោយវាធ្វើការទស្សន៍ទាយនិងបង្កើតលក្ខណៈសូរសព្ទបន្តបន្ទាប់គ្នាដោយផ្អែកលើទិន្នន័យដែលបានហ្វឹកហាត់។ ដូចជាការទស្សន៍ទាយពាក្យបន្ទាប់ដែលមិត្តភក្តិអ្នកនឹងនិយាយ ដោយផ្អែកលើការសង្កេតទម្លាប់នៃការនិយាយរបស់ពួកគេកន្លងមក។
Speaker Adaptive Training (SAT) ដំណើរការហ្វឹកហាត់ម៉ូដែលសំឡេងដែលទាញយក និងសម្របតាមលក្ខណៈពិសេសរបស់អ្នកនិយាយច្រើននាក់ ដើម្បីបង្កើតបានជាម៉ូដែលមូលដ្ឋានមួយដ៏រឹងមាំ និងមានស្ថិរភាព។ ដូចជាការស្តាប់មនុស្ស១០នាក់ផ្សេងគ្នានិយាយពាក្យតែមួយ ដើម្បីទាញយកទម្រង់ស្តង់ដារនៃការបញ្ចេញសំឡេងពាក្យនោះ។
Average Voice Model (AVM) ម៉ូដែលសំឡេងជាមធ្យមដែលត្រូវបានបង្កើតឡើងដោយការរួមបញ្ចូលទិន្នន័យសំឡេងពីអ្នកនិយាយច្រើននាក់ចូលគ្នា ដើម្បីប្រើប្រាស់ជាគ្រោងឆ្អឹងសម្រាប់បង្កើតសំឡេងថ្មី។ ដូចជាការយកទឹកដមសំឡេងរបស់មនុស្សជាច្រើននាក់មកក្រឡុកចូលគ្នា ដើម្បីបង្កើតជាសំឡេងថ្មីមួយដែលតំណាងឱ្យសំឡេងជាមធ្យមរបស់ពួកគេ។
Fundamental frequency (f0) រលកប្រេកង់គោលនៃសំឡេង ដែលជាទូទៅវាស់កម្រិតសម្លេង (Pitch) របស់អ្នកនិយាយ ថាតើវាជាសំឡេងស្រួច ឬសំឡេងធ្ងន់។ ដូចជាកម្រិតរឹតបន្តឹងនៃខ្សែហ្គីតា បើខ្សែតឹងខ្លាំង សំឡេងនឹងលាន់ចេញមកស្រួចខ្ពស់ (f0 ខ្ពស់)។
Monotone Interpolation ការបូកបញ្ចូលម៉ូដែលសំឡេងធម្មតាជាមួយនឹងម៉ូដែលសំឡេងដែលមានកម្រិតរលកសំឡេងថេរ (គ្មានការឡើងចុះ) ក្នុងគោលបំណងកាត់បន្ថយភាពរអាក់រអួល ឬភាពដាច់ៗនៃសំឡេងសំយោគ។ ដូចជាការលាយថ្នាំពណ៌ដែលឆើតខ្លាំងជាមួយនឹងពណ៌ស ដើម្បីឱ្យពណ៌ចេញមកទន់ស្រទន់ និងរលូនសាច់ជាងមុន។
Low Resource Languages (LRLs) ភាសាដែលមិនសូវមានការស្រាវជ្រាវ និងខ្វះខាតទិន្នន័យឌីជីថល (ដូចជា វចនានុក្រម អត្ថបទ សម្លេង) គ្រប់គ្រាន់សម្រាប់បណ្តុះបណ្តាលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។ ដូចជាសៀវភៅកម្រដែលមានលក់តែក្នុងបណ្ណាល័យតូចមួយ ដែលពិបាករកឯកសារយោង និងព័ត៌មានលម្អិត។
Mean Opinion Score (MOS) ប្រព័ន្ធរង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃគុណភាព និងភាពធម្មជាតិនៃសំឡេង ដោយតម្រូវឱ្យអ្នកស្តាប់ជាមនុស្សផ្តល់ពិន្ទុពី ១ (អន់បំផុត) ដល់ ៥ (ល្អបំផុត)។ ដូចជាការផ្តល់ចំណាត់ថ្នាក់ផ្កាយ ១ ដល់ ៥ ទៅលើសេវាកម្មភោជនីយដ្ឋានណាមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖