Original Title: Data Selection and Adaptation for Naturalness in HMM-based Speech Synthesis
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការជ្រើសរើស និងបន្សាំទិន្នន័យដើម្បីភាពធម្មជាតិក្នុងការសំយោគសំឡេងផ្អែកលើ HMM

ចំណងជើងដើម៖ Data Selection and Adaptation for Naturalness in HMM-based Speech Synthesis

អ្នកនិពន្ធ៖ Erica Cooper (Columbia University), Alison Chang (Columbia University), Yocheved Levitan (Columbia University), Julia Hirschberg (Columbia University)

ឆ្នាំបោះពុម្ព៖ 2016 INTERSPEECH

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធសំយោគសំឡេង (Text-to-Speech) ដែលស្តាប់ទៅមានលក្ខណៈធម្មជាតិសម្រាប់ភាសាដែលមានធនធានតិចតួច ដោយប្រើប្រាស់ទិន្នន័យព័ត៌មានវិទ្យុដែលមានអ្នកនិយាយច្រើននាក់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេងផ្អែកលើ HMM ដោយប្រើប្រាស់សំណុំទិន្នន័យរងផ្សេងៗគ្នា និងវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់ដោយមនុស្ស។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline (All Data)
ការប្រើប្រាស់ទិន្នន័យទាំងអស់ជាមូលដ្ឋាន (Baseline)
ងាយស្រួលអនុវត្តដោយមិនចាំបាច់មានការវាយតម្លៃ ឬចម្រាញ់ទិន្នន័យស្មុគស្មាញមុនពេលហ្វឹកហាត់ម៉ូដែល។ អាចផ្ទុកនូវទិន្នន័យដែលមានការបញ្ចេញសំឡេងមិនល្អ ឬមានលក្ខណៈរំខាន ដែលធ្វើឲ្យសំឡេងសំយោគបាត់បង់ភាពធម្មជាតិ។ ត្រូវបានប្រើប្រាស់ជាចំណុចគោល (Baseline) សម្រាប់ប្រៀបធៀបជាមួយវិធីសាស្ត្រផ្សេងៗទៀតក្នុងការធ្វើតេស្តស្តាប់ (A/B testing)។
Removal of Outliers (Hyper-articulated)
ការដកចេញទិន្នន័យដែលមានការបញ្ចេញសំឡេងខ្លាំងខុសគេ (Outlier Removal)
បង្កើនភាពធម្មជាតិនៃសំឡេងយ៉ាងមានប្រសិទ្ធភាព ដោយរក្សាបានទំហំទិន្នន័យធំគ្រាន់បើសម្រាប់ហ្វឹកហាត់ម៉ូដែល។ ទាមទារការទាញយកលក្ខណៈសំឡេង (Acoustic features) ជាមុនសិន ដើម្បីគណនាមធ្យមភាគ និងគម្លាតស្តង់ដារសម្រាប់កំណត់ចំណុចកាត់កាល (Cutoff)។ ទទួលបានការពេញចិត្ត 65.0% ធៀបនឹង Baseline ជាមួយនឹងកម្រិតជឿជាក់ខ្ពស់ (p=0.02)។
Combination of Hypo-articulation & Low Mean F0
ការផ្សំគ្នានៃទិន្នន័យបញ្ចេញសំឡេងខ្សោយ និង F0 មធ្យមទាប
ផ្តល់លទ្ធផលល្អបំផុតនៅពេលប្រើទំហំទិន្នន័យសមស្រប (២ម៉ោង) ដោយចម្រាញ់យកតែទិន្នន័យដែលមានលក្ខណៈធម្មជាតិខ្ពស់បំផុត។ ការកំណត់ទំហំទិន្នន័យតូចពេក (ឧទាហរណ៍ ៣០នាទី) ធ្វើឲ្យបាត់បង់ព័ត៌មាន និងធ្វើឲ្យគុណភាពសំឡេងធ្លាក់ចុះវិញ។ ទិន្នន័យដែលជ្រើសរើសដោយវិធីគុណ (២ម៉ោង) ទទួលបានការពេញចិត្ត 68.3% ធៀបនឹង Baseline (p=0.005)។
Subset Adaptation (Speaker-Adaptive Training)
ការបន្សាំម៉ូដែលទៅនឹងសំណុំទិន្នន័យរង
អាចទាញយកអត្ថប្រយោជន៍ពីទិន្នន័យទាំងអស់ផង និងអាចបន្សាំសំឡេងទៅរកលក្ខណៈពិសេស (Feature) គោលដៅដែលយើងចង់បានផង។ ចំណាយពេលយូរ និងត្រូវការធនធានកុំព្យូទ័រ (Computational resources) ច្រើនជាងការហ្វឹកហាត់ធម្មតា។ ការបន្សាំទៅនឹងទិន្នន័យបញ្ចេញសំឡេងខ្សោយទំហំ ១ម៉ោង ទទួលបានការពេញចិត្ត 61.7% (p=0.07)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាវិធីសាស្ត្រមួយចំនួន ជាពិសេសការបន្សាំម៉ូដែល (Speaker-adaptive training) ទាមទារពេលវេលា និងធនធានកុំព្យូទ័រច្រើនគួរឲ្យកត់សម្គាល់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យព័ត៌មានវិទ្យុជាភាសាអង់គ្លេសនៅសហរដ្ឋអាមេរិក (BURNC) និងវាយតម្លៃដោយអ្នកនិយាយភាសាអង់គ្លេសដើមប៉ុណ្ណោះ។ ទោះជាយ៉ាងណាក៏ដោយ វត្ថុបំណងចម្បងនៃការសិក្សានេះគឺដើម្បីស្វែងរកវិធីសាស្ត្រសម្រាប់ភាសាដែលមានធនធានតិចតួច (Low-resource languages) ដែលនេះជារឿងដ៏សំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះវាបង្ហាញថាទិន្នន័យ 'Found data' ដូចជាព័ត៌មានវិទ្យុអាចប្រើប្រាស់បានដោយមិនបាច់ចំណាយលុយថតសំឡេងក្នុងស្ទូឌីយោ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការជ្រើសរើស និងចម្រាញ់ទិន្នន័យនេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការអភិវឌ្ឍន៍ប្រព័ន្ធសំយោគសំឡេង (TTS) សម្រាប់ភាសាខ្មែរ។

ជារួម ការប្រើប្រាស់ទិន្នន័យដែលមានស្រាប់តាមរយៈការចម្រាញ់លក្ខណៈសំឡេង (Acoustic features) គឺជាដំណោះស្រាយដ៏សន្សំសំចៃ និងមានប្រសិទ្ធភាពសម្រាប់ជំរុញបច្ចេកវិទ្យា AI ផ្នែកភាសានៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ HMM និងបច្ចេកវិទ្យា TTS: ចាប់ផ្តើមដោយការអានឯកសារស្រាវជ្រាវអំពី Statistical Parametric Speech Synthesis ជាពិសេសសិក្សាពីទ្រឹស្តីនៃការប្រើប្រាស់ HMM (Hidden Markov Model) សម្រាប់ការសំយោគសំឡេង និងរបៀបដំណើរការរបស់វា។
  2. ដំឡើង និងរៀនប្រើប្រាស់ឧបករណ៍បច្ចេកទេសចាំបាច់: អនុវត្តការដំឡើងកម្មវិធី Praat សម្រាប់ការវិភាគសំឡេង និងទាញយកទិន្នន័យ Acoustic។ បន្ទាប់មក ដំឡើង HTS និង Festival Speech Synthesis System ក្នុងប្រព័ន្ធ Linux ដើម្បីរៀបចំ Labels និងហ្វឹកហាត់ម៉ូដែល។
  3. ប្រមូលទិន្នន័យសំឡេង 'Found Data' ជាភាសាខ្មែរ: ទាញយកសំឡេងអានព័ត៌មានពី YouTube ឬគេហទំព័រវិទ្យុក្នុងស្រុក (ប្រមូលឲ្យបានយ៉ាងហោចណាស់ ៥ម៉ោង)។ បន្ទាប់មក កាត់វាជាប្រយោគខ្លីៗ ហើយវាយអត្ថបទ (Transcripts) ជាភាសាខ្មែរឲ្យត្រូវគ្នានឹងសំឡេងទាំងនោះ។
  4. ចម្រាញ់ទិន្នន័យដោយប្រើប្រាស់លក្ខណៈសំឡេង (Acoustic Features): ប្រើប្រាស់ Praat scripts ដើម្បីគណនាកម្រិត F0, ថាមពល (Energy) និងល្បឿននៃការនិយាយ (Speaking rate)។ បន្ទាប់មក អនុវត្តការកាត់ចេញ (Trim) នូវទិន្នន័យដែលមានការបញ្ចេញសំឡេងខ្លាំងខុសគេ (Hyper-articulated outliers) ដូចដែលឯកសារបានណែនាំ។
  5. ហ្វឹកហាត់ម៉ូដែល និងវាយតម្លៃភាពធម្មជាតិជាមួយអ្នកប្រើប្រាស់ពិត: ប្រើប្រាស់ HTS ដើម្បីហ្វឹកហាត់ម៉ូដែលសំឡេងខ្មែរពីទិន្នន័យដែលបានចម្រាញ់រួច។ បន្ទាប់មក បង្កើតកម្រងសំណួរវាយតម្លៃ (A/B Preference test) ដោយអញ្ជើញជនជាតិខ្មែរយ៉ាងហោចណាស់ ២០នាក់ មកស្តាប់ និងបោះឆ្នោតជ្រើសរើសសំឡេងដែលធម្មជាតិជាងគេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model (HMM) based speech synthesis វាគឺជាវិធីសាស្ត្រស្ថិតិមួយក្នុងការបំប្លែងអត្ថបទទៅជាសំឡេង ដោយប្រព័ន្ធមិនបានកាត់តសំឡេងដែលថតទុករួចមកតភ្ជាប់គ្នាទេ ប៉ុន្តែវាប្រើប្រាស់គំរូគណិតវិទ្យាដើម្បីទស្សន៍ទាយ និងបង្កើតប៉ារ៉ាម៉ែត្រសំឡេង (ដូចជាកម្រិតសំឡេង និងប្រវែងពាក្យ) ថ្មីតែម្តង។ ដូចជាចុងភៅដែលប្រើរូបមន្តគណិតវិទ្យាដើម្បីផ្សំសំឡេងសម្រាប់ពាក្យនីមួយៗភ្លាមៗ ជាជាងគ្រាន់តែយកចម្រៀងដែលថតទុករួចមកចាក់បញ្ចូលគ្នា។
hyper-articulation គឺជាការបញ្ចេញសំឡេងមួយៗយ៉ាងច្បាស់ៗខ្លាំងពេក ដោយប្រើកម្លាំងសង្កត់ និងមានល្បឿនយឺត ដែលការសិក្សានេះរកឃើញថាវាធ្វើឲ្យសំឡេង AI ស្តាប់ទៅបាត់បង់ភាពធម្មជាតិ។ ដូចជាពេលដែលយើងខំប្រឹងនិយាយមួយៗយ៉ាងច្បាស់ទៅកាន់ជនបរទេស ដែលស្តាប់ទៅរឹងៗដូចមនុស្សយន្ត មិនមែនជាការនិយាយធម្មតា។
hypo-articulation គឺជាការបញ្ចេញសំឡេងដោយរលូន មិនសូវសង្កត់ខ្លាំង លឿនៗ និងមានការលាយបញ្ចូលគ្នានូវសូរសំឡេង ដែលជាលក្ខណៈធម្មតានៃការសន្ទនាប្រចាំថ្ងៃរបស់មនុស្ស និងជួយឲ្យប្រព័ន្ធ AI ស្តាប់ទៅមានភាពធម្មជាតិជាងមុន។ ដូចជាការនិយាយលេងធម្មតាជាមួយមិត្តភក្តិ ដែលពាក្យសម្តីហូរចេញមករលូន មិនបាច់ប្រឹងតឹងសរសៃក និងស្តាប់ទៅមានលក្ខណៈធម្មជាតិពិតៗ។
fundamental frequency (f0) គឺជាប្រេកង់មូលដ្ឋានទាបបំផុតនៃរលកសំឡេង ដែលតំណាងឲ្យកម្ពស់ (Pitch) នៃសំឡេងមនុស្សម្នាក់ៗ ថាតើសំឡេងនោះស្រួច ឬធ្ងន់។ ក្នុងឯកសារនេះ ការប្រើទិន្នន័យដែលមាន f0 មធ្យមទាប ជួយឲ្យសំឡេងស្តាប់ទៅធម្មជាតិជាងមុន។ ដូចជាការដេញខ្សែហ្គីតា ដែលសូរមូលដ្ឋានរបស់វាកំណត់ថាសំឡេងដែលចេញមកនោះជាសំឡេងធ្ងន់ ឬសំឡេងស្រួច។
speaker-adaptive training ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដោយបង្កើតម៉ូដែលសំឡេងកណ្តាលមួយពីមនុស្សច្រើននាក់សិន បន្ទាប់មកទើបប្រើរូបមន្តគណិតវិទ្យាដើម្បីកែតម្រូវ (Adapt) ម៉ូដែលនោះឲ្យដូចទៅនឹងសំឡេងរបស់មនុស្សណាម្នាក់ ឬលក្ខណៈសំឡេងណាមួយជាក់លាក់។ ដូចជាការកាត់ខោអាវទំហំស្តង់ដារមួយ (ម៉ូដែលរួម) រួចទើបយកវាទៅកែតម្រូវឲ្យល្មមពិតប្រាកដទៅនឹងរាងកាយរបស់មនុស្សម្នាក់ៗ (ការបន្សាំ)។
crowdsourced listening tests ការវាយតម្លៃគុណភាពសំឡេងដោយមិនពឹងផ្អែកលើអ្នកជំនាញ២-៣នាក់ ប៉ុន្តែប្រើប្រាស់ប្រព័ន្ធអ៊ីនធឺណិត (ដូចជា Amazon Mechanical Turk) ដើម្បីជួលមនុស្សធម្មតារាប់សិបនាក់ឲ្យស្តាប់ និងផ្តល់មតិថាសំឡេងមួយណាពិរោះជាង។ ដូចជាការឲ្យមនុស្សរាប់រយនាក់តាមអនឡាញភ្លក់រសជាតិការ៉េមថ្មី ដើម្បីដឹងថាអ្នកទូទៅចូលចិត្តវាឬអត់ ជាជាងសួរតែមេចុងភៅ។
found data ទិន្នន័យសំឡេងដែលមានស្រាប់ (ដូចជាការផ្សាយព័ត៌មានវិទ្យុ ឬវីដេអូ YouTube) ដែលត្រូវបានគេប្រមូលយកមកប្រើប្រាស់ហ្វឹកហាត់ម៉ូដែល AI ទោះបីជាដើមឡើយវាមិនមែនត្រូវថតឡើងក្នុងគោលបំណងសម្រាប់ធ្វើ AI នេះក៏ដោយ។ ដូចជាការយកកាកសំណល់ប្លាស្ទិក ឬក្រដាសកាសែតចាស់ៗ មកកែច្នៃជារបស់ប្រើប្រាស់ថ្មី ជាជាងទៅកាប់ដើមឈើដើម្បីផលិតក្រដាសថ្មីស្រឡាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖