Original Title: The HMM-based Speech Synthesis System (HTS) Version 2.0
Source: hts.sp.nitech.ac.jp
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធសំយោគសំឡេងផ្អែកលើម៉ូដែល HMM (HTS) កំណែ 2.0

ចំណងជើងដើម៖ The HMM-based Speech Synthesis System (HTS) Version 2.0

អ្នកនិពន្ធ៖ Heiga Zen (Nagoya Institute of Technology), Takashi Nose (Tokyo Institute of Technology), Junichi Yamagishi (Tokyo Institute of Technology, University of Edinburgh), Shinji Sako (Nagoya Institute of Technology, Tokyo University), Takashi Masuko (Tokyo Institute of Technology), Alan W. Black (Carnegie Mellon University), Keiichi Tokuda (Nagoya Institute of Technology)

ឆ្នាំបោះពុម្ព៖ 2007 6th ISCA Workshop on Speech Synthesis

វិស័យសិក្សា៖ Speech Synthesis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះបង្ហាញពីកំណែទី 2.0 នៃប្រព័ន្ធសំយោគសំឡេងផ្អែកលើម៉ូដែល Hidden Markov (HTS) ដោយរៀបរាប់ពីមុខងារថ្មីៗដើម្បីដោះស្រាយការលំបាកក្នុងការកត់ត្រាទិន្នន័យសំឡេងទំហំធំ និងកែលម្អគុណភាពនៃការសំយោគសំឡេង។

វិធីសាស្ត្រ (The Methodology)៖ ប្រព័ន្ធ HTS នេះធ្វើការម៉ូដែលវិសាលគម (Spectrum) រលកសំឡេង (Excitation) និងថិរវេលា (Duration) ដោយប្រើប្រាស់ម៉ូដែល HMM អាស្រ័យលើបរិបទដើម្បីបង្កើតរលកសំឡេងដោយផ្ទាល់ពីម៉ូដែល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Unit Selection Speech Synthesis
ការសំយោគសំឡេងដោយការជ្រើសរើសឯកតា
អាចបង្កើតសំឡេងបានគុណភាពខ្ពស់ និងស្តាប់ទៅមានលក្ខណៈធម្មជាតិបំផុត ដោយសារការប្រើប្រាស់ទិន្នន័យសំឡេងពិតៗ។ ត្រូវការមូលដ្ឋានទិន្នន័យធំខ្លាំងណាស់សម្រាប់ការផ្លាស់ប្តូរស្ទីល ឬអារម្មណ៍ ហើយមានការលំបាកខ្លាំងក្នុងការកែប្រែលក្ខណៈសំឡេងឱ្យបត់បែន។ ជាបច្ចេកទេសដ៏មានប្រជាប្រិយភាព ប៉ុន្តែត្រូវបានកម្រិតដោយទំហំទិន្នន័យ និងមិនងាយស្រួលក្នុងការបង្កើតទម្រង់សំឡេងថ្មីៗ។
HMM-based Speech Synthesis (HTS)
ការសំយោគសំឡេងផ្អែកលើម៉ូដែល HMM
មានភាពបត់បែនខ្ពស់ ងាយស្រួលកែប្រែលក្ខណៈសំឡេង ស្ទីលនិយាយ និងអារម្មណ៍ ដោយប្រើប្រាស់បច្ចេកទេសផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ (Adaptation/Interpolation)។ គុណភាពនៃសំឡេងដើមដែលបានសំយោគអាចមិនទាន់ស្មើនឹងគុណភាពដ៏ល្អឥតខ្ចោះនៃវិធីសាស្ត្រ Unit Selection នោះទេ។ អាចបង្កើតសំឡេងដែលមានលក្ខណៈចម្រុះបានយ៉ាងងាយស្រួល និងម៉ូដែលវិសាលគម (Spectrum) និងរលកសំឡេង (Excitation) ក្នុងពេលតែមួយដោយមិនត្រូវការទិន្នន័យធំពេក។
EM-based Speech Parameter Generation (Case 3)
ការបង្កើតប៉ារ៉ាម៉ែត្រសំឡេងផ្អែកលើ EM Algorithm
អនុញ្ញាតឱ្យប្រើប្រាស់ Gaussian mixtures សម្រាប់ការធ្វើម៉ូដែលកាន់តែសុក្រឹតនៅពេលដែលលំដាប់ស្ថានភាព (state sequences) ត្រូវបានលាក់។ ទាមទារការគណនាច្រើន (Computationally expensive) ស្មុគស្មាញ និងស៊ីពេលជាងក្បួនដោះស្រាយ Case 1 ដែលប្រើត្រឹមសមីការលីនេអ៊ែរ។ ផ្តល់នូវភាពបត់បែនក្នុងការស្វែងរកតម្លៃអតិបរមា និងការដោះស្រាយម៉ូដែលស្មុគស្មាញនៅក្នុងមុខងារ HMGenS។

ការចំណាយលើធនធាន (Resource Cost)៖ ប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការបង្កើតម៉ូដែល ប៉ុន្តែម៉ាស៊ីនសំយោគពេលដំណើរការ (hts_engine) ត្រូវបានរចនាឡើងឱ្យមានទំហំតូច និងប្រើប្រាស់ធនធានតិចបំផុត។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើតេស្ត និងប្រើប្រាស់ទិន្នន័យភាសាអង់គ្លេស (CMU ARCTIC) និងភាសាជប៉ុន (Nitech) ជាចម្បង។ វាមិនមានការធ្វើតេស្តលើភាសាដែលមានសូរសៀងស្មុគស្មាញ (Tonal languages) ឬភាសាដែលមានការបំបែកព្យាង្គពិបាកដូចជាភាសាខ្មែរឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាយើងត្រូវប្រឈមមុខនឹងការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ និងការបង្កើតប្រព័ន្ធវិភាគអត្ថបទ (Text Analysis) ដោយខ្លួនឯង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធ HTS នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់ប្រទេសកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធអានអត្ថបទជាសំឡេង (Text-to-Speech) ជាភាសាខ្មែរដែលមានតម្លៃដើមទាប។

ការទាញយកប្រយោជន៍ពី HTS ជំនាន់ទី២ នេះនឹងជួយពន្លឿនការអភិវឌ្ឍប្រព័ន្ធអន្តរកម្មដោយសំឡេងជាភាសាខ្មែរ ដោយដោះស្រាយបញ្ហាកង្វះខាតមូលដ្ឋានទិន្នន័យសំឡេងខ្នាតធំនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល HMM និង HTK: និស្សិតត្រូវចាប់ផ្តើមដោយការអានសៀវភៅណែនាំរបស់ HTK (Hidden Markov Model Toolkit) ដើម្បីយល់ច្បាស់ពីការបណ្តុះបណ្តាលម៉ូដែលសូរសព្ទ និងសាកល្បងដំណើរការកូដសាមញ្ញៗដើម្បីចាប់យកគោលគំនិតនៃការតម្រឹមសញ្ញា (Alignment)។
  2. រៀបចំទិន្នន័យសំឡេងភាសាខ្មែរខ្នាតតូច: ប្រមូលទិន្នន័យសំឡេងអានជាភាសាខ្មែររបស់មនុស្សម្នាក់ (ប្រមាណ ២ ទៅ ៥ ម៉ោង) រួចធ្វើការកាត់ត និងកំណត់ព្រំដែនសូរសព្ទ (Phoneme segmentation) ដោយប្រើឧបករណ៍ដូចជា Praat ឬក្បួនដោះស្រាយ Forced Alignment។
  3. ដំណើរការសាកល្បង HTS Demo Scripts: ទាញយក HTS Version 2.0 រួចដំណើរការស៊គ្រីបសាកល្បង (Demo scripts) ជាមួយនឹងមូលដ្ឋានទិន្នន័យ CMU ARCTIC ដើម្បីយល់ពីលំហូរការងារទាំងមូល តាំងពីការទាញយកទិន្នន័យ រហូតដល់ការសំយោគចេញជាសំឡេង។
  4. អភិវឌ្ឍប្រព័ន្ធ Text Analyzer សម្រាប់ភាសាខ្មែរ: អភិវឌ្ឍកូដ Python ឬប្រើប្រាស់ក្របខណ្ឌ Festival ដើម្បីបំប្លែងអត្ថបទភាសាខ្មែរទៅជាសូរសព្ទ (Phonemes) ដោយគិតគូរពីបរិបទ (Context-dependent labels) ដូចជាទីតាំងស្រៈ ព្យញ្ជនៈ និងការសង្កត់សំឡេង។
  5. បណ្តុះបណ្តាល និងកែសម្រួលម៉ូដែលសំឡេងខ្មែរ: បញ្ចូលទិន្នន័យភាសាខ្មែរដែលបានរៀបចំរួចទៅក្នុង HTS ដើម្បីបណ្តុះបណ្តាលម៉ូដែល ដោយសាកល្បងប្រើមុខងារ Speaker Adaptation (MLLR/MAP) ដើម្បីកែលម្អគុណភាព រួចទាញយកម៉ូដែលទៅដំណើរការលើ hts_engine

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Models (HMMs) ជាម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយនិងតំណាងឱ្យលំដាប់លំដោយនៃទិន្នន័យដែលផ្លាស់ប្តូរតាមពេលវេលា (ដូចជាការប្រែប្រួលនៃសូរសព្ទ) ដោយផ្អែកលើប្រូបាប៊ីលីតេនៃស្ថានភាពដែលយើងមើលមិនឃើញផ្ទាល់ (Hidden states) ដើម្បីយកមកគណនារកសញ្ញាដែលយើងចង់បាន។ ដូចជាការទស្សន៍ទាយអាកាសធាតុថ្ងៃស្អែកថានឹងភ្លៀងឬរាំង ដោយគ្រាន់តែផ្អែកលើការសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងឬកាន់ឆ័ត្រដើរតាមផ្លូវក្នុងថ្ងៃនេះ។
Unit selection ជាបច្ចេកទេសសំយោគសំឡេងម៉្យាងដែលដំណើរការដោយការស្វែងរក និងជ្រើសរើសកាត់តបំណែកសំឡេងខ្លីៗ (Units) ពីមូលដ្ឋានទិន្នន័យសំឡេងមនុស្សពិតដែលបានថតទុក យកមកផ្ដុំតភ្ជាប់គ្នាបង្កើតជាប្រយោគនិយាយថ្មី។ ដូចជាការកាត់តអក្សរឬពាក្យនីមួយៗពីទស្សនាវដ្តីចាស់ៗ យកមកតម្រៀបបិទភ្ជាប់គ្នាបង្កើតជាសំបុត្រ ឬអត្ថបទថ្មីមួយ។
Statistical parametric speech synthesis ជាវិធីសាស្ត្របង្កើតសំឡេងដោយប្រើប្រាស់ទិន្នន័យដើម្បីបង្រៀនកុំព្យូទ័រឱ្យចងចាំនូវលក្ខណៈរូបវន្តនៃសំឡេង (ប៉ារ៉ាម៉ែត្រដូចជា រំញ័រ ឬកម្រិតសំឡេង) រួចប្រើគំរូស្ថិតិទាំងនោះដើម្បីគណនា និងផលិតចេញជារលកសំឡេងថ្មីដោយខ្លួនឯង ដោយមិនបាច់ថតចម្លងសំឡេងដើម។ ដូចជាការរៀនគូររូបមុខមនុស្សដោយចងចាំពីទំហំភ្នែក ច្រមុះ និងមាត់ (ប៉ារ៉ាម៉ែត្រ) រួចគូររូបថ្មីដោយខ្លួនឯង ជាជាងការកាត់តរូបថតមនុស្សពិតយកមកបិទភ្ជាប់។
Mel-cepstral coefficients ជាស៊េរីនៃតួលេខប៉ារ៉ាម៉ែត្រដែលតំណាងឱ្យទម្រង់វិសាលគមនៃរលកសំឡេង (Spectrum) ដែលត្រូវបានគណនាដើម្បីត្រាប់តាមរបៀបដែលត្រចៀករបស់មនុស្សស្តាប់ និងចាប់យកកម្រិតប្រេកង់ (Frequencies) សំឡេងផ្សេងៗគ្នា។ ដូចជាលេខកូដរូបមន្តលាយពណ៌ដែលប្រាប់ម៉ាស៊ីនបោះពុម្ពឱ្យបញ្ចេញកម្រិតពណ៌នីមួយៗឱ្យបានត្រឹមត្រូវតាមដែលភ្នែកមនុស្សអាចមើលឃើញ។
Speaker adaptation ជាដំណើរការកែតម្រូវម៉ូដែលសំឡេងដើមដែលម៉ាស៊ីនមានស្រាប់ ដោយប្រើប្រាស់ទិន្នន័យសំឡេងបន្តិចបន្តួចរបស់អ្នកនិយាយគោលដៅ ដើម្បីផ្លាស់ប្តូរលក្ខណៈសំឡេងបញ្ចេញឱ្យស្រដៀងទៅនឹងសំឡេងអ្នកនិយាយគោលដៅនោះ។ ដូចជាអ្នកដែលចេះលេងហ្គីតាយ៉ាងស្ទាត់ជំនាញស្រាប់ គ្រាន់តែចំណាយពេលស្តាប់បទភ្លេងថ្មីមួយភ្លែត ក៏អាចកែសម្រួលរបៀបលេងរបស់ខ្លួនឱ្យត្រូវនឹងស្តាយ (Style) នៃអ្នកតែងបទថ្មីនោះបាន។
Decision tree-based context clustering ជាបច្ចេកទេសរៀបចំចង្កោមទិន្នន័យដោយប្រើគំនូសតារាងមែកធាង (Decision Tree) ដើម្បីស្វែងរកនិងចាត់ថ្នាក់សូរសព្ទដែលមានបរិបទបញ្ចេញសំឡេងស្រដៀងគ្នា ដែលជួយដោះស្រាយបញ្ហានៅពេលប្រព័ន្ធជួបប្រទះពាក្យថ្មីដែលមិនធ្លាប់មានក្នុងទិន្នន័យបណ្តុះបណ្តាល។ ដូចជាការចាត់ថ្នាក់សិស្សទៅតាមចំណង់ចំណូលចិត្តអានសៀវភៅរបស់ពួកគេ ដើម្បីងាយស្រួលទាយថាតើសិស្សថ្មីម្នាក់គួរតែចូលចិត្តអានសៀវភៅប្រភេទណា ទោះបីយើងមិនដែលស្គាល់គេពីមុនមកក៏ដោយ។
Expectation-Maximization (EM) algorithm ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលធ្វើការប៉ាន់ស្មាន និងកែលម្អតម្លៃរបស់ប៉ារ៉ាម៉ែត្រម្តងហើយម្តងទៀតជាវដ្ត (Iterative) ដើម្បីស្វែងរកលទ្ធផលដែលមានភាពសុក្រឹតនិងត្រឹមត្រូវបំផុត សម្រាប់ទិន្នន័យដែលយើងមិនអាចមើលឃើញផ្ទាល់ (Unobserved latent variables)។ ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងស៊ីបក្នុងទីងងឹត ដោយរាល់ពេលបាញ់រួច មានគេប្រាប់ថាកៀកចំណុចកណ្តាលប៉ុណ្ណា រួចយើងកែតម្រូវទិសដៅបាញ់ម្តងបន្តិចៗរហូតដល់ចំគោលដៅ។
Fundamental frequencies (log F0) ជារង្វាស់នៃកម្រិតប្រេកង់រំញ័រទាបបំផុតរបស់រលកសំឡេង (Pitch) ដែលកំណត់ថាសំឡេងមនុស្សម្នាក់ធ្ងន់ឬស្រួច ហើយវាត្រូវបានគណនាជាទម្រង់លោការីត (Logarithmic) ដើម្បីងាយស្រួលក្នុងការធ្វើម៉ូដែលឱ្យស្របនឹងការស្តាប់របស់មនុស្ស។ ដូចជាការមួលប៉ូតុងកែតម្រូវសម្លេងបាស (Bass ធ្ងន់) ឬសម្លេងស្រួច (Treble) នៅលើម៉ាស៊ីនចាក់ភ្លេងដើម្បីធ្វើឱ្យសម្លេងអ្នកចម្រៀងស្តាប់ទៅពីរោះ និងមានទម្ងន់ខុសៗគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖