Original Title: The HMM-based Speech Synthesis System (HTS) Version 2.0
Source: hts.sp.nitech.ac.jp
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធសំយោគសំឡេងផ្អែកលើម៉ូដែល HMM (HTS) កំណែ 2.0

ចំណងជើងដើម៖ The HMM-based Speech Synthesis System (HTS) Version 2.0

អ្នកនិពន្ធ៖ Heiga Zen (Nagoya Institute of Technology), Takashi Nose (Tokyo Institute of Technology), Junichi Yamagishi (Tokyo Institute of Technology, University of Edinburgh), Shinji Sako (Nagoya Institute of Technology, Tokyo University), Takashi Masuko (Tokyo Institute of Technology), Alan W. Black (Carnegie Mellon University), Keiichi Tokuda (Nagoya Institute of Technology)

ឆ្នាំបោះពុម្ព៖ 2007 6th ISCA Workshop on Speech Synthesis

វិស័យសិក្សា៖ Speech Synthesis

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះបង្ហាញពីកំណែទី 2.0 នៃប្រព័ន្ធសំយោគសំឡេងផ្អែកលើម៉ូដែល Hidden Markov (HTS) ដោយរៀបរាប់ពីមុខងារថ្មីៗដើម្បីដោះស្រាយការលំបាកក្នុងការកត់ត្រាទិន្នន័យសំឡេងទំហំធំ និងកែលម្អគុណភាពនៃការសំយោគសំឡេង។

វិធីសាស្ត្រ (The Methodology)៖ ប្រព័ន្ធ HTS នេះធ្វើការម៉ូដែលវិសាលគម (Spectrum) រលកសំឡេង (Excitation) និងថិរវេលា (Duration) ដោយប្រើប្រាស់ម៉ូដែល HMM អាស្រ័យលើបរិបទដើម្បីបង្កើតរលកសំឡេងដោយផ្ទាល់ពីម៉ូដែល។

ការបង្កើតប៉ារ៉ាម៉ែត្រសំឡេងដោយផ្អែកលើក្បួនដោះស្រាយ EM (EM-based speech parameter generation algorithm)
ការបន្សាំអ្នកនិយាយដោយផ្អែកលើ MLLR និង MAP សម្រាប់ MSD-HMMs (Speaker adaptation for MSD-HMMs)
ការបណ្តុះបណ្តាលដែលអាចបន្សាំបាន (Adaptive training)
ការគណនាមធ្យមភាគ និងវ៉ារ្យង់សកល (Global mean and variance calculation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

កំណែ HTS 2.0 ត្រូវបានដាក់ឱ្យប្រើប្រាស់ដោយជោគជ័យជាមួយនឹងមុខងារថ្មីៗសំខាន់ៗដូចជាការបន្សាំអ្នកនិយាយ (Speaker adaptation) សម្រាប់ MSD-HMMs ច្រើនស្ទ្រីម។
ការដាក់បញ្ចូលក្បួនដោះស្រាយ EM (Expectation-Maximization) សម្រាប់ការបង្កើតប៉ារ៉ាម៉ែត្រសំឡេង ផ្តល់នូវភាពបត់បែន និងការធ្វើឱ្យប្រសើរឡើងក្នុងការស្វែងរកប្រសិទ្ធភាពសម្រាប់លំដាប់ស្ថានភាពដែលលាក់ (Hidden state sequences)។
កញ្ចប់ឧបករណ៍នេះត្រូវបានបញ្ជាក់ថាជាថ្នាលស្រាវជ្រាវដ៏មានភាពបត់បែនខ្ពស់ ដែលត្រូវបានយកទៅប្រើប្រាស់ក្នុងវិស័យផ្សេងៗដូចជា ការសំយោគចលនាមនុស្ស (Human motion synthesis) ការទទួលស្គាល់សំឡេងនិងរូបភាព និងការសរសេរកូដសំឡេងកម្រិតទាប (Low-bitrate speech coding)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Unit Selection Speech Synthesis ការសំយោគសំឡេងដោយការជ្រើសរើសឯកតា	អាចបង្កើតសំឡេងបានគុណភាពខ្ពស់ និងស្តាប់ទៅមានលក្ខណៈធម្មជាតិបំផុត ដោយសារការប្រើប្រាស់ទិន្នន័យសំឡេងពិតៗ។	ត្រូវការមូលដ្ឋានទិន្នន័យធំខ្លាំងណាស់សម្រាប់ការផ្លាស់ប្តូរស្ទីល ឬអារម្មណ៍ ហើយមានការលំបាកខ្លាំងក្នុងការកែប្រែលក្ខណៈសំឡេងឱ្យបត់បែន។	ជាបច្ចេកទេសដ៏មានប្រជាប្រិយភាព ប៉ុន្តែត្រូវបានកម្រិតដោយទំហំទិន្នន័យ និងមិនងាយស្រួលក្នុងការបង្កើតទម្រង់សំឡេងថ្មីៗ។
HMM-based Speech Synthesis (HTS) ការសំយោគសំឡេងផ្អែកលើម៉ូដែល HMM	មានភាពបត់បែនខ្ពស់ ងាយស្រួលកែប្រែលក្ខណៈសំឡេង ស្ទីលនិយាយ និងអារម្មណ៍ ដោយប្រើប្រាស់បច្ចេកទេសផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ (Adaptation/Interpolation)។	គុណភាពនៃសំឡេងដើមដែលបានសំយោគអាចមិនទាន់ស្មើនឹងគុណភាពដ៏ល្អឥតខ្ចោះនៃវិធីសាស្ត្រ Unit Selection នោះទេ។	អាចបង្កើតសំឡេងដែលមានលក្ខណៈចម្រុះបានយ៉ាងងាយស្រួល និងម៉ូដែលវិសាលគម (Spectrum) និងរលកសំឡេង (Excitation) ក្នុងពេលតែមួយដោយមិនត្រូវការទិន្នន័យធំពេក។
EM-based Speech Parameter Generation (Case 3) ការបង្កើតប៉ារ៉ាម៉ែត្រសំឡេងផ្អែកលើ EM Algorithm	អនុញ្ញាតឱ្យប្រើប្រាស់ Gaussian mixtures សម្រាប់ការធ្វើម៉ូដែលកាន់តែសុក្រឹតនៅពេលដែលលំដាប់ស្ថានភាព (state sequences) ត្រូវបានលាក់។	ទាមទារការគណនាច្រើន (Computationally expensive) ស្មុគស្មាញ និងស៊ីពេលជាងក្បួនដោះស្រាយ Case 1 ដែលប្រើត្រឹមសមីការលីនេអ៊ែរ។	ផ្តល់នូវភាពបត់បែនក្នុងការស្វែងរកតម្លៃអតិបរមា និងការដោះស្រាយម៉ូដែលស្មុគស្មាញនៅក្នុងមុខងារ HMGenS។

ការចំណាយលើធនធាន (Resource Cost)៖ ប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការបង្កើតម៉ូដែល ប៉ុន្តែម៉ាស៊ីនសំយោគពេលដំណើរការ (hts_engine) ត្រូវបានរចនាឡើងឱ្យមានទំហំតូច និងប្រើប្រាស់ធនធានតិចបំផុត។

Software: ទាមទារការដំឡើងឧបករណ៍បណ្តុះបណ្តាល HTK (Hidden Markov Model Toolkit), កម្មវិធីវិភាគអត្ថបទ (Text Analyzer) ដូចជា Festival ឬ Galatea និងត្រូវការ GCC-4 សម្រាប់ការសរសេរកូដ (Compilation)។
Hardware: ទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមសម្រាប់ការគណនា Double Precision ក្នុងពេលបង្ហាត់ម៉ូដែលធំៗ (HCompV) ប៉ុន្តែត្រូវការ CPU និង RAM តិចតួចបំផុតសម្រាប់ប្រតិបត្តិការ hts_engine។
Dataset: ត្រូវការទិន្នន័យសំឡេងដែលបានកត់ត្រាទុកជាមុន (ឧ. CMU ARCTIC សម្រាប់ភាសាអង់គ្លេស ឬ Nitech សម្រាប់ភាសាជប៉ុន) ព្រមទាំងមានការកត់ត្រាអត្ថបទ និងព្រំដែនសូរសព្ទ (Phoneme boundaries) ច្បាស់លាស់។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅលើផ្នែកដំណើរការសញ្ញាសំឡេង (Speech Processing), ក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ជាពិសេស Hidden Markov Models និងការសរសេរស៊គ្រីប (Scripting)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើតេស្ត និងប្រើប្រាស់ទិន្នន័យភាសាអង់គ្លេស (CMU ARCTIC) និងភាសាជប៉ុន (Nitech) ជាចម្បង។ វាមិនមានការធ្វើតេស្តលើភាសាដែលមានសូរសៀងស្មុគស្មាញ (Tonal languages) ឬភាសាដែលមានការបំបែកព្យាង្គពិបាកដូចជាភាសាខ្មែរឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាយើងត្រូវប្រឈមមុខនឹងការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ និងការបង្កើតប្រព័ន្ធវិភាគអត្ថបទ (Text Analysis) ដោយខ្លួនឯង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធ HTS នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់ប្រទេសកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធអានអត្ថបទជាសំឡេង (Text-to-Speech) ជាភាសាខ្មែរដែលមានតម្លៃដើមទាប។

វិស័យអប់រំពិសេស និងសៀវភៅសូរសព្ទ (Special Education & Audiobooks): អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីបង្កើតសំឡេងអានសៀវភៅដោយស្វ័យប្រវត្តិសម្រាប់សិស្សានុសិស្សពិការភ្នែកនៅតាមសាលារៀននានាក្នុងប្រទេសកម្ពុជា ដូចជាសាលាកុមារពិការភ្នែកនិងគថ្លង់នៃអង្គការគ្រួសារថ្មី។
សេវាកម្មអតិថិជន (Call Centers & IVR Systems): ធនាគារ (ឧ. ABA, ACLEDA) ឬក្រុមហ៊ុនទូរគមនាគមន៍ (ឧ. Cellcard, Smart) អាចប្រើប្រព័ន្ធនេះដើម្បីបង្កើតសំឡេងឆ្លើយតបដោយស្វ័យប្រវត្តិ (IVR) ដែលមានលក្ខណៈធម្មជាតិ និងអាចប្តូរស្ទីលនិយាយឱ្យស្របតាមសេវាកម្មផ្សេងៗ។
ការអភិរក្សភាសាជនជាតិដើមភាគតិច (Minority Language Preservation): ដោយសារប្រព័ន្ធនេះមានមុខងារ Speaker Adaptation ដែលអាចប្រើប្រាស់ទិន្នន័យតិចតួច អ្នកស្រាវជ្រាវនៅកម្ពុជាអាចប្រើវាដើម្បីសំយោគសំឡេងភាសាជនជាតិដើមភាគតិចនៅខេត្តរតនគិរី ឬមណ្ឌលគិរីបានងាយស្រួល។

ការទាញយកប្រយោជន៍ពី HTS ជំនាន់ទី២ នេះនឹងជួយពន្លឿនការអភិវឌ្ឍប្រព័ន្ធអន្តរកម្មដោយសំឡេងជាភាសាខ្មែរ ដោយដោះស្រាយបញ្ហាកង្វះខាតមូលដ្ឋានទិន្នន័យសំឡេងខ្នាតធំនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល HMM និង HTK: និស្សិតត្រូវចាប់ផ្តើមដោយការអានសៀវភៅណែនាំរបស់ HTK (Hidden Markov Model Toolkit) ដើម្បីយល់ច្បាស់ពីការបណ្តុះបណ្តាលម៉ូដែលសូរសព្ទ និងសាកល្បងដំណើរការកូដសាមញ្ញៗដើម្បីចាប់យកគោលគំនិតនៃការតម្រឹមសញ្ញា (Alignment)។
រៀបចំទិន្នន័យសំឡេងភាសាខ្មែរខ្នាតតូច: ប្រមូលទិន្នន័យសំឡេងអានជាភាសាខ្មែររបស់មនុស្សម្នាក់ (ប្រមាណ ២ ទៅ ៥ ម៉ោង) រួចធ្វើការកាត់ត និងកំណត់ព្រំដែនសូរសព្ទ (Phoneme segmentation) ដោយប្រើឧបករណ៍ដូចជា Praat ឬក្បួនដោះស្រាយ Forced Alignment។
ដំណើរការសាកល្បង HTS Demo Scripts: ទាញយក HTS Version 2.0 រួចដំណើរការស៊គ្រីបសាកល្បង (Demo scripts) ជាមួយនឹងមូលដ្ឋានទិន្នន័យ CMU ARCTIC ដើម្បីយល់ពីលំហូរការងារទាំងមូល តាំងពីការទាញយកទិន្នន័យ រហូតដល់ការសំយោគចេញជាសំឡេង។
អភិវឌ្ឍប្រព័ន្ធ Text Analyzer សម្រាប់ភាសាខ្មែរ: អភិវឌ្ឍកូដ Python ឬប្រើប្រាស់ក្របខណ្ឌ Festival ដើម្បីបំប្លែងអត្ថបទភាសាខ្មែរទៅជាសូរសព្ទ (Phonemes) ដោយគិតគូរពីបរិបទ (Context-dependent labels) ដូចជាទីតាំងស្រៈ ព្យញ្ជនៈ និងការសង្កត់សំឡេង។
បណ្តុះបណ្តាល និងកែសម្រួលម៉ូដែលសំឡេងខ្មែរ: បញ្ចូលទិន្នន័យភាសាខ្មែរដែលបានរៀបចំរួចទៅក្នុង HTS ដើម្បីបណ្តុះបណ្តាលម៉ូដែល ដោយសាកល្បងប្រើមុខងារ Speaker Adaptation (MLLR/MAP) ដើម្បីកែលម្អគុណភាព រួចទាញយកម៉ូដែលទៅដំណើរការលើ hts_engine។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Models (HMMs)	ជាម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយនិងតំណាងឱ្យលំដាប់លំដោយនៃទិន្នន័យដែលផ្លាស់ប្តូរតាមពេលវេលា (ដូចជាការប្រែប្រួលនៃសូរសព្ទ) ដោយផ្អែកលើប្រូបាប៊ីលីតេនៃស្ថានភាពដែលយើងមើលមិនឃើញផ្ទាល់ (Hidden states) ដើម្បីយកមកគណនារកសញ្ញាដែលយើងចង់បាន។	ដូចជាការទស្សន៍ទាយអាកាសធាតុថ្ងៃស្អែកថានឹងភ្លៀងឬរាំង ដោយគ្រាន់តែផ្អែកលើការសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងឬកាន់ឆ័ត្រដើរតាមផ្លូវក្នុងថ្ងៃនេះ។
Unit selection	ជាបច្ចេកទេសសំយោគសំឡេងម៉្យាងដែលដំណើរការដោយការស្វែងរក និងជ្រើសរើសកាត់តបំណែកសំឡេងខ្លីៗ (Units) ពីមូលដ្ឋានទិន្នន័យសំឡេងមនុស្សពិតដែលបានថតទុក យកមកផ្ដុំតភ្ជាប់គ្នាបង្កើតជាប្រយោគនិយាយថ្មី។	ដូចជាការកាត់តអក្សរឬពាក្យនីមួយៗពីទស្សនាវដ្តីចាស់ៗ យកមកតម្រៀបបិទភ្ជាប់គ្នាបង្កើតជាសំបុត្រ ឬអត្ថបទថ្មីមួយ។
Statistical parametric speech synthesis	ជាវិធីសាស្ត្របង្កើតសំឡេងដោយប្រើប្រាស់ទិន្នន័យដើម្បីបង្រៀនកុំព្យូទ័រឱ្យចងចាំនូវលក្ខណៈរូបវន្តនៃសំឡេង (ប៉ារ៉ាម៉ែត្រដូចជា រំញ័រ ឬកម្រិតសំឡេង) រួចប្រើគំរូស្ថិតិទាំងនោះដើម្បីគណនា និងផលិតចេញជារលកសំឡេងថ្មីដោយខ្លួនឯង ដោយមិនបាច់ថតចម្លងសំឡេងដើម។	ដូចជាការរៀនគូររូបមុខមនុស្សដោយចងចាំពីទំហំភ្នែក ច្រមុះ និងមាត់ (ប៉ារ៉ាម៉ែត្រ) រួចគូររូបថ្មីដោយខ្លួនឯង ជាជាងការកាត់តរូបថតមនុស្សពិតយកមកបិទភ្ជាប់។
Mel-cepstral coefficients	ជាស៊េរីនៃតួលេខប៉ារ៉ាម៉ែត្រដែលតំណាងឱ្យទម្រង់វិសាលគមនៃរលកសំឡេង (Spectrum) ដែលត្រូវបានគណនាដើម្បីត្រាប់តាមរបៀបដែលត្រចៀករបស់មនុស្សស្តាប់ និងចាប់យកកម្រិតប្រេកង់ (Frequencies) សំឡេងផ្សេងៗគ្នា។	ដូចជាលេខកូដរូបមន្តលាយពណ៌ដែលប្រាប់ម៉ាស៊ីនបោះពុម្ពឱ្យបញ្ចេញកម្រិតពណ៌នីមួយៗឱ្យបានត្រឹមត្រូវតាមដែលភ្នែកមនុស្សអាចមើលឃើញ។
Speaker adaptation	ជាដំណើរការកែតម្រូវម៉ូដែលសំឡេងដើមដែលម៉ាស៊ីនមានស្រាប់ ដោយប្រើប្រាស់ទិន្នន័យសំឡេងបន្តិចបន្តួចរបស់អ្នកនិយាយគោលដៅ ដើម្បីផ្លាស់ប្តូរលក្ខណៈសំឡេងបញ្ចេញឱ្យស្រដៀងទៅនឹងសំឡេងអ្នកនិយាយគោលដៅនោះ។	ដូចជាអ្នកដែលចេះលេងហ្គីតាយ៉ាងស្ទាត់ជំនាញស្រាប់ គ្រាន់តែចំណាយពេលស្តាប់បទភ្លេងថ្មីមួយភ្លែត ក៏អាចកែសម្រួលរបៀបលេងរបស់ខ្លួនឱ្យត្រូវនឹងស្តាយ (Style) នៃអ្នកតែងបទថ្មីនោះបាន។
Decision tree-based context clustering	ជាបច្ចេកទេសរៀបចំចង្កោមទិន្នន័យដោយប្រើគំនូសតារាងមែកធាង (Decision Tree) ដើម្បីស្វែងរកនិងចាត់ថ្នាក់សូរសព្ទដែលមានបរិបទបញ្ចេញសំឡេងស្រដៀងគ្នា ដែលជួយដោះស្រាយបញ្ហានៅពេលប្រព័ន្ធជួបប្រទះពាក្យថ្មីដែលមិនធ្លាប់មានក្នុងទិន្នន័យបណ្តុះបណ្តាល។	ដូចជាការចាត់ថ្នាក់សិស្សទៅតាមចំណង់ចំណូលចិត្តអានសៀវភៅរបស់ពួកគេ ដើម្បីងាយស្រួលទាយថាតើសិស្សថ្មីម្នាក់គួរតែចូលចិត្តអានសៀវភៅប្រភេទណា ទោះបីយើងមិនដែលស្គាល់គេពីមុនមកក៏ដោយ។
Expectation-Maximization (EM) algorithm	ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលធ្វើការប៉ាន់ស្មាន និងកែលម្អតម្លៃរបស់ប៉ារ៉ាម៉ែត្រម្តងហើយម្តងទៀតជាវដ្ត (Iterative) ដើម្បីស្វែងរកលទ្ធផលដែលមានភាពសុក្រឹតនិងត្រឹមត្រូវបំផុត សម្រាប់ទិន្នន័យដែលយើងមិនអាចមើលឃើញផ្ទាល់ (Unobserved latent variables)។	ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងស៊ីបក្នុងទីងងឹត ដោយរាល់ពេលបាញ់រួច មានគេប្រាប់ថាកៀកចំណុចកណ្តាលប៉ុណ្ណា រួចយើងកែតម្រូវទិសដៅបាញ់ម្តងបន្តិចៗរហូតដល់ចំគោលដៅ។
Fundamental frequencies (log F0)	ជារង្វាស់នៃកម្រិតប្រេកង់រំញ័រទាបបំផុតរបស់រលកសំឡេង (Pitch) ដែលកំណត់ថាសំឡេងមនុស្សម្នាក់ធ្ងន់ឬស្រួច ហើយវាត្រូវបានគណនាជាទម្រង់លោការីត (Logarithmic) ដើម្បីងាយស្រួលក្នុងការធ្វើម៉ូដែលឱ្យស្របនឹងការស្តាប់របស់មនុស្ស។	ដូចជាការមួលប៉ូតុងកែតម្រូវសម្លេងបាស (Bass ធ្ងន់) ឬសម្លេងស្រួច (Treble) នៅលើម៉ាស៊ីនចាក់ភ្លេងដើម្បីធ្វើឱ្យសម្លេងអ្នកចម្រៀងស្តាប់ទៅពីរោះ និងមានទម្ងន់ខុសៗគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖