Original Title: 基于音节韵律特征分类的汉语语音合成中韵律模型的研究
Source: doi.org/10.15949/j.cnki.0371-0025.2003.05.003
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាអំពីម៉ូដែលចង្វាក់សំឡេងក្នុងការសំយោគសំឡេងភាសាចិន ដោយផ្អែកលើការចាត់ថ្នាក់លក្ខណៈចង្វាក់នៃព្យាង្គ

ចំណងជើងដើម៖ 基于音节韵律特征分类的汉语语音合成中韵律模型的研究

អ្នកនិពន្ធ៖ TAO Jianhua (Tsinghua University), CAI Lianhong (Tsinghua University)

ឆ្នាំបោះពុម្ព៖ 2003 ACTA ACUSTICA

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតម៉ូដែលចង្វាក់សំឡេង (Prosody modeling) នៅក្នុងប្រព័ន្ធសំយោគសំឡេងភាសាចិន ដែលជារឿយៗខ្វះភាពរលូន និងលក្ខណៈធម្មជាតិដោយសារកង្វះការគិតគូរពីឥទ្ធិពលនៃបរិបទ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្រ្តផ្អែកលើទិន្នន័យ ដោយប្រើប្រាស់ម៉ូដែលស្ថិតិ និងយន្តការបណ្តុះបណ្តាលដោយស្វ័យប្រវត្តិ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Statistical Prosody Model with Transition Probabilities (Eq 22)
ម៉ូដែលចង្វាក់សំឡេងតាមបែបស្ថិតិដែលមានអន្តរកម្មលក្ខណៈចង្វាក់
កំហុសទាបក្នុងការទស្សន៍ទាយកម្រិតសំឡេង (F0) និងបង្កើតសំឡេងបានរលូនតាមបែបធម្មជាតិ។ កាន់តែមានប្រសិទ្ធភាពខ្ពស់ក្នុងការទស្សន៍ទាយចង្វាក់សម្រាប់ប្រយោគវែងៗ។ ទាមទារការគណនាស្មុគស្មាញជាងមុន ដោយសារត្រូវគិតគូរពីប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរចង្វាក់ (Transition probabilities) ឆ្លងកាត់ប្រយោគទាំងមូល។ អត្រាកំហុសនៃការទស្សន៍ទាយកម្រិតសំឡេង (F0) មានការថយចុះជាលំដាប់នៅពេលចំនួនព្យាង្គក្នុងប្រយោគកើនឡើង (បង្ហាញក្នុងរូបភាពទី ៣)។
Baseline Prosody Prediction without Correlation (Eq 12)
ការទស្សន៍ទាយចង្វាក់សំឡេងដែលមិនគិតពីអន្តរកម្មលក្ខណៈ
ការគណនាងាយស្រួល និងដំណើរការបានរហ័ស ដោយគ្រាន់តែពឹងផ្អែកលើអនុគមន៍តម្លៃ (Cost function) នៃបរិបទព្យាង្គនីមួយៗតែប៉ុណ្ណោះ។ អត្រាកំហុសខ្ពស់ជាង ហើយមិនសូវមានលក្ខណៈធម្មជាតិ និងខ្វះចង្វាក់រលូនក្នុងការអានប្រយោគវែងៗ។ អត្រាកំហុសខ្ពស់ជាងម៉ូដែលស្នើឡើងប្រមាណ ១០-២០ ហឺត (Hz) ហើយអត្រាកំហុសនេះមិនមានការប្រែប្រួលទោះបីជាប្រវែងប្រយោគប្រែប្រួលក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំកុំព្យូទ័រ (Hardware) ដែលត្រូវប្រើប្រាស់នោះទេ ប៉ុន្តែវាទាមទារទិន្នន័យជាក់លាក់ និងការប្រឹងប្រែងពីមនុស្សក្នុងការរៀបចំទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងភាសាចិនកុកងឺ (Mandarin) ដែលអានដោយអ្នកប្រកាសព័ត៌មានផ្លូវការ ដែលមានលក្ខណៈស្តង់ដារបំផុត។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្រ្តនេះទាមទារការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគ្រាមភាសាខុសៗគ្នា និងសូរសព្ទខុសពីភាសាចិន ដើម្បីធានាថាម៉ូដែលមិនលម្អៀង និងអាចប្រើប្រាស់បានទូលំទូលាយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការបង្កើតម៉ូដែលចង្វាក់សំឡេងនេះ អាចយកមកអនុវត្ត និងកែច្នៃសម្រាប់អភិវឌ្ឍប្រព័ន្ធសំយោគសំឡេង (Text-to-Speech) ជាភាសាខ្មែរបានយ៉ាងមានសក្តានុពល។

ជារួម បើទោះបីជាវិធីសាស្រ្តនេះត្រូវបានរចនាសម្រាប់ភាសាចិន ដែលជាភាសាមានសំនៀង (Tonal language) ក៏ដោយ គោលគំនិតនៃម៉ូដែលស្ថិតិ និងការប្រើប្រាស់បរិបទ គឺជាគំរូដ៏ល្អសម្រាប់ប្រព័ន្ធ TTS ភាសាខ្មែរនាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលសូរសព្ទ: អ្នកស្រាវជ្រាវត្រូវសិក្សាអំពីទ្រឹស្តីនៃការទស្សន៍ទាយចង្វាក់សំឡេង និងការរៀបចំក្បួនដោះស្រាយតាមរយៈការប្រើប្រាស់ Hidden Markov Model (HMM) និងក្បួនដោះស្រាយស្វែងរក Viterbi Algorithm
  2. ប្រមូលនិងដាក់ស្លាកទិន្នន័យសំឡេងភាសាខ្មែរ: ចាប់ផ្តើមថតនិងប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលអានដោយអ្នកប្រកាសព័ត៌មានអាជីព ហើយប្រើប្រាស់កម្មវិធីដូចជា Praat ដើម្បីកត់ត្រានិងដាក់ស្លាកសម្គាល់ចង្វាក់សំឡេង (Prosodic Annotation) ដោយដៃ។
  3. អភិវឌ្ឍន៍ម៉ូដែលទស្សន៍ទាយចង្វាក់សំឡេង: សាកល្បងសរសេរកូដបង្កើតម៉ូដែលតម្លៃចង្វាក់ (Cost Function Model) ដោយប្រើប្រាស់បណ្ណាល័យភាសា Python ដូចជា PyTorchSciPy ដើម្បីគណនាទម្ងន់និងប្រូបាប៊ីលីតេនៃលក្ខណៈសូរសព្ទ។
  4. បង្វឹកម៉ូដែលនិងវាយតម្លៃកំហុស: ធ្វើការហ្វឹកហាត់ម៉ូដែល និងវាយតម្លៃលទ្ធផលដោយការវាស់ស្ទង់អត្រាកំហុសនៃការទស្សន៍ទាយកម្រិតសំឡេង (F0 Prediction Error) ដោយប្រៀបធៀបវាទៅនឹងសំឡេងពិតប្រាកដរបស់មនុស្ស។
  5. ធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធសំយោគសំឡេង: យកម៉ូដែលចង្វាក់ដែលបានហ្វឹកហាត់រួច ទៅបញ្ចូលភ្ជាប់ជាមួយនឹងប្រព័ន្ធសំយោគសំឡេងបើកចំហរដូចជា Festival Speech Synthesis System ឬឧបករណ៍ Kaldi ដើម្បីផលិតជាសំឡេងខ្មែរពេញលេញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Prosody Model ម៉ូដែលគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយ និងបង្កើតចង្វាក់ ការលើកដាក់កម្ពស់សំឡេង និងល្បឿននៃការនិយាយនៅក្នុងប្រព័ន្ធសំយោគសំឡេង (Text-to-Speech) ដើម្បីឱ្យវាស្តាប់ទៅរលូនដូចជាមនុស្សពិត។ ដូចជាមេភ្លេងដែលប្រាប់អ្នកចម្រៀងថាពេលណាត្រូវឡើងសំឡេង ពេលណាត្រូវចុះសំឡេង ឬអូសបន្លាយសំឡេង។
Syllabic prosody features លក្ខណៈនៃចង្វាក់ដែលភ្ជាប់ទៅនឹងព្យាង្គនីមួយៗ រួមមានកម្រិតសំឡេង (Pitch) រយៈពេលនៃការបញ្ចេញសំឡេង (Duration) និងថាមពលឬកម្រិតខ្លាំងខ្សោយនៃសំឡេង (Energy) ក្នុងបរិបទប្រយោគជុំវិញវា។ ដូចជាទម្រង់នៃការបញ្ចេញសំឡេងសម្រាប់ពាក្យមួយម៉ាត់ៗ ថាតើត្រូវនិយាយខ្លាំង ខ្សោយ ខ្លី ឬវែងក្នុងកាលៈទេសៈផ្សេងៗ។
Pitch curve clustering ដំណើរការនៃការប្រមូលផ្តុំទម្រង់ខ្សែកោងនៃកម្រិតសំឡេង (F0 contours) ដែលមានលក្ខណៈស្រដៀងគ្នាទៅជាក្រុមតែមួយ ដើម្បីបង្កើតជាពុម្ពគំរូ (Templates) សម្រាប់ប្រើប្រាស់ឡើងវិញក្នុងការទស្សន៍ទាយសំឡេង។ ដូចជាការតម្រៀបនិងបែងចែកផ្លែឈើតាមទំហំនិងរូបរាងជាក្រុមៗ ដើម្បីងាយស្រួលយកទៅវេចខ្ចប់តាមប្រភេទតែមួយ។
Cost function រូបមន្តគណិតវិទ្យាដែលប្រើសម្រាប់គណនាពីកម្រិតនៃកំហុស ឬភាពខុសគ្នារវាងលក្ខណៈចង្វាក់ដែលប្រព័ន្ធបានជ្រើសរើស ជាមួយនឹងលក្ខណៈចង្វាក់គោលដៅក្នុងន័យស្វែងរកជម្រើសដែលល្អបំផុត (មានតម្លៃ Cost ទាបបំផុត)។ ដូចជាការគណនាប្រៀបធៀបតម្លៃទំនិញនៅតាមហាងផ្សេងៗ ដើម្បីរកទិញទំនិញដែលល្អហើយមានតម្លៃថោកបំផុត (ខាតបង់តិចបំផុត)។
Viterbi search ក្បួនដោះស្រាយ (Algorithm) តាមបែបស្ថិតិ ដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬជម្រើសដែលល្អបំផុតក្នុងចំណោមជម្រើសជាច្រើនបន្តបន្ទាប់គ្នា ដោយផ្អែកលើប្រូបាប៊ីលីតេ ដើម្បីធានាថាការភ្ជាប់សំឡេងពេញមួយប្រយោគមានភាពរលូនបំផុត។ ដូចជាកម្មវិធី Google Maps ដែលរៀបចំគណនាស្វែងរកផ្លូវធ្វើដំណើរពីចំណុច A ទៅចំណុច B តាមរយៈផ្លូវដែលលឿន និងជៀសវាងការកកស្ទះចរាចរណ៍បានល្អបំផុត។
Coarticulation បាតុភូតផ្នែកសូរសព្ទដែលការបញ្ចេញសំឡេងនៃព្យាង្គ ឬសូរមួយ ត្រូវបានជះឥទ្ធិពលដោយសូរដែលនៅពីមុខ ឬពីក្រោយវា ធ្វើឱ្យមានការផ្លាស់ប្តូរកម្រិតសំឡេង ឬលក្ខណៈសូរសព្ទដើម។ ដូចជាការលាយពណ៌រវាងពណ៌ក្រហម និងពណ៌លឿងនៅលើផ្ទាំងគំនូរ ដែលធ្វើឱ្យតំបន់ព្រំដែនក្លាយជាពណ៌ទឹកក្រូចដោយស្វ័យប្រវត្តិ។
Transition probability ប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរពីស្ថានភាពមួយ (ឧទាហរណ៍៖ ចង្វាក់នៃព្យាង្គទី១) ទៅស្ថានភាពមួយទៀត (ឧទាហរណ៍៖ ចង្វាក់នៃព្យាង្គទី២) ដែលជួយឱ្យម៉ូដែលដឹងថាទម្រង់សំឡេងណាដែលច្រើនកើតមានបន្តបន្ទាប់គ្នាក្នុងភាសាធម្មជាតិ។ ដូចជាការទស្សន៍ទាយថា បើមេឃងងឹត (ស្ថានភាពទី១) នោះប្រូបាប៊ីលីតេដែលនឹងមានភ្លៀងធ្លាក់ (ស្ថានភាពទី២) បន្តបន្ទាប់គឺមានកម្រិតខ្ពស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖