Original Title: Dialogue Context Sensitive Speech Synthesis using Factorized Decision Trees
Source: doi.org/10.21437/Interspeech.2014-200
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសំយោគសំឡេងនិយាយប្រកបដោយភាពស៊ីសង្វាក់ទៅនឹងបរិបទសន្ទនា ដោយប្រើប្រាស់មែកធាងការសម្រេចចិត្តបែបបំបែកកត្តា

ចំណងជើងដើម៖ Dialogue Context Sensitive Speech Synthesis using Factorized Decision Trees

អ្នកនិពន្ធ៖ Pirros Tsiakoulis (University of Cambridge), Catherine Breslin (University of Cambridge), Milica Gašić (University of Cambridge), Matthew Henderson (University of Cambridge), Dongho Kim (University of Cambridge), Steve Young (University of Cambridge)

ឆ្នាំបោះពុម្ព៖ 2014 INTERSPEECH

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) ជាទូទៅប្រើប្រាស់សំឡេងសំយោគដែលខ្វះភាពរលូនតាមបរិបទ ហើយការប្រើប្រាស់មែកធាងសម្រេចចិត្តធម្មតាច្រើនតែជួបបញ្ហាទិន្នន័យមិនមានតុល្យភាពនៅពេលអនុវត្តលើដែនកំណត់ (domain) ថ្មី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របណ្តុះបណ្តាលសម្របតាមបរិបទជាមួយមែកធាងសម្រេចចិត្តបែបបំបែកកត្តា ហើយធ្វើតេស្តវាយតម្លៃប្រៀបធៀបទៅនឹងប្រព័ន្ធគោលធម្មតា។

ការបណ្តុះបណ្តាលសម្របតាមបរិបទដោយប្រើមែកធាងការសម្រេចចិត្តបែបបំបែកកត្តា (Context Adaptive Training with Factorized Decision trees - FD-CAT)
ការធ្វើតេស្តវាយតម្លៃដោយអ្នកស្តាប់ (Preference-based listening tests) លើដែនព័ត៌មានភោជនីយដ្ឋាន និងដែនកក់ការណាត់ជួប
ការប្រៀបធៀបរវាងសំឡេងប្រព័ន្ធគោល (Baseline voice) និងសំឡេងអព្យាក្រឹត (Neutral voice)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សម្រាប់ដែនដែលមានស្រាប់ក្នុងទិន្នន័យ (In-domain) មិនមានការពេញចិត្តដាច់ខាតរវាងប្រព័ន្ធ FD-CAT និងប្រព័ន្ធគោលនោះទេ ដោយសារមានទិន្នន័យគ្រប់គ្រាន់។
សម្រាប់ដែនថ្មីដែលកម្រមានក្នុងទិន្នន័យ (Out-of-domain) អ្នកស្តាប់ពេញចិត្តប្រព័ន្ធ FD-CAT យ៉ាងខ្លាំងក្នុងកម្រិត ៤៦,៥% ធៀបនឹង ៣៣,៦% នៃប្រព័ន្ធគោល (p=0.007)។
សំឡេងនិយាយពីប្រព័ន្ធ FD-CAT ត្រូវបានអ្នកស្តាប់ពេញចិត្តជាងសំឡេងអព្យាក្រឹតយ៉ាងច្បាស់លាស់ ក្នុងកម្រិត ៥៨,៦% សម្រាប់ដែនភោជនីយដ្ឋាន និង ៥៤,៩% សម្រាប់ដែនកក់ការណាត់ជួប។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard Decision Trees (Baseline) ការប្រើប្រាស់មែកធាងការសម្រេចចិត្តស្តង់ដារ	ងាយស្រួលក្នុងការអភិវឌ្ឍដោយបញ្ចូលលក្ខណៈបរិបទទាំងអស់ទៅក្នុងម៉ូដែលតែមួយ។ ដំណើរការបានល្អសម្រាប់ប្រធានបទដែលមានទិន្នន័យហ្វឹកហាត់គ្រប់គ្រាន់ (In-domain)។	មិនមានតុល្យភាពក្នុងការរៀនពីទិន្នន័យ ធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះនៅពេលយកទៅអនុវត្តលើប្រធានបទថ្មីដែលមិនសូវមានទិន្នន័យ (Out-of-domain)។	ទទួលបានការពេញចិត្តត្រឹមតែ ៣៣,៦% ប៉ុណ្ណោះ សម្រាប់ការសន្ទនាក្រៅដែនកំណត់ (Appointment Booking)។
Context Adaptive Training with Factorized Decision trees (FD-CAT) ការបណ្តុះបណ្តាលសម្របតាមបរិបទដោយប្រើមែកធាងបំបែកកត្តា	អាចបំបែកកត្តាខ្លាំង (សូរសព្ទ) និងកត្តាខ្សោយ (បរិបទសន្ទនា/ការសង្កត់សំឡេង) ដាច់ពីគ្នា។ រក្សាបាននូវគុណភាពសំឡេង និងភាពរលូន សូម្បីតែក្នុងដែនថ្មីដែលខ្វះទិន្នន័យក៏ដោយ។	ទាមទារការរៀបចំទិន្នន័យលម្អិត និងបច្ចេកទេសបណ្តុះបណ្តាលម៉ូដែលស្មុគស្មាញជាងមុន (ប្រើប្រាស់ MLLR)។	ទទួលបានការពេញចិត្ត ៤៦,៥% សម្រាប់ប្រធានបទក្រៅដែនកំណត់ ដោយឈ្នះប្រព័ន្ធគោលយ៉ាងច្បាស់លាស់។
Neutral Voice សំឡេងអព្យាក្រឹត (មិនមានបរិបទសន្ទនា)	ងាយស្រួលបំផុតក្នុងការបង្កើត ព្រោះមិនត្រូវការទិន្នន័យស្តីពីអារម្មណ៍ ឬប្រភេទនៃការសន្ទនា។	ស្តាប់ទៅរឹង និងមិនមានលក្ខណៈធម្មជាតិនៅពេលប្រើប្រាស់ក្នុងប្រព័ន្ធសន្ទនាឆ្លើយឆ្លងពិតប្រាកដ។	ចាញ់ប្រព័ន្ធ FD-CAT យ៉ាងខ្លាំង (ទទួលបានការពេញចិត្តត្រឹម ៣៤,៥% ធៀបនឹង ៥៤,៩% របស់ FD-CAT)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតពីទំហំកុំព្យូទ័រដែលត្រូវប្រើទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ HMM ទាមទារធនធានកម្រិតមធ្យម និងទិន្នន័យសំឡេងដែលមានការរៀបចំច្បាស់លាស់។

Dataset: ត្រូវការទិន្នន័យសំឡេងអានទូទៅ និងទិន្នន័យប្រយោគសន្ទនា (Expressive dialogue corpus) ប្រហែល ៥ ម៉ោង (៣១៥៨ ឯកសារសំឡេង) ថតដោយអ្នកនិយាយតែម្នាក់។
Software: ប្រព័ន្ធ HTS (HMM-based Speech Synthesis System) និងកូដគណនា MLLR សម្រាប់ការបន្សំកត្តា (Factorization)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកដំណើរការភាសាធម្មជាតិ (NLP) សទ្ទវិទ្យា (Phonetics) និងម៉ាស៊ីនរៀន ជាពិសេស Hidden Markov Models។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងភាសាអង់គ្លេសដែលថតដោយអ្នកនិយាយតែម្នាក់ (RJS voice) សម្រាប់វិស័យព័ត៌មានភោជនីយដ្ឋាន។ ទិន្នន័យនេះមិនតំណាងឱ្យភាពចម្រុះនៃគ្រាមភាសា ភេទ ឬភាសាដទៃទៀតឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកមកអនុវត្តតម្រូវឱ្យមានការប្រមូលទិន្នន័យសំឡេងសន្ទនាភាសាខ្មែរដែលមានការសង្កត់សំឡេងនិងបរិបទច្បាស់លាស់ ដែលបច្ចុប្បន្ននៅខ្វះខាតខ្លាំង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធឆ្លើយតបអូតូម៉ាត (Voicebots) នៅកម្ពុជា ដោយសារវាជួយឱ្យសំឡេងស្តាប់ទៅធម្មជាតិ និងអាចប្រើឆ្លងវិស័យបាន។

ប្រព័ន្ធបម្រើសេវាកម្មអតិថិជនទូរគមនាគមន៍ (Telecom Call Centers): អាចយកទៅបង្កើត AI របស់ក្រុមហ៊ុនទូរស័ព្ទ (ឧទាហរណ៍ Smart ឬ Cellcard) ដែលអាចសន្ទនាពន្យល់ពីកញ្ចប់សេវាកម្ម ដោយមានការសង្កត់សំឡេងត្រឹមត្រូវ និងទាក់ទាញ។
ប្រព័ន្ធផ្តល់ព័ត៌មានទេសចរណ៍ (ខេត្តសៀមរាប): អាចបំប្លែងប្រព័ន្ធពីការណែនាំសណ្ឋាគារ ទៅកាន់ការកក់សំបុត្រទស្សនាប្រាសាទ (Out-of-domain) ដោយរក្សាបានភាពរលូននៃសម្លេងដោយមិនបាច់ថតទិន្នន័យមនុស្សសារជាថ្មី។
វិស័យធនាគារ (Banking Voice Assistants): ប្រើប្រាស់សម្រាប់ការអានបញ្ជាក់ពីប្រតិបត្តិការផ្ទេរប្រាក់ (Confirmation acts ដូចជាប្រព័ន្ធរបស់ ABA) ប្រកបដោយទំនុកចិត្ត និងច្បាស់លាស់ទៅកាន់អតិថិជន។

សរុបមក ការប្រើប្រាស់បច្ចេកទេស FD-CAT អាចជួយឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃ (SDS) ដែលមានសម្លេងប្រាកដនិយម ចំណាយតិចលើការថតសំឡេង និងអាចពង្រីកទៅកាន់វិស័យផ្សេងៗបានងាយស្រួល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះផ្នែក Speech Synthesis: និស្សិតគួរសិក្សាពីទ្រឹស្តីនៃម៉ូដែល Parametric Text-to-Speech (TTS) ជាពិសេស Hidden Markov Models (HMM) ដោយសាកល្បងប្រើប្រាស់ HTS Toolkit ឬ Merlin ដើម្បីស្វែងយល់ពីរបៀបដំណើរការ។
ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងសន្ទនាភាសាខ្មែរ: ចាប់ផ្តើមថតសំឡេងសន្ទនាជាភាសាខ្មែរ និងរៀបចំអត្ថបទកត់ត្រាដោយភ្ជាប់ជាមួយ Dialogue Acts (ឧទាហរណ៍៖ ការសួរ ការយល់ព្រម) និងរំលេចពាក្យដែលមាន Emphasis (ការសង្កត់សំឡេង)។
បង្កើតប្រព័ន្ធគោល (Baseline Model): អនុវត្តការបណ្តុះបណ្តាលម៉ូដែលសំឡេងដោយប្រើមែកធាងការសម្រេចចិត្តធម្មតា (Standard Decision Trees) ដើម្បីធ្វើជាគោលសម្រាប់ប្រៀបធៀប ដោយបញ្ចូលកត្តាសូរសព្ទ និងកត្តាបរិបទចូលគ្នា។
អនុវត្តបច្ចេកទេស Factorized Decision Trees: សរសេរកូដអនុវត្តការបំបែកកត្តា (Factorization) ដោយបំបែកកត្តាសូរសព្ទ និងកត្តាសន្ទនាដាច់ពីគ្នា រួចប្រើប្រាស់បច្ចេកទេស MLLR (Maximum Likelihood Linear Regression) ដើម្បីបន្សំប៉ារ៉ាម៉ែត្រទាំងពីរឡើងវិញ។
ធ្វើតេស្តវាយតម្លៃលើប្រធានបទក្រៅដែន (Out-of-Domain): រៀបចំការធ្វើតេស្ត Preference-based listening test ជាមួយអ្នកប្រើប្រាស់ខ្មែរ ដើម្បីប្រៀបធៀបសំឡេងដែលបានមកពីម៉ូដែល FD-CAT និង Baseline ទៅលើប្រធានបទថ្មី (ឧទាហរណ៍៖ យកទិន្នន័យហ្វឹកហាត់ពីការកក់សណ្ឋាគារ ទៅសាកល្បងសួរពីការកក់សំបុត្រកុន)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Factorized Decision Trees	ជាបច្ចេកទេសប្រើប្រាស់មែកធាងការសម្រេចចិត្តដោយបំបែកកត្តាផ្សេងៗគ្នា (ដូចជាកត្តាសូរសព្ទ និងកត្តាបរិបទ/ការសង្កត់សំឡេង) ដាច់ពីគ្នា ហើយទើបច្របាច់បញ្ចូលគ្នាវិញ ដើម្បីចៀសវាងបញ្ហាទិន្នន័យមិនមានតុល្យភាពក្នុងការបង្ហាត់ម៉ូដែល។	ដូចជាការបំបែកការរៀនធ្វើម្ហូបជាពីរផ្នែកដាច់ពីគ្នា គឺរៀនពីរបៀបធ្វើគ្រឿងផ្សំគោល និងរៀនពីរបៀបថែមថយរសជាតិ ដើម្បីងាយស្រួលយកចំណេះដឹងទាំងពីរទៅច្នៃប្រឌិតមុខម្ហូបថ្មីៗ។
Context Adaptive Training	ជាការបណ្តុះបណ្តាលម៉ូដែលកុំព្យូទ័រឱ្យចេះបត់បែន និងផ្លាស់ប្តូរលក្ខណៈសំឡេងរបស់វាដោយស្វ័យប្រវត្តិ ទៅតាមបរិបទនៃការសន្ទនា ឬកត្តាខ្សោយៗផ្សេងទៀត (Weak context factors)។	ដូចជាមនុស្សដែលចេះផ្លាស់ប្តូរសម្លេង និងទឹកមុខទៅតាមស្ថានភាពជាក់ស្តែង ដូចជាពេលនិយាយលេងសើច និងពេលនិយាយការងារផ្លូវការ។
Hidden Markov Models (HMM)	ជាម៉ូដែលស្ថិតិដែលគេប្រើជាទូទៅក្នុងការសំយោគ និងចាប់សញ្ញាសំឡេង ដែលវាធ្វើការផ្លាស់ប្តូរ និងព្យាករណ៍ពីសូរសព្ទបន្តបន្ទាប់គ្នាដោយផ្អែកលើទ្រឹស្តីប្រូបាប៊ីលីតេ។	ដូចជាការទាយអាកាសធាតុថ្ងៃស្អែក ដោយពឹងផ្អែកលើទិន្នន័យអាកាសធាតុថ្ងៃនេះ និងច្បាប់នៃការព្យាករណ៍ដែលធ្លាប់កើតមានកន្លងមក។
Spoken Dialogue Systems (SDS)	ជាប្រព័ន្ធកុំព្យូទ័រដែលអនុញ្ញាតឱ្យមនុស្សធ្វើអន្តរកម្ម ឬបញ្ជាម៉ាស៊ីនតាមរយៈការនិយាយឆ្លើយឆ្លងគ្នាដោយផ្ទាល់ ឧទាហរណ៍ដូចជាប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិ។	ដូចជាការខលទូរស័ព្ទទៅនិយាយជាមួយភ្នាក់ងារបម្រើអតិថិជន ប៉ុន្តែជាក់ស្តែងអ្នកកំពុងនិយាយឆ្លើយឆ្លងជាមួយប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI)។
Concept-To-Speech (CTS)	ជាវិធីសាស្ត្រនៃការសំយោគសំឡេងដោយមិនត្រឹមតែបំប្លែងអត្ថបទទៅជាសំឡេងប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងយកព័ត៌មានអត្ថន័យ និងបរិបទប្រយោគ (Semantic information) មកជួយកំណត់ការលើកដាក់សំឡេងឱ្យកាន់តែសមរម្យ។	ដូចជាអ្នកអានរឿងនិទានដែលយល់ពីសាច់រឿង និងអារម្មណ៍តួអង្គ រួចបញ្ចេញសម្លេងបានយ៉ាងរស់រវើក មិនមែនគ្រាន់តែអានអក្សរស្ងួតៗនោះទេ។
F0 contours	គឺជាខ្សែខ្សែកោងដែលតំណាងឱ្យបំរែបំរួលនៃប្រេកង់មូលដ្ឋាន (Fundamental Frequency) របស់សំឡេង ដែលជាទូទៅវាឆ្លុះបញ្ចាំងពីការលើកដាក់សំឡេងខ្ពស់ទាប (Pitch) នៅក្នុងការនិយាយ។	ដូចជាគំនូសរលកតន្ត្រីនៅលើអេក្រង់ ដែលលោតឡើងចុះៗ បង្ហាញពីកម្រិតសម្លេងធ្ងន់ស្រាល ពេលអ្នកកំពុងច្រៀង ឬនិយាយ។
Out-of-domain	សំដៅលើការយកម៉ូដែលកុំព្យូទ័រដែលបានបង្ហាត់លើទិន្នន័យប្រធានបទមួយរួចហើយ (ឧទាហរណ៍៖ ការកក់ភោជនីយដ្ឋាន) ទៅសាកល្បងប្រើប្រាស់ជាមួយប្រធានបទមួយទៀតដែលវាមិនធ្លាប់ជួប ឬមានទិន្នន័យហ្វឹកហាត់តិចតួច (ឧទាហរណ៍៖ ការកក់ការណាត់ជួបពេទ្យ)។	ដូចជាសិស្សដែលរៀនពូកែតែមុខវិជ្ជាគណិតវិទ្យា តែត្រូវគេតម្រូវឱ្យទៅប្រឡងមុខវិជ្ជាប្រវត្តិវិទ្យាដែលខ្លួនមិនសូវបានរៀនសោះ។
MLLR adaptive training	Maximum Likelihood Linear Regression (MLLR) គឺជាបច្ចេកទេសគណិតវិទ្យាក្នុងការកែប្រែប៉ារ៉ាម៉ែត្រនៃម៉ូដែលសំឡេង (Mean និង Covariance) ឱ្យស៊ីសង្វាក់ទៅនឹងលក្ខណៈសំឡេងថ្មី ដោយប្រើប្រាស់សមីការលីនេអ៊ែរ ដើម្បីសន្សំសំចៃទិន្នន័យបណ្តុះបណ្តាល។	ដូចជាការសារ៉េបង្វិលប៊ូតុងអង់តែនវិទ្យុបន្តិចម្តងៗ ដើម្បីចាប់ប៉ុស្តិ៍ថ្មីមួយទៀតឱ្យបានច្បាស់ល្អ ដោយមិនបាច់ដោះដូរម៉ាស៊ីនវិទ្យុថ្មី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖