Original Title: A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016
Source: doi.org/10.21437/Blizzard.2016-4
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធសំយោគការជ្រើសរើសឯកតាដោយប្រើ BLSTM សម្រាប់ការប្រកួតប្រជែង Blizzard ឆ្នាំ 2016

ចំណងជើងដើម៖ A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016

អ្នកនិពន្ធ៖ Jianhua Tao (National Laboratory of Pattern Recognition, CASIA), Yibin Zheng (National Laboratory of Pattern Recognition, CASIA), Zhengqi Wen (National Laboratory of Pattern Recognition, CASIA), Ya Li (National Laboratory of Pattern Recognition, CASIA), Biu Liu (National Laboratory of Pattern Recognition, CASIA)

ឆ្នាំបោះពុម្ព៖ 2016 The Blizzard Challenge

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះបង្ហាញពីការអភិវឌ្ឍប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេង (Text-to-Speech) ដើម្បីបង្កើតសំឡេងអានសៀវភៅកុមារប្រកបដោយភាពរស់រវើក សម្រាប់ការប្រកួតប្រជែង Blizzard Challenge ឆ្នាំ 2016។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតប្រព័ន្ធកូនកាត់មួយ ដោយជំនួសម៉ូដែល HMM បែបប្រពៃណីជាមួយនឹងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត BLSTM សម្រាប់ការធ្វើម៉ូដែលសូរស័ព្ទ និងរយៈពេល។

ការធ្វើម៉ូដែលរយៈពេលដោយប្រើ BLSTM (BLSTM based duration model) និងការដកទិន្នន័យខុសប្រក្រតី (Outlier removal)
ការធ្វើម៉ូដែលសូរស័ព្ទដោយប្រើ BLSTM (BLSTM based acoustic model)
ការគណនាតម្លៃគោលដៅសម្រាប់ការជ្រើសរើសឯកតា (Target cost calculation) ដោយប្រើ KLD, LL, និង ED

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធទស្សន៍ទាយរយៈពេលបញ្ចេញសំឡេងផ្អែកលើ BLSTM បានកាត់បន្ថយកំហុស (RMSE) ចំនួន 10.90% បើធៀបនឹងវិធីសាស្ត្រដើម។
ការរួមបញ្ចូលគ្នានៃវិធីសាស្ត្រគណនា KLD និង LL ផ្តល់នូវលទ្ធផលល្អបំផុតសម្រាប់ការជ្រើសរើសតម្លៃគោលដៅ (Target cost) ក្នុងការវាយតម្លៃផ្ទៃក្នុង។
ទោះជាយ៉ាងណាក៏ដោយ លទ្ធផលសរុបនៃការប្រកួតប្រជែងបង្ហាញថា ប្រព័ន្ធនេះស្ថិតក្នុងកម្រិតមធ្យម ដោយសារចំណុចខ្វះខាតនៅក្នុងឧបករណ៍វិភាគអត្ថបទ (Text analysis)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Decision tree based duration in HTS (Baseline) ការទស្សន៍ទាយរយៈពេលបញ្ចេញសំឡេងផ្អែកលើមែកធាងសេចក្តីសម្រេច (Decision Tree) ក្នុង HTS	ជាវិធីសាស្ត្រស្តង់ដារដែលត្រូវបានប្រើប្រាស់ទូទៅ មានភាពងាយស្រួលក្នុងការអនុវត្តសម្រាប់ប្រព័ន្ធកូនកាត់ (Hybrid Systems)។	មិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកទំនាក់ទំនងរយៈពេលវែង (Long-term dependencies) នៃទិន្នន័យភាសានោះទេ។	មានកម្រិតកំហុស RMSE ចំនួន 43.67 ms លើការទស្សន៍ទាយរយៈពេល។
BLSTM based duration prediction with outlier removal ការទស្សន៍ទាយរយៈពេលដោយប្រើបណ្ដាញ BLSTM រួមជាមួយនឹងការដកចេញទិន្នន័យខុសប្រក្រតី	មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគលើទិន្នន័យបន្តបន្ទាប់គ្នា និងបង្កើនភាពត្រឹមត្រូវដោយការកាត់ចោលទិន្នន័យដែលលំអៀងខុសប្រក្រតី (Outliers)។	ត្រូវការរៀបចំទិន្នន័យដោយប្រុងប្រយ័ត្ន និងបំប្លែងទិន្នន័យប្រភេទ Nominal ទៅជាតម្លៃលេខទាំងអស់។	កាត់បន្ថយកំហុស RMSE មកត្រឹម 38.91 ms (ប្រសើរជាងមុន 10.90%)។
Target cost: System 4 (KLD + LL) ការគណនាតម្លៃគោលដៅដោយផ្សំបញ្ចូលគ្នារវាង KLD និង LL	ជួយកំណត់ឯកតាសំឡេងបានយ៉ាងល្អ និងផ្តល់លទ្ធផលគុណភាពសំឡេងធម្មជាតិ (MOS) ល្អបំផុតក្នុងការវាយតម្លៃផ្ទៃក្នុង។	ទាមទារការគណនាស្មុគស្មាញ និងចំណាយពេលច្រើនក្នុងការស្វែងរក (Viterbi Search) ធៀបនឹងការប្រើ Euclidean Distance ធម្មតា។	ទទួលបានពិន្ទុខ្ពស់ជាងគេក្នុងការធ្វើតេស្តវាយតម្លៃពីអ្នកស្តាប់ជំនាញធៀបនឹងការប្រើវិធីសាស្ត្រនីមួយៗដាច់ដោយឡែក។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង និងការរៀបចំទិន្នន័យកម្រិតខ្ពស់ ព្រោះវាពាក់ព័ន្ធនឹងការបង្ហាត់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត BLSTM ច្រើនស្រទាប់។

Dataset: ទិន្នន័យសំឡេងគុណភាពខ្ពស់ថតក្នុងស្ទូឌីយោរយៈពេល ៥ ម៉ោង ជាមួយនឹងការតម្រឹមអត្ថបទនិងសំឡេងកម្រិតប្រយោគ។
Hardware: ត្រូវការម៉ាស៊ីនកុំព្យូទ័រដែលមាន GPU កម្លាំងខ្លាំង ដើម្បីបង្ហាត់ម៉ូដែល 3-layer neural network (BLSTM) ក្នុងល្បឿនលឿន។
Software: ឧបករណ៍វិភាគអត្ថបទ Festival និងឧបករណ៍តម្រឹមសំឡេង HSMMAlign (HTS toolkit)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកសូរស័ព្ទវិទ្យា (Phonetics) ការវិភាគអត្ថបទ (Text Analysis) និងការរៀនស៊ីជម្រៅ (Deep Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការស្រាវជ្រាវនេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសៀវភៅកុមារជាភាសាអង់គ្លេសបែបអង់គ្លេស (British English) ដែលថតដោយមនុស្សស្រីតែម្នាក់។ ហេតុនេះម៉ូដែលនេះមានភាពលម្អៀងទៅរកសំឡេងស្ត្រី និងទម្រង់ភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា ការយកប្រព័ន្ធនេះមកអនុវត្តទាមទារការបង្កើតទិន្នន័យសំឡេងភាសាខ្មែរ (Khmer Speech Corpus) ដែលមានគុណភាពខ្ពស់ និងការរៀបចំឧបករណ៍វិភាគអត្ថបទភាសាខ្មែរឲ្យបានសុក្រឹត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាត្រូវបានបង្កើតសម្រាប់ភាសាអង់គ្លេសក្តី វិធីសាស្ត្រផ្អែកលើ BLSTM នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធសំយោគសំឡេងភាសាខ្មែរ (Khmer TTS) ប្រកបដោយភាពរស់រវើក។

វិស័យអប់រំ និងសៀវភៅសំឡេង (Audiobooks): អាចយកទៅអភិវឌ្ឍប្រព័ន្ធអានសៀវភៅរឿងកុមារ ឬសៀវភៅសិក្សាជាភាសាខ្មែរដោយស្វ័យប្រវត្តិ ដែលជួយសម្រួលដល់កុមារពិការភ្នែក ឬសិស្សនៅតំបន់ដាច់ស្រយាលក្នុងប្រទេសកម្ពុជា។
សេវាកម្មឆ្លើយតបអតិថិជនស្វ័យប្រវត្តិ (Call Centers): ធនាគារ ឬក្រុមហ៊ុនទូរគមនាគមន៍នៅកម្ពុជា (ឧ. ធនាគារ ABA ឬក្រុមហ៊ុន Smart) អាចប្រើបច្ចេកវិទ្យានេះដើម្បីបង្កើតសំឡេងឆ្លើយតប (Virtual Assistant) ដែលស្តាប់ទៅមានភាពធម្មជាតិជាងប្រព័ន្ធបច្ចុប្បន្ន។

ជារួម ការកែលម្អទៅលើឧបករណ៍វិភាគអត្ថបទភាសាខ្មែរ គឺជាគន្លឹះដ៏សំខាន់ដើម្បីអាចទាញយកអត្ថប្រយោជន៍ពេញលេញពីប្រព័ន្ធនេះសម្រាប់ទីផ្សារកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្រាវជ្រាវ និងអភិវឌ្ឍឧបករណ៍វិភាគអត្ថបទភាសាខ្មែរ (Khmer Text Analysis): និស្សិតត្រូវចាប់ផ្តើមពីការស្រាវជ្រាវលើការកាត់ពាក្យ (Word Segmentation) និងការកំណត់ថ្នាក់ពាក្យ (POS tagging) ជាភាសាខ្មែរ ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Khmer Natural Language Processing Tools ព្រោះឯកសារនេះបានបញ្ជាក់ថាភាពខ្សោយនៃការវិភាគអត្ថបទនឹងទាញទម្លាក់គុណភាពសំឡេងទាំងមូល។
ប្រមូល និងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ (Khmer Speech Corpus): ជ្រើសរើសអ្នកអានម្នាក់ដែលមានសំឡេងច្បាស់ល្អ រួចថតសំឡេងអានអត្ថបទចម្រុះប្រមាណ ៥ ម៉ោងក្នុងបន្ទប់ស្ទូឌីយោ។ បន្ទាប់មក ប្រើប្រាស់កម្មវិធី HSMMAlign ដើម្បីតម្រឹមអត្ថបទ (Text) ជាមួយនឹងរលកសំឡេង (Waveform) ក្នុងកម្រិតព្យាង្គ ឬសូរស័ព្ទ។
សាងសង់ និងបង្ហាត់ម៉ូដែល BLSTM សម្រាប់ការទស្សន៍ទាយរយៈពេល (Duration Modeling): ប្រើប្រាស់បណ្ណាល័យ PyTorch ឬ TensorFlow ដើម្បីសរសេរកូដបង្កើតបណ្តាញសរសៃប្រសាទ 3-layer BLSTM។ អនុវត្តបច្ចេកទេសកាត់ចោលទិន្នន័យដែលវែងខុសប្រក្រតី (Outlier Removal ដោយលុបចោល 1% នៃទិន្នន័យខ្ពស់បំផុត) មុនពេលបង្ហាត់ម៉ូដែល។
អនុវត្តការជ្រើសរើសឯកតាសំឡេង (Unit Selection) ដោយគណនាតម្លៃគោលដៅ: សរសេរកូដដើម្បីគណនាតម្លៃ Target Cost ដោយប្រើប្រាស់វិធីសាស្ត្រផ្សំរវាង Kullback Leibler divergence (KLD) និង Maximum likelihood criterion (LL) រួចប្រើប្រាស់ក្បួនដោះស្រាយ Viterbi Search ដើម្បីស្វែងរកផ្លូវតភ្ជាប់សំឡេងដែលល្អបំផុត។
វាយតម្លៃគុណភាពសំឡេង (MOS Evaluation): បង្កើតកម្រងសំណួរស្ទង់មតិ (ឧ. តាមរយៈ Google Forms) ដោយឲ្យអ្នកនិយាយភាសាខ្មែរដើមចំនួនយ៉ាងតិច ៥ ទៅ ១០ នាក់ ស្តាប់ប្រយោគដែលបានសំយោគរួច ហើយផ្តល់ពិន្ទុពី ១ ដល់ ៥ លើភាពរស់រវើក (Naturalness) និងភាពងាយយល់ (Intelligibility)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
BLSTM	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាពចងចាំព័ត៌មានទាំងពីអតីតកាលនិងអនាគតកាល (ទិន្នន័យខាងមុខនិងខាងក្រោយ) នៅក្នុងលំដាប់ទិន្នន័យ ដើម្បីធ្វើការទស្សន៍ទាយលក្ខណៈសំឡេងបានកាន់តែសុក្រឹត។	ដូចជាការអានសៀវភៅដោយមើលទាំងពាក្យខាងមុខ និងពាក្យខាងក្រោយព្រមគ្នា ដើម្បីយល់ន័យរបស់ពាក្យកណ្តាលឲ្យបានច្បាស់លាស់។
Unit selection	ជាដំណើរការក្នុងប្រព័ន្ធសំយោគសំឡេង ដែលធ្វើការស្វែងរកនិងជ្រើសរើសបំណែកសំឡេងតូចៗ (ឯកតាសំឡេង) ពីមូលដ្ឋានទិន្នន័យសំឡេងដ៏ធំមួយ ដើម្បីយកមកតភ្ជាប់គ្នាបង្កើតជាប្រយោគថ្មី។	ដូចជាការរើសអក្សរ ឬពាក្យដែលគេកាត់ជាកង់ៗពីទស្សនាវដ្តីចាស់ៗ យកមកតម្រៀបភ្ជាប់គ្នាដើម្បីបង្កើតជាសារថ្មីមួយ។
Target cost	ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃថាតើបំណែកសំឡេងដែលបានជ្រើសរើសពីឃ្លាំងទិន្នន័យ មានលក្ខណៈជិតស្និទ្ធ ឬស្រដៀងទៅនឹងលក្ខណៈសំឡេងគោលដៅដែលប្រព័ន្ធចង់បានកម្រិតណា។	ដូចជាការគណនាពិន្ទុពេលរកមើលអាវយឺតក្នុងទូខោអាវ ថាតើវាមានពណ៌ និងទំហំស្រដៀងនឹងអាវដែលអ្នកបានស្រមៃចង់ពាក់ប៉ុណ្ណា។
Concatenation cost	ជាតម្លៃវាយតម្លៃភាពរលូននៅពេលយកបំណែកសំឡេងពីរមកតភ្ជាប់គ្នា។ បើតម្លៃនេះតូច មានន័យថាសំឡេងទាំងពីរតភ្ជាប់គ្នាបានរលូនល្អ មិនមានការទាក់ ឬដាច់សំឡេងឡើយ។	ដូចជាការយកបំណែកល្បែងផ្គុំរូប (Jigsaw puzzle) ពីរមកតភ្ជាប់គ្នា បើវាស៊ីសង្វាក់គ្នាល្អ នោះស្នាមតភ្ជាប់នឹងមើលទៅរលូនស្អាតជាផ្ទាំងតែមួយ។
Kullback Leibler divergence (KLD)	ជារូបមន្តស្ថិតិសម្រាប់វាស់ស្ទង់ភាពខុសគ្នារវាងរបាយប្រូបាប៊ីលីតេពីរ ក្នុងបរិបទនេះវាប្រើដើម្បីប្រៀបធៀបភាពខុសគ្នារវាងលក្ខណៈសំឡេងគោលដៅ និងបំណែកសំឡេងបេក្ខជនដែលមានក្នុងឃ្លាំង។	ដូចជាឧបករណ៍សម្រាប់វាស់ប្រៀបធៀបរសជាតិមុខម្ហូបពីរមុខ ថាតើវាមានរសជាតិខុសគ្នាឆ្ងាយប៉ុនណា។
Viterbi search	ជាក្បួនដោះស្រាយ (Algorithm) ប្រើសម្រាប់ស្វែងរកផ្លូវ ឬជម្រើសបន្តបន្ទាប់គ្នាដែលល្អបំផុតនិងមានតម្លៃចំណាយ (Cost) ទាបបំផុត ក្នុងការតម្រៀបបំណែកសំឡេងបញ្ជូលគ្នា។	ដូចជាការប្រើកម្មវិធី Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតនិងមិនសូវមានស្ទះចរាចរណ៍ពីចំណុចមួយទៅចំណុចមួយទៀត ក្នុងចំណោមជម្រើសផ្លូវជាច្រើន។
Force alignment	ជាដំណើរការនៃការផ្គូផ្គងអត្ថបទទៅនឹងរលកសំឡេងដែលបានថតរួចដោយស្វ័យប្រវត្តិ ដើម្បីកំណត់កាត់ចំណែកយ៉ាងច្បាស់ថាតើពាក្យ ឬព្យាង្គនីមួយៗចាប់ផ្តើមនិងបញ្ចប់នៅវិនាទីទីប៉ុន្មាន។	ដូចជាការធ្វើអក្សររត់ខារ៉ាអូខេ (Karaoke subtitles) ដែលប្រព័ន្ធត្រូវចាប់ឲ្យអក្សរលោតពណ៌ឲ្យចំពេលដែលអ្នកចម្រៀងកំពុងបញ្ចេញសំឡេងពាក្យនោះ។
Outlier removal	ជាការបំបាត់ចោលនូវទិន្នន័យដែលមានតម្លៃខុសប្រក្រតី ឬខុសឆ្ងាយពីទិន្នន័យភាគច្រើន (ឧទាហរណ៍ សំឡេងដែលមានរយៈពេលអូសបន្លាយវែងខុសពីធម្មតា) ដើម្បីកុំឲ្យម៉ូដែលបញ្ញាសិប្បនិម្មិតរៀនទន្ទេញនូវកំហុស។	ដូចជាការរើសគ្រាប់ក្រួស ឬអង្កាមចេញពីអង្ករមុនពេលយកទៅដាំបាយ ដើម្បីធានាថាបាយមានគុណភាពល្អ និងឆ្ងាញ់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖