បញ្ហា (The Problem)៖ ឯកសារនេះបង្ហាញពីការអភិវឌ្ឍប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេង (Text-to-Speech) ដើម្បីបង្កើតសំឡេងអានសៀវភៅកុមារប្រកបដោយភាពរស់រវើក សម្រាប់ការប្រកួតប្រជែង Blizzard Challenge ឆ្នាំ 2016។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតប្រព័ន្ធកូនកាត់មួយ ដោយជំនួសម៉ូដែល HMM បែបប្រពៃណីជាមួយនឹងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត BLSTM សម្រាប់ការធ្វើម៉ូដែលសូរស័ព្ទ និងរយៈពេល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Decision tree based duration in HTS (Baseline) ការទស្សន៍ទាយរយៈពេលបញ្ចេញសំឡេងផ្អែកលើមែកធាងសេចក្តីសម្រេច (Decision Tree) ក្នុង HTS |
ជាវិធីសាស្ត្រស្តង់ដារដែលត្រូវបានប្រើប្រាស់ទូទៅ មានភាពងាយស្រួលក្នុងការអនុវត្តសម្រាប់ប្រព័ន្ធកូនកាត់ (Hybrid Systems)។ | មិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកទំនាក់ទំនងរយៈពេលវែង (Long-term dependencies) នៃទិន្នន័យភាសានោះទេ។ | មានកម្រិតកំហុស RMSE ចំនួន 43.67 ms លើការទស្សន៍ទាយរយៈពេល។ |
| BLSTM based duration prediction with outlier removal ការទស្សន៍ទាយរយៈពេលដោយប្រើបណ្ដាញ BLSTM រួមជាមួយនឹងការដកចេញទិន្នន័យខុសប្រក្រតី |
មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគលើទិន្នន័យបន្តបន្ទាប់គ្នា និងបង្កើនភាពត្រឹមត្រូវដោយការកាត់ចោលទិន្នន័យដែលលំអៀងខុសប្រក្រតី (Outliers)។ | ត្រូវការរៀបចំទិន្នន័យដោយប្រុងប្រយ័ត្ន និងបំប្លែងទិន្នន័យប្រភេទ Nominal ទៅជាតម្លៃលេខទាំងអស់។ | កាត់បន្ថយកំហុស RMSE មកត្រឹម 38.91 ms (ប្រសើរជាងមុន 10.90%)។ |
| Target cost: System 4 (KLD + LL) ការគណនាតម្លៃគោលដៅដោយផ្សំបញ្ចូលគ្នារវាង KLD និង LL |
ជួយកំណត់ឯកតាសំឡេងបានយ៉ាងល្អ និងផ្តល់លទ្ធផលគុណភាពសំឡេងធម្មជាតិ (MOS) ល្អបំផុតក្នុងការវាយតម្លៃផ្ទៃក្នុង។ | ទាមទារការគណនាស្មុគស្មាញ និងចំណាយពេលច្រើនក្នុងការស្វែងរក (Viterbi Search) ធៀបនឹងការប្រើ Euclidean Distance ធម្មតា។ | ទទួលបានពិន្ទុខ្ពស់ជាងគេក្នុងការធ្វើតេស្តវាយតម្លៃពីអ្នកស្តាប់ជំនាញធៀបនឹងការប្រើវិធីសាស្ត្រនីមួយៗដាច់ដោយឡែក។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង និងការរៀបចំទិន្នន័យកម្រិតខ្ពស់ ព្រោះវាពាក់ព័ន្ធនឹងការបង្ហាត់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត BLSTM ច្រើនស្រទាប់។
ការស្រាវជ្រាវនេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសៀវភៅកុមារជាភាសាអង់គ្លេសបែបអង់គ្លេស (British English) ដែលថតដោយមនុស្សស្រីតែម្នាក់។ ហេតុនេះម៉ូដែលនេះមានភាពលម្អៀងទៅរកសំឡេងស្ត្រី និងទម្រង់ភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា ការយកប្រព័ន្ធនេះមកអនុវត្តទាមទារការបង្កើតទិន្នន័យសំឡេងភាសាខ្មែរ (Khmer Speech Corpus) ដែលមានគុណភាពខ្ពស់ និងការរៀបចំឧបករណ៍វិភាគអត្ថបទភាសាខ្មែរឲ្យបានសុក្រឹត។
ទោះបីជាត្រូវបានបង្កើតសម្រាប់ភាសាអង់គ្លេសក្តី វិធីសាស្ត្រផ្អែកលើ BLSTM នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធសំយោគសំឡេងភាសាខ្មែរ (Khmer TTS) ប្រកបដោយភាពរស់រវើក។
ជារួម ការកែលម្អទៅលើឧបករណ៍វិភាគអត្ថបទភាសាខ្មែរ គឺជាគន្លឹះដ៏សំខាន់ដើម្បីអាចទាញយកអត្ថប្រយោជន៍ពេញលេញពីប្រព័ន្ធនេះសម្រាប់ទីផ្សារកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| BLSTM | ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាពចងចាំព័ត៌មានទាំងពីអតីតកាលនិងអនាគតកាល (ទិន្នន័យខាងមុខនិងខាងក្រោយ) នៅក្នុងលំដាប់ទិន្នន័យ ដើម្បីធ្វើការទស្សន៍ទាយលក្ខណៈសំឡេងបានកាន់តែសុក្រឹត។ | ដូចជាការអានសៀវភៅដោយមើលទាំងពាក្យខាងមុខ និងពាក្យខាងក្រោយព្រមគ្នា ដើម្បីយល់ន័យរបស់ពាក្យកណ្តាលឲ្យបានច្បាស់លាស់។ |
| Unit selection | ជាដំណើរការក្នុងប្រព័ន្ធសំយោគសំឡេង ដែលធ្វើការស្វែងរកនិងជ្រើសរើសបំណែកសំឡេងតូចៗ (ឯកតាសំឡេង) ពីមូលដ្ឋានទិន្នន័យសំឡេងដ៏ធំមួយ ដើម្បីយកមកតភ្ជាប់គ្នាបង្កើតជាប្រយោគថ្មី។ | ដូចជាការរើសអក្សរ ឬពាក្យដែលគេកាត់ជាកង់ៗពីទស្សនាវដ្តីចាស់ៗ យកមកតម្រៀបភ្ជាប់គ្នាដើម្បីបង្កើតជាសារថ្មីមួយ។ |
| Target cost | ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃថាតើបំណែកសំឡេងដែលបានជ្រើសរើសពីឃ្លាំងទិន្នន័យ មានលក្ខណៈជិតស្និទ្ធ ឬស្រដៀងទៅនឹងលក្ខណៈសំឡេងគោលដៅដែលប្រព័ន្ធចង់បានកម្រិតណា។ | ដូចជាការគណនាពិន្ទុពេលរកមើលអាវយឺតក្នុងទូខោអាវ ថាតើវាមានពណ៌ និងទំហំស្រដៀងនឹងអាវដែលអ្នកបានស្រមៃចង់ពាក់ប៉ុណ្ណា។ |
| Concatenation cost | ជាតម្លៃវាយតម្លៃភាពរលូននៅពេលយកបំណែកសំឡេងពីរមកតភ្ជាប់គ្នា។ បើតម្លៃនេះតូច មានន័យថាសំឡេងទាំងពីរតភ្ជាប់គ្នាបានរលូនល្អ មិនមានការទាក់ ឬដាច់សំឡេងឡើយ។ | ដូចជាការយកបំណែកល្បែងផ្គុំរូប (Jigsaw puzzle) ពីរមកតភ្ជាប់គ្នា បើវាស៊ីសង្វាក់គ្នាល្អ នោះស្នាមតភ្ជាប់នឹងមើលទៅរលូនស្អាតជាផ្ទាំងតែមួយ។ |
| Kullback Leibler divergence (KLD) | ជារូបមន្តស្ថិតិសម្រាប់វាស់ស្ទង់ភាពខុសគ្នារវាងរបាយប្រូបាប៊ីលីតេពីរ ក្នុងបរិបទនេះវាប្រើដើម្បីប្រៀបធៀបភាពខុសគ្នារវាងលក្ខណៈសំឡេងគោលដៅ និងបំណែកសំឡេងបេក្ខជនដែលមានក្នុងឃ្លាំង។ | ដូចជាឧបករណ៍សម្រាប់វាស់ប្រៀបធៀបរសជាតិមុខម្ហូបពីរមុខ ថាតើវាមានរសជាតិខុសគ្នាឆ្ងាយប៉ុនណា។ |
| Viterbi search | ជាក្បួនដោះស្រាយ (Algorithm) ប្រើសម្រាប់ស្វែងរកផ្លូវ ឬជម្រើសបន្តបន្ទាប់គ្នាដែលល្អបំផុតនិងមានតម្លៃចំណាយ (Cost) ទាបបំផុត ក្នុងការតម្រៀបបំណែកសំឡេងបញ្ជូលគ្នា។ | ដូចជាការប្រើកម្មវិធី Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតនិងមិនសូវមានស្ទះចរាចរណ៍ពីចំណុចមួយទៅចំណុចមួយទៀត ក្នុងចំណោមជម្រើសផ្លូវជាច្រើន។ |
| Force alignment | ជាដំណើរការនៃការផ្គូផ្គងអត្ថបទទៅនឹងរលកសំឡេងដែលបានថតរួចដោយស្វ័យប្រវត្តិ ដើម្បីកំណត់កាត់ចំណែកយ៉ាងច្បាស់ថាតើពាក្យ ឬព្យាង្គនីមួយៗចាប់ផ្តើមនិងបញ្ចប់នៅវិនាទីទីប៉ុន្មាន។ | ដូចជាការធ្វើអក្សររត់ខារ៉ាអូខេ (Karaoke subtitles) ដែលប្រព័ន្ធត្រូវចាប់ឲ្យអក្សរលោតពណ៌ឲ្យចំពេលដែលអ្នកចម្រៀងកំពុងបញ្ចេញសំឡេងពាក្យនោះ។ |
| Outlier removal | ជាការបំបាត់ចោលនូវទិន្នន័យដែលមានតម្លៃខុសប្រក្រតី ឬខុសឆ្ងាយពីទិន្នន័យភាគច្រើន (ឧទាហរណ៍ សំឡេងដែលមានរយៈពេលអូសបន្លាយវែងខុសពីធម្មតា) ដើម្បីកុំឲ្យម៉ូដែលបញ្ញាសិប្បនិម្មិតរៀនទន្ទេញនូវកំហុស។ | ដូចជាការរើសគ្រាប់ក្រួស ឬអង្កាមចេញពីអង្ករមុនពេលយកទៅដាំបាយ ដើម្បីធានាថាបាយមានគុណភាពល្អ និងឆ្ងាញ់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖