បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតម៉ូដែលចង្វាក់សំឡេង (Prosody modeling) នៅក្នុងប្រព័ន្ធសំយោគសំឡេងភាសាចិន ដែលជារឿយៗខ្វះភាពរលូន និងលក្ខណៈធម្មជាតិដោយសារកង្វះការគិតគូរពីឥទ្ធិពលនៃបរិបទ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្រ្តផ្អែកលើទិន្នន័យ ដោយប្រើប្រាស់ម៉ូដែលស្ថិតិ និងយន្តការបណ្តុះបណ្តាលដោយស្វ័យប្រវត្តិ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Statistical Prosody Model with Transition Probabilities (Eq 22) ម៉ូដែលចង្វាក់សំឡេងតាមបែបស្ថិតិដែលមានអន្តរកម្មលក្ខណៈចង្វាក់ |
កំហុសទាបក្នុងការទស្សន៍ទាយកម្រិតសំឡេង (F0) និងបង្កើតសំឡេងបានរលូនតាមបែបធម្មជាតិ។ កាន់តែមានប្រសិទ្ធភាពខ្ពស់ក្នុងការទស្សន៍ទាយចង្វាក់សម្រាប់ប្រយោគវែងៗ។ | ទាមទារការគណនាស្មុគស្មាញជាងមុន ដោយសារត្រូវគិតគូរពីប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរចង្វាក់ (Transition probabilities) ឆ្លងកាត់ប្រយោគទាំងមូល។ | អត្រាកំហុសនៃការទស្សន៍ទាយកម្រិតសំឡេង (F0) មានការថយចុះជាលំដាប់នៅពេលចំនួនព្យាង្គក្នុងប្រយោគកើនឡើង (បង្ហាញក្នុងរូបភាពទី ៣)។ |
| Baseline Prosody Prediction without Correlation (Eq 12) ការទស្សន៍ទាយចង្វាក់សំឡេងដែលមិនគិតពីអន្តរកម្មលក្ខណៈ |
ការគណនាងាយស្រួល និងដំណើរការបានរហ័ស ដោយគ្រាន់តែពឹងផ្អែកលើអនុគមន៍តម្លៃ (Cost function) នៃបរិបទព្យាង្គនីមួយៗតែប៉ុណ្ណោះ។ | អត្រាកំហុសខ្ពស់ជាង ហើយមិនសូវមានលក្ខណៈធម្មជាតិ និងខ្វះចង្វាក់រលូនក្នុងការអានប្រយោគវែងៗ។ | អត្រាកំហុសខ្ពស់ជាងម៉ូដែលស្នើឡើងប្រមាណ ១០-២០ ហឺត (Hz) ហើយអត្រាកំហុសនេះមិនមានការប្រែប្រួលទោះបីជាប្រវែងប្រយោគប្រែប្រួលក៏ដោយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំកុំព្យូទ័រ (Hardware) ដែលត្រូវប្រើប្រាស់នោះទេ ប៉ុន្តែវាទាមទារទិន្នន័យជាក់លាក់ និងការប្រឹងប្រែងពីមនុស្សក្នុងការរៀបចំទិន្នន័យ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងភាសាចិនកុកងឺ (Mandarin) ដែលអានដោយអ្នកប្រកាសព័ត៌មានផ្លូវការ ដែលមានលក្ខណៈស្តង់ដារបំផុត។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្រ្តនេះទាមទារការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគ្រាមភាសាខុសៗគ្នា និងសូរសព្ទខុសពីភាសាចិន ដើម្បីធានាថាម៉ូដែលមិនលម្អៀង និងអាចប្រើប្រាស់បានទូលំទូលាយ។
វិធីសាស្ត្រនៃការបង្កើតម៉ូដែលចង្វាក់សំឡេងនេះ អាចយកមកអនុវត្ត និងកែច្នៃសម្រាប់អភិវឌ្ឍប្រព័ន្ធសំយោគសំឡេង (Text-to-Speech) ជាភាសាខ្មែរបានយ៉ាងមានសក្តានុពល។
ជារួម បើទោះបីជាវិធីសាស្រ្តនេះត្រូវបានរចនាសម្រាប់ភាសាចិន ដែលជាភាសាមានសំនៀង (Tonal language) ក៏ដោយ គោលគំនិតនៃម៉ូដែលស្ថិតិ និងការប្រើប្រាស់បរិបទ គឺជាគំរូដ៏ល្អសម្រាប់ប្រព័ន្ធ TTS ភាសាខ្មែរនាពេលអនាគត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Prosody Model | ម៉ូដែលគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយ និងបង្កើតចង្វាក់ ការលើកដាក់កម្ពស់សំឡេង និងល្បឿននៃការនិយាយនៅក្នុងប្រព័ន្ធសំយោគសំឡេង (Text-to-Speech) ដើម្បីឱ្យវាស្តាប់ទៅរលូនដូចជាមនុស្សពិត។ | ដូចជាមេភ្លេងដែលប្រាប់អ្នកចម្រៀងថាពេលណាត្រូវឡើងសំឡេង ពេលណាត្រូវចុះសំឡេង ឬអូសបន្លាយសំឡេង។ |
| Syllabic prosody features | លក្ខណៈនៃចង្វាក់ដែលភ្ជាប់ទៅនឹងព្យាង្គនីមួយៗ រួមមានកម្រិតសំឡេង (Pitch) រយៈពេលនៃការបញ្ចេញសំឡេង (Duration) និងថាមពលឬកម្រិតខ្លាំងខ្សោយនៃសំឡេង (Energy) ក្នុងបរិបទប្រយោគជុំវិញវា។ | ដូចជាទម្រង់នៃការបញ្ចេញសំឡេងសម្រាប់ពាក្យមួយម៉ាត់ៗ ថាតើត្រូវនិយាយខ្លាំង ខ្សោយ ខ្លី ឬវែងក្នុងកាលៈទេសៈផ្សេងៗ។ |
| Pitch curve clustering | ដំណើរការនៃការប្រមូលផ្តុំទម្រង់ខ្សែកោងនៃកម្រិតសំឡេង (F0 contours) ដែលមានលក្ខណៈស្រដៀងគ្នាទៅជាក្រុមតែមួយ ដើម្បីបង្កើតជាពុម្ពគំរូ (Templates) សម្រាប់ប្រើប្រាស់ឡើងវិញក្នុងការទស្សន៍ទាយសំឡេង។ | ដូចជាការតម្រៀបនិងបែងចែកផ្លែឈើតាមទំហំនិងរូបរាងជាក្រុមៗ ដើម្បីងាយស្រួលយកទៅវេចខ្ចប់តាមប្រភេទតែមួយ។ |
| Cost function | រូបមន្តគណិតវិទ្យាដែលប្រើសម្រាប់គណនាពីកម្រិតនៃកំហុស ឬភាពខុសគ្នារវាងលក្ខណៈចង្វាក់ដែលប្រព័ន្ធបានជ្រើសរើស ជាមួយនឹងលក្ខណៈចង្វាក់គោលដៅក្នុងន័យស្វែងរកជម្រើសដែលល្អបំផុត (មានតម្លៃ Cost ទាបបំផុត)។ | ដូចជាការគណនាប្រៀបធៀបតម្លៃទំនិញនៅតាមហាងផ្សេងៗ ដើម្បីរកទិញទំនិញដែលល្អហើយមានតម្លៃថោកបំផុត (ខាតបង់តិចបំផុត)។ |
| Viterbi search | ក្បួនដោះស្រាយ (Algorithm) តាមបែបស្ថិតិ ដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬជម្រើសដែលល្អបំផុតក្នុងចំណោមជម្រើសជាច្រើនបន្តបន្ទាប់គ្នា ដោយផ្អែកលើប្រូបាប៊ីលីតេ ដើម្បីធានាថាការភ្ជាប់សំឡេងពេញមួយប្រយោគមានភាពរលូនបំផុត។ | ដូចជាកម្មវិធី Google Maps ដែលរៀបចំគណនាស្វែងរកផ្លូវធ្វើដំណើរពីចំណុច A ទៅចំណុច B តាមរយៈផ្លូវដែលលឿន និងជៀសវាងការកកស្ទះចរាចរណ៍បានល្អបំផុត។ |
| Coarticulation | បាតុភូតផ្នែកសូរសព្ទដែលការបញ្ចេញសំឡេងនៃព្យាង្គ ឬសូរមួយ ត្រូវបានជះឥទ្ធិពលដោយសូរដែលនៅពីមុខ ឬពីក្រោយវា ធ្វើឱ្យមានការផ្លាស់ប្តូរកម្រិតសំឡេង ឬលក្ខណៈសូរសព្ទដើម។ | ដូចជាការលាយពណ៌រវាងពណ៌ក្រហម និងពណ៌លឿងនៅលើផ្ទាំងគំនូរ ដែលធ្វើឱ្យតំបន់ព្រំដែនក្លាយជាពណ៌ទឹកក្រូចដោយស្វ័យប្រវត្តិ។ |
| Transition probability | ប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរពីស្ថានភាពមួយ (ឧទាហរណ៍៖ ចង្វាក់នៃព្យាង្គទី១) ទៅស្ថានភាពមួយទៀត (ឧទាហរណ៍៖ ចង្វាក់នៃព្យាង្គទី២) ដែលជួយឱ្យម៉ូដែលដឹងថាទម្រង់សំឡេងណាដែលច្រើនកើតមានបន្តបន្ទាប់គ្នាក្នុងភាសាធម្មជាតិ។ | ដូចជាការទស្សន៍ទាយថា បើមេឃងងឹត (ស្ថានភាពទី១) នោះប្រូបាប៊ីលីតេដែលនឹងមានភ្លៀងធ្លាក់ (ស្ថានភាពទី២) បន្តបន្ទាប់គឺមានកម្រិតខ្ពស់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖