បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធសំយោគសំឡេង (Text-to-Speech) ដែលស្តាប់ទៅមានលក្ខណៈធម្មជាតិសម្រាប់ភាសាដែលមានធនធានតិចតួច ដោយប្រើប្រាស់ទិន្នន័យព័ត៌មានវិទ្យុដែលមានអ្នកនិយាយច្រើននាក់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេងផ្អែកលើ HMM ដោយប្រើប្រាស់សំណុំទិន្នន័យរងផ្សេងៗគ្នា និងវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់ដោយមនុស្ស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline (All Data) ការប្រើប្រាស់ទិន្នន័យទាំងអស់ជាមូលដ្ឋាន (Baseline) |
ងាយស្រួលអនុវត្តដោយមិនចាំបាច់មានការវាយតម្លៃ ឬចម្រាញ់ទិន្នន័យស្មុគស្មាញមុនពេលហ្វឹកហាត់ម៉ូដែល។ | អាចផ្ទុកនូវទិន្នន័យដែលមានការបញ្ចេញសំឡេងមិនល្អ ឬមានលក្ខណៈរំខាន ដែលធ្វើឲ្យសំឡេងសំយោគបាត់បង់ភាពធម្មជាតិ។ | ត្រូវបានប្រើប្រាស់ជាចំណុចគោល (Baseline) សម្រាប់ប្រៀបធៀបជាមួយវិធីសាស្ត្រផ្សេងៗទៀតក្នុងការធ្វើតេស្តស្តាប់ (A/B testing)។ |
| Removal of Outliers (Hyper-articulated) ការដកចេញទិន្នន័យដែលមានការបញ្ចេញសំឡេងខ្លាំងខុសគេ (Outlier Removal) |
បង្កើនភាពធម្មជាតិនៃសំឡេងយ៉ាងមានប្រសិទ្ធភាព ដោយរក្សាបានទំហំទិន្នន័យធំគ្រាន់បើសម្រាប់ហ្វឹកហាត់ម៉ូដែល។ | ទាមទារការទាញយកលក្ខណៈសំឡេង (Acoustic features) ជាមុនសិន ដើម្បីគណនាមធ្យមភាគ និងគម្លាតស្តង់ដារសម្រាប់កំណត់ចំណុចកាត់កាល (Cutoff)។ | ទទួលបានការពេញចិត្ត 65.0% ធៀបនឹង Baseline ជាមួយនឹងកម្រិតជឿជាក់ខ្ពស់ (p=0.02)។ |
| Combination of Hypo-articulation & Low Mean F0 ការផ្សំគ្នានៃទិន្នន័យបញ្ចេញសំឡេងខ្សោយ និង F0 មធ្យមទាប |
ផ្តល់លទ្ធផលល្អបំផុតនៅពេលប្រើទំហំទិន្នន័យសមស្រប (២ម៉ោង) ដោយចម្រាញ់យកតែទិន្នន័យដែលមានលក្ខណៈធម្មជាតិខ្ពស់បំផុត។ | ការកំណត់ទំហំទិន្នន័យតូចពេក (ឧទាហរណ៍ ៣០នាទី) ធ្វើឲ្យបាត់បង់ព័ត៌មាន និងធ្វើឲ្យគុណភាពសំឡេងធ្លាក់ចុះវិញ។ | ទិន្នន័យដែលជ្រើសរើសដោយវិធីគុណ (២ម៉ោង) ទទួលបានការពេញចិត្ត 68.3% ធៀបនឹង Baseline (p=0.005)។ |
| Subset Adaptation (Speaker-Adaptive Training) ការបន្សាំម៉ូដែលទៅនឹងសំណុំទិន្នន័យរង |
អាចទាញយកអត្ថប្រយោជន៍ពីទិន្នន័យទាំងអស់ផង និងអាចបន្សាំសំឡេងទៅរកលក្ខណៈពិសេស (Feature) គោលដៅដែលយើងចង់បានផង។ | ចំណាយពេលយូរ និងត្រូវការធនធានកុំព្យូទ័រ (Computational resources) ច្រើនជាងការហ្វឹកហាត់ធម្មតា។ | ការបន្សាំទៅនឹងទិន្នន័យបញ្ចេញសំឡេងខ្សោយទំហំ ១ម៉ោង ទទួលបានការពេញចិត្ត 61.7% (p=0.07)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាវិធីសាស្ត្រមួយចំនួន ជាពិសេសការបន្សាំម៉ូដែល (Speaker-adaptive training) ទាមទារពេលវេលា និងធនធានកុំព្យូទ័រច្រើនគួរឲ្យកត់សម្គាល់។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យព័ត៌មានវិទ្យុជាភាសាអង់គ្លេសនៅសហរដ្ឋអាមេរិក (BURNC) និងវាយតម្លៃដោយអ្នកនិយាយភាសាអង់គ្លេសដើមប៉ុណ្ណោះ។ ទោះជាយ៉ាងណាក៏ដោយ វត្ថុបំណងចម្បងនៃការសិក្សានេះគឺដើម្បីស្វែងរកវិធីសាស្ត្រសម្រាប់ភាសាដែលមានធនធានតិចតួច (Low-resource languages) ដែលនេះជារឿងដ៏សំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះវាបង្ហាញថាទិន្នន័យ 'Found data' ដូចជាព័ត៌មានវិទ្យុអាចប្រើប្រាស់បានដោយមិនបាច់ចំណាយលុយថតសំឡេងក្នុងស្ទូឌីយោ។
វិធីសាស្ត្រក្នុងការជ្រើសរើស និងចម្រាញ់ទិន្នន័យនេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការអភិវឌ្ឍន៍ប្រព័ន្ធសំយោគសំឡេង (TTS) សម្រាប់ភាសាខ្មែរ។
ជារួម ការប្រើប្រាស់ទិន្នន័យដែលមានស្រាប់តាមរយៈការចម្រាញ់លក្ខណៈសំឡេង (Acoustic features) គឺជាដំណោះស្រាយដ៏សន្សំសំចៃ និងមានប្រសិទ្ធភាពសម្រាប់ជំរុញបច្ចេកវិទ្យា AI ផ្នែកភាសានៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Model (HMM) based speech synthesis | វាគឺជាវិធីសាស្ត្រស្ថិតិមួយក្នុងការបំប្លែងអត្ថបទទៅជាសំឡេង ដោយប្រព័ន្ធមិនបានកាត់តសំឡេងដែលថតទុករួចមកតភ្ជាប់គ្នាទេ ប៉ុន្តែវាប្រើប្រាស់គំរូគណិតវិទ្យាដើម្បីទស្សន៍ទាយ និងបង្កើតប៉ារ៉ាម៉ែត្រសំឡេង (ដូចជាកម្រិតសំឡេង និងប្រវែងពាក្យ) ថ្មីតែម្តង។ | ដូចជាចុងភៅដែលប្រើរូបមន្តគណិតវិទ្យាដើម្បីផ្សំសំឡេងសម្រាប់ពាក្យនីមួយៗភ្លាមៗ ជាជាងគ្រាន់តែយកចម្រៀងដែលថតទុករួចមកចាក់បញ្ចូលគ្នា។ |
| hyper-articulation | គឺជាការបញ្ចេញសំឡេងមួយៗយ៉ាងច្បាស់ៗខ្លាំងពេក ដោយប្រើកម្លាំងសង្កត់ និងមានល្បឿនយឺត ដែលការសិក្សានេះរកឃើញថាវាធ្វើឲ្យសំឡេង AI ស្តាប់ទៅបាត់បង់ភាពធម្មជាតិ។ | ដូចជាពេលដែលយើងខំប្រឹងនិយាយមួយៗយ៉ាងច្បាស់ទៅកាន់ជនបរទេស ដែលស្តាប់ទៅរឹងៗដូចមនុស្សយន្ត មិនមែនជាការនិយាយធម្មតា។ |
| hypo-articulation | គឺជាការបញ្ចេញសំឡេងដោយរលូន មិនសូវសង្កត់ខ្លាំង លឿនៗ និងមានការលាយបញ្ចូលគ្នានូវសូរសំឡេង ដែលជាលក្ខណៈធម្មតានៃការសន្ទនាប្រចាំថ្ងៃរបស់មនុស្ស និងជួយឲ្យប្រព័ន្ធ AI ស្តាប់ទៅមានភាពធម្មជាតិជាងមុន។ | ដូចជាការនិយាយលេងធម្មតាជាមួយមិត្តភក្តិ ដែលពាក្យសម្តីហូរចេញមករលូន មិនបាច់ប្រឹងតឹងសរសៃក និងស្តាប់ទៅមានលក្ខណៈធម្មជាតិពិតៗ។ |
| fundamental frequency (f0) | គឺជាប្រេកង់មូលដ្ឋានទាបបំផុតនៃរលកសំឡេង ដែលតំណាងឲ្យកម្ពស់ (Pitch) នៃសំឡេងមនុស្សម្នាក់ៗ ថាតើសំឡេងនោះស្រួច ឬធ្ងន់។ ក្នុងឯកសារនេះ ការប្រើទិន្នន័យដែលមាន f0 មធ្យមទាប ជួយឲ្យសំឡេងស្តាប់ទៅធម្មជាតិជាងមុន។ | ដូចជាការដេញខ្សែហ្គីតា ដែលសូរមូលដ្ឋានរបស់វាកំណត់ថាសំឡេងដែលចេញមកនោះជាសំឡេងធ្ងន់ ឬសំឡេងស្រួច។ |
| speaker-adaptive training | ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដោយបង្កើតម៉ូដែលសំឡេងកណ្តាលមួយពីមនុស្សច្រើននាក់សិន បន្ទាប់មកទើបប្រើរូបមន្តគណិតវិទ្យាដើម្បីកែតម្រូវ (Adapt) ម៉ូដែលនោះឲ្យដូចទៅនឹងសំឡេងរបស់មនុស្សណាម្នាក់ ឬលក្ខណៈសំឡេងណាមួយជាក់លាក់។ | ដូចជាការកាត់ខោអាវទំហំស្តង់ដារមួយ (ម៉ូដែលរួម) រួចទើបយកវាទៅកែតម្រូវឲ្យល្មមពិតប្រាកដទៅនឹងរាងកាយរបស់មនុស្សម្នាក់ៗ (ការបន្សាំ)។ |
| crowdsourced listening tests | ការវាយតម្លៃគុណភាពសំឡេងដោយមិនពឹងផ្អែកលើអ្នកជំនាញ២-៣នាក់ ប៉ុន្តែប្រើប្រាស់ប្រព័ន្ធអ៊ីនធឺណិត (ដូចជា Amazon Mechanical Turk) ដើម្បីជួលមនុស្សធម្មតារាប់សិបនាក់ឲ្យស្តាប់ និងផ្តល់មតិថាសំឡេងមួយណាពិរោះជាង។ | ដូចជាការឲ្យមនុស្សរាប់រយនាក់តាមអនឡាញភ្លក់រសជាតិការ៉េមថ្មី ដើម្បីដឹងថាអ្នកទូទៅចូលចិត្តវាឬអត់ ជាជាងសួរតែមេចុងភៅ។ |
| found data | ទិន្នន័យសំឡេងដែលមានស្រាប់ (ដូចជាការផ្សាយព័ត៌មានវិទ្យុ ឬវីដេអូ YouTube) ដែលត្រូវបានគេប្រមូលយកមកប្រើប្រាស់ហ្វឹកហាត់ម៉ូដែល AI ទោះបីជាដើមឡើយវាមិនមែនត្រូវថតឡើងក្នុងគោលបំណងសម្រាប់ធ្វើ AI នេះក៏ដោយ។ | ដូចជាការយកកាកសំណល់ប្លាស្ទិក ឬក្រដាសកាសែតចាស់ៗ មកកែច្នៃជារបស់ប្រើប្រាស់ថ្មី ជាជាងទៅកាប់ដើមឈើដើម្បីផលិតក្រដាសថ្មីស្រឡាង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖