បញ្ហា (The Problem)៖ ឯកសារនេះស្វែងរកវិធីសាស្ត្រក្នុងការបង្កើតសំឡេងសំយោគ Text-to-Speech (TTS) ដែលស្តាប់ទៅមានលក្ខណៈធម្មជាតិសម្រាប់ភាសាដែលខ្វះខាតធនធាន ដោយប្រើប្រាស់ទិន្នន័យដែលមានស្រាប់ (ដូចជាព័ត៌មានវិទ្យុដែលមានអ្នកនិយាយច្រើននាក់)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់ទិន្នន័យសំឡេងព័ត៌មានវិទ្យុ (BURNC) ដើម្បីហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេងដោយផ្អែកលើ HMM និងធ្វើការវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline Voice (All Data) ម៉ូដែលសំឡេងគោល (ប្រើទិន្នន័យទាំងអស់) |
ងាយស្រួលក្នុងការអនុវត្ត ដោយប្រើប្រាស់ទិន្នន័យទាំងអស់ដែលមានដើម្បីផ្តល់នូវសំឡេងដែលមានស្ថិរភាពជាទូទៅ។ | រួមបញ្ចូលទិន្នន័យដែលមានសំឡេងរំខាន ឬទម្រង់នៃការនិយាយដែលមិនសូវស័ក្តិសមសម្រាប់ការសំយោគសំឡេង (TTS)។ | ទទួលបានពិន្ទុ MOS ២.៦៨ (សម្រាប់សំឡេងស្ត្រី) និងត្រូវបានប្រើជាគោលសម្រាប់ប្រៀបធៀប។ |
| Feature-based Data Selection ការជ្រើសរើសទិន្នន័យតាមលក្ខណៈពិសេស (ឧ. f0, ថាមពល, ល្បឿន) |
ព្យាយាមចម្រាញ់យកទិន្នន័យមិនល្អចេញ និងស្វែងរកល្បះដែលមានលក្ខណៈធម្មជាតិបំផុតដោយស្វ័យប្រវត្តិ។ | មិនទទួលបានលទ្ធផលល្អជាងការប្រើទិន្នន័យទាំងអស់នោះទេ ហើយសំណុំខ្លះ (ឧ. និយាយយឺត) ទទួលបានលទ្ធផលអន់មែនទែន។ | ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលគោលបន្តិចបន្តួចក្នុងករណីខ្លះ ប៉ុន្តែមិនមានលក្ខណៈសំខាន់តាមស្ថិតិ (Not statistically significant)។ |
| Monotone Interpolation ការបូកបញ្ចូលជាមួយម៉ូដែលសំឡេងថេរ |
ជួយកាត់បន្ថយភាពដាច់ៗ (choppiness) នៃកម្រិតសំឡេង (f0 contour) ធ្វើឱ្យការស្តាប់ទៅមានភាពរលូនជាងមុន។ | អាចធ្វើឱ្យសំឡេងបាត់បង់ការបញ្ចេញមនោសញ្ចេតនាខ្លះដោយសារការលាយបញ្ចូលគ្នាជាមួយសំឡេងដែលមានកម្រិតថេរ។ | ជាវិធីសាស្ត្រតែមួយគត់ដែលត្រូវបានអ្នកស្តាប់ពេញចិត្តច្រើនជាងម៉ូដែលគោលយ៉ាងពិតប្រាកដ (៦៣.៣%, p=0.04) សម្រាប់អ្នកនិយាយស្ត្រី។ |
| Speaker Adaptive Training (SAT) AVM ម៉ូដែល SAT ហ្វឹកហាត់លើអ្នកនិយាយច្រើននាក់ |
ត្រូវបានរចនាឡើងដើម្បីបង្កើតម៉ូដែលសំឡេងដែលមានស្ថិរភាពពីទិន្នន័យរបស់អ្នកនិយាយចម្រុះគ្នា។ | ទាមទារកម្លាំងកុំព្យូទ័រខ្លាំងក្នុងការហ្វឹកហាត់ និងមិនបានផ្តល់នូវសំឡេងល្អជាងម៉ូដែលគោលគួរឱ្យកត់សម្គាល់នោះទេ។ | ទទួលបានការពេញចិត្ត ៥៦.៧% សម្រាប់ស្ត្រី និង ៤៨.៣% សម្រាប់បុរស បើធៀបនឹងម៉ូដែលគោល (មិនមានលក្ខណៈសំខាន់តាមស្ថិតិ)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ កម្មវិធីជំនាញសម្រាប់ការវិភាគ និងទិន្នន័យសំឡេងដែលត្រូវបានកត់ត្រាអត្ថបទរួចជាស្រេចសម្រាប់ការហ្វឹកហាត់ម៉ូដែល HMM។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងពីអ្នកអានព័ត៌មានវិទ្យុនៅទីក្រុង Boston សហរដ្ឋអាមេរិក (BURNC) ដែលជាទិន្នន័យភាសាអង់គ្លេសសុទ្ធ។ ទោះបីជាគោលដៅនៃឯកសារគឺចង់ជួយដល់ភាសាដែលខ្វះខាតធនធាន (LRLs) ក៏ដោយ ការធ្វើតេស្តបឋមនេះមានភាពលម្អៀងទៅលើទម្រង់សំឡេងនៃភាសាអង់គ្លេស។ នេះជារឿងសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់នៃការបញ្ចេញសំឡេង និងសូរសព្ទខុសគ្នាស្រឡះ ដែលទាមទារឱ្យមានការសាកល្បងដោយផ្ទាល់លើទិន្នន័យភាសាខ្មែរទើបដឹងលទ្ធផលច្បាស់លាស់។
វិធីសាស្ត្រក្នុងការទាញយកទិន្នន័យ "Found data" នេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ក្នុងការអភិវឌ្ឍប្រព័ន្ធ Text-to-Speech (TTS) ដោយសន្សំសំចៃការចំណាយ។
សរុបមក ការប្រើប្រាស់វិធីសាស្ត្រកាត់បន្ថយភាពដាច់ៗនៃសំឡេង និងការទាញយកប្រយោជន៍ពីទិន្នន័យព័ត៌មានដែលមានស្រាប់ គឺជាផ្លូវកាត់ដ៏មានប្រសិទ្ធភាពសម្រាប់អភិវឌ្ឍបច្ចេកវិទ្យាសំឡេង (Speech Tech) នៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Text-to-Speech (TTS) | បច្ចេកវិទ្យាក្នុងការបំប្លែងអត្ថបទសរសេរទៅជាសំឡេងនិយាយដោយប្រើប្រាស់ប្រព័ន្ធកុំព្យូទ័រ ដើម្បីបង្កើតការសន្ទនាដោយស្វ័យប្រវត្តិ។ | ដូចជាការឱ្យមនុស្សយន្តអានសៀវភៅ ឬអត្ថបទព័ត៌មានឱ្យយើងស្តាប់ដោយស្វ័យប្រវត្តិ។ |
| Hidden Markov Model (HMM) | ម៉ូដែលស្ថិតិមួយប្រភេទដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសំយោគសំឡេង ដោយវាធ្វើការទស្សន៍ទាយនិងបង្កើតលក្ខណៈសូរសព្ទបន្តបន្ទាប់គ្នាដោយផ្អែកលើទិន្នន័យដែលបានហ្វឹកហាត់។ | ដូចជាការទស្សន៍ទាយពាក្យបន្ទាប់ដែលមិត្តភក្តិអ្នកនឹងនិយាយ ដោយផ្អែកលើការសង្កេតទម្លាប់នៃការនិយាយរបស់ពួកគេកន្លងមក។ |
| Speaker Adaptive Training (SAT) | ដំណើរការហ្វឹកហាត់ម៉ូដែលសំឡេងដែលទាញយក និងសម្របតាមលក្ខណៈពិសេសរបស់អ្នកនិយាយច្រើននាក់ ដើម្បីបង្កើតបានជាម៉ូដែលមូលដ្ឋានមួយដ៏រឹងមាំ និងមានស្ថិរភាព។ | ដូចជាការស្តាប់មនុស្ស១០នាក់ផ្សេងគ្នានិយាយពាក្យតែមួយ ដើម្បីទាញយកទម្រង់ស្តង់ដារនៃការបញ្ចេញសំឡេងពាក្យនោះ។ |
| Average Voice Model (AVM) | ម៉ូដែលសំឡេងជាមធ្យមដែលត្រូវបានបង្កើតឡើងដោយការរួមបញ្ចូលទិន្នន័យសំឡេងពីអ្នកនិយាយច្រើននាក់ចូលគ្នា ដើម្បីប្រើប្រាស់ជាគ្រោងឆ្អឹងសម្រាប់បង្កើតសំឡេងថ្មី។ | ដូចជាការយកទឹកដមសំឡេងរបស់មនុស្សជាច្រើននាក់មកក្រឡុកចូលគ្នា ដើម្បីបង្កើតជាសំឡេងថ្មីមួយដែលតំណាងឱ្យសំឡេងជាមធ្យមរបស់ពួកគេ។ |
| Fundamental frequency (f0) | រលកប្រេកង់គោលនៃសំឡេង ដែលជាទូទៅវាស់កម្រិតសម្លេង (Pitch) របស់អ្នកនិយាយ ថាតើវាជាសំឡេងស្រួច ឬសំឡេងធ្ងន់។ | ដូចជាកម្រិតរឹតបន្តឹងនៃខ្សែហ្គីតា បើខ្សែតឹងខ្លាំង សំឡេងនឹងលាន់ចេញមកស្រួចខ្ពស់ (f0 ខ្ពស់)។ |
| Monotone Interpolation | ការបូកបញ្ចូលម៉ូដែលសំឡេងធម្មតាជាមួយនឹងម៉ូដែលសំឡេងដែលមានកម្រិតរលកសំឡេងថេរ (គ្មានការឡើងចុះ) ក្នុងគោលបំណងកាត់បន្ថយភាពរអាក់រអួល ឬភាពដាច់ៗនៃសំឡេងសំយោគ។ | ដូចជាការលាយថ្នាំពណ៌ដែលឆើតខ្លាំងជាមួយនឹងពណ៌ស ដើម្បីឱ្យពណ៌ចេញមកទន់ស្រទន់ និងរលូនសាច់ជាងមុន។ |
| Low Resource Languages (LRLs) | ភាសាដែលមិនសូវមានការស្រាវជ្រាវ និងខ្វះខាតទិន្នន័យឌីជីថល (ដូចជា វចនានុក្រម អត្ថបទ សម្លេង) គ្រប់គ្រាន់សម្រាប់បណ្តុះបណ្តាលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។ | ដូចជាសៀវភៅកម្រដែលមានលក់តែក្នុងបណ្ណាល័យតូចមួយ ដែលពិបាករកឯកសារយោង និងព័ត៌មានលម្អិត។ |
| Mean Opinion Score (MOS) | ប្រព័ន្ធរង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃគុណភាព និងភាពធម្មជាតិនៃសំឡេង ដោយតម្រូវឱ្យអ្នកស្តាប់ជាមនុស្សផ្តល់ពិន្ទុពី ១ (អន់បំផុត) ដល់ ៥ (ល្អបំផុត)។ | ដូចជាការផ្តល់ចំណាត់ថ្នាក់ផ្កាយ ១ ដល់ ៥ ទៅលើសេវាកម្មភោជនីយដ្ឋានណាមួយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖