បញ្ហា (The Problem)៖ ការបំបែកឯកសារសំឡេងធំៗ (Audio books) សម្រាប់សាងសង់ប្រព័ន្ធសំឡេងសំយោគ (Synthetic voices) តែងតែជួបប្រទះបញ្ហាកង្វះអង្គចងចាំ និងតម្រូវឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងកម្រិតខ្ពស់ដែលពិបាករកសម្រាប់ភាសាមួយចំនួន។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវការកែប្រែក្បួនដោះស្រាយ Forced-alignment ស្តង់ដារចំនួនពីរប្រភេទ (SFA-1 និង SFA-2) ដើម្បីបំបែកឯកសារសំឡេងដោយស្វ័យប្រវត្តិ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard Forced-Alignment (FA-0) ការតម្រឹមដោយបង្ខំតាមស្តង់ដារ |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងការកំណត់ព្រំដែនសូរស័ព្ទ (Phone boundaries) សម្រាប់ឯកសារសំឡេងខ្លីៗ។ | ទាមទារអង្គចងចាំធំខ្លាំង (ត្រូវការ RAM រហូតដល់ ៣៦GB សម្រាប់សំឡេង ៣០នាទី) ដែលធ្វើឱ្យបរាជ័យក្នុងការប្រើលើឯកសារសៀវភៅសំឡេងវែងៗ។ | ទទួលបានពិន្ទុ MCD គោល (Baseline) 5.27 លើទិន្នន័យ RMS។ |
| Segmentation using FA-1 (SFA-1) ការបំបែកឯកសារដោយប្រើ FA-1 |
អាចបំបែកឯកសារសំឡេងធំៗទៅជាបំណែកខ្លីៗ (៥-៣០ វិនាទី) ដោយមិនតម្រូវឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងខ្នាតធំ (ASR)។ | កាត់ផ្តាច់សំឡេងដោយមិនខ្វល់ពីរចនាសម្ព័ន្ធប្រយោគ ឬកថាខណ្ឌ ដែលធ្វើឱ្យបាត់បង់លក្ខណៈ Prosody ដើមនៃល្បះ។ | ទទួលបានពិន្ទុ MCD 5.27 លើទិន្នន័យ RMS និង 5.09 លើទិន្នន័យ EMMA ព្រមទាំងបំបែកសំឡេងបានដោយជោគជ័យ។ |
| Segmentation using FA-2 (SFA-2) ការបំបែកឯកសារដោយប្រើ FA-2 |
អាចបំបែកឯកសារវែងៗទៅជាល្បះឬកថាខណ្ឌពេញលេញ ដែលរក្សាបាននូវចង្វាក់សំឡេង (Prosody) យ៉ាងល្អសម្រាប់ការកសាងប្រព័ន្ធ TTS។ | ទាមទារឱ្យមានអត្ថបទ (Text transcription) ដែលត្រូវគ្នាតាមលំដាប់លំដោយជាមួយនឹងសៀវភៅសំឡេង។ | មានភាពល្អៀងជាមធ្យមត្រឹមតែ ២៣ មិល្លីវិនាទីពីឯកសារដើម និងទទួលបានពិន្ទុ MCD 5.04 (EMMA) ព្រមទាំងផ្តល់លទ្ធផលស្តាប់មិនខុសពីឯកសារដើមឡើយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រថ្មីនេះកាត់បន្ថយការប្រើប្រាស់ធនធានកុំព្យូទ័រយ៉ាងច្រើន ដោយជៀសវាងការបម្រុងទុកអង្គចងចាំទំហំធំ (Memory Allocation) សម្រាប់ឯកសារសំឡេងវែងៗ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (CMU ARCTIC និងសៀវភៅ EMMA ពី LibriVox) ដែលថតក្នុងស្ទូឌីយោគ្មានសំឡេងរំខាន។ សម្រាប់ប្រទេសកម្ពុជា នេះជាគំរូដ៏ល្អមួយ ព្រោះយើងអាចប្រមូលទិន្នន័យសំឡេងស្រដៀងគ្នានេះពីកម្មវិធីវិទ្យុ សៀវភៅធម៌ ឬរឿងនិទានខ្មែរ ដែលមានអ្នកអានច្បាស់លាស់ ដោយមិនបាច់បង្កើតទិន្នន័យថ្មីទាំងស្រុង។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងស័ក្តិសមបំផុតសម្រាប់កម្ពុជា ពិសេសក្នុងការអភិវឌ្ឍប្រព័ន្ធបញ្ចេញសំឡេងភាសាខ្មែរ (Khmer Text-to-Speech) ក្នុងបរិបទខ្វះខាតធនធាន។
ជារួម បច្ចេកទេសបំបែកសំឡេងតាមរយៈ SFA-2 គឺជាច្រកផ្លូវដ៏មានប្រសិទ្ធភាព និងចំណាយតិច ក្នុងការទាញយកប្រយោជន៍ពីឯកសារសំឡេងធំៗ ដើម្បីពន្លឿនការបង្កើតសំឡេង AI ភាសាខ្មែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Forced-Alignment | វាជាដំណើរការកុំព្យូទ័រក្នុងការផ្គូផ្គងសញ្ញាសំឡេងទៅនឹងអត្ថបទដែលបានសរសេរ (Text Transcriptions) ដោយស្វ័យប្រវត្តិ ដើម្បីកំណត់ព្រំដែនពេលវេលាចាប់ផ្តើមនិងបញ្ចប់នៃសូរស័ព្ទ (Phonemes) ឬពាក្យនីមួយៗនៅក្នុងឯកសារសំឡេង។ | ដូចជាការយកអក្សររត់ (Subtitles) ទៅតម្រឹមឱ្យចំវិនាទីនៃពាក្យដែលតួអង្គកំពុងនិយាយក្នុងវីដេអូយ៉ាងសុក្រឹត ដើម្បីឱ្យដឹងថាពាក្យមួយណានិយាយនៅវិនាទីទីប៉ុន្មាន។ |
| Hidden Markov Models (HMM) | វាជាម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងមើលមិនឃើញ (Hidden states, ឧ. សូរស័ព្ទ) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតបាន (Observations, ឧ. រលកសំឡេងកាត់ជាកង់ៗ) ដែលវាដើរតួជាឆ្អឹងខ្នងក្នុងការសម្គាល់សម្លេង។ | ដូចជាការទស្សន៍ទាយថាអាកាសធាតុម្សិលមិញភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងឬអត់នៅថ្ងៃនេះ។ |
| Mel Cepstral Distortion (MCD) | វាជារង្វាស់គោលបំណង (Objective measure) សម្រាប់វាយតម្លៃគុណភាពនៃសំឡេងសំយោគ (AI Voice) ដោយគណនាគម្លាតខុសគ្នារវាងរលកសំឡេងដែលបង្កើតដោយកុំព្យូទ័រ និងរលកសំឡេងដើមរបស់មនុស្សពិតប្រាកដ។ តួលេខកាន់តែតូច បង្ហាញថាសំឡេងកាន់តែមានគុណភាពល្អ។ | ដូចជាការដាក់ពិន្ទុថាគំនូរចម្លងមួយផ្ទាំងដូចទៅនឹងរូបថតដើមប៉ុនណា ដោយប្រើប្រាស់ម៉ាស៊ីនស្កេនពណ៌ និងរង្វាស់ប្រវែង។ |
| Viterbi backtracking | វាក្បួនដោះស្រាយគណិតវិទ្យាក្នុងការតាមដានត្រឡប់ថយក្រោយ ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃសូរស័ព្ទដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត (Most likely sequence) បន្ទាប់ពីកុំព្យូទ័របានគណនា និងប្រមូលទិន្នន័យពីដើមដល់ចប់។ | ដូចជាកម្មវិធី Google Maps ដែលគណនា និងរើសយកផ្លូវដែលលឿនបំផុតនិងល្អបំផុតដើម្បីទៅដល់គោលដៅ ក្នុងចំណោមជម្រើសផ្លូវរាប់ពាន់ដែលវាបានមើលទុក។ |
| Prosody | វាគឺជាលក្ខណៈនៃចង្វាក់ ការលើកដាក់សំឡេង (Intonation) កម្រិតខ្លាំងខ្សោយ និងសង្កត់ន័យនៅក្នុងការនិយាយ ដែលធ្វើឱ្យការបញ្ចេញសំឡេងរបស់ប្រព័ន្ធកុំព្យូទ័រមានលក្ខណៈធម្មជាតិដូចមនុស្ស និងមានមនោសញ្ចេតនា មិនស្តាប់ទៅរឹងៗដូចរ៉ូបូត។ | ដូចជាការឡើងចុះនៃសម្លេងពេលយើងសួរថា "ទៅណា?" (សម្លេងឡើងចុងប្រយោគ) ធៀបនឹងការឆ្លើយថា "ទៅទីនោះ" (សម្លេងរាបស្មើ)។ |
| Acoustic models | វាគឺជាឯកសារទិន្នន័យដែលកុំព្យូទ័របានរៀន និងផ្ទុកនូវលក្ខណៈស្តង់ដារនៃសូរស័ព្ទនីមួយៗ (Phones) ដើម្បីយកទៅប្រើប្រាស់ជាគោលក្នុងការប្រៀបធៀប ទទួលស្គាល់ ឬបង្កើតសំឡេងថ្មីៗ។ | ដូចជាវចនានុក្រមសំឡេងនៅក្នុងខួរក្បាលកុំព្យូទ័រ ដែលប្រាប់វាថាអក្សរ "ក" ត្រូវបញ្ចេញសំឡេងរំញ័រយ៉ាងដូចម្តេចតាមលក្ខណៈរូបវិទ្យា។ |
| Mel-Frequency filters | វាជាតម្រងកែច្នៃរលកសញ្ញាដែលយកមកត្រងសញ្ញាសំឡេង ដើម្បីទាញយកលក្ខណៈពិសេស (Feature extraction) ដោយវាត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សទទួលដឹង (ស្រូបយកញឹកញាប់នៃប្រេកង់ទាបៗបានល្អជាងប្រេកង់ខ្ពស់) ដើម្បីឱ្យកុំព្យូទ័រអាចវិភាគសំឡេងបានងាយស្រួល។ | ដូចជាការបំពាក់វ៉ែនតាចម្រោះពន្លឺ ដើម្បីឱ្យកុំព្យូទ័រអាចមើលឃើញពណ៌ផ្សេងៗក្នុងកម្រិតពន្លឺដូចគ្នាទៅនឹងភ្នែករបស់មនុស្សដែរ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖