Original Title: Handling Large Audio Files in Audio Books for Building Synthetic Voices
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការចាត់ចែងឯកសារសំឡេងធំៗក្នុងសៀវភៅសំឡេងសម្រាប់ការបង្កើតសំឡេងសំយោគ

ចំណងជើងដើម៖ Handling Large Audio Files in Audio Books for Building Synthetic Voices

អ្នកនិពន្ធ៖ Kishore Prahallad (International Institute of Information Technology, Hyderabad, India / Carnegie Mellon University, USA), Alan W Black (Carnegie Mellon University, USA)

ឆ្នាំបោះពុម្ព៖ circa 2009-2010

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការបំបែកឯកសារសំឡេងធំៗ (Audio books) សម្រាប់សាងសង់ប្រព័ន្ធសំឡេងសំយោគ (Synthetic voices) តែងតែជួបប្រទះបញ្ហាកង្វះអង្គចងចាំ និងតម្រូវឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងកម្រិតខ្ពស់ដែលពិបាករកសម្រាប់ភាសាមួយចំនួន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវការកែប្រែក្បួនដោះស្រាយ Forced-alignment ស្តង់ដារចំនួនពីរប្រភេទ (SFA-1 និង SFA-2) ដើម្បីបំបែកឯកសារសំឡេងដោយស្វ័យប្រវត្តិ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Standard Forced-Alignment (FA-0)
ការតម្រឹមដោយបង្ខំតាមស្តង់ដារ
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងការកំណត់ព្រំដែនសូរស័ព្ទ (Phone boundaries) សម្រាប់ឯកសារសំឡេងខ្លីៗ។ ទាមទារអង្គចងចាំធំខ្លាំង (ត្រូវការ RAM រហូតដល់ ៣៦GB សម្រាប់សំឡេង ៣០នាទី) ដែលធ្វើឱ្យបរាជ័យក្នុងការប្រើលើឯកសារសៀវភៅសំឡេងវែងៗ។ ទទួលបានពិន្ទុ MCD គោល (Baseline) 5.27 លើទិន្នន័យ RMS។
Segmentation using FA-1 (SFA-1)
ការបំបែកឯកសារដោយប្រើ FA-1
អាចបំបែកឯកសារសំឡេងធំៗទៅជាបំណែកខ្លីៗ (៥-៣០ វិនាទី) ដោយមិនតម្រូវឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងខ្នាតធំ (ASR)។ កាត់ផ្តាច់សំឡេងដោយមិនខ្វល់ពីរចនាសម្ព័ន្ធប្រយោគ ឬកថាខណ្ឌ ដែលធ្វើឱ្យបាត់បង់លក្ខណៈ Prosody ដើមនៃល្បះ។ ទទួលបានពិន្ទុ MCD 5.27 លើទិន្នន័យ RMS និង 5.09 លើទិន្នន័យ EMMA ព្រមទាំងបំបែកសំឡេងបានដោយជោគជ័យ។
Segmentation using FA-2 (SFA-2)
ការបំបែកឯកសារដោយប្រើ FA-2
អាចបំបែកឯកសារវែងៗទៅជាល្បះឬកថាខណ្ឌពេញលេញ ដែលរក្សាបាននូវចង្វាក់សំឡេង (Prosody) យ៉ាងល្អសម្រាប់ការកសាងប្រព័ន្ធ TTS។ ទាមទារឱ្យមានអត្ថបទ (Text transcription) ដែលត្រូវគ្នាតាមលំដាប់លំដោយជាមួយនឹងសៀវភៅសំឡេង។ មានភាពល្អៀងជាមធ្យមត្រឹមតែ ២៣ មិល្លីវិនាទីពីឯកសារដើម និងទទួលបានពិន្ទុ MCD 5.04 (EMMA) ព្រមទាំងផ្តល់លទ្ធផលស្តាប់មិនខុសពីឯកសារដើមឡើយ។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រថ្មីនេះកាត់បន្ថយការប្រើប្រាស់ធនធានកុំព្យូទ័រយ៉ាងច្រើន ដោយជៀសវាងការបម្រុងទុកអង្គចងចាំទំហំធំ (Memory Allocation) សម្រាប់ឯកសារសំឡេងវែងៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (CMU ARCTIC និងសៀវភៅ EMMA ពី LibriVox) ដែលថតក្នុងស្ទូឌីយោគ្មានសំឡេងរំខាន។ សម្រាប់ប្រទេសកម្ពុជា នេះជាគំរូដ៏ល្អមួយ ព្រោះយើងអាចប្រមូលទិន្នន័យសំឡេងស្រដៀងគ្នានេះពីកម្មវិធីវិទ្យុ សៀវភៅធម៌ ឬរឿងនិទានខ្មែរ ដែលមានអ្នកអានច្បាស់លាស់ ដោយមិនបាច់បង្កើតទិន្នន័យថ្មីទាំងស្រុង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងស័ក្តិសមបំផុតសម្រាប់កម្ពុជា ពិសេសក្នុងការអភិវឌ្ឍប្រព័ន្ធបញ្ចេញសំឡេងភាសាខ្មែរ (Khmer Text-to-Speech) ក្នុងបរិបទខ្វះខាតធនធាន។

ជារួម បច្ចេកទេសបំបែកសំឡេងតាមរយៈ SFA-2 គឺជាច្រកផ្លូវដ៏មានប្រសិទ្ធភាព និងចំណាយតិច ក្នុងការទាញយកប្រយោជន៍ពីឯកសារសំឡេងធំៗ ដើម្បីពន្លឿនការបង្កើតសំឡេង AI ភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Acoustic Modeling: និស្សិតត្រូវស្វែងយល់ពីរបៀបដំណើរការនៃការតម្រឹមដោយបង្ខំ (Forced-alignment) និង Hidden Markov Models (HMM) ដោយសាកល្បងប្រើប្រាស់ CMU SphinxKaldi
  2. ប្រមូលនិងរៀបចំទិន្នន័យសៀវភៅសំឡេងខ្មែរ: ស្វែងរកសៀវភៅសំឡេងភាសាខ្មែរដែលមានរយៈពេលវែង (ឧ. រឿងមហាភារតៈ ឬរឿងទុំទាវ) ព្រមទាំងទាញយកអត្ថបទជា text រួចសម្អាតទិន្នន័យទាំងនោះ។
  3. អនុវត្តក្បួនដោះស្រាយ SFA-2: សរសេរកូដកែប្រែក្បួន Viterbi backtracking ដោយកំណត់លក្ខខណ្ឌបញ្ឈប់នៅចុងបញ្ចប់នៃកថាខណ្ឌ (ដូចរៀបរាប់ក្នុងសមីការទី ៨ និង ៩ នៃឯកសារ) ដោយប្រើប្រាស់ភាសា Python រួមជាមួយបណ្ណាល័យសំឡេង។
  4. កសាងប្រព័ន្ធសំឡេងសំយោគភាសាខ្មែរ (Khmer TTS): ប្រើប្រាស់ទិន្នន័យដែលបានបំបែករួច បញ្ចូលទៅក្នុងឧបករណ៍កសាង TTS ដូចជា FestvoxCLUSTERGEN ដើម្បីបង្កើតជាសំឡេង AI សាកល្បង។
  5. វាយតម្លៃគុណភាពសំឡេង: ធ្វើការប្រៀបធៀបគុណភាពសំឡេងដែលទទួលបានដោយប្រើរង្វាស់គោលបំណង Mel Cepstral Distortion (MCD) និងធ្វើតេស្តស្តាប់ផ្ទាល់ (Perceptual listening test) ជាមួយអ្នកនិយាយភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Forced-Alignment វាជាដំណើរការកុំព្យូទ័រក្នុងការផ្គូផ្គងសញ្ញាសំឡេងទៅនឹងអត្ថបទដែលបានសរសេរ (Text Transcriptions) ដោយស្វ័យប្រវត្តិ ដើម្បីកំណត់ព្រំដែនពេលវេលាចាប់ផ្តើមនិងបញ្ចប់នៃសូរស័ព្ទ (Phonemes) ឬពាក្យនីមួយៗនៅក្នុងឯកសារសំឡេង។ ដូចជាការយកអក្សររត់ (Subtitles) ទៅតម្រឹមឱ្យចំវិនាទីនៃពាក្យដែលតួអង្គកំពុងនិយាយក្នុងវីដេអូយ៉ាងសុក្រឹត ដើម្បីឱ្យដឹងថាពាក្យមួយណានិយាយនៅវិនាទីទីប៉ុន្មាន។
Hidden Markov Models (HMM) វាជាម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងមើលមិនឃើញ (Hidden states, ឧ. សូរស័ព្ទ) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតបាន (Observations, ឧ. រលកសំឡេងកាត់ជាកង់ៗ) ដែលវាដើរតួជាឆ្អឹងខ្នងក្នុងការសម្គាល់សម្លេង។ ដូចជាការទស្សន៍ទាយថាអាកាសធាតុម្សិលមិញភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងឬអត់នៅថ្ងៃនេះ។
Mel Cepstral Distortion (MCD) វាជារង្វាស់គោលបំណង (Objective measure) សម្រាប់វាយតម្លៃគុណភាពនៃសំឡេងសំយោគ (AI Voice) ដោយគណនាគម្លាតខុសគ្នារវាងរលកសំឡេងដែលបង្កើតដោយកុំព្យូទ័រ និងរលកសំឡេងដើមរបស់មនុស្សពិតប្រាកដ។ តួលេខកាន់តែតូច បង្ហាញថាសំឡេងកាន់តែមានគុណភាពល្អ។ ដូចជាការដាក់ពិន្ទុថាគំនូរចម្លងមួយផ្ទាំងដូចទៅនឹងរូបថតដើមប៉ុនណា ដោយប្រើប្រាស់ម៉ាស៊ីនស្កេនពណ៌ និងរង្វាស់ប្រវែង។
Viterbi backtracking វាក្បួនដោះស្រាយគណិតវិទ្យាក្នុងការតាមដានត្រឡប់ថយក្រោយ ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃសូរស័ព្ទដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត (Most likely sequence) បន្ទាប់ពីកុំព្យូទ័របានគណនា និងប្រមូលទិន្នន័យពីដើមដល់ចប់។ ដូចជាកម្មវិធី Google Maps ដែលគណនា និងរើសយកផ្លូវដែលលឿនបំផុតនិងល្អបំផុតដើម្បីទៅដល់គោលដៅ ក្នុងចំណោមជម្រើសផ្លូវរាប់ពាន់ដែលវាបានមើលទុក។
Prosody វាគឺជាលក្ខណៈនៃចង្វាក់ ការលើកដាក់សំឡេង (Intonation) កម្រិតខ្លាំងខ្សោយ និងសង្កត់ន័យនៅក្នុងការនិយាយ ដែលធ្វើឱ្យការបញ្ចេញសំឡេងរបស់ប្រព័ន្ធកុំព្យូទ័រមានលក្ខណៈធម្មជាតិដូចមនុស្ស និងមានមនោសញ្ចេតនា មិនស្តាប់ទៅរឹងៗដូចរ៉ូបូត។ ដូចជាការឡើងចុះនៃសម្លេងពេលយើងសួរថា "ទៅណា?" (សម្លេងឡើងចុងប្រយោគ) ធៀបនឹងការឆ្លើយថា "ទៅទីនោះ" (សម្លេងរាបស្មើ)។
Acoustic models វាគឺជាឯកសារទិន្នន័យដែលកុំព្យូទ័របានរៀន និងផ្ទុកនូវលក្ខណៈស្តង់ដារនៃសូរស័ព្ទនីមួយៗ (Phones) ដើម្បីយកទៅប្រើប្រាស់ជាគោលក្នុងការប្រៀបធៀប ទទួលស្គាល់ ឬបង្កើតសំឡេងថ្មីៗ។ ដូចជាវចនានុក្រមសំឡេងនៅក្នុងខួរក្បាលកុំព្យូទ័រ ដែលប្រាប់វាថាអក្សរ "ក" ត្រូវបញ្ចេញសំឡេងរំញ័រយ៉ាងដូចម្តេចតាមលក្ខណៈរូបវិទ្យា។
Mel-Frequency filters វាជាតម្រងកែច្នៃរលកសញ្ញាដែលយកមកត្រងសញ្ញាសំឡេង ដើម្បីទាញយកលក្ខណៈពិសេស (Feature extraction) ដោយវាត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សទទួលដឹង (ស្រូបយកញឹកញាប់នៃប្រេកង់ទាបៗបានល្អជាងប្រេកង់ខ្ពស់) ដើម្បីឱ្យកុំព្យូទ័រអាចវិភាគសំឡេងបានងាយស្រួល។ ដូចជាការបំពាក់វ៉ែនតាចម្រោះពន្លឺ ដើម្បីឱ្យកុំព្យូទ័រអាចមើលឃើញពណ៌ផ្សេងៗក្នុងកម្រិតពន្លឺដូចគ្នាទៅនឹងភ្នែករបស់មនុស្សដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖