Original Title: Handling Large Audio Files in Audio Books for Building Synthetic Voices
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការចាត់ចែងឯកសារសំឡេងធំៗក្នុងសៀវភៅសំឡេងសម្រាប់ការបង្កើតសំឡេងសំយោគ

ចំណងជើងដើម៖ Handling Large Audio Files in Audio Books for Building Synthetic Voices

អ្នកនិពន្ធ៖ Kishore Prahallad (International Institute of Information Technology, Hyderabad, India / Carnegie Mellon University, USA), Alan W Black (Carnegie Mellon University, USA)

ឆ្នាំបោះពុម្ព៖ circa 2009-2010

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការបំបែកឯកសារសំឡេងធំៗ (Audio books) សម្រាប់សាងសង់ប្រព័ន្ធសំឡេងសំយោគ (Synthetic voices) តែងតែជួបប្រទះបញ្ហាកង្វះអង្គចងចាំ និងតម្រូវឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងកម្រិតខ្ពស់ដែលពិបាករកសម្រាប់ភាសាមួយចំនួន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវការកែប្រែក្បួនដោះស្រាយ Forced-alignment ស្តង់ដារចំនួនពីរប្រភេទ (SFA-1 និង SFA-2) ដើម្បីបំបែកឯកសារសំឡេងដោយស្វ័យប្រវត្តិ។

ការទាញយកលក្ខណៈពិសេសនៃសញ្ញាសំឡេង (Feature Extraction) និងការកសាងគំរូសូរស័ព្ទ (Acoustic models)
ការកែប្រែក្បួនដោះស្រាយ Forced-alignment ដើម្បីអនុញ្ញាតឱ្យមានការបំបែកសេក្វង់កម្រិតខ្លីៗ (SFA-1 សម្រាប់បំណែក ១-៣០ វិនាទី និង SFA-2 សម្រាប់កម្រិតកថាខណ្ឌ)
ការវាយតម្លៃដោយប្រើឯកសារសំឡេងសិប្បនិម្មិតរយៈពេល ៦៦ នាទី និងសំណុំទិន្នន័យ EMMA ទំហំ ១៧,៥ ម៉ោង ព្រមទាំងតេស្តគុណភាពសំឡេង (TTS evaluation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ SFA-2 អាចចាប់យកចំណុចចាប់ផ្តើម និងបញ្ចប់នៃល្បះសំឡេងដោយមានភាពខុសគ្នាជាមធ្យមត្រឹមតែ ២៣ មិល្លីវិនាទី បើធៀបនឹងឯកសារដើម។
សំឡេងសំយោគ (TTS) ដែលបង្កើតឡើងពីឯកសារបំបែកដោយ SFA-2 ទទួលបានពិន្ទុ Mel Cepstral Distortion (MCD) កម្រិត 5.04 ដែលល្អប្រហាក់ប្រហែលនឹងការប្រើប្រាស់ឯកសារដើម (5.27)។
ការធ្វើតេស្តស្តាប់វាយតម្លៃ (DND listening test) បានបង្ហាញថា អ្នកស្តាប់ភាគច្រើនមិនអាចបែងចែកភាពខុសគ្នារវាងសំឡេងសំយោគដែលបង្កើតពីឯកសារ SFA-1/SFA-2 និងឯកសារដែលកាត់ដោយដៃឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard Forced-Alignment (FA-0) ការតម្រឹមដោយបង្ខំតាមស្តង់ដារ	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងការកំណត់ព្រំដែនសូរស័ព្ទ (Phone boundaries) សម្រាប់ឯកសារសំឡេងខ្លីៗ។	ទាមទារអង្គចងចាំធំខ្លាំង (ត្រូវការ RAM រហូតដល់ ៣៦GB សម្រាប់សំឡេង ៣០នាទី) ដែលធ្វើឱ្យបរាជ័យក្នុងការប្រើលើឯកសារសៀវភៅសំឡេងវែងៗ។	ទទួលបានពិន្ទុ MCD គោល (Baseline) 5.27 លើទិន្នន័យ RMS។
Segmentation using FA-1 (SFA-1) ការបំបែកឯកសារដោយប្រើ FA-1	អាចបំបែកឯកសារសំឡេងធំៗទៅជាបំណែកខ្លីៗ (៥-៣០ វិនាទី) ដោយមិនតម្រូវឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងខ្នាតធំ (ASR)។	កាត់ផ្តាច់សំឡេងដោយមិនខ្វល់ពីរចនាសម្ព័ន្ធប្រយោគ ឬកថាខណ្ឌ ដែលធ្វើឱ្យបាត់បង់លក្ខណៈ Prosody ដើមនៃល្បះ។	ទទួលបានពិន្ទុ MCD 5.27 លើទិន្នន័យ RMS និង 5.09 លើទិន្នន័យ EMMA ព្រមទាំងបំបែកសំឡេងបានដោយជោគជ័យ។
Segmentation using FA-2 (SFA-2) ការបំបែកឯកសារដោយប្រើ FA-2	អាចបំបែកឯកសារវែងៗទៅជាល្បះឬកថាខណ្ឌពេញលេញ ដែលរក្សាបាននូវចង្វាក់សំឡេង (Prosody) យ៉ាងល្អសម្រាប់ការកសាងប្រព័ន្ធ TTS។	ទាមទារឱ្យមានអត្ថបទ (Text transcription) ដែលត្រូវគ្នាតាមលំដាប់លំដោយជាមួយនឹងសៀវភៅសំឡេង។	មានភាពល្អៀងជាមធ្យមត្រឹមតែ ២៣ មិល្លីវិនាទីពីឯកសារដើម និងទទួលបានពិន្ទុ MCD 5.04 (EMMA) ព្រមទាំងផ្តល់លទ្ធផលស្តាប់មិនខុសពីឯកសារដើមឡើយ។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រថ្មីនេះកាត់បន្ថយការប្រើប្រាស់ធនធានកុំព្យូទ័រយ៉ាងច្រើន ដោយជៀសវាងការបម្រុងទុកអង្គចងចាំទំហំធំ (Memory Allocation) សម្រាប់ឯកសារសំឡេងវែងៗ។

Hardware Memory (RAM): ដោះស្រាយបញ្ហាខ្វះអង្គចងចាំ ដោយមិនតម្រូវឱ្យមាន RAM ទំហំ ៣៦GB សម្រាប់ឯកសារសំឡេង ៣០នាទី ដូចក្បួនស្តង់ដារឡើយ។
Software & Algorithms: មិនត្រូវការប្រព័ន្ធសម្គាល់សំឡេងខ្នាតធំ (Large Vocabulary Speech Recognizer) ដែលសន្សំសំចៃពេលវេលានិងការស្រាវជ្រាវសម្រាប់ភាសាខ្វះខាតទិន្នន័យ។
Dataset: ត្រូវការឯកសារសៀវភៅសំឡេងដែលថតដោយមនុស្សម្នាក់ក្នុងបរិយាកាសស្ងាត់ និងអត្ថបទសាច់រឿងដែលស៊ីគ្នា (ដូចជាប្រភពពី LibriVox)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (CMU ARCTIC និងសៀវភៅ EMMA ពី LibriVox) ដែលថតក្នុងស្ទូឌីយោគ្មានសំឡេងរំខាន។ សម្រាប់ប្រទេសកម្ពុជា នេះជាគំរូដ៏ល្អមួយ ព្រោះយើងអាចប្រមូលទិន្នន័យសំឡេងស្រដៀងគ្នានេះពីកម្មវិធីវិទ្យុ សៀវភៅធម៌ ឬរឿងនិទានខ្មែរ ដែលមានអ្នកអានច្បាស់លាស់ ដោយមិនបាច់បង្កើតទិន្នន័យថ្មីទាំងស្រុង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងស័ក្តិសមបំផុតសម្រាប់កម្ពុជា ពិសេសក្នុងការអភិវឌ្ឍប្រព័ន្ធបញ្ចេញសំឡេងភាសាខ្មែរ (Khmer Text-to-Speech) ក្នុងបរិបទខ្វះខាតធនធាន។

Khmer Audiobook Processing (បណ្ណាល័យជាតិ ឬសៀវភៅធម៌អូឌីយ៉ូ): អាចយកសៀវភៅសំឡេងអប់រំ ឬធម៌ទេសនាដែលមានស្រាប់រាប់រយម៉ោង មកបំបែកជាទិន្នន័យបណ្តុះបណ្តាល AI ដោយស្វ័យប្រវត្តិ។
Low-Resource Language Research (វិទ្យាស្ថានស្រាវជ្រាវ CADT): អ្នកស្រាវជ្រាវមិនចាំបាច់រង់ចាំដល់ពេលមានប្រព័ន្ធទទួលស្គាល់សំឡេងខ្មែរ (Khmer ASR) ខ្នាតធំទើបអាចបំបែកឯកសារបាននោះទេ ដោយគ្រាន់តែកែប្រែក្បួន Forced-alignment នេះជាការស្រេច។

ជារួម បច្ចេកទេសបំបែកសំឡេងតាមរយៈ SFA-2 គឺជាច្រកផ្លូវដ៏មានប្រសិទ្ធភាព និងចំណាយតិច ក្នុងការទាញយកប្រយោជន៍ពីឯកសារសំឡេងធំៗ ដើម្បីពន្លឿនការបង្កើតសំឡេង AI ភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Acoustic Modeling: និស្សិតត្រូវស្វែងយល់ពីរបៀបដំណើរការនៃការតម្រឹមដោយបង្ខំ (Forced-alignment) និង Hidden Markov Models (HMM) ដោយសាកល្បងប្រើប្រាស់ CMU Sphinx ឬ Kaldi។
ប្រមូលនិងរៀបចំទិន្នន័យសៀវភៅសំឡេងខ្មែរ: ស្វែងរកសៀវភៅសំឡេងភាសាខ្មែរដែលមានរយៈពេលវែង (ឧ. រឿងមហាភារតៈ ឬរឿងទុំទាវ) ព្រមទាំងទាញយកអត្ថបទជា text រួចសម្អាតទិន្នន័យទាំងនោះ។
អនុវត្តក្បួនដោះស្រាយ SFA-2: សរសេរកូដកែប្រែក្បួន Viterbi backtracking ដោយកំណត់លក្ខខណ្ឌបញ្ឈប់នៅចុងបញ្ចប់នៃកថាខណ្ឌ (ដូចរៀបរាប់ក្នុងសមីការទី ៨ និង ៩ នៃឯកសារ) ដោយប្រើប្រាស់ភាសា Python រួមជាមួយបណ្ណាល័យសំឡេង។
កសាងប្រព័ន្ធសំឡេងសំយោគភាសាខ្មែរ (Khmer TTS): ប្រើប្រាស់ទិន្នន័យដែលបានបំបែករួច បញ្ចូលទៅក្នុងឧបករណ៍កសាង TTS ដូចជា Festvox ឬ CLUSTERGEN ដើម្បីបង្កើតជាសំឡេង AI សាកល្បង។
វាយតម្លៃគុណភាពសំឡេង: ធ្វើការប្រៀបធៀបគុណភាពសំឡេងដែលទទួលបានដោយប្រើរង្វាស់គោលបំណង Mel Cepstral Distortion (MCD) និងធ្វើតេស្តស្តាប់ផ្ទាល់ (Perceptual listening test) ជាមួយអ្នកនិយាយភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Forced-Alignment	វាជាដំណើរការកុំព្យូទ័រក្នុងការផ្គូផ្គងសញ្ញាសំឡេងទៅនឹងអត្ថបទដែលបានសរសេរ (Text Transcriptions) ដោយស្វ័យប្រវត្តិ ដើម្បីកំណត់ព្រំដែនពេលវេលាចាប់ផ្តើមនិងបញ្ចប់នៃសូរស័ព្ទ (Phonemes) ឬពាក្យនីមួយៗនៅក្នុងឯកសារសំឡេង។	ដូចជាការយកអក្សររត់ (Subtitles) ទៅតម្រឹមឱ្យចំវិនាទីនៃពាក្យដែលតួអង្គកំពុងនិយាយក្នុងវីដេអូយ៉ាងសុក្រឹត ដើម្បីឱ្យដឹងថាពាក្យមួយណានិយាយនៅវិនាទីទីប៉ុន្មាន។
Hidden Markov Models (HMM)	វាជាម៉ូដែលស្ថិតិគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងមើលមិនឃើញ (Hidden states, ឧ. សូរស័ព្ទ) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតបាន (Observations, ឧ. រលកសំឡេងកាត់ជាកង់ៗ) ដែលវាដើរតួជាឆ្អឹងខ្នងក្នុងការសម្គាល់សម្លេង។	ដូចជាការទស្សន៍ទាយថាអាកាសធាតុម្សិលមិញភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងឬអត់នៅថ្ងៃនេះ។
Mel Cepstral Distortion (MCD)	វាជារង្វាស់គោលបំណង (Objective measure) សម្រាប់វាយតម្លៃគុណភាពនៃសំឡេងសំយោគ (AI Voice) ដោយគណនាគម្លាតខុសគ្នារវាងរលកសំឡេងដែលបង្កើតដោយកុំព្យូទ័រ និងរលកសំឡេងដើមរបស់មនុស្សពិតប្រាកដ។ តួលេខកាន់តែតូច បង្ហាញថាសំឡេងកាន់តែមានគុណភាពល្អ។	ដូចជាការដាក់ពិន្ទុថាគំនូរចម្លងមួយផ្ទាំងដូចទៅនឹងរូបថតដើមប៉ុនណា ដោយប្រើប្រាស់ម៉ាស៊ីនស្កេនពណ៌ និងរង្វាស់ប្រវែង។
Viterbi backtracking	វាក្បួនដោះស្រាយគណិតវិទ្យាក្នុងការតាមដានត្រឡប់ថយក្រោយ ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃសូរស័ព្ទដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត (Most likely sequence) បន្ទាប់ពីកុំព្យូទ័របានគណនា និងប្រមូលទិន្នន័យពីដើមដល់ចប់។	ដូចជាកម្មវិធី Google Maps ដែលគណនា និងរើសយកផ្លូវដែលលឿនបំផុតនិងល្អបំផុតដើម្បីទៅដល់គោលដៅ ក្នុងចំណោមជម្រើសផ្លូវរាប់ពាន់ដែលវាបានមើលទុក។
Prosody	វាគឺជាលក្ខណៈនៃចង្វាក់ ការលើកដាក់សំឡេង (Intonation) កម្រិតខ្លាំងខ្សោយ និងសង្កត់ន័យនៅក្នុងការនិយាយ ដែលធ្វើឱ្យការបញ្ចេញសំឡេងរបស់ប្រព័ន្ធកុំព្យូទ័រមានលក្ខណៈធម្មជាតិដូចមនុស្ស និងមានមនោសញ្ចេតនា មិនស្តាប់ទៅរឹងៗដូចរ៉ូបូត។	ដូចជាការឡើងចុះនៃសម្លេងពេលយើងសួរថា "ទៅណា?" (សម្លេងឡើងចុងប្រយោគ) ធៀបនឹងការឆ្លើយថា "ទៅទីនោះ" (សម្លេងរាបស្មើ)។
Acoustic models	វាគឺជាឯកសារទិន្នន័យដែលកុំព្យូទ័របានរៀន និងផ្ទុកនូវលក្ខណៈស្តង់ដារនៃសូរស័ព្ទនីមួយៗ (Phones) ដើម្បីយកទៅប្រើប្រាស់ជាគោលក្នុងការប្រៀបធៀប ទទួលស្គាល់ ឬបង្កើតសំឡេងថ្មីៗ។	ដូចជាវចនានុក្រមសំឡេងនៅក្នុងខួរក្បាលកុំព្យូទ័រ ដែលប្រាប់វាថាអក្សរ "ក" ត្រូវបញ្ចេញសំឡេងរំញ័រយ៉ាងដូចម្តេចតាមលក្ខណៈរូបវិទ្យា។
Mel-Frequency filters	វាជាតម្រងកែច្នៃរលកសញ្ញាដែលយកមកត្រងសញ្ញាសំឡេង ដើម្បីទាញយកលក្ខណៈពិសេស (Feature extraction) ដោយវាត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សទទួលដឹង (ស្រូបយកញឹកញាប់នៃប្រេកង់ទាបៗបានល្អជាងប្រេកង់ខ្ពស់) ដើម្បីឱ្យកុំព្យូទ័រអាចវិភាគសំឡេងបានងាយស្រួល។	ដូចជាការបំពាក់វ៉ែនតាចម្រោះពន្លឺ ដើម្បីឱ្យកុំព្យូទ័រអាចមើលឃើញពណ៌ផ្សេងៗក្នុងកម្រិតពន្លឺដូចគ្នាទៅនឹងភ្នែករបស់មនុស្សដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖