Original Title: Towards Adaptable and Intelligible Speech Synthesis in Noisy Environments
Source: doi.org/10.21437/Interspeech.2025-2787
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកការសំយោគសំឡេងដែលអាចបត់បែនបាន និងអាចស្តាប់បានច្បាស់នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខាន

ចំណងជើងដើម៖ Towards Adaptable and Intelligible Speech Synthesis in Noisy Environments

អ្នកនិពន្ធ៖ Lubos Marcinek (Department of Speech, Music and Hearing, KTH, Sweden), Jonas Beskow (Department of Speech, Music and Hearing, KTH, Sweden), Joakim Gustafson (Department of Speech, Music and Hearing, KTH, Sweden)

ឆ្នាំបោះពុម្ព៖ 2025 Interspeech

វិស័យសិក្សា៖ Speech Synthesis and Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមនៃការព្យាយាមរក្សាភាពច្បាស់លាស់នៃប្រព័ន្ធសំយោគសំឡេង (Speech Synthesis) នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខានខ្លាំង (Noisy environments) ដែលធ្វើឱ្យប៉ះពាល់ដល់ការទំនាក់ទំនងប្រចាំថ្ងៃ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតសំណុំទិន្នន័យសំឡេងដោយប្រើប្រាស់ប្រព័ន្ធ TTS រួចវាយតម្លៃភាពច្បាស់លាស់របស់វាដោយប្រើប្រាស់ម៉ូដែលសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) ក្រោមលក្ខខណ្ឌសំឡេងរំខានផ្សេងៗគ្នា។

ការបង្កើតសំណុំទិន្នន័យសំឡេងដោយប្រព័ន្ធសូន្យសាកល្បង (Zero-shot TTS Corpus Creation) ដោយប្រើម៉ូដែល LLasa ជាមួយនឹងកម្រិតនៃការប្រឹងបញ្ចេញសំឡេង (Vocal effort levels) ចំនួន ៦ ផ្សេងគ្នា។
ការបញ្ចូលសំឡេងរំខាន និងគ្រប់គ្រងកម្រិតថាមពល (Noise Integration and SNR Control) ចាប់ពី -24 dB ដល់ 24 dB ដោយប្រើប្រាស់ទិន្នន័យសំឡេង DEMAND corpus។
ការវាយតម្លៃភាពច្បាស់លាស់ (Intelligibility Evaluation) ដោយប្រើប្រាស់ប្រព័ន្ធ ASR (wav2vec 2.0) ដើម្បីវាស់ស្ទង់អត្រាកំហុសពាក្យ (Word Error Rate - WER)។
ការទាញយកលក្ខណៈពិសេសនៃអត្ថបទ និងការវិភាគដោយម៉ូដែលរៀនដោយម៉ាស៊ីន (Text Feature Extraction & ML Ablation Study) ដើម្បីទស្សន៍ទាយកម្រិត WER ដោយប្រើប្រាស់ម៉ូដែលដូចជា XGBoost និង Neural Networks។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការបង្កើនកម្រិតនៃការប្រឹងបញ្ចេញសំឡេង (Vocal effort) ជួយធ្វើឱ្យសំឡេងកាន់តែច្បាស់ និងអាចស្តាប់បានល្អជាងមុនរហូតដល់ ៣០% នៅក្នុងលក្ខខណ្ឌដែលមានសំឡេងរំខានខ្លាំង។
អត្ថប្រយោជន៍នៃការកែប្រែសំឡេងនេះ មានប្រសិទ្ធភាពខ្លាំងបំផុតនៅក្នុងបរិយាកាសដែលមានសំឡេងមនុស្សនិយាយប្រជែងគ្នា (Competing speech) ដូចជាក្នុងបន្ទប់ប្រជុំ និងអាហារដ្ឋាន នៅកម្រិតកម្លាំងសញ្ញាធៀបនឹងសំឡេងរំខាន (SNR) ទាប។
ការវិភាគតាមរយៈម៉ូដែលរៀនដោយម៉ាស៊ីនបានបង្ហាញថា កម្រិត SNR និងប្រភេទនៃសំឡេងរំខាន គឺជាកត្តាសំខាន់បំផុតក្នុងការទស្សន៍ទាយភាពច្បាស់លាស់នៃសំឡេង ខណៈការសាកល្បងស្តាប់ដោយមនុស្សបង្ហាញថា មនុស្សមានសមត្ថភាពស្តាប់បានល្អជាងប្រព័ន្ធ ASR ក្នុងស្ថានភាពសំឡេងរំខានស្មុគស្មាញ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
XGBoost Regression ការវិភាគដោយប្រើម៉ូដែល XGBoost (XGBoost Regression)	ដំណើរការល្អបំផុតក្នុងការទស្សន៍ទាយអត្រាកំហុសពាក្យ (WER) និងមានភាពជាក់លាក់ខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យ។ វាអាចគ្រប់គ្រងទិន្នន័យប្រភេទលេខ (Numerical features) បានយ៉ាងល្អ។	ពិបាកក្នុងការពន្យល់ពីដំណើរការខាងក្នុង (Black box) ជាងម៉ូដែលស្ថិតិធម្មតា។ អាចងាយរងគ្រោះពីការរៀនទន្ទេញ (Overfitting) បើមិនបានកំណត់ប៉ារ៉ាម៉ែត្រត្រឹមត្រូវ។	ទទួលបានពិន្ទុទស្សន៍ទាយ R² ល្អបំផុតគឺ 0.65 បង្ហាញពីសមត្ថភាពល្អផ្តាច់គេក្នុងការទស្សន៍ទាយភាពច្បាស់លាស់នៃសំឡេង។
Feedforward Neural Network បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network)	អាចរៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញ (Non-linear) រវាងលក្ខណៈសំឡេងនិងអត្ថបទបានដោយស្វ័យប្រវត្តិ។	ត្រូវការទិន្នន័យហ្វឹកហាត់ច្រើន និងទាមទារកម្លាំងកុំព្យូទ័រ (GPU) ខ្ពស់សម្រាប់ការគណនា ប៉ុន្តែលទ្ធផលនៅចាញ់ XGBoost បន្តិចបន្តួច។	ទទួលបានពិន្ទុ R² ស្មើនឹង 0.61 ឈរនៅលេខរៀងទី២ ក្នុងចំណោមម៉ូដែលទាំងអស់។
Linear/Ridge Regression ការវិភាគតំរែតំរង់លីនេអ៊ែរជាមូលដ្ឋាន (Linear/Ridge Regression)	ងាយស្រួលយល់ ស៊ីកម្លាំងកុំព្យូទ័រតិច លឿនក្នុងការគណនា និងងាយស្រួលពន្យល់ពីឥទ្ធិពលនៃកត្តានីមួយៗ។	មិនអាចចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear interactions) ដែលស្មុគស្មាញរវាងកម្រិតសំឡេង និងបរិយាកាសបានល្អនោះទេ។	ទទួលបានពិន្ទុ R² ទាបត្រឹមតែ 0.47 ដែលបង្ហាញថាវាមានប្រសិទ្ធភាពមធ្យមក្នុងការទស្សន៍ទាយអត្រាកំហុស។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្ពស់ និងសំណុំទិន្នន័យសំឡេងចម្រុះដើម្បីដំណើរការម៉ូដែល AI ខ្នាតធំ។

Hardware: ត្រូវការក្រាហ្វិកកាត (GPU) ដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការដំណើរការម៉ូដែលសំយោគសំឡេង Zero-shot TTS (LLasa) និងប្រព័ន្ធទទួលស្គាល់សំឡេង (ASR) ដូចជា wav2vec 2.0 និង Whisper 3 Turbo។
Software: ប្រើប្រាស់ឧបករណ៍ OpenSmile សម្រាប់ទាញយកលក្ខណៈសូរសព្ទអូឌីយ៉ូ, កម្មវិធីរៀនដោយម៉ាស៊ីន (XGBoost, Scikit-learn), និងបណ្ណាល័យ Deep Learning (PyTorch/TensorFlow)។
Dataset: ទាមទារសំណុំទិន្នន័យសំឡេងរំខានចម្រុះ (DEMAND corpus) និងប្រព័ន្ធបង្កើតសំឡេងសរុបជាង ៨៨,០២០ ឯកសារ ព្រមទាំងការចំណាយលើអ្នកស្ម័គ្រចិត្ត (Prolific) សម្រាប់ការស្តាប់សាកល្បងដោយមនុស្ស។
Expertise: ត្រូវការចំណេះដឹងស៊ីជម្រៅផ្នែកវិស្វកម្មសូរសព្ទ (Acoustic Engineering), ដំណើរការភាសាធម្មជាតិ (NLP), និងការអភិវឌ្ឍម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្តោតលើអ្នកនិយាយភាសាអង់គ្លេស និងប្រើប្រាស់ទិន្នន័យសំឡេងរំខានពីបរិយាកាសលោកខាងលិច (DEMAND corpus)។ នេះជាចំណុចសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់សំឡេង និងសូរសព្ទខុសគ្នា (Phonetics) ហើយសំឡេងរំខាននៅកម្ពុជា (ឧ. ទីផ្សារអ៊ូអរ ឬតាមដងផ្លូវដែលមានម៉ូតូកង់បី) មានលក្ខណៈខុសប្លែកទាំងស្រុងពីទិន្នន័យនេះ ដែលទាមទារការសិក្សាបន្ថែមក្នុងបរិបទតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការបត់បែនសំឡេងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធទំនាក់ទំនងឆ្លាតវៃសម្រាប់បរិយាកាសអ៊ូអរនៅប្រទេសកម្ពុជា។

ប្រព័ន្ធប្រកាសព័ត៌មានសាធារណៈ (Public Announcements) នៅតាមស្ថានីយ៍ដឹកជញ្ជូន: អាចអនុវត្តនៅចំណតរថយន្តក្រុង ឬស្ថានីយរថភ្លើងរាជធានីភ្នំពេញ ដើម្បីបន្លឺសំឡេងប្រកាសព័ត៌មានឱ្យឮច្បាស់ ទោះបីជាមានសំឡេងម៉ាស៊ីនរថយន្តរំខានខ្លាំងក៏ដោយ។
វិស័យឧស្សាហកម្មកាត់ដេរ (Garment Manufacturing): អាចប្រើប្រាស់ជាប្រព័ន្ធផ្តល់ដំណឹង ឬឧបករណ៍ទំនាក់ទំនងឆ្លាតវៃក្នុងរោងចក្រ ដែលមានសំឡេងម៉ាស៊ីនដេរឮខ្លាំង ដើម្បីធានាថាកម្មករទទួលបានការណែនាំច្បាស់លាស់។
បច្ចេកវិទ្យាជំនួយសុខាភិបាល (Healthcare Assistive Tech): មានប្រយោជន៍សម្រាប់មន្ទីរពេទ្យរដ្ឋធំៗ (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត) សម្រាប់ប្រព័ន្ធហៅឈ្មោះអ្នកជំងឺ ឬផ្តល់ការណែនាំអំពីការប្រើប្រាស់ថ្នាំដល់មនុស្សចាស់ដែលមានបញ្ហាការស្តាប់ ក្នុងបរិយាកាសរង់ចាំដែលមានមនុស្សច្រើន។

សរុបមក ការកែតម្រូវកម្រិតនៃការប្រឹងបញ្ចេញសំឡេងរបស់ប្រព័ន្ធ AI ដោយស្វ័យប្រវត្តិនេះ នឹងជួយដោះស្រាយបញ្ហាការខ្វះខាតភាពច្បាស់លាស់ក្នុងការប្រាស្រ័យទាក់ទង តាមទីតាំងដែលមានសំឡេងរំខានស្មុគស្មាញនៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះផ្នែកសូរសព្ទ និង AI: ចាប់ផ្តើមស្វែងយល់ពីបច្ចេកវិទ្យា Text-to-Speech (TTS) និង Automatic Speech Recognition (ASR) ដោយប្រើប្រាស់ Hugging Face Transformers ព្រមទាំងរៀនអំពីឥទ្ធិពលនៃសំឡេងរំខាន (Lombard effect)។
ប្រមូលសំណុំទិន្នន័យសំឡេងរំខានក្នុងស្រុក (Local Noise Corpus): ចុះថត និងប្រមូលទិន្នន័យសំឡេងរំខានជាក់ស្តែងនៅកម្ពុជា (ឧទាហរណ៍ សំឡេងតាមផ្សារធំថ្មី ឬតាមដងផ្លូវដែលមានម៉ូតូកង់បី) ដើម្បីបង្កើតជាទិន្នន័យសម្រាប់ប្រើប្រាស់ក្នុងការវាយតម្លៃម៉ូដែល។
អនុវត្តការទាញយកលក្ខណៈសំឡេង (Feature Extraction): ប្រើប្រាស់ឧបករណ៍ OpenSmile ឬបណ្ណាល័យ Librosa នៅក្នុង Python ដើម្បីហាត់ទាញយកលក្ខណៈសូរសព្ទសំខាន់ៗ (Acoustic features) ដូចជាកម្រិតថាមពល (RMS) និងហ្វ្រេកង់ស៊ី។
សាកល្បងហ្វឹកហាត់ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Modeling): សរសេរកូដដោយប្រើប្រាស់ XGBoost តាមរយៈបណ្ណាល័យ Scikit-learn ដើម្បីទស្សន៍ទាយកម្រិតភាពច្បាស់នៃសំឡេង (WER) ដោយផ្អែកលើទិន្នន័យ Signal-to-Noise Ratio (SNR) ដែលប្រមូលបាន។
អភិវឌ្ឍកម្មវិធីសាកល្បងខ្នាតតូច (Prototype Development): បង្កើតកម្មវិធីសាកល្បងមួយដែលអាចចាប់យកកម្រិតសំឡេងរំខានពីបរិយាកាសជុំវិញ (ប្រើ Microphone) រួចបញ្ជាឱ្យប្រព័ន្ធ TTS (ដូចជា Whisper ឬ Coqui TTS) បង្កើនកម្រិតសំឡេងបញ្ចេញដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Word Error Rate (WER)	វិធីសាស្ត្រវាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ដោយគណនាចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមខុស បើធៀបនឹងពាក្យពិតប្រាកដ។	ដូចជាការរាប់កំហុសអក្ខរាវិរុទ្ធរបស់សិស្សនៅពេលគ្រូហៅសរសេរតាមអាន បើខុសតិចគឺបានពិន្ទុល្អ (កម្រិត WER ទាប)។
Signal-to-Noise Ratio (SNR)	រង្វាស់ដែលប្រៀបធៀបកម្រិតកម្លាំងនៃសំឡេងគោលដៅ (សញ្ញា) ទៅនឹងកម្រិតកម្លាំងនៃសំឡេងរំខានខាងក្រៅ។ បើកម្រិត SNR ខ្ពស់ មានន័យថាសំឡេងគោលដៅឮច្បាស់ជាងសំឡេងរំខាន។	ដូចជាការស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀង បើគាត់និយាយខ្លាំងជាងសំឡេងភ្លេង (SNR ខ្ពស់) នោះយើងស្តាប់បានច្បាស់។
Zero-shot TTS	ប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលអាចអានអត្ថបទទៅជាសំឡេង ដោយអាចយកតម្រាប់តាមទម្រង់សំឡេងថ្មីមួយបានភ្លាមៗតាមរយៈការស្តាប់គំរូសំឡេងខ្លីមួយ ទោះបីជាវាមិនធ្លាប់ត្រូវបានហ្វឹកហាត់ជាមួយសំឡេងនោះពីមុនមកក៏ដោយ។	ដូចជាមនុស្សដែលមានទេពកោសល្យអាចត្រាប់តាមសំឡេងអ្នកដទៃបានយ៉ាងស្ទាត់ជំនាញ គ្រាន់តែបានឮគេនិយាយម្តងឬពីរដង។
Lombard effect	បាតុភូតធម្មជាតិដែលមនុស្សយើងបង្កើនកម្រិតកម្លាំងបញ្ចេញសំឡេង (និយាយខ្លាំងៗ) ដោយស្វ័យប្រវត្តិ នៅពេលស្ថិតក្នុងបរិយាកាសដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺបាន។	ដូចជានៅពេលយើងកំពុងជិះម៉ូតូតាមផ្លូវអ៊ូអរ យើងនឹងប្រឹងស្រែកនិយាយខ្លាំងៗទៅកាន់អ្នកអង្គុយពីក្រោយដោយមិនដឹងខ្លួន។
Ablation study	ការធ្វើតេស្តសាកល្បងទៅលើម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយដកចេញនូវទិន្នន័យឬសមាសធាតុណាមួយម្តងមួយៗ ដើម្បីចង់ដឹងថាតើសមាសធាតុមួយណាមានឥទ្ធិពលខ្លាំងជាងគេទៅលើលទ្ធផល។	ដូចជាការសាកល្បងដកគ្រឿងផ្សំចេញម្តងមួយមុខៗពីមុខម្ហូប ដើម្បីរកមើលថាតើគ្រឿងផ្សំមួយណាដែលធ្វើឱ្យសម្លមានរសជាតិឆ្ងាញ់ជាងគេ។
Informational masking	ការរំខានដល់ការស្តាប់ដែលកើតឡើងនៅពេលសំឡេងរំខានមានលក្ខណៈស្រដៀងនឹងសំឡេងគោលដៅ (ឧទាហរណ៍ សំឡេងមនុស្សនិយាយជាន់គ្នា) ដែលធ្វើឱ្យខួរក្បាលពិបាកក្នុងការញែកនិងចាប់យកអត្ថន័យ។	ដូចជាការព្យាយាមអានសៀវភៅនៅពេលដែលមានមនុស្សម្នាក់ទៀតកំពុងអានសៀវភៅមួយផ្សេងទៀតឮៗនៅក្បែរត្រចៀករបស់អ្នក ដែលធ្វើឱ្យខួរក្បាលអ្នកវង្វេងអានមិនចូល។
Energetic masking	ការរំខានដល់ការស្តាប់ដែលកើតឡើងដោយសារថាមពលនៃសំឡេងរំខានកម្រិតខ្លាំង (ដូចជាសំឡេងម៉ាស៊ីន) គ្របដណ្ដប់លើកម្រិតសំឡេងគោលដៅទាំងស្រុង ធ្វើឱ្យត្រចៀកមិនអាចចាប់សញ្ញាសំឡេងបាន។	ដូចជាការព្យាយាមមើលពន្លឺពិលតូចមួយនៅកណ្តាលថ្ងៃត្រង់ ពន្លឺព្រះអាទិត្យដ៏ភ្លឺចិញ្ចែងចាំងបានបាំងពន្លឺពិលនោះជិតឈឹងតែម្តង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖