Original Title: Towards Adaptable and Intelligible Speech Synthesis in Noisy Environments
Source: doi.org/10.21437/Interspeech.2025-2787
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកការសំយោគសំឡេងដែលអាចបត់បែនបាន និងអាចស្តាប់បានច្បាស់នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខាន

ចំណងជើងដើម៖ Towards Adaptable and Intelligible Speech Synthesis in Noisy Environments

អ្នកនិពន្ធ៖ Lubos Marcinek (Department of Speech, Music and Hearing, KTH, Sweden), Jonas Beskow (Department of Speech, Music and Hearing, KTH, Sweden), Joakim Gustafson (Department of Speech, Music and Hearing, KTH, Sweden)

ឆ្នាំបោះពុម្ព៖ 2025 Interspeech

វិស័យសិក្សា៖ Speech Synthesis and Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមនៃការព្យាយាមរក្សាភាពច្បាស់លាស់នៃប្រព័ន្ធសំយោគសំឡេង (Speech Synthesis) នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខានខ្លាំង (Noisy environments) ដែលធ្វើឱ្យប៉ះពាល់ដល់ការទំនាក់ទំនងប្រចាំថ្ងៃ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតសំណុំទិន្នន័យសំឡេងដោយប្រើប្រាស់ប្រព័ន្ធ TTS រួចវាយតម្លៃភាពច្បាស់លាស់របស់វាដោយប្រើប្រាស់ម៉ូដែលសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) ក្រោមលក្ខខណ្ឌសំឡេងរំខានផ្សេងៗគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
XGBoost Regression
ការវិភាគដោយប្រើម៉ូដែល XGBoost (XGBoost Regression)
ដំណើរការល្អបំផុតក្នុងការទស្សន៍ទាយអត្រាកំហុសពាក្យ (WER) និងមានភាពជាក់លាក់ខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យ។ វាអាចគ្រប់គ្រងទិន្នន័យប្រភេទលេខ (Numerical features) បានយ៉ាងល្អ។ ពិបាកក្នុងការពន្យល់ពីដំណើរការខាងក្នុង (Black box) ជាងម៉ូដែលស្ថិតិធម្មតា។ អាចងាយរងគ្រោះពីការរៀនទន្ទេញ (Overfitting) បើមិនបានកំណត់ប៉ារ៉ាម៉ែត្រត្រឹមត្រូវ។ ទទួលបានពិន្ទុទស្សន៍ទាយ R² ល្អបំផុតគឺ 0.65 បង្ហាញពីសមត្ថភាពល្អផ្តាច់គេក្នុងការទស្សន៍ទាយភាពច្បាស់លាស់នៃសំឡេង។
Feedforward Neural Network
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network)
អាចរៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញ (Non-linear) រវាងលក្ខណៈសំឡេងនិងអត្ថបទបានដោយស្វ័យប្រវត្តិ។ ត្រូវការទិន្នន័យហ្វឹកហាត់ច្រើន និងទាមទារកម្លាំងកុំព្យូទ័រ (GPU) ខ្ពស់សម្រាប់ការគណនា ប៉ុន្តែលទ្ធផលនៅចាញ់ XGBoost បន្តិចបន្តួច។ ទទួលបានពិន្ទុ R² ស្មើនឹង 0.61 ឈរនៅលេខរៀងទី២ ក្នុងចំណោមម៉ូដែលទាំងអស់។
Linear/Ridge Regression
ការវិភាគតំរែតំរង់លីនេអ៊ែរជាមូលដ្ឋាន (Linear/Ridge Regression)
ងាយស្រួលយល់ ស៊ីកម្លាំងកុំព្យូទ័រតិច លឿនក្នុងការគណនា និងងាយស្រួលពន្យល់ពីឥទ្ធិពលនៃកត្តានីមួយៗ។ មិនអាចចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear interactions) ដែលស្មុគស្មាញរវាងកម្រិតសំឡេង និងបរិយាកាសបានល្អនោះទេ។ ទទួលបានពិន្ទុ R² ទាបត្រឹមតែ 0.47 ដែលបង្ហាញថាវាមានប្រសិទ្ធភាពមធ្យមក្នុងការទស្សន៍ទាយអត្រាកំហុស។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្ពស់ និងសំណុំទិន្នន័យសំឡេងចម្រុះដើម្បីដំណើរការម៉ូដែល AI ខ្នាតធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្តោតលើអ្នកនិយាយភាសាអង់គ្លេស និងប្រើប្រាស់ទិន្នន័យសំឡេងរំខានពីបរិយាកាសលោកខាងលិច (DEMAND corpus)។ នេះជាចំណុចសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់សំឡេង និងសូរសព្ទខុសគ្នា (Phonetics) ហើយសំឡេងរំខាននៅកម្ពុជា (ឧ. ទីផ្សារអ៊ូអរ ឬតាមដងផ្លូវដែលមានម៉ូតូកង់បី) មានលក្ខណៈខុសប្លែកទាំងស្រុងពីទិន្នន័យនេះ ដែលទាមទារការសិក្សាបន្ថែមក្នុងបរិបទតំបន់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការបត់បែនសំឡេងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធទំនាក់ទំនងឆ្លាតវៃសម្រាប់បរិយាកាសអ៊ូអរនៅប្រទេសកម្ពុជា។

សរុបមក ការកែតម្រូវកម្រិតនៃការប្រឹងបញ្ចេញសំឡេងរបស់ប្រព័ន្ធ AI ដោយស្វ័យប្រវត្តិនេះ នឹងជួយដោះស្រាយបញ្ហាការខ្វះខាតភាពច្បាស់លាស់ក្នុងការប្រាស្រ័យទាក់ទង តាមទីតាំងដែលមានសំឡេងរំខានស្មុគស្មាញនៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះផ្នែកសូរសព្ទ និង AI: ចាប់ផ្តើមស្វែងយល់ពីបច្ចេកវិទ្យា Text-to-Speech (TTS) និង Automatic Speech Recognition (ASR) ដោយប្រើប្រាស់ Hugging Face Transformers ព្រមទាំងរៀនអំពីឥទ្ធិពលនៃសំឡេងរំខាន (Lombard effect)។
  2. ប្រមូលសំណុំទិន្នន័យសំឡេងរំខានក្នុងស្រុក (Local Noise Corpus): ចុះថត និងប្រមូលទិន្នន័យសំឡេងរំខានជាក់ស្តែងនៅកម្ពុជា (ឧទាហរណ៍ សំឡេងតាមផ្សារធំថ្មី ឬតាមដងផ្លូវដែលមានម៉ូតូកង់បី) ដើម្បីបង្កើតជាទិន្នន័យសម្រាប់ប្រើប្រាស់ក្នុងការវាយតម្លៃម៉ូដែល។
  3. អនុវត្តការទាញយកលក្ខណៈសំឡេង (Feature Extraction): ប្រើប្រាស់ឧបករណ៍ OpenSmile ឬបណ្ណាល័យ Librosa នៅក្នុង Python ដើម្បីហាត់ទាញយកលក្ខណៈសូរសព្ទសំខាន់ៗ (Acoustic features) ដូចជាកម្រិតថាមពល (RMS) និងហ្វ្រេកង់ស៊ី។
  4. សាកល្បងហ្វឹកហាត់ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Modeling): សរសេរកូដដោយប្រើប្រាស់ XGBoost តាមរយៈបណ្ណាល័យ Scikit-learn ដើម្បីទស្សន៍ទាយកម្រិតភាពច្បាស់នៃសំឡេង (WER) ដោយផ្អែកលើទិន្នន័យ Signal-to-Noise Ratio (SNR) ដែលប្រមូលបាន។
  5. អភិវឌ្ឍកម្មវិធីសាកល្បងខ្នាតតូច (Prototype Development): បង្កើតកម្មវិធីសាកល្បងមួយដែលអាចចាប់យកកម្រិតសំឡេងរំខានពីបរិយាកាសជុំវិញ (ប្រើ Microphone) រួចបញ្ជាឱ្យប្រព័ន្ធ TTS (ដូចជា WhisperCoqui TTS) បង្កើនកម្រិតសំឡេងបញ្ចេញដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Word Error Rate (WER) វិធីសាស្ត្រវាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ដោយគណនាចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមខុស បើធៀបនឹងពាក្យពិតប្រាកដ។ ដូចជាការរាប់កំហុសអក្ខរាវិរុទ្ធរបស់សិស្សនៅពេលគ្រូហៅសរសេរតាមអាន បើខុសតិចគឺបានពិន្ទុល្អ (កម្រិត WER ទាប)។
Signal-to-Noise Ratio (SNR) រង្វាស់ដែលប្រៀបធៀបកម្រិតកម្លាំងនៃសំឡេងគោលដៅ (សញ្ញា) ទៅនឹងកម្រិតកម្លាំងនៃសំឡេងរំខានខាងក្រៅ។ បើកម្រិត SNR ខ្ពស់ មានន័យថាសំឡេងគោលដៅឮច្បាស់ជាងសំឡេងរំខាន។ ដូចជាការស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀង បើគាត់និយាយខ្លាំងជាងសំឡេងភ្លេង (SNR ខ្ពស់) នោះយើងស្តាប់បានច្បាស់។
Zero-shot TTS ប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលអាចអានអត្ថបទទៅជាសំឡេង ដោយអាចយកតម្រាប់តាមទម្រង់សំឡេងថ្មីមួយបានភ្លាមៗតាមរយៈការស្តាប់គំរូសំឡេងខ្លីមួយ ទោះបីជាវាមិនធ្លាប់ត្រូវបានហ្វឹកហាត់ជាមួយសំឡេងនោះពីមុនមកក៏ដោយ។ ដូចជាមនុស្សដែលមានទេពកោសល្យអាចត្រាប់តាមសំឡេងអ្នកដទៃបានយ៉ាងស្ទាត់ជំនាញ គ្រាន់តែបានឮគេនិយាយម្តងឬពីរដង។
Lombard effect បាតុភូតធម្មជាតិដែលមនុស្សយើងបង្កើនកម្រិតកម្លាំងបញ្ចេញសំឡេង (និយាយខ្លាំងៗ) ដោយស្វ័យប្រវត្តិ នៅពេលស្ថិតក្នុងបរិយាកាសដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺបាន។ ដូចជានៅពេលយើងកំពុងជិះម៉ូតូតាមផ្លូវអ៊ូអរ យើងនឹងប្រឹងស្រែកនិយាយខ្លាំងៗទៅកាន់អ្នកអង្គុយពីក្រោយដោយមិនដឹងខ្លួន។
Ablation study ការធ្វើតេស្តសាកល្បងទៅលើម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយដកចេញនូវទិន្នន័យឬសមាសធាតុណាមួយម្តងមួយៗ ដើម្បីចង់ដឹងថាតើសមាសធាតុមួយណាមានឥទ្ធិពលខ្លាំងជាងគេទៅលើលទ្ធផល។ ដូចជាការសាកល្បងដកគ្រឿងផ្សំចេញម្តងមួយមុខៗពីមុខម្ហូប ដើម្បីរកមើលថាតើគ្រឿងផ្សំមួយណាដែលធ្វើឱ្យសម្លមានរសជាតិឆ្ងាញ់ជាងគេ។
Informational masking ការរំខានដល់ការស្តាប់ដែលកើតឡើងនៅពេលសំឡេងរំខានមានលក្ខណៈស្រដៀងនឹងសំឡេងគោលដៅ (ឧទាហរណ៍ សំឡេងមនុស្សនិយាយជាន់គ្នា) ដែលធ្វើឱ្យខួរក្បាលពិបាកក្នុងការញែកនិងចាប់យកអត្ថន័យ។ ដូចជាការព្យាយាមអានសៀវភៅនៅពេលដែលមានមនុស្សម្នាក់ទៀតកំពុងអានសៀវភៅមួយផ្សេងទៀតឮៗនៅក្បែរត្រចៀករបស់អ្នក ដែលធ្វើឱ្យខួរក្បាលអ្នកវង្វេងអានមិនចូល។
Energetic masking ការរំខានដល់ការស្តាប់ដែលកើតឡើងដោយសារថាមពលនៃសំឡេងរំខានកម្រិតខ្លាំង (ដូចជាសំឡេងម៉ាស៊ីន) គ្របដណ្ដប់លើកម្រិតសំឡេងគោលដៅទាំងស្រុង ធ្វើឱ្យត្រចៀកមិនអាចចាប់សញ្ញាសំឡេងបាន។ ដូចជាការព្យាយាមមើលពន្លឺពិលតូចមួយនៅកណ្តាលថ្ងៃត្រង់ ពន្លឺព្រះអាទិត្យដ៏ភ្លឺចិញ្ចែងចាំងបានបាំងពន្លឺពិលនោះជិតឈឹងតែម្តង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖