Original Title: INTELLIGIBILITY ENHANCEMENT OF SPEECH IN NOISE
Source: wiki.inf.ed.ac.uk
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើនភាពច្បាស់នៃសំឡេងនិយាយក្នុងបរិស្ថានមានសំឡេងរំខាន

ចំណងជើងដើម៖ INTELLIGIBILITY ENHANCEMENT OF SPEECH IN NOISE

អ្នកនិពន្ធ៖ Cassia Valentini-Botinhao (University of Edinburgh, UK), Junichi Yamagishi (University of Edinburgh, UK / National Institute of Informatics, Japan), Simon King (University of Edinburgh, UK)

ឆ្នាំបោះពុម្ព៖ 2014, Proceedings of the Institute of Acoustics

វិស័យសិក្សា៖ Acoustics and Speech Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការថយចុះភាពច្បាស់នៃការនិយាយសំយោគ (Synthetic speech) នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខាន ដោយស្វែងរកវិធីសាស្ត្រកែប្រែសំឡេងឱ្យមានលក្ខណៈបន្ស៊ាំដូចទៅនឹងការនិយាយរបស់មនុស្សធម្មតានៅពេលមានរំខាន (Lombard effect)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានវាយតម្លៃរង្វាស់វត្ថុបំណងផ្សេងៗ និងស្នើឡើងនូវវិធីសាស្ត្រកែប្រែសំឡេងសំយោគដោយស្វ័យប្រវត្តិដោយផ្អែកលើគំរូសោតវិញ្ញាណ និងការធ្វើតេស្តស្តាប់។

ការវាយតម្លៃរង្វាស់វត្ថុបំណងសម្រាប់ភាពច្បាស់នៃការនិយាយ (Objective measures evaluation)
ការកែប្រែមេគុណ Mel Cepstral ផ្អែកលើសមាមាត្រ Glimpse (GP-based modification)
ការរួមបញ្ចូលវិធីសាស្ត្របង្ហាប់ជួរថាមវន្ត (Dynamic Range Compression - DRC) និងការបន្ស៊ាំ Lombard (Lombard adaptation)
ការធ្វើតេស្តស្តាប់ដោយផ្ទាល់ទ្រង់ទ្រាយធំដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវនៃពាក្យ (Large-scale subjective listening tests)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

រង្វាស់ផ្អែកលើគំរូសោតវិញ្ញាណដូចជា Dau និង Glimpse Proportion (GP) មានសមត្ថភាពទស្សន៍ទាយខ្ពស់បំផុតចំពោះភាពច្បាស់នៃសំឡេងនៅក្នុងលក្ខខណ្ឌសំឡេងរំខានផ្សេងៗ។
ការកែប្រែវិសាលគម (Spectral modifications) ផ្អែកលើរង្វាស់ GP បានបង្កើនភាពច្បាស់នៃការនិយាយយ៉ាងសំខាន់នៅក្នុងលក្ខខណ្ឌសំឡេងរំខានថេរ ជាពិសេសនៅពេលបូកបញ្ចូលជាមួយយុទ្ធសាស្ត្រ DRC។
ការរួមបញ្ចូលវិធីសាស្ត្រកែប្រែ GP, DRC, និងការបន្ស៊ាំ Lombard (TTSLGP-DRC) ទទួលបានកំណើនអាំងតង់ស៊ីតេសមមូល ៤,២ dB បើប្រៀបធៀបទៅនឹងសំឡេងដើម (TTS baseline) នៅក្នុងការសាកល្បងដោយមានសំឡេងរំខាន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Unmodified Baseline TTS ប្រព័ន្ធសំយោគសំឡេងមូលដ្ឋាន (មិនមានការកែប្រែ)	ងាយស្រួលក្នុងការបង្កើត និងផ្តល់នូវសំឡេងធម្មជាតិល្អនៅពេលស្តាប់ក្នុងបរិស្ថានស្ងាត់។	ភាពច្បាស់នៃសំឡេងធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលមានសំឡេងរំខាន ឬការនិយាយប្រជែងគ្នា។	ត្រូវបានប្រើជាចំណុចមូលដ្ឋាន (0 dB) សម្រាប់ការប្រៀបធៀប។
TTSGP (Glimpse Proportion Modification) ការកែប្រែដោយផ្អែកលើសមាមាត្រ Glimpse (TTSGP)	អាចអនុវត្តបានក្នុងពេលសំយោគសំឡេងដោយស្វ័យប្រវត្តិ និងមិនតម្រូវឱ្យមានព័ត៌មានពីស្រោមវិសាលគម (spectral envelope) នៃសំឡេងធម្មជាតិឡើយ។	ការបង្កើនប្រសិទ្ធភាព GP ដោយគ្មានដែនកំណត់អាចបង្កើតឱ្យមានការបង្ខូចទ្រង់ទ្រាយសំឡេង (audible distortions) ខ្លះៗ។	បង្កើនប្រេកង់ចន្លោះពី 1-4 kHz ដែលជួយពង្រឹងសំឡេងស្រៈ និងសំឡេងច្រមុះ (nasals)។
TTSGP-DRC (GP + Dynamic Range Compression) ការរួមបញ្ចូលទី TTSGP និងការបង្ហាប់ជួរថាមវន្ត (DRC)	ជួយពង្រឹងប្រេកង់ខ្ពស់ៗ និងធ្វើឱ្យរលកវិសាលគម (spectral tilt) មានភាពរាបស្មើ ដែលងាយស្រួលស្តាប់ជាងមុន។	គុណភាពនៃភាពជាធម្មជាតិអាចនឹងត្រូវកាត់បន្ថយបន្តិចបន្តួចដោយសារការកែប្រែកម្រិតថាមពលតាមពេលវេលា។	រួមចំណែកយ៉ាងធំក្នុងការបង្កើនភាពច្បាស់នៅកម្រិតសំឡេងរំខានមធ្យម (SNR=-4dB)។
TTSLGP-DRC (GP + DRC + Lombard Adaptation) ការរួមបញ្ចូល GP, DRC និងការបន្ស៊ាំម៉ូដែល Lombard	ផ្តល់នូវភាពច្បាស់ខ្ពស់បំផុត ជាពិសេសក្នុងស្ថានភាពដែលមានអ្នកនិយាយប្រជែង (competing talker) ដោយសារមានការកែប្រែរលកសំឡេង (F0) និងរយៈពេល។	ទាមទារឱ្យមានទិន្នន័យសំឡេងដែលថតក្នុងស្ថានភាព Lombard (និយាយស្រែកពេលមានរំខាន) របស់អ្នកនិយាយដើម។	ទទួលបានកំណើនអាំងតង់ស៊ីតេសមមូលរហូតដល់ ៤,២ dB បើប្រៀបធៀបនឹងប្រព័ន្ធមូលដ្ឋាន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនៅក្នុងឯកសារនេះ ទាមទារទាំងការគណនាកុំព្យូទ័រសម្រាប់ការបង្កើនប្រសិទ្ធភាព និងសំណុំទិន្នន័យសំឡេងកម្រិតខ្ពស់។

Dataset: ត្រូវការទិន្នន័យសំឡេងអានធម្មជាតិដែលថតក្នុងបន្ទប់ស្ងាត់ដើម្បីហ្វឹកហាត់ម៉ូដែល HMM និងតម្រូវការទិន្នន័យ 'Lombard speech' បន្ថែមសម្រាប់វិធីសាស្ត្របន្ស៊ាំកម្រិតខ្ពស់។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ (CPU/GPU) សម្រាប់ដំណើរការបច្ចេកទេស Gradient Descent ក្នុងការកែប្រែមេគុណ Mel Cepstral តាមពេលវេលាជាក់ស្តែង។
Expertise: អ្នកជំនាញផ្នែកកែច្នៃសញ្ញាសំឡេង (Signal Processing), សូរសព្ទវិទ្យា (Acoustics), និងការកសាងម៉ូដែលសំយោគសំឡេង (HMM-based TTS)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងបុរសតែម្នាក់ និងផ្អែកលើទិន្នន័យភាសាអង់គ្លេសសម្រាប់ការវាយតម្លៃក្នុងគម្រោង Hurricane Challenge។ សម្រាប់បរិបទប្រទេសកម្ពុជា ភាសាខ្មែរមានលក្ខណៈសូរសព្ទខុសប្លែកគ្នា (មានស្រៈច្រើន កម្រិតសំឡេងខ្យល់ និងព្យញ្ជនៈសង្កត់) ហេតុនេះការកំណត់ប្រេកង់ 1-4 kHz អាចនឹងត្រូវការការកែសម្រួលដើម្បីឲ្យស្របនឹងសូរសព្ទភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនេះពិតជាមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាសំឡេងនៅកម្ពុជា ជាពិសេសក្នុងបរិស្ថានដែលមានសំឡេងអ៊ូអរ។

ប្រព័ន្ធប្រកាសព័ត៌មានសាធារណៈ (Public Address Systems): អាចប្រើប្រាស់ក្នុងប្រព័ន្ធបំពងសំឡេងនៅតាមទីផ្សារធំៗ (ដូចជា ផ្សារធំថ្មី ឬ ផ្សារអូរឫស្សី) ឬចំណតឡានក្រុង ដើម្បីឱ្យការប្រកាសព័ត៌មានអូតូម៉ាទីកនៅតែស្តាប់បានច្បាស់ទោះមានសំឡេងមនុស្សអ៊ូអរក៏ដោយ។
កម្មវិធីកក់ការធ្វើដំណើរ (Ride-Hailing Apps like PassApp/Grab): អាចបញ្ចូលក្នុងប្រព័ន្ធរុករក (Voice Navigation) សម្រាប់អ្នកបើកបរម៉ូតូកង់បី ដែលជារឿយៗប្រឈមនឹងសំឡេងរំខានពីចរាចរណ៍តាមដងផ្លូវក្នុងរាជធានីភ្នំពេញ។
បច្ចេកវិទ្យាអប់រំ (EdTech): ជួយសម្រួលដល់កម្មវិធីអានអត្ថបទ (Text-to-Speech) សម្រាប់សិស្សានុសិស្ស ឬជនពិការភ្នែក នៅក្នុងថ្នាក់រៀនដែលមានបរិយាកាសរំខាន ឬតំបន់ជនបទ។

ការសម្របវិធីសាស្ត្រ Glimpse Proportion និង Lombard Effect ទៅក្នុងប្រព័ន្ធ TTS ភាសាខ្មែរ នឹងធ្វើឱ្យឧបករណ៍ទំនាក់ទំនងឌីជីថលកាន់តែមានភាពធន់នឹងសំឡេងរំខាន និងងាយស្រួលប្រើប្រាស់ក្នុងជីវិតប្រចាំថ្ងៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាស្រាវជ្រាវអំពីសូរសព្ទ និងកែច្នៃសញ្ញាសំឡេង (Acoustic Processing): ចាប់ផ្តើមដោយការរៀនប្រើប្រាស់កូដ Python ជាមួយបណ្ណាល័យដូចជា Librosa និងឧបករណ៍វិភាគសំឡេង Praat ដើម្បីស្វែងយល់ពី Mel Cepstral Coefficients និង Spectral Tilt នៃសំឡេងភាសាខ្មែរ។
អភិវឌ្ឍប្រព័ន្ធសំយោគសំឡេងមូលដ្ឋាន (Khmer Baseline TTS): ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរក្នុងបន្ទប់ស្ងាត់ (Clear speech) រួចប្រើប្រាស់ប្រព័ន្ធបណ្តុះបណ្តាលដូចជា Merlin (សម្រាប់ HMM) ឬ FastSpeech (សម្រាប់ Neural TTS) ដើម្បីបង្កើតម៉ូដែលមូលដ្ឋាន។
អនុវត្តក្បួនគណនា Glimpse Proportion និង DRC: សរសេរកូដដើម្បីអនុវត្តក្បួន Gradient Descent ក្នុងគោលបំណងកែប្រែប៉ារ៉ាម៉ែត្រវិសាលគម ដោយផ្តោតលើការបង្កើន GP score និងបន្ថែមមុខងារ Dynamic Range Compression ដើម្បីបង្កើនប្រេកង់សំឡេងខ្ពស់។
ប្រមូលទិន្នន័យ Lombard Speech ភាសាខ្មែរ: រៀបចំការថតសំឡេងដោយឲ្យអ្នកនិយាយពាក់កាសស្តាប់សំឡេងរំខាន (Noise) ពេលកំពុងអានអត្ថបទ ដើម្បីថតយកទិន្នន័យ Lombard សម្រាប់ប្រើក្នុងការបន្ស៊ាំម៉ូដែល (Lombard Adaptation)។
ធ្វើតេស្តវាយតម្លៃក្នុងស្ថានភាពជាក់ស្តែងកម្ពុជា: យកសំឡេងដែលសំយោគបាន មកលាយឡំជាមួយសំឡេងរំខាននៅទីក្រុងភ្នំពេញ (សំឡេងម៉ូតូ សំឡេងផ្សារ) រួចធ្វើតេស្តឲ្យអ្នកស្តាប់វាយតម្លៃភាពត្រឹមត្រូវនៃពាក្យ (Word Accuracy Rate)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Lombard effect	បាតុភូតដែលមនុស្សផ្លាស់ប្តូររបៀបនិយាយដោយស្វ័យប្រវត្តិ (ដូចជាការនិយាយខ្លាំងៗ បញ្ចេញសំឡេងច្បាស់ៗ អូសបន្លាយពាក្យ ឬដំឡើងសំនៀង) នៅពេលពួកគេស្ថិតក្នុងបរិស្ថានដែលមានសំឡេងរំខាន ដើម្បីឱ្យអ្នកស្តាប់អាចចាប់បាន។ នៅក្នុងការសិក្សានេះ គេយកលំនាំបាតុភូតនេះមកអនុវត្តលើប្រព័ន្ធកុំព្យូទ័រដើម្បីឱ្យវាចេះនិយាយច្បាស់ពេលមានរំខាន។	ដូចជាពេលយើងស្រែកនិយាយគ្នានៅក្នុងក្លឹបកម្សាន្ត ឬការដ្ឋានសំណង់ដែលមានសំឡេងខ្លាំងៗ ដើម្បីឱ្យគេស្តាប់ឮ។
Glimpse proportion (GP)	រង្វាស់វាយតម្លៃតាមរយៈការគណនាថាតើមានផ្នែកប៉ុន្មាននៃប្រេកង់សំឡេងនិយាយដែលមិនត្រូវបានបិទបាំងដោយសំឡេងរំខាន។ វាជួយឱ្យប្រព័ន្ធអាចទស្សន៍ទាយបានថា តើអ្នកស្តាប់អាចចាប់បានពាក្យនីមួយៗក្នុងកម្រិតណា ដើម្បីកែសម្រួលសំឡេងឱ្យកាន់តែច្បាស់។	ដូចជាការមើលឃើញផ្ទៃមេឃពណ៌ខៀវតាមចន្លោះពពក ដែលពពកជាសំឡេងរំខាន ហើយមេឃខៀវជាសំឡេងនិយាយដែលកាត់ផ្តាច់សំឡេងរំខានបាន។
Dynamic range compression (DRC)	ដំណើរការកែច្នៃសញ្ញាសំឡេង ដែលបន្ថយគម្លាតរវាងកម្រិតសំឡេងខ្លាំង និងសំឡេងខ្សោយ ដោយវាទាញបង្កើនកម្រិតសំឡេងនៅត្រង់ផ្នែកដែលខ្សោយ (ច្រើនតែជាសូរស័ព្ទប្រេកង់ខ្ពស់) ឱ្យខ្លាំងជាងមុន ដើម្បីឱ្យគេស្តាប់បានច្បាស់គ្រប់ពាក្យពេចន៍។	ដូចជាការប្រើមុខងារតម្រូវពន្លឺដោយស្វ័យប្រវត្តិលើកាមេរ៉ា ដើម្បីទាញយកកន្លែងងងឹតៗក្នុងរូបភាពឱ្យភ្លឺឡើង និងងាយស្រួលមើលឃើញច្បាស់។
Mel cepstral coefficients	ប៉ារ៉ាម៉ែត្រគណិតវិទ្យាដែលតំណាងឱ្យស្រោមវិសាលគម (spectral envelope) នៃសញ្ញាសំឡេង ដោយធ្វើត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សចាប់យក និងបែងចែកប្រេកង់សំឡេង។ វាត្រូវបានប្រើប្រាស់ជាទូទៅក្នុងការបង្រៀនប្រព័ន្ធសំយោគសំឡេងឱ្យចេះបញ្ចេញសំឡេង។	ដូចជា DNA ឬអត្តសញ្ញាណប័ណ្ណនៃសំឡេង ដែលប្រាប់កុំព្យូទ័រពីរូបរាងនៃរលកសំឡេង ដើម្បីអាចបង្កើតសំឡេងនោះបានត្រឹមត្រូវ។
Spectral tilt	ការបែងចែកថាមពលនៃសំឡេងទៅតាមប្រេកង់ផ្សេងៗ។ ការធ្វើឱ្យវារាបស្មើ (flattening) គឺសំដៅលើការទាញបង្កើនថាមពលនៅប្រេកង់ខ្ពស់ៗ ដែលធ្វើឱ្យសំឡេងស្តាប់ទៅស្រួចនិងអាចទម្លុះសំឡេងរំខានបានល្អជាងមុន។	ដូចជាការសារ៉េប៊ូតុង "Treble" (សំឡេងស្រួច) នៅលើធុងបាសឱ្យខ្លាំងជាងមុន ដើម្បីឱ្យលឺសំឡេងអ្នកច្រៀងច្បាស់ជាងសំឡេងភ្លេងបាស (Bass)។
HMM-generated synthetic speech	ការបង្កើតសំឡេងនិយាយតាមរយៈអត្ថបទ (Text-to-Speech) ដោយប្រើប្រាស់ម៉ូដែលស្ថិតិ Hidden Markov Models (HMM) ដើម្បីរៀនពីលំនាំនៃការបញ្ចេញសំឡេងរបស់មនុស្ស និងកសាងរលកសំឡេងថ្មីដែលស្រដៀងនឹងសំឡេងដើម។	ដូចជាមនុស្សយន្តដែលរៀនស្តាប់ពីទម្លាប់នៃការនិយាយរបស់មនុស្ស រួចព្យាយាមនិយាយត្រាប់តាមដោយផ្អែកលើអត្ថបទដែលយើងសរសេរឱ្យវាអាន។
Auditory masking	បាតុភូតសោតវិញ្ញាណដែលត្រចៀកមនុស្សមិនអាចចាប់យកសំឡេងគោលដៅបាន ដោយសារមានសំឡេងមួយទៀត (សំឡេងរំខាន) ដែលមានប្រេកង់ ឬកម្រិតស្រដៀងគ្នាគ្របដណ្ដប់ ឬលុបពីលើ។	ដូចជាការព្យាយាមមើលពន្លឺពិលតូចមួយនៅពេលថ្ងៃត្រង់ ដែលពន្លឺព្រះអាទិត្យដ៏ខ្លាំង (សំឡេងរំខាន) បានបិទបាំងពន្លឺពិលនោះមិនឱ្យយើងមើលឃើញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖