Original Title: Acoustic analysis of adaptive tendencies in Lombard speech produced in a noise-level varying background
Source: hdl.handle.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគសូរស័ព្ទលើនិន្នាការបន្សាំនៅក្នុងការនិយាយបែប Lombard ដែលបង្កើតឡើងក្នុងមជ្ឈដ្ឋានដែលមានកម្រិតសំឡេងរំខានប្រែប្រួល

ចំណងជើងដើម៖ Acoustic analysis of adaptive tendencies in Lombard speech produced in a noise-level varying background

អ្នកនិពន្ធ៖ Ngo Thuan Van (Japan Advanced Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2017 JAIST Repository

វិស័យសិក្សា៖ Information Science / Acoustics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការកែលម្អភាពងាយយល់នៃសំឡេងនិយាយនៅក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខាន តាមរយៈការវិភាគថាតើសំឡេងមនុស្សបន្សាំខ្លួន (ឥទ្ធិពល Lombard) ទៅនឹងកម្រិតសំឡេងរំខានដែលប្រែប្រួលយ៉ាងដូចម្តេច ដើម្បីយកទៅអនុវត្តក្នុងការសំយោគសំឡេង។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានទាញយក និងវិភាគលក្ខណៈពិសេសនៃសូរស័ព្ទផ្សេងៗពីសំណុំទិន្នន័យនៃការនិយាយបែប Lombard ដែលបានថតនៅក្នុងមជ្ឈដ្ឋានដែលមានកម្រិតសំឡេងរំខានពណ៌ផ្កាឈូក (Pink noise) ប្រែប្រួលពីកម្រិតអព្យាក្រឹតដល់ 90 dB។

ការទាញយកលក្ខណៈពិសេសនៃសូរស័ព្ទ (Acoustic feature extraction) ដូចជា ថិរវេលា (Duration) និងប្រេកង់មូលដ្ឋាន (F0) ដោយប្រើកម្មវិធី STRAIGHT
ការប៉ាន់ស្មានទម្រង់សំឡេង និងទំនោរវិសាលគម (Formant and Spectral tilt estimation) ដោយប្រើ LPC និង Spectral-GMM
ការគណនាភាពខុសគ្នានៃម៉ូឌុលវិសាលគម និងការចែកចាយថាមពលឡើងវិញ (Modulation spectrum and Energy redistribution)
ការបង្កើតគំរូគណិតវិទ្យាសម្រាប់ការបំប្លែងសំឡេងត្រាប់តាម Lombard (Mathematical modeling for voice conversion)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅពេលកម្រិតសំឡេងរំខានកើនឡើង ថិរវេលានៃស្រៈត្រូវបានពន្យារចន្លោះពី 5-10 ms សម្រាប់ការផ្លាស់ប្តូរកម្រិតនីមួយៗ ខណៈពេលដែលប្រេកង់មូលដ្ឋាន (F0) កើនឡើងយ៉ាងគំហុកនៅកម្រិត 84 dB។
និន្នាការបន្សាំបង្ហាញពីការថយចុះនៃទំនោរវិសាលគម A1-A3 ពី 10-15 dB ធៀបនឹងសំឡេងអព្យាក្រឹត និងកំណើននៃទំហំទម្រង់សំឡេង (Formant amplitudes) ដែលជួយកាត់បន្ថយការបិទបាំងពីសំឡេងរំខាន។
ការប្រើប្រាស់បច្ចេកទេសបំប្លែងសំឡេងដោយផ្អែកលើគំរូគណិតវិទ្យាដែលបានរកឃើញ អាចកែលម្អភាពងាយយល់នៃសំឡេងនិយាយធម្មតានៅក្នុងស្ថានភាពដែលមានសំឡេងរំខាន (Lombard mimicking)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LPC (Linear Predictive Coding) ការប៉ាន់ស្មានទម្រង់សំឡេងតាមរយៈយន្តការ LPC	វាមានភាពសុក្រឹតខ្ពស់ក្នុងការប៉ាន់ស្មានទីតាំងប្រេកង់នៃទម្រង់សំឡេង (Formant frequencies) ដែលជួយដល់ការវិភាគស្រៈបានច្បាស់លាស់។	វាមិនអាចប៉ាន់ស្មានកម្រិតរំញ័រ (Bandwidth) និងទំហំ (Amplitude) នៃទម្រង់សំឡេងបានច្បាស់លាស់នោះទេ ដែលទាមទារឱ្យមានការកែសម្រួលដោយផ្ទាល់ដៃ។	កំណត់ទីតាំងប្រេកង់ទម្រង់សំឡេងបានច្បាស់លាស់សម្រាប់ប្រើប្រាស់បន្តនៅក្នុងវិធីសាស្ត្រកូនកាត់រួមជាមួយ Spectral-GMM។
Spectral-GMM ការវិភាគដោយប្រើគំរូ Spectral-GMM	វាមានសមត្ថភាពក្នុងការប៉ាន់ស្មានកម្រិតរំញ័រនិងទំហំនៃទម្រង់សំឡេងបានល្អប្រសើរជាង LPC ប្រសិនបើវាដឹងពីទីតាំងប្រេកង់ជាមុន។ វាមានភាពបត់បែនក្នុងការកែប្រែទម្រង់សំឡេងសម្រាប់ការបំប្លែង។	ការប៉ាន់ស្មានទីតាំងប្រេកង់ដំបូងរបស់វាមិនសូវល្អនោះទេ ហើយវាមិនអាចគ្រប់គ្រងការកែប្រែជ្រលងរវាងទម្រង់សំឡេង (Valleys between formants) បានល្អនៅពេលសំយោគសំឡេង។	អនុញ្ញាតឱ្យមានការកែប្រែទំហំនិងទីតាំងនៃទម្រង់សំឡេងឯករាជ្យពីគ្នា បើទោះបីជាគុណភាពសំឡេងសំយោគចុងក្រោយនៅមានកម្រិតក៏ដោយ។
Fujisaki Model គំរូ Fujisaki សម្រាប់បង្កើតវណ្ឌវង្ក F0	អាចបង្កើតសំឡេងដែលមានលក្ខណៈធម្មជាតិខ្ពស់នៅពេលកែប្រែប្រេកង់មូលដ្ឋាន (F0) ដោយផ្អែកលើវិធាននៃចង្វាក់សូរស័ព្ទ (Prosodic rules)។	ដំណើរការបំព្រួញឱ្យប្រសើរបំផុត (Optimization) ដើម្បីទាញយកទិន្នន័យនៃវណ្ឌវង្ក F0 ត្រូវចំណាយពេលវេលាយូរ និងស្មុគស្មាញខ្លាំង។	អាចកសាងវណ្ឌវង្ក F0 ត្រាប់តាមការនិយាយបែប Lombard បានយ៉ាងល្អ ប៉ុន្តែទាមទារការពង្រឹងបន្ថែមលើល្បឿននៃដំណើរការ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារឧបករណ៍ថតសំឡេងកម្រិតស្ទូឌីយោដែលមានគុណភាពខ្ពស់ និងកម្មវិធីកុំព្យូទ័រឯកទេសសម្រាប់ដំណើរការកាត់ត និងវិភាគសូរស័ព្ទ។

Hardware: ម៉ៃក្រូហ្វូន SENNHEISER 416p, ឧបករណ៍បំពងសំឡេង Earthworks 1021, កាស STAX, និងបន្ទប់ទប់សំឡេង (Sound-proof booth) ដើម្បីធានាបាននូវកម្រិតសំឡេងរំខានទាបជាង 21 dB។
Software: កម្មវិធី STRAIGHT (សម្រាប់ការទាញយក F0 និង Spectrum), ប្រព័ន្ធ HTK-toolkit (សម្រាប់កាត់តជាស្វ័យប្រវត្តិ), និង Praat (សម្រាប់កែសម្រួលដោយផ្ទាល់ដៃ)។
Dataset: ទិន្នន័យសំឡេងជប៉ុនគោល (ATR database) និងឈុតទិន្នន័យសាកល្បងដែលត្រូវថតដោយចាក់បញ្ចូលសំឡេងរំខានប្រភេទ Pink Noise ពី 66 ដល់ 90 dB។
Expertise: ចំណេះដឹងស៊ីជម្រៅផ្នែកដំណើរការសញ្ញាសំឡេង (Speech Signal Processing) និងវិភាគសូរស័ព្ទវិទ្យា (Acoustics)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងមន្ទីរពិសោធន៍បិទជិត ដោយប្រើប្រាស់អ្នកនិយាយជនជាតិជប៉ុនតែពីរនាក់ប៉ុណ្ណោះ (ប្រុសម្នាក់ ស្រីម្នាក់) ជាមួយនឹងសំឡេងរំខានសិប្បនិម្មិត (Pink noise)។ លទ្ធផលនេះអាចមានភាពលម្អៀង និងមិនតំណាងឱ្យភាពចម្រុះនៃសូរស័ព្ទខ្មែរ ដែលមានប្រព័ន្ធស្រៈស្មុគស្មាញ និងមិនបានឆ្លុះបញ្ចាំងពីសំឡេងរំខានជាក់ស្តែង (ដូចជា សំឡេងម៉ាស៊ីនរោងចក្រ ឬចរាចរណ៍) ដែលជាបញ្ហាប្រឈមធំនៅក្នុងបរិបទប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងនេះក្តី ទ្រឹស្តីនៃការបន្សាំសំឡេងបែប Lombard នេះមានសក្តានុពលខ្ពស់ក្នុងការកែលម្អប្រព័ន្ធទំនាក់ទំនងនៅក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខាននៅកម្ពុជា។

ប្រព័ន្ធផ្សព្វផ្សាយសាធារណៈ (Public Announcement Systems): អាចអនុវត្តនៅតាមស្ថានីយ៍រថភ្លើង ព្រលានយន្តហោះអន្តរជាតិភ្នំពេញ ឬរថយន្តក្រុងសាធារណៈ ដោយប្រើប្រព័ន្ធបំប្លែងសំឡេងនេះដើម្បីឱ្យការប្រកាសព័ត៌មានកាន់តែច្បាស់ ងាយយល់ ទោះបីជាមានសំឡេងមនុស្សអ៊ូអរ ឬសំឡេងម៉ាស៊ីនក៏ដោយ ដោយមិនចាំបាច់គ្រាន់តែបន្ថែមទំហំសំឡេង (Volume)។
វិស័យឧស្សាហកម្ម និងរោងចក្រកាត់ដេរ (Garment Factories): ក្នុងបរិវេណរោងចក្រដែលមានម៉ាស៊ីនដេរដំណើរការដោយសំឡេងខ្លាំង ការប្រើប្រាស់ប្រព័ន្ធនេះអាចជួយឱ្យការបញ្ជូនសាររោទិ៍ (Automated warnings) ឬការទំនាក់ទំនងផ្ទៃក្នុងមានប្រសិទ្ធភាពខ្ពស់ និងកាត់បន្ថយគ្រោះថ្នាក់។
បច្ចេកវិទ្យា AI និយាយភាសាខ្មែរ (Khmer Speech Synthesis): អ្នកស្រាវជ្រាវនៅកម្ពុជាអាចបញ្ជ្រាបយន្តការ Lombard នេះទៅក្នុងប្រព័ន្ធអានអត្ថបទជាសំឡេង (Text-to-Speech) របស់ខ្មែរ ដើម្បីឱ្យ AI អាចផ្លាស់ប្តូរទម្រង់សំឡេងដោយស្វ័យប្រវត្តិនៅពេលប្រើប្រាស់លើដងផ្លូវដែលមានចរាចរណ៍កកស្ទះ។

ការទាញយកលក្ខណៈពិសេសនៃ Lombard speech មកបន្សាំប្រើប្រាស់ជាមួយភាសាខ្មែរ នឹងជួយបង្កើនប្រសិទ្ធភាពប្រព័ន្ធសំឡេងឆ្លាតវៃឱ្យស្របទៅនឹងបរិយាកាសជាក់ស្តែងប្រចាំថ្ងៃនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃសូរស័ព្ទវិទ្យា (Acoustics Basics): និស្សិតត្រូវស្វែងយល់ពីគោលការណ៍សំខាន់ៗដូចជា ប្រេកង់មូលដ្ឋាន (F0), Formants, និង Spectral tilt ដោយប្រើប្រាស់កម្មវិធី Praat ដើម្បីសាកល្បងវិភាគសំឡេងនិយាយធម្មតារបស់ខ្លួនឯងធៀបនឹងសំឡេងស្រែក។
រៀនប្រើប្រាស់ឧបករណ៍ដំណើរការសញ្ញាសំឡេង: ចាប់ផ្តើមអនុវត្តការប្រើប្រាស់ឧបករណ៍កាត់តសូរស័ព្ទកម្រិតខ្ពស់ដោយដំឡើង HTK-toolkit សម្រាប់ការកាត់សម្លេងជាផ្នែកៗ (Forced Alignment) និង STRAIGHT vocoder ដើម្បីទាញយកទិន្នន័យ Spectrum និង F0។
ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (Data Collection): បង្កើតឈុតទិន្នន័យខ្នាតតូចដោយថតសំឡេងអ្នកនិយាយភាសាខ្មែរយ៉ាងតិច៥នាក់ នៅក្នុងបន្ទប់ស្ងាត់ និងនៅក្នុងស្ថានភាពពិតទីក្រុង (មានសំឡេងរថយន្ត ឬសំឡេងហាងកាហ្វេ) ដោយប្រើប្រាស់កម្មវិធី Audacity។
សាកល្បងការបំប្លែងសំឡេង (Voice Conversion): សរសេរកូដដោយប្រើប្រាស់ភាសា Python រួមជាមួយបណ្ណាល័យ Librosa ឬ PyTorch ដើម្បីបង្កើតគំរូគណិតវិទ្យាសាមញ្ញដែលកែប្រែប្រវែងថិរវេលា និង F0 នៃសំឡេងខ្មែរអព្យាក្រឹត ទៅជាសំឡេងបែប Lombard។
ធ្វើតេស្តវាយតម្លៃភាពងាយយល់ (Intelligibility Evaluation): រៀបចំការធ្វើតេស្តស្តាប់ដោយឱ្យអ្នកចូលរួមវាយតម្លៃភាពច្បាស់នៃសំឡេងដែលបានសំយោគ (Subjective MOS Test) និងប្រៀបធៀបជាមួយឧបករណ៍វាស់វែងស្តង់ដារដូចជា Speech Transmission Index (STI) ដើម្បីវាស់ស្ទង់ភាពជោគជ័យនៃគំរូ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Lombard effect	ជាបាតុភូតដែលមនុស្សបង្កើនកម្រិតប្រឹងប្រែងនៃការបញ្ចេញសំឡេងរបស់ពួកគេដោយស្វ័យប្រវត្តិ នៅពេលដែលពួកគេស្ថិតក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺសារបានច្បាស់។	ដូចជាពេលយើងកំពុងជិះម៉ូតូតាមផ្លូវមានឡានច្រើន ហើយយើងត្រូវស្រែកនិយាយខ្លាំងៗទើបមិត្តភក្តិអង្គុយពីក្រោយអាចលឺបាន។
Fundamental Frequency (F0)	ជាប្រេកង់ទាបបំផុតនៃរលកសំឡេងដែលត្រូវបានបង្កើតឡើងដោយរំញ័រនៃខ្សែសំឡេងក្នុងបំពង់ក ដែលវាកំណត់កម្រិតសំឡេង (Pitch) ទាប ឬខ្ពស់របស់អ្នកនិយាយម្នាក់ៗ។	ប្រៀបដូចជាខ្សែហ្គីតាដែលខ្សែធំមានរំញ័រយឺតបង្កើតសំឡេងធំទាប ចំណែកឯខ្សែតូចមានរំញ័រលឿនបង្កើតសំឡេងតូចស្រួច។
Formants	ជាចំណុចកំពូលនៃប្រេកង់ស្រូបសំឡេង (Resonant frequencies) ដែលបង្កើតឡើងដោយទម្រង់នៃប្រហោងមាត់ និងបំពង់កនៅពេលបញ្ចេញសំឡេង ដែលជួយឱ្យយើងអាចបែងចែកប្រភេទស្រៈនីមួយៗបានយ៉ាងច្បាស់។	ដូចជារូបរាងបំពង់ខ្លុយដែលប្រែប្រួលនៅពេលយើងយកម្រាមដៃបិទឬបើករន្ធ ដែលធ្វើឱ្យសំឡេងផ្លុំចេញមកមានលក្ខណៈខុសៗគ្នា។
Spectral tilt	ជាកម្រិតនៃទំនោរធ្លាក់ចុះនៃថាមពលសំឡេងពីប្រេកង់ទាបទៅប្រេកង់ខ្ពស់ ដែលវាឆ្លុះបញ្ចាំងពីគុណភាព និងភាពច្បាស់នៃសំឡេង (ជាពិសេសភាពខុសគ្នារវាងសំឡេងនិយាយធម្មតា និងសំឡេងស្រែក)។	ដូចជាជម្រាលនៃភ្នំ បើជម្រាលកាន់តែរាបស្មើមិនសូវចោត (Flat) មានន័យថាសំឡេងនិយាយនោះមានកម្លាំងរុញច្រានខ្លាំងរហូតដល់កម្រិតប្រេកង់ខ្ពស់។
Modulation spectrum	ជារង្វាស់នៃការផ្លាស់ប្តូរឡើងចុះនៃកម្រិតថាមពលសំឡេង (Envelope) តាមពេលវេលា ដែលជួយឱ្យម៉ាស៊ីនឬប្រព័ន្ធស្តាប់អាចដឹងពីចង្វាក់នៃការបញ្ចេញសំឡេងនិយាយ កាត់ផ្តាច់ពីសំឡេងរំខានទូទៅ។	ប្រៀបបាននឹងចង្វាក់លោតនៃភ្លើងសញ្ញាក្នុងក្លឹបកម្សាន្ត ដែលលោតព្រិចៗតាមចង្វាក់ភ្លេងជានិច្ច ទោះជាមានសំឡេងអ៊ូអរយ៉ាងណាក៏ដោយ។
Voice conversion	ជាបច្ចេកទេសក្នុងដំណើរការសញ្ញាសំឡេង (Signal Processing) ដែលកែប្រែលក្ខណៈសូរស័ព្ទនៃការនិយាយរបស់មនុស្សម្នាក់ ឱ្យទៅជាទម្រង់សំឡេងមួយផ្សេងទៀតដោយរក្សាអត្ថន័យដដែល (ឧទាហរណ៍ បំប្លែងសំឡេងធម្មតា ទៅជាសំឡេងស្រែកបែប Lombard)។	ដូចជាកម្មវិធីប្តូរសំឡេងក្នុងទូរស័ព្ទ ដែលអាចបំប្លែងសំឡេងមនុស្សប្រុសឱ្យទៅជាសំឡេងមនុស្សស្រី ឬសំឡេងមនុស្សចាស់បានភ្លាមៗ។
Fujisaki model	ជាគំរូគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយដើម្បីបង្កើត និងកែប្រែខ្សែកោងប្រេកង់មូលដ្ឋាន (F0 contour) នៃសំឡេងនិយាយ ដើម្បីឱ្យសំឡេងសំយោគមានការលើកដាក់សំឡេងបែបធម្មជាតិ។	ប្រៀបដូចជាគំនូសព្រាងស្ថាបត្យកម្មដែលប្រាប់ម៉ាស៊ីនពីរបៀបលើកដាក់សំឡេង (ឡើងនិងចុះ) ឱ្យដូចមនុស្សកំពុងនិយាយពិតៗ។
Masking release	ជាដំណើរការដែលសញ្ញាសំឡេងនិយាយអាចគេចផុតពីការគ្របដណ្ដប់ ឬបិទបាំងដោយសំឡេងរំខាន តាមរយៈការផ្លាស់ប្តូរប្រេកង់ ឬទំហំ ដែលធ្វើឱ្យអ្នកស្តាប់អាចបំបែកសំឡេងមនុស្សចេញពីសំឡេងបរិយាកាសបានដោយងាយ។	ដូចជាការស្លៀកពាក់អាវពណ៌ក្រហមឆ្អៅនៅក្នុងហ្វូងមនុស្សដែលពាក់អាវពណ៌ខ្មៅ ដែលធ្វើឱ្យគេអាចងាយស្រួលមើលឃើញអ្នកភ្លាមៗដោយមិនច្រឡំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖