Original Title: Acoustic analysis of adaptive tendencies in Lombard speech produced in a noise-level varying background
Source: hdl.handle.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគសូរស័ព្ទលើនិន្នាការបន្សាំនៅក្នុងការនិយាយបែប Lombard ដែលបង្កើតឡើងក្នុងមជ្ឈដ្ឋានដែលមានកម្រិតសំឡេងរំខានប្រែប្រួល

ចំណងជើងដើម៖ Acoustic analysis of adaptive tendencies in Lombard speech produced in a noise-level varying background

អ្នកនិពន្ធ៖ Ngo Thuan Van (Japan Advanced Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2017 JAIST Repository

វិស័យសិក្សា៖ Information Science / Acoustics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការកែលម្អភាពងាយយល់នៃសំឡេងនិយាយនៅក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខាន តាមរយៈការវិភាគថាតើសំឡេងមនុស្សបន្សាំខ្លួន (ឥទ្ធិពល Lombard) ទៅនឹងកម្រិតសំឡេងរំខានដែលប្រែប្រួលយ៉ាងដូចម្តេច ដើម្បីយកទៅអនុវត្តក្នុងការសំយោគសំឡេង។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានទាញយក និងវិភាគលក្ខណៈពិសេសនៃសូរស័ព្ទផ្សេងៗពីសំណុំទិន្នន័យនៃការនិយាយបែប Lombard ដែលបានថតនៅក្នុងមជ្ឈដ្ឋានដែលមានកម្រិតសំឡេងរំខានពណ៌ផ្កាឈូក (Pink noise) ប្រែប្រួលពីកម្រិតអព្យាក្រឹតដល់ 90 dB។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
LPC (Linear Predictive Coding)
ការប៉ាន់ស្មានទម្រង់សំឡេងតាមរយៈយន្តការ LPC
វាមានភាពសុក្រឹតខ្ពស់ក្នុងការប៉ាន់ស្មានទីតាំងប្រេកង់នៃទម្រង់សំឡេង (Formant frequencies) ដែលជួយដល់ការវិភាគស្រៈបានច្បាស់លាស់។ វាមិនអាចប៉ាន់ស្មានកម្រិតរំញ័រ (Bandwidth) និងទំហំ (Amplitude) នៃទម្រង់សំឡេងបានច្បាស់លាស់នោះទេ ដែលទាមទារឱ្យមានការកែសម្រួលដោយផ្ទាល់ដៃ។ កំណត់ទីតាំងប្រេកង់ទម្រង់សំឡេងបានច្បាស់លាស់សម្រាប់ប្រើប្រាស់បន្តនៅក្នុងវិធីសាស្ត្រកូនកាត់រួមជាមួយ Spectral-GMM។
Spectral-GMM
ការវិភាគដោយប្រើគំរូ Spectral-GMM
វាមានសមត្ថភាពក្នុងការប៉ាន់ស្មានកម្រិតរំញ័រនិងទំហំនៃទម្រង់សំឡេងបានល្អប្រសើរជាង LPC ប្រសិនបើវាដឹងពីទីតាំងប្រេកង់ជាមុន។ វាមានភាពបត់បែនក្នុងការកែប្រែទម្រង់សំឡេងសម្រាប់ការបំប្លែង។ ការប៉ាន់ស្មានទីតាំងប្រេកង់ដំបូងរបស់វាមិនសូវល្អនោះទេ ហើយវាមិនអាចគ្រប់គ្រងការកែប្រែជ្រលងរវាងទម្រង់សំឡេង (Valleys between formants) បានល្អនៅពេលសំយោគសំឡេង។ អនុញ្ញាតឱ្យមានការកែប្រែទំហំនិងទីតាំងនៃទម្រង់សំឡេងឯករាជ្យពីគ្នា បើទោះបីជាគុណភាពសំឡេងសំយោគចុងក្រោយនៅមានកម្រិតក៏ដោយ។
Fujisaki Model
គំរូ Fujisaki សម្រាប់បង្កើតវណ្ឌវង្ក F0
អាចបង្កើតសំឡេងដែលមានលក្ខណៈធម្មជាតិខ្ពស់នៅពេលកែប្រែប្រេកង់មូលដ្ឋាន (F0) ដោយផ្អែកលើវិធាននៃចង្វាក់សូរស័ព្ទ (Prosodic rules)។ ដំណើរការបំព្រួញឱ្យប្រសើរបំផុត (Optimization) ដើម្បីទាញយកទិន្នន័យនៃវណ្ឌវង្ក F0 ត្រូវចំណាយពេលវេលាយូរ និងស្មុគស្មាញខ្លាំង។ អាចកសាងវណ្ឌវង្ក F0 ត្រាប់តាមការនិយាយបែប Lombard បានយ៉ាងល្អ ប៉ុន្តែទាមទារការពង្រឹងបន្ថែមលើល្បឿននៃដំណើរការ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារឧបករណ៍ថតសំឡេងកម្រិតស្ទូឌីយោដែលមានគុណភាពខ្ពស់ និងកម្មវិធីកុំព្យូទ័រឯកទេសសម្រាប់ដំណើរការកាត់ត និងវិភាគសូរស័ព្ទ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងមន្ទីរពិសោធន៍បិទជិត ដោយប្រើប្រាស់អ្នកនិយាយជនជាតិជប៉ុនតែពីរនាក់ប៉ុណ្ណោះ (ប្រុសម្នាក់ ស្រីម្នាក់) ជាមួយនឹងសំឡេងរំខានសិប្បនិម្មិត (Pink noise)។ លទ្ធផលនេះអាចមានភាពលម្អៀង និងមិនតំណាងឱ្យភាពចម្រុះនៃសូរស័ព្ទខ្មែរ ដែលមានប្រព័ន្ធស្រៈស្មុគស្មាញ និងមិនបានឆ្លុះបញ្ចាំងពីសំឡេងរំខានជាក់ស្តែង (ដូចជា សំឡេងម៉ាស៊ីនរោងចក្រ ឬចរាចរណ៍) ដែលជាបញ្ហាប្រឈមធំនៅក្នុងបរិបទប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងនេះក្តី ទ្រឹស្តីនៃការបន្សាំសំឡេងបែប Lombard នេះមានសក្តានុពលខ្ពស់ក្នុងការកែលម្អប្រព័ន្ធទំនាក់ទំនងនៅក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខាននៅកម្ពុជា។

ការទាញយកលក្ខណៈពិសេសនៃ Lombard speech មកបន្សាំប្រើប្រាស់ជាមួយភាសាខ្មែរ នឹងជួយបង្កើនប្រសិទ្ធភាពប្រព័ន្ធសំឡេងឆ្លាតវៃឱ្យស្របទៅនឹងបរិយាកាសជាក់ស្តែងប្រចាំថ្ងៃនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃសូរស័ព្ទវិទ្យា (Acoustics Basics): និស្សិតត្រូវស្វែងយល់ពីគោលការណ៍សំខាន់ៗដូចជា ប្រេកង់មូលដ្ឋាន (F0), Formants, និង Spectral tilt ដោយប្រើប្រាស់កម្មវិធី Praat ដើម្បីសាកល្បងវិភាគសំឡេងនិយាយធម្មតារបស់ខ្លួនឯងធៀបនឹងសំឡេងស្រែក។
  2. រៀនប្រើប្រាស់ឧបករណ៍ដំណើរការសញ្ញាសំឡេង: ចាប់ផ្តើមអនុវត្តការប្រើប្រាស់ឧបករណ៍កាត់តសូរស័ព្ទកម្រិតខ្ពស់ដោយដំឡើង HTK-toolkit សម្រាប់ការកាត់សម្លេងជាផ្នែកៗ (Forced Alignment) និង STRAIGHT vocoder ដើម្បីទាញយកទិន្នន័យ Spectrum និង F0។
  3. ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (Data Collection): បង្កើតឈុតទិន្នន័យខ្នាតតូចដោយថតសំឡេងអ្នកនិយាយភាសាខ្មែរយ៉ាងតិច៥នាក់ នៅក្នុងបន្ទប់ស្ងាត់ និងនៅក្នុងស្ថានភាពពិតទីក្រុង (មានសំឡេងរថយន្ត ឬសំឡេងហាងកាហ្វេ) ដោយប្រើប្រាស់កម្មវិធី Audacity
  4. សាកល្បងការបំប្លែងសំឡេង (Voice Conversion): សរសេរកូដដោយប្រើប្រាស់ភាសា Python រួមជាមួយបណ្ណាល័យ LibrosaPyTorch ដើម្បីបង្កើតគំរូគណិតវិទ្យាសាមញ្ញដែលកែប្រែប្រវែងថិរវេលា និង F0 នៃសំឡេងខ្មែរអព្យាក្រឹត ទៅជាសំឡេងបែប Lombard។
  5. ធ្វើតេស្តវាយតម្លៃភាពងាយយល់ (Intelligibility Evaluation): រៀបចំការធ្វើតេស្តស្តាប់ដោយឱ្យអ្នកចូលរួមវាយតម្លៃភាពច្បាស់នៃសំឡេងដែលបានសំយោគ (Subjective MOS Test) និងប្រៀបធៀបជាមួយឧបករណ៍វាស់វែងស្តង់ដារដូចជា Speech Transmission Index (STI) ដើម្បីវាស់ស្ទង់ភាពជោគជ័យនៃគំរូ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Lombard effect ជាបាតុភូតដែលមនុស្សបង្កើនកម្រិតប្រឹងប្រែងនៃការបញ្ចេញសំឡេងរបស់ពួកគេដោយស្វ័យប្រវត្តិ នៅពេលដែលពួកគេស្ថិតក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺសារបានច្បាស់។ ដូចជាពេលយើងកំពុងជិះម៉ូតូតាមផ្លូវមានឡានច្រើន ហើយយើងត្រូវស្រែកនិយាយខ្លាំងៗទើបមិត្តភក្តិអង្គុយពីក្រោយអាចលឺបាន។
Fundamental Frequency (F0) ជាប្រេកង់ទាបបំផុតនៃរលកសំឡេងដែលត្រូវបានបង្កើតឡើងដោយរំញ័រនៃខ្សែសំឡេងក្នុងបំពង់ក ដែលវាកំណត់កម្រិតសំឡេង (Pitch) ទាប ឬខ្ពស់របស់អ្នកនិយាយម្នាក់ៗ។ ប្រៀបដូចជាខ្សែហ្គីតាដែលខ្សែធំមានរំញ័រយឺតបង្កើតសំឡេងធំទាប ចំណែកឯខ្សែតូចមានរំញ័រលឿនបង្កើតសំឡេងតូចស្រួច។
Formants ជាចំណុចកំពូលនៃប្រេកង់ស្រូបសំឡេង (Resonant frequencies) ដែលបង្កើតឡើងដោយទម្រង់នៃប្រហោងមាត់ និងបំពង់កនៅពេលបញ្ចេញសំឡេង ដែលជួយឱ្យយើងអាចបែងចែកប្រភេទស្រៈនីមួយៗបានយ៉ាងច្បាស់។ ដូចជារូបរាងបំពង់ខ្លុយដែលប្រែប្រួលនៅពេលយើងយកម្រាមដៃបិទឬបើករន្ធ ដែលធ្វើឱ្យសំឡេងផ្លុំចេញមកមានលក្ខណៈខុសៗគ្នា។
Spectral tilt ជាកម្រិតនៃទំនោរធ្លាក់ចុះនៃថាមពលសំឡេងពីប្រេកង់ទាបទៅប្រេកង់ខ្ពស់ ដែលវាឆ្លុះបញ្ចាំងពីគុណភាព និងភាពច្បាស់នៃសំឡេង (ជាពិសេសភាពខុសគ្នារវាងសំឡេងនិយាយធម្មតា និងសំឡេងស្រែក)។ ដូចជាជម្រាលនៃភ្នំ បើជម្រាលកាន់តែរាបស្មើមិនសូវចោត (Flat) មានន័យថាសំឡេងនិយាយនោះមានកម្លាំងរុញច្រានខ្លាំងរហូតដល់កម្រិតប្រេកង់ខ្ពស់។
Modulation spectrum ជារង្វាស់នៃការផ្លាស់ប្តូរឡើងចុះនៃកម្រិតថាមពលសំឡេង (Envelope) តាមពេលវេលា ដែលជួយឱ្យម៉ាស៊ីនឬប្រព័ន្ធស្តាប់អាចដឹងពីចង្វាក់នៃការបញ្ចេញសំឡេងនិយាយ កាត់ផ្តាច់ពីសំឡេងរំខានទូទៅ។ ប្រៀបបាននឹងចង្វាក់លោតនៃភ្លើងសញ្ញាក្នុងក្លឹបកម្សាន្ត ដែលលោតព្រិចៗតាមចង្វាក់ភ្លេងជានិច្ច ទោះជាមានសំឡេងអ៊ូអរយ៉ាងណាក៏ដោយ។
Voice conversion ជាបច្ចេកទេសក្នុងដំណើរការសញ្ញាសំឡេង (Signal Processing) ដែលកែប្រែលក្ខណៈសូរស័ព្ទនៃការនិយាយរបស់មនុស្សម្នាក់ ឱ្យទៅជាទម្រង់សំឡេងមួយផ្សេងទៀតដោយរក្សាអត្ថន័យដដែល (ឧទាហរណ៍ បំប្លែងសំឡេងធម្មតា ទៅជាសំឡេងស្រែកបែប Lombard)។ ដូចជាកម្មវិធីប្តូរសំឡេងក្នុងទូរស័ព្ទ ដែលអាចបំប្លែងសំឡេងមនុស្សប្រុសឱ្យទៅជាសំឡេងមនុស្សស្រី ឬសំឡេងមនុស្សចាស់បានភ្លាមៗ។
Fujisaki model ជាគំរូគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយដើម្បីបង្កើត និងកែប្រែខ្សែកោងប្រេកង់មូលដ្ឋាន (F0 contour) នៃសំឡេងនិយាយ ដើម្បីឱ្យសំឡេងសំយោគមានការលើកដាក់សំឡេងបែបធម្មជាតិ។ ប្រៀបដូចជាគំនូសព្រាងស្ថាបត្យកម្មដែលប្រាប់ម៉ាស៊ីនពីរបៀបលើកដាក់សំឡេង (ឡើងនិងចុះ) ឱ្យដូចមនុស្សកំពុងនិយាយពិតៗ។
Masking release ជាដំណើរការដែលសញ្ញាសំឡេងនិយាយអាចគេចផុតពីការគ្របដណ្ដប់ ឬបិទបាំងដោយសំឡេងរំខាន តាមរយៈការផ្លាស់ប្តូរប្រេកង់ ឬទំហំ ដែលធ្វើឱ្យអ្នកស្តាប់អាចបំបែកសំឡេងមនុស្សចេញពីសំឡេងបរិយាកាសបានដោយងាយ។ ដូចជាការស្លៀកពាក់អាវពណ៌ក្រហមឆ្អៅនៅក្នុងហ្វូងមនុស្សដែលពាក់អាវពណ៌ខ្មៅ ដែលធ្វើឱ្យគេអាចងាយស្រួលមើលឃើញអ្នកភ្លាមៗដោយមិនច្រឡំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖