បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការកែលម្អភាពងាយយល់នៃសំឡេងនិយាយនៅក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខាន តាមរយៈការវិភាគថាតើសំឡេងមនុស្សបន្សាំខ្លួន (ឥទ្ធិពល Lombard) ទៅនឹងកម្រិតសំឡេងរំខានដែលប្រែប្រួលយ៉ាងដូចម្តេច ដើម្បីយកទៅអនុវត្តក្នុងការសំយោគសំឡេង។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានទាញយក និងវិភាគលក្ខណៈពិសេសនៃសូរស័ព្ទផ្សេងៗពីសំណុំទិន្នន័យនៃការនិយាយបែប Lombard ដែលបានថតនៅក្នុងមជ្ឈដ្ឋានដែលមានកម្រិតសំឡេងរំខានពណ៌ផ្កាឈូក (Pink noise) ប្រែប្រួលពីកម្រិតអព្យាក្រឹតដល់ 90 dB។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| LPC (Linear Predictive Coding) ការប៉ាន់ស្មានទម្រង់សំឡេងតាមរយៈយន្តការ LPC |
វាមានភាពសុក្រឹតខ្ពស់ក្នុងការប៉ាន់ស្មានទីតាំងប្រេកង់នៃទម្រង់សំឡេង (Formant frequencies) ដែលជួយដល់ការវិភាគស្រៈបានច្បាស់លាស់។ | វាមិនអាចប៉ាន់ស្មានកម្រិតរំញ័រ (Bandwidth) និងទំហំ (Amplitude) នៃទម្រង់សំឡេងបានច្បាស់លាស់នោះទេ ដែលទាមទារឱ្យមានការកែសម្រួលដោយផ្ទាល់ដៃ។ | កំណត់ទីតាំងប្រេកង់ទម្រង់សំឡេងបានច្បាស់លាស់សម្រាប់ប្រើប្រាស់បន្តនៅក្នុងវិធីសាស្ត្រកូនកាត់រួមជាមួយ Spectral-GMM។ |
| Spectral-GMM ការវិភាគដោយប្រើគំរូ Spectral-GMM |
វាមានសមត្ថភាពក្នុងការប៉ាន់ស្មានកម្រិតរំញ័រនិងទំហំនៃទម្រង់សំឡេងបានល្អប្រសើរជាង LPC ប្រសិនបើវាដឹងពីទីតាំងប្រេកង់ជាមុន។ វាមានភាពបត់បែនក្នុងការកែប្រែទម្រង់សំឡេងសម្រាប់ការបំប្លែង។ | ការប៉ាន់ស្មានទីតាំងប្រេកង់ដំបូងរបស់វាមិនសូវល្អនោះទេ ហើយវាមិនអាចគ្រប់គ្រងការកែប្រែជ្រលងរវាងទម្រង់សំឡេង (Valleys between formants) បានល្អនៅពេលសំយោគសំឡេង។ | អនុញ្ញាតឱ្យមានការកែប្រែទំហំនិងទីតាំងនៃទម្រង់សំឡេងឯករាជ្យពីគ្នា បើទោះបីជាគុណភាពសំឡេងសំយោគចុងក្រោយនៅមានកម្រិតក៏ដោយ។ |
| Fujisaki Model គំរូ Fujisaki សម្រាប់បង្កើតវណ្ឌវង្ក F0 |
អាចបង្កើតសំឡេងដែលមានលក្ខណៈធម្មជាតិខ្ពស់នៅពេលកែប្រែប្រេកង់មូលដ្ឋាន (F0) ដោយផ្អែកលើវិធាននៃចង្វាក់សូរស័ព្ទ (Prosodic rules)។ | ដំណើរការបំព្រួញឱ្យប្រសើរបំផុត (Optimization) ដើម្បីទាញយកទិន្នន័យនៃវណ្ឌវង្ក F0 ត្រូវចំណាយពេលវេលាយូរ និងស្មុគស្មាញខ្លាំង។ | អាចកសាងវណ្ឌវង្ក F0 ត្រាប់តាមការនិយាយបែប Lombard បានយ៉ាងល្អ ប៉ុន្តែទាមទារការពង្រឹងបន្ថែមលើល្បឿននៃដំណើរការ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារឧបករណ៍ថតសំឡេងកម្រិតស្ទូឌីយោដែលមានគុណភាពខ្ពស់ និងកម្មវិធីកុំព្យូទ័រឯកទេសសម្រាប់ដំណើរការកាត់ត និងវិភាគសូរស័ព្ទ។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងមន្ទីរពិសោធន៍បិទជិត ដោយប្រើប្រាស់អ្នកនិយាយជនជាតិជប៉ុនតែពីរនាក់ប៉ុណ្ណោះ (ប្រុសម្នាក់ ស្រីម្នាក់) ជាមួយនឹងសំឡេងរំខានសិប្បនិម្មិត (Pink noise)។ លទ្ធផលនេះអាចមានភាពលម្អៀង និងមិនតំណាងឱ្យភាពចម្រុះនៃសូរស័ព្ទខ្មែរ ដែលមានប្រព័ន្ធស្រៈស្មុគស្មាញ និងមិនបានឆ្លុះបញ្ចាំងពីសំឡេងរំខានជាក់ស្តែង (ដូចជា សំឡេងម៉ាស៊ីនរោងចក្រ ឬចរាចរណ៍) ដែលជាបញ្ហាប្រឈមធំនៅក្នុងបរិបទប្រទេសកម្ពុជា។
ទោះជាយ៉ាងនេះក្តី ទ្រឹស្តីនៃការបន្សាំសំឡេងបែប Lombard នេះមានសក្តានុពលខ្ពស់ក្នុងការកែលម្អប្រព័ន្ធទំនាក់ទំនងនៅក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខាននៅកម្ពុជា។
ការទាញយកលក្ខណៈពិសេសនៃ Lombard speech មកបន្សាំប្រើប្រាស់ជាមួយភាសាខ្មែរ នឹងជួយបង្កើនប្រសិទ្ធភាពប្រព័ន្ធសំឡេងឆ្លាតវៃឱ្យស្របទៅនឹងបរិយាកាសជាក់ស្តែងប្រចាំថ្ងៃនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Lombard effect | ជាបាតុភូតដែលមនុស្សបង្កើនកម្រិតប្រឹងប្រែងនៃការបញ្ចេញសំឡេងរបស់ពួកគេដោយស្វ័យប្រវត្តិ នៅពេលដែលពួកគេស្ថិតក្នុងមជ្ឈដ្ឋានដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺសារបានច្បាស់។ | ដូចជាពេលយើងកំពុងជិះម៉ូតូតាមផ្លូវមានឡានច្រើន ហើយយើងត្រូវស្រែកនិយាយខ្លាំងៗទើបមិត្តភក្តិអង្គុយពីក្រោយអាចលឺបាន។ |
| Fundamental Frequency (F0) | ជាប្រេកង់ទាបបំផុតនៃរលកសំឡេងដែលត្រូវបានបង្កើតឡើងដោយរំញ័រនៃខ្សែសំឡេងក្នុងបំពង់ក ដែលវាកំណត់កម្រិតសំឡេង (Pitch) ទាប ឬខ្ពស់របស់អ្នកនិយាយម្នាក់ៗ។ | ប្រៀបដូចជាខ្សែហ្គីតាដែលខ្សែធំមានរំញ័រយឺតបង្កើតសំឡេងធំទាប ចំណែកឯខ្សែតូចមានរំញ័រលឿនបង្កើតសំឡេងតូចស្រួច។ |
| Formants | ជាចំណុចកំពូលនៃប្រេកង់ស្រូបសំឡេង (Resonant frequencies) ដែលបង្កើតឡើងដោយទម្រង់នៃប្រហោងមាត់ និងបំពង់កនៅពេលបញ្ចេញសំឡេង ដែលជួយឱ្យយើងអាចបែងចែកប្រភេទស្រៈនីមួយៗបានយ៉ាងច្បាស់។ | ដូចជារូបរាងបំពង់ខ្លុយដែលប្រែប្រួលនៅពេលយើងយកម្រាមដៃបិទឬបើករន្ធ ដែលធ្វើឱ្យសំឡេងផ្លុំចេញមកមានលក្ខណៈខុសៗគ្នា។ |
| Spectral tilt | ជាកម្រិតនៃទំនោរធ្លាក់ចុះនៃថាមពលសំឡេងពីប្រេកង់ទាបទៅប្រេកង់ខ្ពស់ ដែលវាឆ្លុះបញ្ចាំងពីគុណភាព និងភាពច្បាស់នៃសំឡេង (ជាពិសេសភាពខុសគ្នារវាងសំឡេងនិយាយធម្មតា និងសំឡេងស្រែក)។ | ដូចជាជម្រាលនៃភ្នំ បើជម្រាលកាន់តែរាបស្មើមិនសូវចោត (Flat) មានន័យថាសំឡេងនិយាយនោះមានកម្លាំងរុញច្រានខ្លាំងរហូតដល់កម្រិតប្រេកង់ខ្ពស់។ |
| Modulation spectrum | ជារង្វាស់នៃការផ្លាស់ប្តូរឡើងចុះនៃកម្រិតថាមពលសំឡេង (Envelope) តាមពេលវេលា ដែលជួយឱ្យម៉ាស៊ីនឬប្រព័ន្ធស្តាប់អាចដឹងពីចង្វាក់នៃការបញ្ចេញសំឡេងនិយាយ កាត់ផ្តាច់ពីសំឡេងរំខានទូទៅ។ | ប្រៀបបាននឹងចង្វាក់លោតនៃភ្លើងសញ្ញាក្នុងក្លឹបកម្សាន្ត ដែលលោតព្រិចៗតាមចង្វាក់ភ្លេងជានិច្ច ទោះជាមានសំឡេងអ៊ូអរយ៉ាងណាក៏ដោយ។ |
| Voice conversion | ជាបច្ចេកទេសក្នុងដំណើរការសញ្ញាសំឡេង (Signal Processing) ដែលកែប្រែលក្ខណៈសូរស័ព្ទនៃការនិយាយរបស់មនុស្សម្នាក់ ឱ្យទៅជាទម្រង់សំឡេងមួយផ្សេងទៀតដោយរក្សាអត្ថន័យដដែល (ឧទាហរណ៍ បំប្លែងសំឡេងធម្មតា ទៅជាសំឡេងស្រែកបែប Lombard)។ | ដូចជាកម្មវិធីប្តូរសំឡេងក្នុងទូរស័ព្ទ ដែលអាចបំប្លែងសំឡេងមនុស្សប្រុសឱ្យទៅជាសំឡេងមនុស្សស្រី ឬសំឡេងមនុស្សចាស់បានភ្លាមៗ។ |
| Fujisaki model | ជាគំរូគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយដើម្បីបង្កើត និងកែប្រែខ្សែកោងប្រេកង់មូលដ្ឋាន (F0 contour) នៃសំឡេងនិយាយ ដើម្បីឱ្យសំឡេងសំយោគមានការលើកដាក់សំឡេងបែបធម្មជាតិ។ | ប្រៀបដូចជាគំនូសព្រាងស្ថាបត្យកម្មដែលប្រាប់ម៉ាស៊ីនពីរបៀបលើកដាក់សំឡេង (ឡើងនិងចុះ) ឱ្យដូចមនុស្សកំពុងនិយាយពិតៗ។ |
| Masking release | ជាដំណើរការដែលសញ្ញាសំឡេងនិយាយអាចគេចផុតពីការគ្របដណ្ដប់ ឬបិទបាំងដោយសំឡេងរំខាន តាមរយៈការផ្លាស់ប្តូរប្រេកង់ ឬទំហំ ដែលធ្វើឱ្យអ្នកស្តាប់អាចបំបែកសំឡេងមនុស្សចេញពីសំឡេងបរិយាកាសបានដោយងាយ។ | ដូចជាការស្លៀកពាក់អាវពណ៌ក្រហមឆ្អៅនៅក្នុងហ្វូងមនុស្សដែលពាក់អាវពណ៌ខ្មៅ ដែលធ្វើឱ្យគេអាចងាយស្រួលមើលឃើញអ្នកភ្លាមៗដោយមិនច្រឡំ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖