បញ្ហា (The Problem)៖ ម៉ូដែលបំបែកសំឡេងនិយាយ (Speech separation) បច្ចុប្បន្នជួបប្រទះការធ្លាក់ចុះប្រសិទ្ធភាពយ៉ាងខ្លាំងនៅពេលជួបប្រទះបាតុភូត Lombard (ការផ្លាស់ប្តូរទម្រង់នៃការនិយាយដោយស្វ័យប្រវត្តិនៅពេលមានសំឡេងរំខានខ្លាំង)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតសំណុំទិន្នន័យថ្មីមួយ និងបានធ្វើតេស្តបច្ចេកទេសហ្វឹកហាត់ម៉ូដែលដើម្បីវាយតម្លៃ និងកែលម្អភាពធន់របស់ប្រព័ន្ធបំបែកសំឡេង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Conv-TasNet (Trained from scratch on Normal Speech) ម៉ូដែល Conv-TasNet (ហ្វឹកហាត់ពីដំបូងលើសំឡេងធម្មតា) |
មានប្រសិទ្ធភាពល្អក្នុងការបំបែកប្រភពសំឡេងក្នុងស្ថានភាពធម្មតាដែលគ្មានសំឡេងរំខាន។ | មិនមានភាពធន់ (Robustness) ធ្លាក់ចុះប្រសិទ្ធភាពយ៉ាងខ្លាំង (2.46 dB) នៅពេលជួបប្រទះទម្រង់សំឡេង Lombard ដែលមិនធ្លាប់ជួបក្នុងវគ្គហ្វឹកហាត់។ | ទទួលបាន 14.71 dB លើសំឡេងធម្មតា ប៉ុន្តែធ្លាក់ចុះមកត្រឹម 12.25 dB លើកម្រងតេស្តសំឡេង Lombard។ |
| DPRNN (Trained from scratch on Normal Speech) ម៉ូដែល DPRNN (ហ្វឹកហាត់ពីដំបូងលើសំឡេងធម្មតា) |
មានទំហំប៉ារ៉ាម៉ែត្រតូចជាង Conv-TasNet ហើយការធ្លាក់ចុះប្រសិទ្ធភាពមានកម្រិតតិចជាង (1.73 dB) នៅពេលតេស្តជាមួយសំឡេង Lombard។ | នៅតែមិនអាចរក្សាបាននូវកម្រិតសុក្រឹតភាពខ្ពស់នៅពេលបំបែកសំឡេង Lombard ក្នុងបរិស្ថានមានសំឡេងរំខាន។ | ទទួលបាន 14.70 dB លើសំឡេងធម្មតា និង 12.97 dB លើសំឡេង Lombard។ |
| DPRNN-FT-V (Fine-tuned on Normal and Noisy Lombard Speech) ម៉ូដែល DPRNN (កែសម្រួលជាមួយសំឡេងធម្មតា និងសំឡេង Lombard ដែលមានសំឡេងរំខាន) |
មានភាពធន់ខ្ពស់ប្រឆាំងនឹងបាតុភូត Lombard និងអាចដំណើរការបានយ៉ាងល្អក្នុងបរិស្ថានដែលមានសំឡេងរំខានច្រើនកម្រិតផ្សេងៗគ្នា។ | ទាមទារដំណើរការហ្វឹកហាត់បន្ថែមដែលមានភាពស្មុគស្មាញ (Finetuning) និងទិន្នន័យចម្រុះដែលមានកម្រិតសំឡេងរំខានជាក់លាក់ (SNRs) ផ្សេងៗគ្នា។ | ទទួលបានប្រសិទ្ធភាពមធ្យម 7.75 dB SI-SDRi ដែលជាលទ្ធផលល្អបំផុតលើគ្រប់កម្រិតសំឡេងរំខានទាំងអស់ (Noisy test sets)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Deep Learning ព្រមទាំងសំណុំទិន្នន័យសំឡេងជាក់លាក់។
សំណុំទិន្នន័យដែលប្រើប្រាស់ (Audio-Visual Lombard GRID Speech Corpus) ផ្ទុកនូវសំឡេងរបស់អ្នកនិយាយជនជាតិអង់គ្លេសចំនួន 54 នាក់ (អាយុចន្លោះ 18 ដល់ 30 ឆ្នាំ)។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសំឡេងភាសាខ្មែរដែលមានបាតុភូត Lombard គឺជាឧបសគ្គចម្បង ព្រោះទម្រង់នៃការបញ្ចេញសំឡេង ចង្វាក់ និងការសង្កត់សំឡេងនៅពេលមានសំឡេងរំខានអាចមានលក្ខណៈខុសប្លែកពីភាសាអង់គ្លេស។
ថ្វីត្បិតតែការស្រាវជ្រាវនេះធ្វើឡើងលើទិន្នន័យភាសាអង់គ្លេស ប៉ុន្តែបច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ពិសេសសម្រាប់ការកែលម្អប្រព័ន្ធទំនាក់ទំនងក្នុងបរិស្ថានដែលមានសំឡេងរំខានខ្លាំង។
សរុបមក ការអនុវត្តបច្ចេកទេសនេះទាមទារឱ្យមានការរៀបចំគម្រោងប្រមូលសំណុំទិន្នន័យសំឡេងភាសាខ្មែរ Lombard ជាមុនសិន ដើម្បីឱ្យម៉ូដែលបំបែកសំឡេងអាចដំណើរការបានយ៉ាងមានប្រសិទ្ធភាពក្នុងបរិបទសង្គមខ្មែរជាក់ស្តែង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Lombard effect | បាតុភូតនៃការផ្លាស់ប្តូរទម្រង់នៃការនិយាយដោយស្វ័យប្រវត្តិ (ដូចជាការនិយាយខ្លាំងជាងមុន ប្តូរសំនៀង ឬពន្យារសំឡេងស្រៈ) នៅពេលមនុស្សស្ថិតក្នុងបរិស្ថានដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺច្បាស់។ បាតុភូតនេះធ្វើឱ្យម៉ូដែល AI ដែលធ្លាប់តែហ្វឹកហាត់លើសំឡេងធម្មតា មិនអាចស្គាល់ឬដំណើរការបានល្អ។ | ដូចជាពេលយើងកំពុងនិយាយទូរស័ព្ទក្នុងពិធីជប់លៀងដែលមានសំឡេងធុងបាសខ្លាំង ហើយយើងស្រែកនិយាយខ្លាំងៗដោយមិនដឹងខ្លួន។ |
| Speech separation | បច្ចេកវិទ្យាក្នុងការបំបែកប្រភពសំឡេងអូឌីយ៉ូដែលលាយឡំចូលគ្នា ឱ្យទៅជាខ្សែសំឡេងដាច់ដោយឡែកពីគ្នាសម្រាប់អ្នកនិយាយម្នាក់ៗ ដើម្បីឱ្យម៉ាស៊ីនអាចយកទៅដំណើរការបន្ត (ដូចជាបំប្លែងសំឡេងទៅជាអត្ថបទ)។ | ដូចជាការយកទឹកក្រឡុកដែលលាយផ្លែឈើ៣មុខ បំបែកចេញជាទឹកផ្លែឈើ៣កែវផ្សេងគ្នាវិញតាមរសជាតិដើម។ |
| Cocktail party problem | បញ្ហាចម្បងក្នុងការស្រាវជ្រាវសំឡេង ដែលចោទសួរថា តើធ្វើដូចម្តេចទើបម៉ាស៊ីនអាចផ្តោតស្តាប់តែសំឡេងមនុស្សម្នាក់ ក្នុងចំណោមមនុស្សជាច្រើនដែលកំពុងនិយាយព្រមគ្នាក្នុងបន្ទប់តែមួយ ដូចដែលខួរក្បាលមនុស្សអាចធ្វើបាន។ | ដូចជាសមត្ថភាពត្រចៀករបស់យើង ដែលអាចផ្តោតស្តាប់តែមិត្តភក្តិម្នាក់និយាយ ទោះបីជានៅជុំវិញខ្លួនមានមនុស្សរាប់សិបនាក់កំពុងនិយាយកងរំពងក៏ដោយ។ |
| Blind source separation (BSS) | វិធីសាស្ត្រមួយក្នុងការបំបែកប្រភពសំឡេងចេញពីគ្នា ដោយម៉ាស៊ីនមិនមានព័ត៌មានជាមុនអំពីប្រភពសំឡេងទាំងនោះ (ដូចជាមិនស្គាល់សំឡេងអ្នកនិយាយ ទីតាំងរបស់ពួកគេ ឬចំនួនអ្នកនិយាយច្បាស់លាស់ជាដើម)។ | ដូចជាការព្យាយាមញែកគ្រឿងផ្សំចេញពីស៊ុបមួយឆ្នាំង ដោយអ្នកមិនដឹងសោះថាចុងភៅបានដាក់អ្វីខ្លះ និងមានរសជាតិដើមបែបណា។ |
| Permutation invariant training (PIT) | បច្ចេកទេសបង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិតដើម្បីដោះស្រាយបញ្ហាការឆ្លាស់គ្នា (Permutation problem) ក្នុងការបំបែកសំឡេង ដោយអនុញ្ញាតឱ្យម៉ូដែលបំបែកសំឡេងដោយមិនខ្វល់ថាទិន្នផលណាមួយត្រូវគ្នានឹងអ្នកនិយាយទី១ ឬទី២ ឱ្យតែខ្សែសំឡេងត្រូវបានបំបែកដាច់ពីគ្នាត្រឹមត្រូវ។ | ដូចជាការបញ្ជាឱ្យរៀបចំសៀវភៅតាមពណ៌ ដោយមិនខ្វល់ថាសៀវភៅក្រហមត្រូវដាក់នៅខាងឆ្វេង ឬខាងស្តាំ សំខាន់ឱ្យតែវាត្រូវបានញែកដាច់ពីសៀវភៅខៀវ។ |
| Target speaker extraction (TSE) | វិធីសាស្ត្រទាញយកតែសំឡេងរបស់មនុស្សម្នាក់ដែលយើងចង់បាន (Target speaker) ចេញពីសំឡេងចម្រុះ ដោយប្រើប្រាស់ព័ត៌មានជំនួយជាមុន ដូចជាគំរូសំឡេងខ្លីមួយរបស់អ្នកនោះ។ | ដូចជាការស្វែងរកមុខឧក្រិដ្ឋជនក្នុងហ្វូងមនុស្ស ដោយយើងមានរូបថតរបស់គាត់នៅក្នុងដៃជាមុនស្រាប់។ |
| SI-SDR (Scale-Invariant Source-to-Distortion Ratio) | រង្វាស់ស្តង់ដារសម្រាប់វាស់ស្ទង់គុណភាពនៃម៉ូដែលបំបែកសំឡេង ដោយគណនាថាតើសំឡេងដែលបំបែកបានមានភាពច្បាស់ និងកាត់បន្ថយការខូចទ្រង់ទ្រាយ (Distortion) បានកម្រិតណាធៀបនឹងសំឡេងដើម ដោយមិនខ្វល់ពីកម្រិតសម្លេងខ្លាំងឬខ្សោយ (Scale-Invariant)។ | ដូចជាការដាក់ពិន្ទុគុណភាពរូបភាពដែលត្រូវបានថតចម្លង (Copy) ថាតើវាមានភាពច្បាស់ និងអត់ព្រិលកម្រិតណាធៀបនឹងរូបថតដើម។ |
| Speech-shaped noise (SSN) | ប្រភេទសំឡេងរំខានសិប្បនិម្មិត (Artificial Noise) ដែលត្រូវបានបង្កើតឡើងឱ្យមានលក្ខណៈហ្វ្រេកង់ (Frequency spectrum) ស្រដៀងទៅនឹងចង្វាក់សំឡេងនិយាយរបស់មនុស្សទូទៅ ដែលគេច្រើនប្រើក្នុងការធ្វើតេស្តប្រព័ន្ធសំឡេង។ | ដូចជាការចាក់សំឡេង "ស៊ឺៗ" ពីកង្ហារដែលមានរលកសំឡេងស្រដៀងនឹងសម្លេងមនុស្សកំពុងខ្សឹប ដើម្បីសាកល្បងថាតើកាសស្តាប់អាចទប់ទល់នឹងសំឡេងនេះបានឬទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖