បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមនៃការព្យាយាមរក្សាភាពច្បាស់លាស់នៃប្រព័ន្ធសំយោគសំឡេង (Speech Synthesis) នៅក្នុងបរិយាកាសដែលមានសំឡេងរំខានខ្លាំង (Noisy environments) ដែលធ្វើឱ្យប៉ះពាល់ដល់ការទំនាក់ទំនងប្រចាំថ្ងៃ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតសំណុំទិន្នន័យសំឡេងដោយប្រើប្រាស់ប្រព័ន្ធ TTS រួចវាយតម្លៃភាពច្បាស់លាស់របស់វាដោយប្រើប្រាស់ម៉ូដែលសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) ក្រោមលក្ខខណ្ឌសំឡេងរំខានផ្សេងៗគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| XGBoost Regression ការវិភាគដោយប្រើម៉ូដែល XGBoost (XGBoost Regression) |
ដំណើរការល្អបំផុតក្នុងការទស្សន៍ទាយអត្រាកំហុសពាក្យ (WER) និងមានភាពជាក់លាក់ខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យ។ វាអាចគ្រប់គ្រងទិន្នន័យប្រភេទលេខ (Numerical features) បានយ៉ាងល្អ។ | ពិបាកក្នុងការពន្យល់ពីដំណើរការខាងក្នុង (Black box) ជាងម៉ូដែលស្ថិតិធម្មតា។ អាចងាយរងគ្រោះពីការរៀនទន្ទេញ (Overfitting) បើមិនបានកំណត់ប៉ារ៉ាម៉ែត្រត្រឹមត្រូវ។ | ទទួលបានពិន្ទុទស្សន៍ទាយ R² ល្អបំផុតគឺ 0.65 បង្ហាញពីសមត្ថភាពល្អផ្តាច់គេក្នុងការទស្សន៍ទាយភាពច្បាស់លាស់នៃសំឡេង។ |
| Feedforward Neural Network បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) |
អាចរៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញ (Non-linear) រវាងលក្ខណៈសំឡេងនិងអត្ថបទបានដោយស្វ័យប្រវត្តិ។ | ត្រូវការទិន្នន័យហ្វឹកហាត់ច្រើន និងទាមទារកម្លាំងកុំព្យូទ័រ (GPU) ខ្ពស់សម្រាប់ការគណនា ប៉ុន្តែលទ្ធផលនៅចាញ់ XGBoost បន្តិចបន្តួច។ | ទទួលបានពិន្ទុ R² ស្មើនឹង 0.61 ឈរនៅលេខរៀងទី២ ក្នុងចំណោមម៉ូដែលទាំងអស់។ |
| Linear/Ridge Regression ការវិភាគតំរែតំរង់លីនេអ៊ែរជាមូលដ្ឋាន (Linear/Ridge Regression) |
ងាយស្រួលយល់ ស៊ីកម្លាំងកុំព្យូទ័រតិច លឿនក្នុងការគណនា និងងាយស្រួលពន្យល់ពីឥទ្ធិពលនៃកត្តានីមួយៗ។ | មិនអាចចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear interactions) ដែលស្មុគស្មាញរវាងកម្រិតសំឡេង និងបរិយាកាសបានល្អនោះទេ។ | ទទួលបានពិន្ទុ R² ទាបត្រឹមតែ 0.47 ដែលបង្ហាញថាវាមានប្រសិទ្ធភាពមធ្យមក្នុងការទស្សន៍ទាយអត្រាកំហុស។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្ពស់ និងសំណុំទិន្នន័យសំឡេងចម្រុះដើម្បីដំណើរការម៉ូដែល AI ខ្នាតធំ។
ការសិក្សានេះផ្តោតលើអ្នកនិយាយភាសាអង់គ្លេស និងប្រើប្រាស់ទិន្នន័យសំឡេងរំខានពីបរិយាកាសលោកខាងលិច (DEMAND corpus)។ នេះជាចំណុចសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់សំឡេង និងសូរសព្ទខុសគ្នា (Phonetics) ហើយសំឡេងរំខាននៅកម្ពុជា (ឧ. ទីផ្សារអ៊ូអរ ឬតាមដងផ្លូវដែលមានម៉ូតូកង់បី) មានលក្ខណៈខុសប្លែកទាំងស្រុងពីទិន្នន័យនេះ ដែលទាមទារការសិក្សាបន្ថែមក្នុងបរិបទតំបន់។
វិធីសាស្ត្រនៃការបត់បែនសំឡេងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធទំនាក់ទំនងឆ្លាតវៃសម្រាប់បរិយាកាសអ៊ូអរនៅប្រទេសកម្ពុជា។
សរុបមក ការកែតម្រូវកម្រិតនៃការប្រឹងបញ្ចេញសំឡេងរបស់ប្រព័ន្ធ AI ដោយស្វ័យប្រវត្តិនេះ នឹងជួយដោះស្រាយបញ្ហាការខ្វះខាតភាពច្បាស់លាស់ក្នុងការប្រាស្រ័យទាក់ទង តាមទីតាំងដែលមានសំឡេងរំខានស្មុគស្មាញនៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Word Error Rate (WER) | វិធីសាស្ត្រវាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ដោយគណនាចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមខុស បើធៀបនឹងពាក្យពិតប្រាកដ។ | ដូចជាការរាប់កំហុសអក្ខរាវិរុទ្ធរបស់សិស្សនៅពេលគ្រូហៅសរសេរតាមអាន បើខុសតិចគឺបានពិន្ទុល្អ (កម្រិត WER ទាប)។ |
| Signal-to-Noise Ratio (SNR) | រង្វាស់ដែលប្រៀបធៀបកម្រិតកម្លាំងនៃសំឡេងគោលដៅ (សញ្ញា) ទៅនឹងកម្រិតកម្លាំងនៃសំឡេងរំខានខាងក្រៅ។ បើកម្រិត SNR ខ្ពស់ មានន័យថាសំឡេងគោលដៅឮច្បាស់ជាងសំឡេងរំខាន។ | ដូចជាការស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀង បើគាត់និយាយខ្លាំងជាងសំឡេងភ្លេង (SNR ខ្ពស់) នោះយើងស្តាប់បានច្បាស់។ |
| Zero-shot TTS | ប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលអាចអានអត្ថបទទៅជាសំឡេង ដោយអាចយកតម្រាប់តាមទម្រង់សំឡេងថ្មីមួយបានភ្លាមៗតាមរយៈការស្តាប់គំរូសំឡេងខ្លីមួយ ទោះបីជាវាមិនធ្លាប់ត្រូវបានហ្វឹកហាត់ជាមួយសំឡេងនោះពីមុនមកក៏ដោយ។ | ដូចជាមនុស្សដែលមានទេពកោសល្យអាចត្រាប់តាមសំឡេងអ្នកដទៃបានយ៉ាងស្ទាត់ជំនាញ គ្រាន់តែបានឮគេនិយាយម្តងឬពីរដង។ |
| Lombard effect | បាតុភូតធម្មជាតិដែលមនុស្សយើងបង្កើនកម្រិតកម្លាំងបញ្ចេញសំឡេង (និយាយខ្លាំងៗ) ដោយស្វ័យប្រវត្តិ នៅពេលស្ថិតក្នុងបរិយាកាសដែលមានសំឡេងរំខានខ្លាំង ដើម្បីឱ្យអ្នកស្តាប់អាចលឺបាន។ | ដូចជានៅពេលយើងកំពុងជិះម៉ូតូតាមផ្លូវអ៊ូអរ យើងនឹងប្រឹងស្រែកនិយាយខ្លាំងៗទៅកាន់អ្នកអង្គុយពីក្រោយដោយមិនដឹងខ្លួន។ |
| Ablation study | ការធ្វើតេស្តសាកល្បងទៅលើម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយដកចេញនូវទិន្នន័យឬសមាសធាតុណាមួយម្តងមួយៗ ដើម្បីចង់ដឹងថាតើសមាសធាតុមួយណាមានឥទ្ធិពលខ្លាំងជាងគេទៅលើលទ្ធផល។ | ដូចជាការសាកល្បងដកគ្រឿងផ្សំចេញម្តងមួយមុខៗពីមុខម្ហូប ដើម្បីរកមើលថាតើគ្រឿងផ្សំមួយណាដែលធ្វើឱ្យសម្លមានរសជាតិឆ្ងាញ់ជាងគេ។ |
| Informational masking | ការរំខានដល់ការស្តាប់ដែលកើតឡើងនៅពេលសំឡេងរំខានមានលក្ខណៈស្រដៀងនឹងសំឡេងគោលដៅ (ឧទាហរណ៍ សំឡេងមនុស្សនិយាយជាន់គ្នា) ដែលធ្វើឱ្យខួរក្បាលពិបាកក្នុងការញែកនិងចាប់យកអត្ថន័យ។ | ដូចជាការព្យាយាមអានសៀវភៅនៅពេលដែលមានមនុស្សម្នាក់ទៀតកំពុងអានសៀវភៅមួយផ្សេងទៀតឮៗនៅក្បែរត្រចៀករបស់អ្នក ដែលធ្វើឱ្យខួរក្បាលអ្នកវង្វេងអានមិនចូល។ |
| Energetic masking | ការរំខានដល់ការស្តាប់ដែលកើតឡើងដោយសារថាមពលនៃសំឡេងរំខានកម្រិតខ្លាំង (ដូចជាសំឡេងម៉ាស៊ីន) គ្របដណ្ដប់លើកម្រិតសំឡេងគោលដៅទាំងស្រុង ធ្វើឱ្យត្រចៀកមិនអាចចាប់សញ្ញាសំឡេងបាន។ | ដូចជាការព្យាយាមមើលពន្លឺពិលតូចមួយនៅកណ្តាលថ្ងៃត្រង់ ពន្លឺព្រះអាទិត្យដ៏ភ្លឺចិញ្ចែងចាំងបានបាំងពន្លឺពិលនោះជិតឈឹងតែម្តង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖