បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការសម្គាល់សំឡេងនិយាយភាសាអារ៉ាប់ដែលមានសញ្ញាបញ្ជាក់ការបញ្ចេញសំឡេង (Diacritical Arabic) ដែលជួបប្រទះនឹងបញ្ហាខ្វះខាតទិន្នន័យសម្រាប់បង្វឹក និងភាពស្មុគស្មាញនៃទម្រង់ពាក្យកម្រិតខ្ពស់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រផ្អែកលើបណ្ដាញ Transformer ដោយរួមបញ្ចូលការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) និងការបង្កើនទិន្នន័យ (Data Augmentation) ដើម្បីបង្កើតប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Traditional ASR (e.g., GMM-SI, DNN, HMM) ប្រព័ន្ធ ASR ប្រពៃណី (ឧ. GMM-SI, DNN, HMM) |
អាចដំណើរការបានគួរសមលើទិន្នន័យតូចៗ ដោយប្រើលក្ខណៈពិសេសនៃសំឡេងដែលត្រូវបានទាញយកតាមវិធីសាស្ត្របុរាណ។ | ទាមទារដំណើរការស្មុគស្មាញច្រើនដំណាក់កាល (Multi-stage) និងត្រូវការការតម្រឹមទិន្នន័យសំឡេងនិងអត្ថបទដោយផ្ទាល់ដោយមនុស្ស។ | អត្រាកំហុសពាក្យ (WER) ស្ថិតនៅចន្លោះពី ៣១.៤% ដល់ ៣៩.៧% លើទិន្នន័យ SASSC។ |
| End-to-End CNN-LSTM with Attention បណ្ដាញ CNN-LSTM ជាមួយយន្តការ Attention (E2E) |
សម្រួលខ្សែសង្វាក់នៃដំណើរការទាំងមូលទៅជាបណ្ដាញសរសៃប្រសាទតែមួយ (End-to-End)។ | នៅមានកម្រិតក្នុងការចាប់យកបរិបទវែងៗ និងដោះស្រាយភាពស្មុគស្មាញនៃសញ្ញាស្រៈអារ៉ាប់ បើធៀបនឹងស្ថាបត្យកម្ម Transformer។ | អត្រាកំហុសពាក្យ (WER) ទទួលបាន ២៨.៤%។ |
| DAASR 2 (Wav2Vec2-XLSR-Arabic + Parallel Hybrid Data Augmentation) ម៉ូដែល DAASR 2 (ផ្អែកលើ Wav2Vec2 ជាមួយការបង្កើនទិន្នន័យចម្រុះ) |
មានភាពត្រឹមត្រូវខ្ពស់បំផុត ប្រើប្រាស់ការរៀនផ្ទេរចំណេះដឹងឆ្លងភាសាបានល្អ និងដោះស្រាយបញ្ហាខ្វះទិន្នន័យតាមរយៈការបង្កើនទិន្នន័យ។ | ទាមទារធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ការបង្វឹក និងការកែសម្រួល Tokenizer យ៉ាងប្រុងប្រយ័ត្ន។ | អត្រាកំហុសពាក្យ (WER) ទាបបំផុតរហូតដល់ ១២.១៧% ដែលជាកំណត់ត្រាថ្មីមួយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការធនធានកុំព្យូទ័រខ្ពស់ និងការរៀបចំទិន្នន័យដើម្បីបង្វឹកម៉ូដែល Transformer ដ៏ធំនេះ។
ការសិក្សានេះពឹងផ្អែកចម្បងលើទិន្នន័យ SASSC ដែលជាបណ្ដុំទិន្នន័យមានអ្នកនិយាយតែម្នាក់គត់ (Single-speaker corpus) រយៈពេលជាង ៧ ម៉ោង។ ទោះបីជាមានការប្រើប្រាស់ Data Augmentation ក៏ដោយ ក៏ម៉ូដែលនេះប្រហែលជាមិនអាចឆ្លើយតបបានល្អចំពោះភាពចម្រុះនៃសំឡេង យេនឌ័រ ឬគ្រាមភាសានៅក្នុងពិភពពិតនោះទេ។ សម្រាប់កម្ពុជា ការយកគំរូតាមដោយប្រើទិន្នន័យអ្នកនិយាយម្នាក់ នឹងធ្វើឱ្យប្រព័ន្ធមិនអាចស្គាល់សំឡេងគ្រាមភាសាតំបន់ផ្សេងៗ (ឧ. អ្នកបាត់ដំបង អ្នកស្វាយរៀង) បានឡើយ។
វិធីសាស្ត្រនៃការប្រើប្រាស់ Transfer Learning និងការកែសម្រួល Tokenizer នេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តសម្រាប់ប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ដែលប្រឈមនឹងបញ្ហាខ្វះទិន្នន័យ និងភាពស្មុគស្មាញនៃជើងអក្សរដូចគ្នា។
ការរួមបញ្ចូលគ្នានៃការប្រើម៉ូដែលដែលបង្វឹកជាមុន (Pre-trained Multilingual Models) និងបច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation) គឺជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយតិច សម្រាប់ជំរុញការអភិវឌ្ឍប្រព័ន្ធ AI ភាសាខ្មែរឱ្យមានភាពលេចធ្លោ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Connectionist Temporal Classification (CTC) | ជាយន្តការគណិតវិទ្យាមួយនៅក្នុងម៉ូដែលបញ្ញាសិប្បនិម្មិត ដែលជួយផ្គូផ្គងសញ្ញាសំឡេងបន្តបន្ទាប់គ្នា ទៅនឹងតួអក្សរដោយស្វ័យប្រវត្តិ ដោយកាត់ចោលនូវសំឡេងស្ងាត់ ឬតួអក្សរដែលកុំព្យូទ័រទាយផ្ទួនគ្នា ដោយមិនចាំបាច់មានមនុស្សរៀបចំកាត់តម្រឹមសំឡេងនិងអក្សរជាមុននោះទេ។ | ដូចជាលេខាធិការកត់ត្រាដ៏ឆ្លាតម្នាក់ ដែលចេះរំលងភាពស្ងៀមស្ងាត់ និងពាក្យរដឺនៗរបស់វាគ្មិន រួចសរសេរយកតែពាក្យត្រឹមត្រូវចេញមក។ |
| Transfer Learning | ជាវិធីសាស្ត្រផ្ទេរចំណេះដឹង ដោយយកម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលធ្លាប់បានបង្វឹកលើទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់រួចមកហើយ (ឧទាហរណ៍ ភាសាទូទៅ) មកបង្រៀនបន្តបន្តិចបន្តួចបន្ថែមលើកិច្ចការថ្មីមួយទៀតដែលមានទិន្នន័យតិចតួច ដើម្បីសន្សំពេលវេលា និងបង្កើនភាពត្រឹមត្រូវ។ | ដូចជាការយកចុងភៅដែលពូកែធ្វើម្ហូបអឺរ៉ុបរួចជាស្រេច មកបង្រៀនបន្ថែមតែបន្តិចពីរបៀបប្រើប្រាស់គ្រឿងទេសខ្មែរ ដើម្បីឱ្យគាត់ចេះធ្វើម្ហូបខ្មែរបានឆ្ងាញ់យ៉ាងរហ័សដោយមិនបាច់រៀនកាត់បន្លែសារជាថ្មី។ |
| Hybrid Data Augmentation | ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីៗបន្ថែមពីលើទិន្នន័យដើម ដោយធ្វើការកែប្រែលក្ខណៈសំឡេងជាច្រើនបញ្ចូលគ្នា (ដូចជាប្តូរល្បឿនបញ្ចេញសំឡេង ប្តូរកម្រិតឮខ្លាំងឬខ្សោយ និងប្តូរភាពញ័រ) ក្នុងពេលតែមួយ ដើម្បីជួយឱ្យម៉ូដែលអាចស្គាល់ទម្រង់សំឡេងមនុស្សគ្រប់ប្រភេទ។ | ដូចជាការយកគំនូរមួយផ្ទាំងមកថតចម្លងដោយប្តូរពណ៌ ពង្រីក និងបង្រួម ដើម្បីយកទៅបង្រៀនសិស្សឱ្យបានស្គាល់គំនូរនេះច្បាស់ក្នុងគ្រប់កាលៈទេសៈនិងទម្រង់។ |
| Transformer | ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលពូកែក្នុងការចាប់យកទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគវែងៗ តាមរយៈយន្តការផ្ដោតការយកចិត្តទុកដាក់ (Self-attention) ដែលជួយម៉ូដែលឱ្យដឹងថាពាក្យមួយណាមានឥទ្ធិពលលើពាក្យមួយណាក្នុងបរិបទទាំងមូល។ | ដូចជាអ្នកអានសៀវភៅដ៏ពូកែម្នាក់ ដែលពេលអានដល់ចុងប្រយោគ គាត់នៅតែចងចាំនិងយល់ពីទំនាក់ទំនងរបស់វាជាមួយពាក្យនៅដើមប្រយោគបានយ៉ាងច្បាស់ជានិច្ច។ |
| Word Error Rate (WER) | ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ដោយវាគណនាភាគរយនៃចំនួនពាក្យដែលកុំព្យូទ័រស្ដាប់ខុស (សរសេរខុស បន្ថែមពាក្យលើស ឬបាត់ពាក្យ) ធៀបនឹងចំនួនពាក្យដែលបាននិយាយសរុប។ | ដូចជាការកាត់ពិន្ទុសិស្សនៅក្នុងការប្រឡងសរសេរតាមអាន ដោយរាប់ចំនួនពាក្យដែលសិស្សសរសេរខុស បាត់ ឬសរសេរលើសពីអ្វីដែលគ្រូបានអាន។ |
| Cross-Lingual Speech Representation (XLSR) | ជាម៉ូដែល AI ដែលត្រូវបានបង្វឹកជាមុនដោយឱ្យស្តាប់ទិន្នន័យសំឡេងរាប់ម៉ឺនម៉ោងពីភាសាចម្រុះជាង៥០ភាសា ដើម្បីឱ្យវាចាប់បាននូវលក្ខណៈរួមនៃសូរសព្ទមនុស្សទូទៅ មុននឹងគេយកវាទៅកែសម្រួលបំពាក់លើប្រព័ន្ធសម្គាល់ភាសាជាក់លាក់ណាមួយដែលខ្វះទិន្នន័យ។ | ដូចជាកុមារដែលធំដឹងក្តីក្នុងបរិស្ថានអន្តរជាតិ ដែលធ្លាប់ឮមនុស្សនិយាយច្រើនសំនៀងនិងច្រើនភាសា ធ្វើឱ្យគេងាយស្រួលក្នុងការចាប់យកនិងរៀនភាសាថ្មីមួយទៀតបានលឿនជាងក្មេងធម្មតា។ |
| Tokenizer | ជាក្បួន ឬឧបករណ៍នៅក្នុងប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ដែលមានតួនាទីកាត់បំបែកអត្ថបទ ឬសំឡេង ទៅជាបំណែកតូចៗបំផុត (ហៅថា Token ដូចជាតួអក្សរ ស្រៈ ឬជើងអក្សរ) រួចបំប្លែងជាលេខកូដ ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចគណនា និងរៀនពីទម្រង់នៃភាសាទាំងនោះបាន។ | ដូចជាម៉ាស៊ីនកាត់នំប៉័ង ដែលហាន់នំប៉័ងធំមួយដុំទៅជាបន្ទះតូចៗប៉ុនៗគ្នា ដើម្បីងាយស្រួលក្នុងការយកទៅញ៉ាំ ឬកែច្នៃបន្ត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖