Original Title: Improving Diacritical Arabic Speech Recognition: Transformer-Based Models with Transfer Learning and Hybrid Data Augmentation
Source: doi.org/10.3390/info16030161
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកែលម្អការសម្គាល់សំឡេងនិយាយភាសាអារ៉ាប់ដែលមានសញ្ញាបញ្ជាក់ការបញ្ចេញសំឡេង៖ ម៉ូដែលផ្អែកលើ Transformer ជាមួយនឹងការរៀនផ្ទេរចំណេះដឹង និងការបង្កើនទិន្នន័យចម្រុះ

ចំណងជើងដើម៖ Improving Diacritical Arabic Speech Recognition: Transformer-Based Models with Transfer Learning and Hybrid Data Augmentation

អ្នកនិពន្ធ៖ Haifa Alaqel (King Saud University, Imam Mohammad Ibn Saud Islamic University), Khalil El Hindi (King Saud University)

ឆ្នាំបោះពុម្ព៖ 2025, Information (MDPI)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការសម្គាល់សំឡេងនិយាយភាសាអារ៉ាប់ដែលមានសញ្ញាបញ្ជាក់ការបញ្ចេញសំឡេង (Diacritical Arabic) ដែលជួបប្រទះនឹងបញ្ហាខ្វះខាតទិន្នន័យសម្រាប់បង្វឹក និងភាពស្មុគស្មាញនៃទម្រង់ពាក្យកម្រិតខ្ពស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រផ្អែកលើបណ្ដាញ Transformer ដោយរួមបញ្ចូលការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) និងការបង្កើនទិន្នន័យ (Data Augmentation) ដើម្បីបង្កើតប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional ASR (e.g., GMM-SI, DNN, HMM)
ប្រព័ន្ធ ASR ប្រពៃណី (ឧ. GMM-SI, DNN, HMM)
អាចដំណើរការបានគួរសមលើទិន្នន័យតូចៗ ដោយប្រើលក្ខណៈពិសេសនៃសំឡេងដែលត្រូវបានទាញយកតាមវិធីសាស្ត្របុរាណ។ ទាមទារដំណើរការស្មុគស្មាញច្រើនដំណាក់កាល (Multi-stage) និងត្រូវការការតម្រឹមទិន្នន័យសំឡេងនិងអត្ថបទដោយផ្ទាល់ដោយមនុស្ស។ អត្រាកំហុសពាក្យ (WER) ស្ថិតនៅចន្លោះពី ៣១.៤% ដល់ ៣៩.៧% លើទិន្នន័យ SASSC។
End-to-End CNN-LSTM with Attention
បណ្ដាញ CNN-LSTM ជាមួយយន្តការ Attention (E2E)
សម្រួលខ្សែសង្វាក់នៃដំណើរការទាំងមូលទៅជាបណ្ដាញសរសៃប្រសាទតែមួយ (End-to-End)។ នៅមានកម្រិតក្នុងការចាប់យកបរិបទវែងៗ និងដោះស្រាយភាពស្មុគស្មាញនៃសញ្ញាស្រៈអារ៉ាប់ បើធៀបនឹងស្ថាបត្យកម្ម Transformer។ អត្រាកំហុសពាក្យ (WER) ទទួលបាន ២៨.៤%។
DAASR 2 (Wav2Vec2-XLSR-Arabic + Parallel Hybrid Data Augmentation)
ម៉ូដែល DAASR 2 (ផ្អែកលើ Wav2Vec2 ជាមួយការបង្កើនទិន្នន័យចម្រុះ)
មានភាពត្រឹមត្រូវខ្ពស់បំផុត ប្រើប្រាស់ការរៀនផ្ទេរចំណេះដឹងឆ្លងភាសាបានល្អ និងដោះស្រាយបញ្ហាខ្វះទិន្នន័យតាមរយៈការបង្កើនទិន្នន័យ។ ទាមទារធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ការបង្វឹក និងការកែសម្រួល Tokenizer យ៉ាងប្រុងប្រយ័ត្ន។ អត្រាកំហុសពាក្យ (WER) ទាបបំផុតរហូតដល់ ១២.១៧% ដែលជាកំណត់ត្រាថ្មីមួយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការធនធានកុំព្យូទ័រខ្ពស់ និងការរៀបចំទិន្នន័យដើម្បីបង្វឹកម៉ូដែល Transformer ដ៏ធំនេះ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកចម្បងលើទិន្នន័យ SASSC ដែលជាបណ្ដុំទិន្នន័យមានអ្នកនិយាយតែម្នាក់គត់ (Single-speaker corpus) រយៈពេលជាង ៧ ម៉ោង។ ទោះបីជាមានការប្រើប្រាស់ Data Augmentation ក៏ដោយ ក៏ម៉ូដែលនេះប្រហែលជាមិនអាចឆ្លើយតបបានល្អចំពោះភាពចម្រុះនៃសំឡេង យេនឌ័រ ឬគ្រាមភាសានៅក្នុងពិភពពិតនោះទេ។ សម្រាប់កម្ពុជា ការយកគំរូតាមដោយប្រើទិន្នន័យអ្នកនិយាយម្នាក់ នឹងធ្វើឱ្យប្រព័ន្ធមិនអាចស្គាល់សំឡេងគ្រាមភាសាតំបន់ផ្សេងៗ (ឧ. អ្នកបាត់ដំបង អ្នកស្វាយរៀង) បានឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ Transfer Learning និងការកែសម្រួល Tokenizer នេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តសម្រាប់ប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ដែលប្រឈមនឹងបញ្ហាខ្វះទិន្នន័យ និងភាពស្មុគស្មាញនៃជើងអក្សរដូចគ្នា។

ការរួមបញ្ចូលគ្នានៃការប្រើម៉ូដែលដែលបង្វឹកជាមុន (Pre-trained Multilingual Models) និងបច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation) គឺជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយតិច សម្រាប់ជំរុញការអភិវឌ្ឍប្រព័ន្ធ AI ភាសាខ្មែរឱ្យមានភាពលេចធ្លោ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលឆ្លងភាសា: ចាប់ផ្តើមពីការសិក្សាស្វែងយល់ពីរបៀបដែលម៉ូដែល Wav2Vec2 និង XLSR-53 ធ្វើការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) ដោយផ្តោតលើស្ថាបត្យកម្ម Transformer និងយន្តការ Self-attention។
  2. ប្រមូល និងសម្អាតទិន្នន័យសំឡេងភាសាខ្មែរ: ទាញយកទិន្នន័យសំឡេងភាសាខ្មែរដែលមានស្រាប់ (ឧ. ពី Mozilla Common Voice Khmer) និងធ្វើការសម្អាត (Pre-processing) ដូចជាកែតម្រូវ Sample rate ទៅ 16kHz និងជម្រះនិមិត្តសញ្ញាដែលមិនចាំបាច់ចេញពីអត្ថបទ។
  3. កែសម្រួល Tokenizer សម្រាប់អក្សរខ្មែរ: ប្រើប្រាស់ឧបករណ៍របស់ Hugging Face Transformers ដើម្បីកែសម្រួល Tokenizer ឱ្យស្គាល់ព្យញ្ជនៈ ស្រៈ ជើងអក្សរ (Subscripts) និងវណ្ណយុត្តិខ្មែរនីមួយៗបានត្រឹមត្រូវ ដោយមិនបាត់បង់អត្ថន័យដើមនៃសូរសព្ទ។
  4. អនុវត្តបច្ចេកទេសបង្កើនទិន្នន័យចម្រុះ (Hybrid Data Augmentation): សរសេរកូដ Python (ឧទាហរណ៍ប្រើបណ្ណាល័យ TorchaudioAudiomentations) ដើម្បីបង្កើតទិន្នន័យបន្ថែមតាមរយៈការផ្លាស់ប្តូរល្បឿន (Speed) កម្រិតញ័រ (Pitch) និងកម្រិតសំឡេង (Volume) ទាំងក្នុងទម្រង់ស្របគ្នា និងបន្តបន្ទាប់។
  5. បង្វឹកម៉ូដែល និងវាយតម្លៃដោយប្រើ CTC: ប្រើប្រាស់ Google Colab Pro ឬម៉ាស៊ីន Server ក្នុងស្រុកដែលមាន GPU ខ្ពស់ ដើម្បី Fine-tune ម៉ូដែលដោយប្រើ CTC Loss function រួចធ្វើការវាយតម្លៃអត្រាកំហុសពាក្យ (WER) ធៀបនឹងម៉ូដែលចាស់ៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Connectionist Temporal Classification (CTC) ជាយន្តការគណិតវិទ្យាមួយនៅក្នុងម៉ូដែលបញ្ញាសិប្បនិម្មិត ដែលជួយផ្គូផ្គងសញ្ញាសំឡេងបន្តបន្ទាប់គ្នា ទៅនឹងតួអក្សរដោយស្វ័យប្រវត្តិ ដោយកាត់ចោលនូវសំឡេងស្ងាត់ ឬតួអក្សរដែលកុំព្យូទ័រទាយផ្ទួនគ្នា ដោយមិនចាំបាច់មានមនុស្សរៀបចំកាត់តម្រឹមសំឡេងនិងអក្សរជាមុននោះទេ។ ដូចជាលេខាធិការកត់ត្រាដ៏ឆ្លាតម្នាក់ ដែលចេះរំលងភាពស្ងៀមស្ងាត់ និងពាក្យរដឺនៗរបស់វាគ្មិន រួចសរសេរយកតែពាក្យត្រឹមត្រូវចេញមក។
Transfer Learning ជាវិធីសាស្ត្រផ្ទេរចំណេះដឹង ដោយយកម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលធ្លាប់បានបង្វឹកលើទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់រួចមកហើយ (ឧទាហរណ៍ ភាសាទូទៅ) មកបង្រៀនបន្តបន្តិចបន្តួចបន្ថែមលើកិច្ចការថ្មីមួយទៀតដែលមានទិន្នន័យតិចតួច ដើម្បីសន្សំពេលវេលា និងបង្កើនភាពត្រឹមត្រូវ។ ដូចជាការយកចុងភៅដែលពូកែធ្វើម្ហូបអឺរ៉ុបរួចជាស្រេច មកបង្រៀនបន្ថែមតែបន្តិចពីរបៀបប្រើប្រាស់គ្រឿងទេសខ្មែរ ដើម្បីឱ្យគាត់ចេះធ្វើម្ហូបខ្មែរបានឆ្ងាញ់យ៉ាងរហ័សដោយមិនបាច់រៀនកាត់បន្លែសារជាថ្មី។
Hybrid Data Augmentation ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីៗបន្ថែមពីលើទិន្នន័យដើម ដោយធ្វើការកែប្រែលក្ខណៈសំឡេងជាច្រើនបញ្ចូលគ្នា (ដូចជាប្តូរល្បឿនបញ្ចេញសំឡេង ប្តូរកម្រិតឮខ្លាំងឬខ្សោយ និងប្តូរភាពញ័រ) ក្នុងពេលតែមួយ ដើម្បីជួយឱ្យម៉ូដែលអាចស្គាល់ទម្រង់សំឡេងមនុស្សគ្រប់ប្រភេទ។ ដូចជាការយកគំនូរមួយផ្ទាំងមកថតចម្លងដោយប្តូរពណ៌ ពង្រីក និងបង្រួម ដើម្បីយកទៅបង្រៀនសិស្សឱ្យបានស្គាល់គំនូរនេះច្បាស់ក្នុងគ្រប់កាលៈទេសៈនិងទម្រង់។
Transformer ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលពូកែក្នុងការចាប់យកទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគវែងៗ តាមរយៈយន្តការផ្ដោតការយកចិត្តទុកដាក់ (Self-attention) ដែលជួយម៉ូដែលឱ្យដឹងថាពាក្យមួយណាមានឥទ្ធិពលលើពាក្យមួយណាក្នុងបរិបទទាំងមូល។ ដូចជាអ្នកអានសៀវភៅដ៏ពូកែម្នាក់ ដែលពេលអានដល់ចុងប្រយោគ គាត់នៅតែចងចាំនិងយល់ពីទំនាក់ទំនងរបស់វាជាមួយពាក្យនៅដើមប្រយោគបានយ៉ាងច្បាស់ជានិច្ច។
Word Error Rate (WER) ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ដោយវាគណនាភាគរយនៃចំនួនពាក្យដែលកុំព្យូទ័រស្ដាប់ខុស (សរសេរខុស បន្ថែមពាក្យលើស ឬបាត់ពាក្យ) ធៀបនឹងចំនួនពាក្យដែលបាននិយាយសរុប។ ដូចជាការកាត់ពិន្ទុសិស្សនៅក្នុងការប្រឡងសរសេរតាមអាន ដោយរាប់ចំនួនពាក្យដែលសិស្សសរសេរខុស បាត់ ឬសរសេរលើសពីអ្វីដែលគ្រូបានអាន។
Cross-Lingual Speech Representation (XLSR) ជាម៉ូដែល AI ដែលត្រូវបានបង្វឹកជាមុនដោយឱ្យស្តាប់ទិន្នន័យសំឡេងរាប់ម៉ឺនម៉ោងពីភាសាចម្រុះជាង៥០ភាសា ដើម្បីឱ្យវាចាប់បាននូវលក្ខណៈរួមនៃសូរសព្ទមនុស្សទូទៅ មុននឹងគេយកវាទៅកែសម្រួលបំពាក់លើប្រព័ន្ធសម្គាល់ភាសាជាក់លាក់ណាមួយដែលខ្វះទិន្នន័យ។ ដូចជាកុមារដែលធំដឹងក្តីក្នុងបរិស្ថានអន្តរជាតិ ដែលធ្លាប់ឮមនុស្សនិយាយច្រើនសំនៀងនិងច្រើនភាសា ធ្វើឱ្យគេងាយស្រួលក្នុងការចាប់យកនិងរៀនភាសាថ្មីមួយទៀតបានលឿនជាងក្មេងធម្មតា។
Tokenizer ជាក្បួន ឬឧបករណ៍នៅក្នុងប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ដែលមានតួនាទីកាត់បំបែកអត្ថបទ ឬសំឡេង ទៅជាបំណែកតូចៗបំផុត (ហៅថា Token ដូចជាតួអក្សរ ស្រៈ ឬជើងអក្សរ) រួចបំប្លែងជាលេខកូដ ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចគណនា និងរៀនពីទម្រង់នៃភាសាទាំងនោះបាន។ ដូចជាម៉ាស៊ីនកាត់នំប៉័ង ដែលហាន់នំប៉័ងធំមួយដុំទៅជាបន្ទះតូចៗប៉ុនៗគ្នា ដើម្បីងាយស្រួលក្នុងការយកទៅញ៉ាំ ឬកែច្នៃបន្ត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖