Original Title: Improving Diacritical Arabic Speech Recognition: Transformer-Based Models with Transfer Learning and Hybrid Data Augmentation
Source: doi.org/10.3390/info16030161
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកែលម្អការសម្គាល់សំឡេងនិយាយភាសាអារ៉ាប់ដែលមានសញ្ញាបញ្ជាក់ការបញ្ចេញសំឡេង៖ ម៉ូដែលផ្អែកលើ Transformer ជាមួយនឹងការរៀនផ្ទេរចំណេះដឹង និងការបង្កើនទិន្នន័យចម្រុះ

ចំណងជើងដើម៖ Improving Diacritical Arabic Speech Recognition: Transformer-Based Models with Transfer Learning and Hybrid Data Augmentation

អ្នកនិពន្ធ៖ Haifa Alaqel (King Saud University, Imam Mohammad Ibn Saud Islamic University), Khalil El Hindi (King Saud University)

ឆ្នាំបោះពុម្ព៖ 2025, Information (MDPI)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការសម្គាល់សំឡេងនិយាយភាសាអារ៉ាប់ដែលមានសញ្ញាបញ្ជាក់ការបញ្ចេញសំឡេង (Diacritical Arabic) ដែលជួបប្រទះនឹងបញ្ហាខ្វះខាតទិន្នន័យសម្រាប់បង្វឹក និងភាពស្មុគស្មាញនៃទម្រង់ពាក្យកម្រិតខ្ពស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រផ្អែកលើបណ្ដាញ Transformer ដោយរួមបញ្ចូលការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) និងការបង្កើនទិន្នន័យ (Data Augmentation) ដើម្បីបង្កើតប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR)។

ការប្រើប្រាស់ម៉ូដែល XLSR ដែលបានបង្វឹកជាមុនលើ៥៣ភាសា (Pretrained cross-lingual speech representation) រួមទាំងម៉ូដែលឯកទេសភាសាអារ៉ាប់ (XLSR-53-Arabic)។
ការកែសម្រួលឧបករណ៍បំបែកពាក្យ (Tokenizer modification) ដើម្បីប្រព័ន្ធអាចស្គាល់សញ្ញាស្រៈអារ៉ាប់។
ការអនុវត្តអនុគមន៍បាត់បង់ (Connectionist Temporal Classification Loss - CTC) សម្រាប់ការតម្រឹមអត្ថបទនិងសំឡេងដោយផ្ទាល់។
បច្ចេកទេសបង្កើនទិន្នន័យចម្រុះ (Hybrid Data Augmentation) ដូចជាការផ្លាស់ប្តូរកម្រិតសំឡេង (Volume), ល្បឿន (Speed) និងកម្រិតញ័រ (Pitch) ជាលក្ខណៈស្របគ្នា និងបន្តបន្ទាប់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានស្នើឡើងកម្រិតទី២ (DAASR 2) ទទួលបានអត្រាកំហុសពាក្យ (Word Error Rate - WER) ត្រឹមតែ ១៣.៧% មុនពេលប្រើការបង្កើនទិន្នន័យ ដែលប្រសើរជាងម៉ូដែលទំនើបៗជំនាន់មុនៗយ៉ាងច្រើន។
ការរួមបញ្ចូលបច្ចេកទេសបង្កើនទិន្នន័យចម្រុះស្របគ្នា (Parallel Hybrid Data Augmentation) ក្នុងអត្រា ៥០% បានកាត់បន្ថយអត្រាកំហុសពាក្យ (WER) បន្ថែមទៀតរហូតដល់ទាបបំផុតត្រឹម ១២.១៧%។
ការរួមបញ្ចូលគ្នានៃការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) និងស្ថាបត្យកម្ម Transformer បង្ហាញពីប្រសិទ្ធភាពដ៏អស្ចារ្យក្នុងការដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យសម្រាប់ប្រព័ន្ធសម្គាល់សំឡេងភាសាអារ៉ាប់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional ASR (e.g., GMM-SI, DNN, HMM) ប្រព័ន្ធ ASR ប្រពៃណី (ឧ. GMM-SI, DNN, HMM)	អាចដំណើរការបានគួរសមលើទិន្នន័យតូចៗ ដោយប្រើលក្ខណៈពិសេសនៃសំឡេងដែលត្រូវបានទាញយកតាមវិធីសាស្ត្របុរាណ។	ទាមទារដំណើរការស្មុគស្មាញច្រើនដំណាក់កាល (Multi-stage) និងត្រូវការការតម្រឹមទិន្នន័យសំឡេងនិងអត្ថបទដោយផ្ទាល់ដោយមនុស្ស។	អត្រាកំហុសពាក្យ (WER) ស្ថិតនៅចន្លោះពី ៣១.៤% ដល់ ៣៩.៧% លើទិន្នន័យ SASSC។
End-to-End CNN-LSTM with Attention បណ្ដាញ CNN-LSTM ជាមួយយន្តការ Attention (E2E)	សម្រួលខ្សែសង្វាក់នៃដំណើរការទាំងមូលទៅជាបណ្ដាញសរសៃប្រសាទតែមួយ (End-to-End)។	នៅមានកម្រិតក្នុងការចាប់យកបរិបទវែងៗ និងដោះស្រាយភាពស្មុគស្មាញនៃសញ្ញាស្រៈអារ៉ាប់ បើធៀបនឹងស្ថាបត្យកម្ម Transformer។	អត្រាកំហុសពាក្យ (WER) ទទួលបាន ២៨.៤%។
DAASR 2 (Wav2Vec2-XLSR-Arabic + Parallel Hybrid Data Augmentation) ម៉ូដែល DAASR 2 (ផ្អែកលើ Wav2Vec2 ជាមួយការបង្កើនទិន្នន័យចម្រុះ)	មានភាពត្រឹមត្រូវខ្ពស់បំផុត ប្រើប្រាស់ការរៀនផ្ទេរចំណេះដឹងឆ្លងភាសាបានល្អ និងដោះស្រាយបញ្ហាខ្វះទិន្នន័យតាមរយៈការបង្កើនទិន្នន័យ។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ការបង្វឹក និងការកែសម្រួល Tokenizer យ៉ាងប្រុងប្រយ័ត្ន។	អត្រាកំហុសពាក្យ (WER) ទាបបំផុតរហូតដល់ ១២.១៧% ដែលជាកំណត់ត្រាថ្មីមួយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការធនធានកុំព្យូទ័រខ្ពស់ និងការរៀបចំទិន្នន័យដើម្បីបង្វឹកម៉ូដែល Transformer ដ៏ធំនេះ។

Hardware: ទាមទារ GPU ខ្លាំង (អ្នកស្រាវជ្រាវប្រើប្រាស់ Tesla T4 GPU លើ Google Colab PRO Plus) ដោយសារទំហំម៉ូដែលធំ តម្រូវឱ្យបន្ថយ Batch size មកត្រឹម 1។
Dataset: ត្រូវការទិន្នន័យចម្រុះរួមមានទិន្នន័យគោល SASSC (៧ម៉ោង) និងទិន្នន័យភាសាអារ៉ាប់ទូទៅ Common Voice 6.1 (១២៨ម៉ោង) សម្រាប់ Transfer Learning។
Software: បណ្ណាល័យ Hugging Face សម្រាប់ម៉ូដែល Wav2Vec2, កូដសម្រាប់កែសម្រួល Tokenizer, និងបច្ចេកទេស CTC (Connectionist Temporal Classification) Loss។
Data Augmentation Tools: ត្រូវការកូដឬកម្មវិធីសម្រាប់កែប្រែលក្ខណៈសំឡេង (Pitch shifting, Speed adjustment, Volume modification)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកចម្បងលើទិន្នន័យ SASSC ដែលជាបណ្ដុំទិន្នន័យមានអ្នកនិយាយតែម្នាក់គត់ (Single-speaker corpus) រយៈពេលជាង ៧ ម៉ោង។ ទោះបីជាមានការប្រើប្រាស់ Data Augmentation ក៏ដោយ ក៏ម៉ូដែលនេះប្រហែលជាមិនអាចឆ្លើយតបបានល្អចំពោះភាពចម្រុះនៃសំឡេង យេនឌ័រ ឬគ្រាមភាសានៅក្នុងពិភពពិតនោះទេ។ សម្រាប់កម្ពុជា ការយកគំរូតាមដោយប្រើទិន្នន័យអ្នកនិយាយម្នាក់ នឹងធ្វើឱ្យប្រព័ន្ធមិនអាចស្គាល់សំឡេងគ្រាមភាសាតំបន់ផ្សេងៗ (ឧ. អ្នកបាត់ដំបង អ្នកស្វាយរៀង) បានឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ Transfer Learning និងការកែសម្រួល Tokenizer នេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តសម្រាប់ប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ដែលប្រឈមនឹងបញ្ហាខ្វះទិន្នន័យ និងភាពស្មុគស្មាញនៃជើងអក្សរដូចគ្នា។

CADT (Cambodia Academy of Digital Technology): អ្នកស្រាវជ្រាវនៅ CADT អាចប្រើប្រាស់បច្ចេកទេសកែសម្រួល Tokenizer នេះ ដើម្បីដោះស្រាយបញ្ហាស្រៈ និងជើងអក្សរខ្មែរ (តួបន្តុប) ដែលមានលក្ខណៈស្មុគស្មាញស្រដៀងនឹងសញ្ញាស្រៈភាសាអារ៉ាប់ (Diacritics)។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ABA, ACLEDA): អាចអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិកម្មផ្នែកសេវាកម្មអតិថិជន (Voicebots) ដោយស្គាល់សំឡេងភាសាខ្មែរបានច្បាស់លាស់ ទោះបីជាអតិថិជននិយាយលឿន ឬខ្សោយ (ឆ្លងកាត់ការប្រើបច្ចេកទេស Speed/Volume Augmentation)។
កម្មវិធីជំនួយបច្ចេកវិទ្យាបញ្ជាដោយសំឡេង (Accessibility/EdTech): បង្កើតកម្មវិធីបំប្លែងសំឡេងទៅជាអត្ថបទដែលមានភាពសុក្រឹតខ្ពស់ សម្រាប់ជួយដល់អ្នកមិនចេះអក្សរ អ្នកមានពិការភាពភ្នែក ឬកសិករនៅតាមបណ្តាខេត្តនានា ក្នុងការស្វែងរកព័ត៌មានតាមរយៈសំឡេង។

ការរួមបញ្ចូលគ្នានៃការប្រើម៉ូដែលដែលបង្វឹកជាមុន (Pre-trained Multilingual Models) និងបច្ចេកទេសបង្កើនទិន្នន័យ (Data Augmentation) គឺជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយតិច សម្រាប់ជំរុញការអភិវឌ្ឍប្រព័ន្ធ AI ភាសាខ្មែរឱ្យមានភាពលេចធ្លោ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលឆ្លងភាសា: ចាប់ផ្តើមពីការសិក្សាស្វែងយល់ពីរបៀបដែលម៉ូដែល Wav2Vec2 និង XLSR-53 ធ្វើការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) ដោយផ្តោតលើស្ថាបត្យកម្ម Transformer និងយន្តការ Self-attention។
ប្រមូល និងសម្អាតទិន្នន័យសំឡេងភាសាខ្មែរ: ទាញយកទិន្នន័យសំឡេងភាសាខ្មែរដែលមានស្រាប់ (ឧ. ពី Mozilla Common Voice Khmer) និងធ្វើការសម្អាត (Pre-processing) ដូចជាកែតម្រូវ Sample rate ទៅ 16kHz និងជម្រះនិមិត្តសញ្ញាដែលមិនចាំបាច់ចេញពីអត្ថបទ។
កែសម្រួល Tokenizer សម្រាប់អក្សរខ្មែរ: ប្រើប្រាស់ឧបករណ៍របស់ Hugging Face Transformers ដើម្បីកែសម្រួល Tokenizer ឱ្យស្គាល់ព្យញ្ជនៈ ស្រៈ ជើងអក្សរ (Subscripts) និងវណ្ណយុត្តិខ្មែរនីមួយៗបានត្រឹមត្រូវ ដោយមិនបាត់បង់អត្ថន័យដើមនៃសូរសព្ទ។
អនុវត្តបច្ចេកទេសបង្កើនទិន្នន័យចម្រុះ (Hybrid Data Augmentation): សរសេរកូដ Python (ឧទាហរណ៍ប្រើបណ្ណាល័យ Torchaudio ឬ Audiomentations) ដើម្បីបង្កើតទិន្នន័យបន្ថែមតាមរយៈការផ្លាស់ប្តូរល្បឿន (Speed) កម្រិតញ័រ (Pitch) និងកម្រិតសំឡេង (Volume) ទាំងក្នុងទម្រង់ស្របគ្នា និងបន្តបន្ទាប់។
បង្វឹកម៉ូដែល និងវាយតម្លៃដោយប្រើ CTC: ប្រើប្រាស់ Google Colab Pro ឬម៉ាស៊ីន Server ក្នុងស្រុកដែលមាន GPU ខ្ពស់ ដើម្បី Fine-tune ម៉ូដែលដោយប្រើ CTC Loss function រួចធ្វើការវាយតម្លៃអត្រាកំហុសពាក្យ (WER) ធៀបនឹងម៉ូដែលចាស់ៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Connectionist Temporal Classification (CTC)	ជាយន្តការគណិតវិទ្យាមួយនៅក្នុងម៉ូដែលបញ្ញាសិប្បនិម្មិត ដែលជួយផ្គូផ្គងសញ្ញាសំឡេងបន្តបន្ទាប់គ្នា ទៅនឹងតួអក្សរដោយស្វ័យប្រវត្តិ ដោយកាត់ចោលនូវសំឡេងស្ងាត់ ឬតួអក្សរដែលកុំព្យូទ័រទាយផ្ទួនគ្នា ដោយមិនចាំបាច់មានមនុស្សរៀបចំកាត់តម្រឹមសំឡេងនិងអក្សរជាមុននោះទេ។	ដូចជាលេខាធិការកត់ត្រាដ៏ឆ្លាតម្នាក់ ដែលចេះរំលងភាពស្ងៀមស្ងាត់ និងពាក្យរដឺនៗរបស់វាគ្មិន រួចសរសេរយកតែពាក្យត្រឹមត្រូវចេញមក។
Transfer Learning	ជាវិធីសាស្ត្រផ្ទេរចំណេះដឹង ដោយយកម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលធ្លាប់បានបង្វឹកលើទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់រួចមកហើយ (ឧទាហរណ៍ ភាសាទូទៅ) មកបង្រៀនបន្តបន្តិចបន្តួចបន្ថែមលើកិច្ចការថ្មីមួយទៀតដែលមានទិន្នន័យតិចតួច ដើម្បីសន្សំពេលវេលា និងបង្កើនភាពត្រឹមត្រូវ។	ដូចជាការយកចុងភៅដែលពូកែធ្វើម្ហូបអឺរ៉ុបរួចជាស្រេច មកបង្រៀនបន្ថែមតែបន្តិចពីរបៀបប្រើប្រាស់គ្រឿងទេសខ្មែរ ដើម្បីឱ្យគាត់ចេះធ្វើម្ហូបខ្មែរបានឆ្ងាញ់យ៉ាងរហ័សដោយមិនបាច់រៀនកាត់បន្លែសារជាថ្មី។
Hybrid Data Augmentation	ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីៗបន្ថែមពីលើទិន្នន័យដើម ដោយធ្វើការកែប្រែលក្ខណៈសំឡេងជាច្រើនបញ្ចូលគ្នា (ដូចជាប្តូរល្បឿនបញ្ចេញសំឡេង ប្តូរកម្រិតឮខ្លាំងឬខ្សោយ និងប្តូរភាពញ័រ) ក្នុងពេលតែមួយ ដើម្បីជួយឱ្យម៉ូដែលអាចស្គាល់ទម្រង់សំឡេងមនុស្សគ្រប់ប្រភេទ។	ដូចជាការយកគំនូរមួយផ្ទាំងមកថតចម្លងដោយប្តូរពណ៌ ពង្រីក និងបង្រួម ដើម្បីយកទៅបង្រៀនសិស្សឱ្យបានស្គាល់គំនូរនេះច្បាស់ក្នុងគ្រប់កាលៈទេសៈនិងទម្រង់។
Transformer	ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលពូកែក្នុងការចាប់យកទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគវែងៗ តាមរយៈយន្តការផ្ដោតការយកចិត្តទុកដាក់ (Self-attention) ដែលជួយម៉ូដែលឱ្យដឹងថាពាក្យមួយណាមានឥទ្ធិពលលើពាក្យមួយណាក្នុងបរិបទទាំងមូល។	ដូចជាអ្នកអានសៀវភៅដ៏ពូកែម្នាក់ ដែលពេលអានដល់ចុងប្រយោគ គាត់នៅតែចងចាំនិងយល់ពីទំនាក់ទំនងរបស់វាជាមួយពាក្យនៅដើមប្រយោគបានយ៉ាងច្បាស់ជានិច្ច។
Word Error Rate (WER)	ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ដោយវាគណនាភាគរយនៃចំនួនពាក្យដែលកុំព្យូទ័រស្ដាប់ខុស (សរសេរខុស បន្ថែមពាក្យលើស ឬបាត់ពាក្យ) ធៀបនឹងចំនួនពាក្យដែលបាននិយាយសរុប។	ដូចជាការកាត់ពិន្ទុសិស្សនៅក្នុងការប្រឡងសរសេរតាមអាន ដោយរាប់ចំនួនពាក្យដែលសិស្សសរសេរខុស បាត់ ឬសរសេរលើសពីអ្វីដែលគ្រូបានអាន។
Cross-Lingual Speech Representation (XLSR)	ជាម៉ូដែល AI ដែលត្រូវបានបង្វឹកជាមុនដោយឱ្យស្តាប់ទិន្នន័យសំឡេងរាប់ម៉ឺនម៉ោងពីភាសាចម្រុះជាង៥០ភាសា ដើម្បីឱ្យវាចាប់បាននូវលក្ខណៈរួមនៃសូរសព្ទមនុស្សទូទៅ មុននឹងគេយកវាទៅកែសម្រួលបំពាក់លើប្រព័ន្ធសម្គាល់ភាសាជាក់លាក់ណាមួយដែលខ្វះទិន្នន័យ។	ដូចជាកុមារដែលធំដឹងក្តីក្នុងបរិស្ថានអន្តរជាតិ ដែលធ្លាប់ឮមនុស្សនិយាយច្រើនសំនៀងនិងច្រើនភាសា ធ្វើឱ្យគេងាយស្រួលក្នុងការចាប់យកនិងរៀនភាសាថ្មីមួយទៀតបានលឿនជាងក្មេងធម្មតា។
Tokenizer	ជាក្បួន ឬឧបករណ៍នៅក្នុងប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ដែលមានតួនាទីកាត់បំបែកអត្ថបទ ឬសំឡេង ទៅជាបំណែកតូចៗបំផុត (ហៅថា Token ដូចជាតួអក្សរ ស្រៈ ឬជើងអក្សរ) រួចបំប្លែងជាលេខកូដ ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចគណនា និងរៀនពីទម្រង់នៃភាសាទាំងនោះបាន។	ដូចជាម៉ាស៊ីនកាត់នំប៉័ង ដែលហាន់នំប៉័ងធំមួយដុំទៅជាបន្ទះតូចៗប៉ុនៗគ្នា ដើម្បីងាយស្រួលក្នុងការយកទៅញ៉ាំ ឬកែច្នៃបន្ត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖