Original Title: Efficient Adaptation for Speech Technology
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបន្សាំប្រកបដោយប្រសិទ្ធភាពសម្រាប់បច្ចេកវិទ្យាសំឡេង

ចំណងជើងដើម៖ Efficient Adaptation for Speech Technology

អ្នកនិពន្ធ៖ Haolin CHEN (EPFL)

ឆ្នាំបោះពុម្ព៖ 2025 EPFL

វិស័យសិក្សា៖ Machine Learning / Speech Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីរបៀបបន្សាំម៉ូដែលបំប្លែងអត្ថបទទៅជាសំឡេង (TTS) ដែលបានហ្វឹកហាត់រួច ទៅកាន់ដែនឬអ្នកនិយាយជាក់លាក់ណាមួយ ដោយប្រើប្រាស់ទិន្នន័យនិងប៉ារ៉ាម៉ែត្រតិចតួច ព្រមទាំងបញ្ចៀសការភ្លេចចំណេះដឹងដើម (Catastrophic forgetting) និងទំនុកចិត្តហួសកម្រិតរបស់ម៉ូដែល (Model overconfidence)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះអនុវត្តម៉ូដែលបង្កើតស៊ីជម្រៅ (Deep generative models) និងក្របខណ្ឌរៀនសូត្របែបបេសៀន (Bayesian learning) ដើម្បីបង្កើនប្រសិទ្ធភាពក្នុងការហ្វឹកហាត់កែសម្រួលប៉ារ៉ាម៉ែត្រ (Parameter-Efficient Fine-Tuning)។

ការប្រើប្រាស់ម៉ូដែលបំប្លែង Diffusion (Diffusion Transformer) ដែលមាន Layer Normalization សម្រាប់បន្សាំសំឡេង
ការអនុវត្តការប៉ាន់ស្មានឡាប្លាស (Laplace Approximation) ជាពិសេសកត្តា Kronecker (KFAC) ដើម្បីរក្សាចំណេះដឹងដើមម៉ូដែល
ការប្រើប្រាស់ការអនុមានអថេរ (Variational Inference) ដោយអនុវត្តឧបករណ៍បង្កើនប្រសិទ្ធភាព IVON សម្រាប់ការបែងចែកថវិកាប៉ារ៉ាម៉ែត្រ (Parameter budget allocation)
ការវាយតម្លៃលើកញ្ចប់ទិន្នន័យ LibriTTS និង VCTK និងការចូលរួមប្រកួតប្រជែងកម្មវិធី Blizzard Challenge 2023

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ស្ថាបត្យកម្ម DiT ផ្តល់នូវល្បឿនការសន្និដ្ឋាន (Inference) លឿនជាងម៉ូដែល WaveNet ដល់ទៅ ៧០% សម្រាប់ការងារ TTS ទូទៅ ខណៈពេលដែលរក្សាបាននូវគុណភាពសំឡេងធម្មជាតិខ្ពស់។
ការអនុវត្តការប៉ាន់ស្មានឡាប្លាសកត្តា Kronecker ទៅលើ PEFT កាត់បន្ថយបញ្ហាបំភ្លេចចំណេះដឹងដើម (Catastrophic forgetting) យ៉ាងមានប្រសិទ្ធភាព ដោយពុំធ្វើឱ្យបាត់បង់គុណភាពបន្សាំឡើយ។
ការប្រើប្រាស់ IVON សម្រាប់ចំណាត់ថ្នាក់ Low-Rank Adaptation (LoRA) ជួយធ្វើឱ្យប្រសើរឡើងនូវការក្រិតតាមខ្នាត (Calibration) និងផ្តល់ល្បឿនលឿនជាងវិធីសាស្ត្រ AdaLoRA ១០% សម្រាប់ការកាត់បន្ថយប៉ារ៉ាម៉ែត្រដែលមិនចាំបាច់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard Low-Rank Adaptation (LoRA) ការបន្សាំកម្រិតទាបស្តង់ដារ (Standard LoRA)	ងាយស្រួលអនុវត្ត សន្សំសំចៃប៉ារ៉ាម៉ែត្រ និងកាត់បន្ថយទំហំផ្ទុកទិន្នន័យ (Memory) បើធៀបនឹងការហ្វឹកហាត់ម៉ូដែលទាំងមូល (Full Fine-tuning)។	ងាយរងគ្រោះដោយបញ្ហាភ្លេចចំណេះដឹងដើមទាំងស្រុង (Catastrophic Forgetting) និងមិនសូវមានប្រសិទ្ធភាពលើទិន្នន័យក្រៅដែន (Out-of-domain)។	ផ្តល់លទ្ធផលបន្សាំនៅលើទិន្នន័យគោលដៅបានល្អ ប៉ុន្តែធ្វើឱ្យសមត្ថភាពដើម (Zero-shot performance) ធ្លាក់ចុះយ៉ាងខ្លាំង។
Kronecker-Factored Approximate Curvature (KFAC) - Bayesian LoRA ការប៉ាន់ស្មានឡាប្លាសកត្តា Kronecker សម្រាប់បន្សាំ Bayesian LoRA	ជួយរក្សាចំណេះដឹងដើមរបស់ម៉ូដែលបានល្អឥតខ្ចោះ និងការពារការភ្លេចទាំងស្រុងប្រកបដោយប្រសិទ្ធភាពខ្ពស់ដោយផ្អែកលើទ្រឹស្តី Bayesian។	ទាមទារការចងចាំ (Memory) និងការគណនាខ្ពស់ជាងវិធីសាស្ត្រធម្មតា ដោយសារត្រូវគណនាម៉ាទ្រីស Hessian ។	ផ្តល់ការអភិរក្សចំណេះដឹងដើមបានល្អជាងវិធីសាស្ត្រ EWC និង L2-SP ដោយរក្សាបាននូវគុណភាពនៃការបន្សាំកម្រិតខ្ពស់។
Improved Variational Online Newton (IVON) កម្មវិធីបង្កើនប្រសិទ្ធភាពទាញសេចក្តីសន្និដ្ឋានអថេរ IVON	ជួយកាត់បន្ថយភាពជឿជាក់ហួសហេតុ (Overconfidence) របស់ម៉ូដែល និងអាចកាត់បន្ថយប៉ារ៉ាម៉ែត្រដែលមិនចាំបាច់ដោយស្វ័យប្រវត្តិ។	ត្រូវការការសាកល្បងតម្លៃ (Sampling) ក្នុងដំណាក់កាល Inference ដែលធ្វើឱ្យល្បឿនសន្និដ្ឋានយឺតជាងមុនប្រសិនបើប្រើចំនួន Sample ច្រើន។	ផ្តល់ល្បឿនលឿនជាង AdaLoRA ដែលប្រើ Adam រហូតដល់ ១០% និងធ្វើឱ្យការក្រិតតាមខ្នាត (Calibration) កាន់តែមានភាពសុក្រឹត។
Diffusion Transformer (DiT) ស្ថាបត្យកម្មរចនាសម្ព័ន្ធបំប្លែង DiT	បង្កើតសំឡេងបានលឿន និងមានលក្ខណៈធម្មជាតិខ្ពស់ ជាពិសេសសម្រាប់ការបន្សាំសំឡេងថ្មីដែលមានទិន្នន័យតិច (Few-shot) ។	អាចមានភាពស្មុគស្មាញក្នុងការរៀបចំជាងម៉ូដែល Transformer ធម្មតា និងតម្រូវឱ្យមានម៉ូដែលជំនួយ (Vocoder) ដើម្បីបញ្ចេញសំឡេង។	មានល្បឿនគណនាលឿនជាងម៉ូដែល WaveNet ៧០% ជាមួយនឹងគុណភាពសំឡេង និងភាពស្រដៀងគ្នានៃសំឡេងប្រសើរជាងមុន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់ ជាពិសេស GPU ដែលមានសមត្ថភាពខ្លាំងសម្រាប់ការហ្វឹកហាត់ម៉ូដែល និងការគណនាម៉ាទ្រីសស្មុគស្មាញ (Hessian matrices)។

Hardware: ទាមទារយ៉ាងហោចណាស់កាតក្រាហ្វិក NVIDIA RTX 3090 ឬ NVIDIA H100 GPU សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលកម្រិតខ្ពស់និងការទាញយកកត្តា KFAC។
Software: បណ្ណាល័យ (Libraries) សំខាន់ៗរួមមាន PyTorch, Hugging Face Transformers, PEFT library ព្រមទាំងឧបករណ៍ជំនួយដូចជា SpeechBrain និងបណ្ណាល័យ IVON Optimizer។
Dataset: ត្រូវការទិន្នន័យសំឡេងគុណភាពខ្ពស់ដូចជា LibriTTS, VCTK និងទិន្នន័យសម្រាប់ការប្រកួត Blizzard Challenge (ភាសាបារាំង)។
Expertise: ចំណេះដឹងស៊ីជម្រៅលើ Bayesian Deep Learning, Diffusion Models, ការបន្សាំប៉ារ៉ាម៉ែត្រ (PEFT) និង ការវិភាគភាសាសាស្រ្ត (Text Analysis)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ជាចម្បងនូវសំណុំទិន្នន័យភាសាអង់គ្លេស (LibriTTS, VCTK) និងភាសាបារាំង ដែលមានការបញ្ចេញសំឡេងច្បាស់លាស់ មានទិន្នន័យច្រើន និងមានការតម្រឹម (alignment) ល្អ។ វាមិនមានការសាកល្បងលើភាសាដែលមានសូរសព្ទស្មុគស្មាញ ឬទិន្នន័យមានកម្រិត (Low-resource) ដូចជាភាសាខ្មែរនោះទេ។ នេះមានន័យថា ការយកមកប្រើប្រាស់ផ្ទាល់នៅកម្ពុជា អាចជួបបញ្ហាប្រឈមធំៗក្នុងដំណាក់កាលវិភាគអត្ថបទ (Text Normalization និង Grapheme-to-Phoneme) និងកង្វះទិន្នន័យស្តង់ដារ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកបរិមាណទិន្នន័យក៏ដោយ វិធីសាស្ត្របន្សាំប៉ារ៉ាម៉ែត្រប្រសិទ្ធភាពខ្ពស់ (PEFT) និងប្រព័ន្ធ DiT នេះមានសក្តានុពលខ្លាំងសម្រាប់អភិវឌ្ឍបច្ចេកវិទ្យាសំឡេងនៅកម្ពុជា។

ប្រព័ន្ធអានព័ត៌មាន និងសៀវភៅជាសំឡេង (Khmer TTS): អាចប្រើប្រាស់ស្ថាបត្យកម្ម DiT ដើម្បីបង្កើតប្រព័ន្ធបំប្លែងអត្ថបទទៅសំឡេងមនុស្សយ៉ាងរលូន សម្រាប់ស្ថាប័នព័ត៌មាន (ឧ. Fresh News) ឬកម្មវិធីអានសៀវភៅសម្រាប់ជនពិការភ្នែកទូទាំងប្រទេសកម្ពុជា។
ការបន្សាំសំឡេងតាមគ្រាមភាសា (Cambodian Dialect Adaptation): ប្រើប្រាស់ការបន្សាំ Bayesian LoRA ដើម្បីកែសម្រួលម៉ូដែលសំឡេងស្តង់ដារ ទៅជាការបញ្ចេញសំឡេងតាមតំបន់ (ឧទាហរណ៍៖ សំឡេងអ្នកបាត់ដំបង ឬសៀមរាប) ដោយប្រើទិន្នន័យតិចតួចបំផុតនិងមិនភ្លេចចំណេះដឹងដើម។
សេវាកម្មអតិថិជនឆ្លាតវៃ (AI Customer Service សម្រាប់ទូរគមនាគមន៍កម្ពុជា): ប្រើប្រាស់ឧបករណ៍ IVON ដើម្បីជួយឱ្យ AI Customer Service របស់ក្រុមហ៊ុនទូរស័ព្ទ (ឧ. Cellcard, Smart) កាត់បន្ថយការឆ្លើយខុសដោយទំនុកចិត្តខ្ពស់ (Overconfidence) ធ្វើឱ្យសេវាកម្មអតិថិជនកាន់តែមានភាពជាក់លាក់ និងអាចជឿទុកចិត្តបាន។

សរុបមក ការអនុវត្តបច្ចេកទេសបន្សាំប៉ារ៉ាម៉ែត្រឆ្លាតវៃទាំងនេះ អាចជួយសាកលវិទ្យាល័យ និងស្ថាប័នស្រាវជ្រាវនៅកម្ពុជាសន្សំសំចៃថវិកាក្នុងការហ្វឹកហាត់ AI ខ្នាតធំ និងជម្រុញការបង្កើត AI ផ្នែកភាសាជាតិប្រកបដោយប្រសិទ្ធភាពសូម្បីតែក្នុងបរិបទខ្វះខាតទិន្នន័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃបច្ចេកវិទ្យា TTS និង ការបន្សាំ PEFT: ស្វែងយល់ពីបច្ចេកវិទ្យា Text-to-Speech (TTS) ជាមូលដ្ឋាន និងរៀនប្រើប្រាស់កូដបើកទូលាយពី Hugging Face Transformers ព្រមទាំង PEFT Library ដើម្បីយល់ពីការអនុវត្តន៍បច្ចេកទេសបន្សាំ LoRA។
រៀបចំនិងសម្អាតទិន្នន័យភាសាខ្មែរ: ប្រមូលសំណុំទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគុណភាព (ប្រហែល ១-២ ម៉ោងសម្រាប់ការចាប់ផ្តើម) រួចប្រើប្រាស់ឧបករណ៍ Montreal Forced Aligner (MFA) ដើម្បីធ្វើការតម្រឹម (Alignment) រវាងអត្ថបទនិងចង្វាក់សំឡេង។
សាកល្បងហ្វឹកហាត់ម៉ូដែលដោយប្រើ LoRA និង KFAC: ប្រើប្រាស់កូដកែច្នៃស្រាប់ដូចជា StyleTTS 2 ឬម៉ូដែល Diffusion ផ្សេងទៀត រួចអនុវត្តបច្ចេកទេស LoRA រួមជាមួយ KFAC Regularization ដើម្បីបន្សាំទៅកាន់សំឡេងគោលដៅដោយមិនឲ្យបាត់បង់សមត្ថភាពដើម (Zero-shot performance)។
កែលម្អភាពត្រឹមត្រូវនៃម៉ូដែលដោយប្រើ IVON Optimizer: សិក្សា និងបញ្ចូល IVON Optimizer ជំនួសឲ្យ Adam Optimizer ក្នុងកូដហ្វឹកហាត់របស់អ្នក ដើម្បីកាត់បន្ថយបញ្ហា Overconfidence របស់ម៉ូដែល និងអនុញ្ញាតឱ្យប្រព័ន្ធធ្វើការសម្រេចចិត្តបានកាន់តែត្រឹមត្រូវក្នុងពេលដំណើរការ (Inference)។
វាយតម្លៃនិងដាក់ឱ្យដំណើរការ: ធ្វើការវាស់ស្ទង់គុណភាពប្រព័ន្ធដោយប្រើប្រាស់រង្វាស់ដូចជា Character Error Rate (CER) សម្រាប់ការយល់ពាក្យ និងការវាយតម្លៃផ្ទាល់តាមរយៈមតិអ្នកប្រើប្រាស់ Mean Opinion Score (MOS) ដើម្បីធានាថាប្រព័ន្ធពិតជាស័ក្តិសមសម្រាប់អ្នកប្រើប្រាស់នៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Parameter-Efficient Fine-Tuning (PEFT)	ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដ៏ធំមួយដោយធ្វើការផ្លាស់ប្តូរតែប៉ារ៉ាម៉ែត្រមួយចំនួនតូចប៉ុណ្ណោះ ខណៈពេលដែលប៉ារ៉ាម៉ែត្រភាគច្រើនត្រូវបានកកស្ទះរក្សាទុកនៅដដែល។ វាជួយសន្សំសំចៃថាមពលកុំព្យូទ័រ និងទំហំផ្ទុកទិន្នន័យយ៉ាងច្រើន តែនៅតែអាចឱ្យម៉ូដែលរៀនកិច្ចការថ្មីៗ ឬសម្របតាមទិន្នន័យថ្មីបានយ៉ាងមានប្រសិទ្ធភាព។	ប្រៀបដូចជាការកែច្នៃរថយន្តដោយប្តូរតែពណ៌លាប និងកង់ជាជាងដោះដូរម៉ាស៊ីនទាំងមូលចេញ ប៉ុន្តែនៅតែធ្វើឱ្យរថយន្តនោះមើលទៅថ្មីនិងប្លែកពីគេ។
Low-Rank Adaptation (LoRA)	គឺជាវិធីសាស្ត្រមួយនៃ PEFT ដែលបន្ថែមម៉ាទ្រីសតូចៗ (low-rank matrices) ចូលទៅក្នុងទម្ងន់ (weights) ដើមរបស់ម៉ូដែលដើម្បីរៀនព័ត៌មានថ្មី ដោយជៀសវាងការធ្វើបច្ចុប្បន្នភាពម៉ាទ្រីសទម្ងន់ដើមទាំងមូលដែលធំនិងទាមទារការគណនាខ្ពស់។	ដូចជាការសរសេរចំណាំលើសៀវភៅដោយប្រើក្រដាសស្អិត (sticky notes) បិទពីលើ ជាជាងលុបអក្សរដើមក្នុងសៀវភៅហើយសរសេរថ្មីទាំងស្រុង។
Catastrophic Forgetting	ជាបាតុភូតមួយដែលម៉ូដែល AI បាត់បង់ឬភ្លេចចំណេះដឹងនិងសមត្ថភាពដើមដែលវាធ្លាប់រៀនពីមុនទាំងស្រុង នៅពេលដែលវាត្រូវបានគេយកទៅហ្វឹកហាត់បន្តដើម្បីរៀនកិច្ចការថ្មី។	ដូចជាមនុស្សម្នាក់ដែលខំរៀនភាសាថ្មីមួយ រហូតដល់ភ្លេចរបៀបនិយាយភាសាកំណើតរបស់ខ្លួនឯងទាំងស្រុង។
Diffusion Models	ប្រភេទម៉ូដែលបង្កើតទិន្នន័យ (Generative AI) ដែលដំណើរការដោយការបន្ថែមសំឡេងរំខាន (noise) បន្តិចម្តងៗទៅក្នុងទិន្នន័យ រហូតទាល់តែមើលលែងយល់ រួចបង្រៀនប្រព័ន្ធឱ្យចេះដកសំឡេងរំខាននោះចេញវិញ ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមានគុណភាពខ្ពស់ ដូចជារូបភាព ឬសំឡេងមនុស្ស។	ប្រៀបដូចជាជាងចម្លាក់ដែលយកដុំថ្មរដិបរដុប (noise) មកដោះនិងខាត់បន្តិចម្តងៗ រហូតក្លាយជារូបចម្លាក់ដ៏ស្រស់ស្អាតមួយ។
Laplace Approximation	វិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានរបាយប្រូបាប៊ីលីតេដ៏ស្មុគស្មាញ (complex posterior distribution) ដោយប្រើប្រាស់របាយហ្គោសៀន (Gaussian distribution) ដែលសាមញ្ញជាង ដើម្បីងាយស្រួលក្នុងការទាញយកភាពមិនប្រាកដប្រជា (uncertainty) របស់ប្រព័ន្ធកុំព្យូទ័រដោយមិនបាច់ចំណាយពេលយូរ។	ដូចជាការប្រើប្រាស់រាងរង្វង់មូលសាមញ្ញបំផុត ដើម្បីប៉ាន់ស្មានទំហំនិងទីតាំងនៃពពកនៅលើមេឃដែលមានរូបរាងស្មុគស្មាញ។
Variational Inference	បច្ចេកទេសក្នុងការទាញយកសេចក្តីសន្និដ្ឋានបែបបេសៀន (Bayesian) ដោយបំប្លែងបញ្ហានៃការស្វែងរករបាយទិន្នន័យពិតប្រាកដដែលស្មុគស្មាញ ទៅជាបញ្ហានៃការធ្វើឱ្យប្រសើរឡើង (optimization problem) ដោយជ្រើសរើសរបាយដែលងាយស្រួលគណនាមកធ្វើការកែតម្រូវឱ្យកៀកនឹងរបាយពិតប្រាកដបំផុត។	ប្រៀបដូចជាការដែលអ្នកមិនដឹងរាងពិតប្រាកដនៃស្រមោលវត្ថុមួយ តែអ្នកយកពុម្ពប្លាស្ទិកដែលមានស្រាប់មកតម្រឹមចុះឡើងទាល់តែវាស៊ីគ្នាហាក់បីដូចជាស្រមោលនោះពិតៗ។
Adaptive Layer Normalization (adaLN)	គឺជាសមាសភាគនៅក្នុងបណ្តាញ Neural Network ដែលជួយកែតម្រូវទំហំនៃទិន្នន័យ (normalization) ដោយផ្អែកលើលក្ខខណ្ឌជាក់លាក់ពីខាងក្រៅ (ឧទាហរណ៍៖ អត្ថបទ ឬ លក្ខណៈសំឡេងទិសដៅ) ដើម្បីគ្រប់គ្រងនិងសម្រួលសញ្ញាបញ្ចេញអោយត្រូវនឹងបរិបទ។	ដូចជាអ្នកគ្រប់គ្រងសំឡេង (sound engineer) ដែលចេះសារ៉េកម្រិតសំឡេងឧបករណ៍ភ្លេងនីមួយៗដោយស្វ័យប្រវត្តិ ទៅតាមប្រភេទចង្វាក់បទចម្រៀងដែលកំពុងលេង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖