Original Title: Efficient Adaptation for Speech Technology
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបន្សាំប្រកបដោយប្រសិទ្ធភាពសម្រាប់បច្ចេកវិទ្យាសំឡេង

ចំណងជើងដើម៖ Efficient Adaptation for Speech Technology

អ្នកនិពន្ធ៖ Haolin CHEN (EPFL)

ឆ្នាំបោះពុម្ព៖ 2025 EPFL

វិស័យសិក្សា៖ Machine Learning / Speech Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីរបៀបបន្សាំម៉ូដែលបំប្លែងអត្ថបទទៅជាសំឡេង (TTS) ដែលបានហ្វឹកហាត់រួច ទៅកាន់ដែនឬអ្នកនិយាយជាក់លាក់ណាមួយ ដោយប្រើប្រាស់ទិន្នន័យនិងប៉ារ៉ាម៉ែត្រតិចតួច ព្រមទាំងបញ្ចៀសការភ្លេចចំណេះដឹងដើម (Catastrophic forgetting) និងទំនុកចិត្តហួសកម្រិតរបស់ម៉ូដែល (Model overconfidence)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះអនុវត្តម៉ូដែលបង្កើតស៊ីជម្រៅ (Deep generative models) និងក្របខណ្ឌរៀនសូត្របែបបេសៀន (Bayesian learning) ដើម្បីបង្កើនប្រសិទ្ធភាពក្នុងការហ្វឹកហាត់កែសម្រួលប៉ារ៉ាម៉ែត្រ (Parameter-Efficient Fine-Tuning)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Standard Low-Rank Adaptation (LoRA)
ការបន្សាំកម្រិតទាបស្តង់ដារ (Standard LoRA)
ងាយស្រួលអនុវត្ត សន្សំសំចៃប៉ារ៉ាម៉ែត្រ និងកាត់បន្ថយទំហំផ្ទុកទិន្នន័យ (Memory) បើធៀបនឹងការហ្វឹកហាត់ម៉ូដែលទាំងមូល (Full Fine-tuning)។ ងាយរងគ្រោះដោយបញ្ហាភ្លេចចំណេះដឹងដើមទាំងស្រុង (Catastrophic Forgetting) និងមិនសូវមានប្រសិទ្ធភាពលើទិន្នន័យក្រៅដែន (Out-of-domain)។ ផ្តល់លទ្ធផលបន្សាំនៅលើទិន្នន័យគោលដៅបានល្អ ប៉ុន្តែធ្វើឱ្យសមត្ថភាពដើម (Zero-shot performance) ធ្លាក់ចុះយ៉ាងខ្លាំង។
Kronecker-Factored Approximate Curvature (KFAC) - Bayesian LoRA
ការប៉ាន់ស្មានឡាប្លាសកត្តា Kronecker សម្រាប់បន្សាំ Bayesian LoRA
ជួយរក្សាចំណេះដឹងដើមរបស់ម៉ូដែលបានល្អឥតខ្ចោះ និងការពារការភ្លេចទាំងស្រុងប្រកបដោយប្រសិទ្ធភាពខ្ពស់ដោយផ្អែកលើទ្រឹស្តី Bayesian។ ទាមទារការចងចាំ (Memory) និងការគណនាខ្ពស់ជាងវិធីសាស្ត្រធម្មតា ដោយសារត្រូវគណនាម៉ាទ្រីស Hessian ។ ផ្តល់ការអភិរក្សចំណេះដឹងដើមបានល្អជាងវិធីសាស្ត្រ EWC និង L2-SP ដោយរក្សាបាននូវគុណភាពនៃការបន្សាំកម្រិតខ្ពស់។
Improved Variational Online Newton (IVON)
កម្មវិធីបង្កើនប្រសិទ្ធភាពទាញសេចក្តីសន្និដ្ឋានអថេរ IVON
ជួយកាត់បន្ថយភាពជឿជាក់ហួសហេតុ (Overconfidence) របស់ម៉ូដែល និងអាចកាត់បន្ថយប៉ារ៉ាម៉ែត្រដែលមិនចាំបាច់ដោយស្វ័យប្រវត្តិ។ ត្រូវការការសាកល្បងតម្លៃ (Sampling) ក្នុងដំណាក់កាល Inference ដែលធ្វើឱ្យល្បឿនសន្និដ្ឋានយឺតជាងមុនប្រសិនបើប្រើចំនួន Sample ច្រើន។ ផ្តល់ល្បឿនលឿនជាង AdaLoRA ដែលប្រើ Adam រហូតដល់ ១០% និងធ្វើឱ្យការក្រិតតាមខ្នាត (Calibration) កាន់តែមានភាពសុក្រឹត។
Diffusion Transformer (DiT)
ស្ថាបត្យកម្មរចនាសម្ព័ន្ធបំប្លែង DiT
បង្កើតសំឡេងបានលឿន និងមានលក្ខណៈធម្មជាតិខ្ពស់ ជាពិសេសសម្រាប់ការបន្សាំសំឡេងថ្មីដែលមានទិន្នន័យតិច (Few-shot) ។ អាចមានភាពស្មុគស្មាញក្នុងការរៀបចំជាងម៉ូដែល Transformer ធម្មតា និងតម្រូវឱ្យមានម៉ូដែលជំនួយ (Vocoder) ដើម្បីបញ្ចេញសំឡេង។ មានល្បឿនគណនាលឿនជាងម៉ូដែល WaveNet ៧០% ជាមួយនឹងគុណភាពសំឡេង និងភាពស្រដៀងគ្នានៃសំឡេងប្រសើរជាងមុន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់ ជាពិសេស GPU ដែលមានសមត្ថភាពខ្លាំងសម្រាប់ការហ្វឹកហាត់ម៉ូដែល និងការគណនាម៉ាទ្រីសស្មុគស្មាញ (Hessian matrices)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ជាចម្បងនូវសំណុំទិន្នន័យភាសាអង់គ្លេស (LibriTTS, VCTK) និងភាសាបារាំង ដែលមានការបញ្ចេញសំឡេងច្បាស់លាស់ មានទិន្នន័យច្រើន និងមានការតម្រឹម (alignment) ល្អ។ វាមិនមានការសាកល្បងលើភាសាដែលមានសូរសព្ទស្មុគស្មាញ ឬទិន្នន័យមានកម្រិត (Low-resource) ដូចជាភាសាខ្មែរនោះទេ។ នេះមានន័យថា ការយកមកប្រើប្រាស់ផ្ទាល់នៅកម្ពុជា អាចជួបបញ្ហាប្រឈមធំៗក្នុងដំណាក់កាលវិភាគអត្ថបទ (Text Normalization និង Grapheme-to-Phoneme) និងកង្វះទិន្នន័យស្តង់ដារ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកបរិមាណទិន្នន័យក៏ដោយ វិធីសាស្ត្របន្សាំប៉ារ៉ាម៉ែត្រប្រសិទ្ធភាពខ្ពស់ (PEFT) និងប្រព័ន្ធ DiT នេះមានសក្តានុពលខ្លាំងសម្រាប់អភិវឌ្ឍបច្ចេកវិទ្យាសំឡេងនៅកម្ពុជា។

សរុបមក ការអនុវត្តបច្ចេកទេសបន្សាំប៉ារ៉ាម៉ែត្រឆ្លាតវៃទាំងនេះ អាចជួយសាកលវិទ្យាល័យ និងស្ថាប័នស្រាវជ្រាវនៅកម្ពុជាសន្សំសំចៃថវិកាក្នុងការហ្វឹកហាត់ AI ខ្នាតធំ និងជម្រុញការបង្កើត AI ផ្នែកភាសាជាតិប្រកបដោយប្រសិទ្ធភាពសូម្បីតែក្នុងបរិបទខ្វះខាតទិន្នន័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃបច្ចេកវិទ្យា TTS និង ការបន្សាំ PEFT: ស្វែងយល់ពីបច្ចេកវិទ្យា Text-to-Speech (TTS) ជាមូលដ្ឋាន និងរៀនប្រើប្រាស់កូដបើកទូលាយពី Hugging Face Transformers ព្រមទាំង PEFT Library ដើម្បីយល់ពីការអនុវត្តន៍បច្ចេកទេសបន្សាំ LoRA។
  2. រៀបចំនិងសម្អាតទិន្នន័យភាសាខ្មែរ: ប្រមូលសំណុំទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគុណភាព (ប្រហែល ១-២ ម៉ោងសម្រាប់ការចាប់ផ្តើម) រួចប្រើប្រាស់ឧបករណ៍ Montreal Forced Aligner (MFA) ដើម្បីធ្វើការតម្រឹម (Alignment) រវាងអត្ថបទនិងចង្វាក់សំឡេង។
  3. សាកល្បងហ្វឹកហាត់ម៉ូដែលដោយប្រើ LoRA និង KFAC: ប្រើប្រាស់កូដកែច្នៃស្រាប់ដូចជា StyleTTS 2 ឬម៉ូដែល Diffusion ផ្សេងទៀត រួចអនុវត្តបច្ចេកទេស LoRA រួមជាមួយ KFAC Regularization ដើម្បីបន្សាំទៅកាន់សំឡេងគោលដៅដោយមិនឲ្យបាត់បង់សមត្ថភាពដើម (Zero-shot performance)។
  4. កែលម្អភាពត្រឹមត្រូវនៃម៉ូដែលដោយប្រើ IVON Optimizer: សិក្សា និងបញ្ចូល IVON Optimizer ជំនួសឲ្យ Adam Optimizer ក្នុងកូដហ្វឹកហាត់របស់អ្នក ដើម្បីកាត់បន្ថយបញ្ហា Overconfidence របស់ម៉ូដែល និងអនុញ្ញាតឱ្យប្រព័ន្ធធ្វើការសម្រេចចិត្តបានកាន់តែត្រឹមត្រូវក្នុងពេលដំណើរការ (Inference)។
  5. វាយតម្លៃនិងដាក់ឱ្យដំណើរការ: ធ្វើការវាស់ស្ទង់គុណភាពប្រព័ន្ធដោយប្រើប្រាស់រង្វាស់ដូចជា Character Error Rate (CER) សម្រាប់ការយល់ពាក្យ និងការវាយតម្លៃផ្ទាល់តាមរយៈមតិអ្នកប្រើប្រាស់ Mean Opinion Score (MOS) ដើម្បីធានាថាប្រព័ន្ធពិតជាស័ក្តិសមសម្រាប់អ្នកប្រើប្រាស់នៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Parameter-Efficient Fine-Tuning (PEFT) ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដ៏ធំមួយដោយធ្វើការផ្លាស់ប្តូរតែប៉ារ៉ាម៉ែត្រមួយចំនួនតូចប៉ុណ្ណោះ ខណៈពេលដែលប៉ារ៉ាម៉ែត្រភាគច្រើនត្រូវបានកកស្ទះរក្សាទុកនៅដដែល។ វាជួយសន្សំសំចៃថាមពលកុំព្យូទ័រ និងទំហំផ្ទុកទិន្នន័យយ៉ាងច្រើន តែនៅតែអាចឱ្យម៉ូដែលរៀនកិច្ចការថ្មីៗ ឬសម្របតាមទិន្នន័យថ្មីបានយ៉ាងមានប្រសិទ្ធភាព។ ប្រៀបដូចជាការកែច្នៃរថយន្តដោយប្តូរតែពណ៌លាប និងកង់ជាជាងដោះដូរម៉ាស៊ីនទាំងមូលចេញ ប៉ុន្តែនៅតែធ្វើឱ្យរថយន្តនោះមើលទៅថ្មីនិងប្លែកពីគេ។
Low-Rank Adaptation (LoRA) គឺជាវិធីសាស្ត្រមួយនៃ PEFT ដែលបន្ថែមម៉ាទ្រីសតូចៗ (low-rank matrices) ចូលទៅក្នុងទម្ងន់ (weights) ដើមរបស់ម៉ូដែលដើម្បីរៀនព័ត៌មានថ្មី ដោយជៀសវាងការធ្វើបច្ចុប្បន្នភាពម៉ាទ្រីសទម្ងន់ដើមទាំងមូលដែលធំនិងទាមទារការគណនាខ្ពស់។ ដូចជាការសរសេរចំណាំលើសៀវភៅដោយប្រើក្រដាសស្អិត (sticky notes) បិទពីលើ ជាជាងលុបអក្សរដើមក្នុងសៀវភៅហើយសរសេរថ្មីទាំងស្រុង។
Catastrophic Forgetting ជាបាតុភូតមួយដែលម៉ូដែល AI បាត់បង់ឬភ្លេចចំណេះដឹងនិងសមត្ថភាពដើមដែលវាធ្លាប់រៀនពីមុនទាំងស្រុង នៅពេលដែលវាត្រូវបានគេយកទៅហ្វឹកហាត់បន្តដើម្បីរៀនកិច្ចការថ្មី។ ដូចជាមនុស្សម្នាក់ដែលខំរៀនភាសាថ្មីមួយ រហូតដល់ភ្លេចរបៀបនិយាយភាសាកំណើតរបស់ខ្លួនឯងទាំងស្រុង។
Diffusion Models ប្រភេទម៉ូដែលបង្កើតទិន្នន័យ (Generative AI) ដែលដំណើរការដោយការបន្ថែមសំឡេងរំខាន (noise) បន្តិចម្តងៗទៅក្នុងទិន្នន័យ រហូតទាល់តែមើលលែងយល់ រួចបង្រៀនប្រព័ន្ធឱ្យចេះដកសំឡេងរំខាននោះចេញវិញ ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមានគុណភាពខ្ពស់ ដូចជារូបភាព ឬសំឡេងមនុស្ស។ ប្រៀបដូចជាជាងចម្លាក់ដែលយកដុំថ្មរដិបរដុប (noise) មកដោះនិងខាត់បន្តិចម្តងៗ រហូតក្លាយជារូបចម្លាក់ដ៏ស្រស់ស្អាតមួយ។
Laplace Approximation វិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានរបាយប្រូបាប៊ីលីតេដ៏ស្មុគស្មាញ (complex posterior distribution) ដោយប្រើប្រាស់របាយហ្គោសៀន (Gaussian distribution) ដែលសាមញ្ញជាង ដើម្បីងាយស្រួលក្នុងការទាញយកភាពមិនប្រាកដប្រជា (uncertainty) របស់ប្រព័ន្ធកុំព្យូទ័រដោយមិនបាច់ចំណាយពេលយូរ។ ដូចជាការប្រើប្រាស់រាងរង្វង់មូលសាមញ្ញបំផុត ដើម្បីប៉ាន់ស្មានទំហំនិងទីតាំងនៃពពកនៅលើមេឃដែលមានរូបរាងស្មុគស្មាញ។
Variational Inference បច្ចេកទេសក្នុងការទាញយកសេចក្តីសន្និដ្ឋានបែបបេសៀន (Bayesian) ដោយបំប្លែងបញ្ហានៃការស្វែងរករបាយទិន្នន័យពិតប្រាកដដែលស្មុគស្មាញ ទៅជាបញ្ហានៃការធ្វើឱ្យប្រសើរឡើង (optimization problem) ដោយជ្រើសរើសរបាយដែលងាយស្រួលគណនាមកធ្វើការកែតម្រូវឱ្យកៀកនឹងរបាយពិតប្រាកដបំផុត។ ប្រៀបដូចជាការដែលអ្នកមិនដឹងរាងពិតប្រាកដនៃស្រមោលវត្ថុមួយ តែអ្នកយកពុម្ពប្លាស្ទិកដែលមានស្រាប់មកតម្រឹមចុះឡើងទាល់តែវាស៊ីគ្នាហាក់បីដូចជាស្រមោលនោះពិតៗ។
Adaptive Layer Normalization (adaLN) គឺជាសមាសភាគនៅក្នុងបណ្តាញ Neural Network ដែលជួយកែតម្រូវទំហំនៃទិន្នន័យ (normalization) ដោយផ្អែកលើលក្ខខណ្ឌជាក់លាក់ពីខាងក្រៅ (ឧទាហរណ៍៖ អត្ថបទ ឬ លក្ខណៈសំឡេងទិសដៅ) ដើម្បីគ្រប់គ្រងនិងសម្រួលសញ្ញាបញ្ចេញអោយត្រូវនឹងបរិបទ។ ដូចជាអ្នកគ្រប់គ្រងសំឡេង (sound engineer) ដែលចេះសារ៉េកម្រិតសំឡេងឧបករណ៍ភ្លេងនីមួយៗដោយស្វ័យប្រវត្តិ ទៅតាមប្រភេទចង្វាក់បទចម្រៀងដែលកំពុងលេង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖