បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីរបៀបបន្សាំម៉ូដែលបំប្លែងអត្ថបទទៅជាសំឡេង (TTS) ដែលបានហ្វឹកហាត់រួច ទៅកាន់ដែនឬអ្នកនិយាយជាក់លាក់ណាមួយ ដោយប្រើប្រាស់ទិន្នន័យនិងប៉ារ៉ាម៉ែត្រតិចតួច ព្រមទាំងបញ្ចៀសការភ្លេចចំណេះដឹងដើម (Catastrophic forgetting) និងទំនុកចិត្តហួសកម្រិតរបស់ម៉ូដែល (Model overconfidence)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះអនុវត្តម៉ូដែលបង្កើតស៊ីជម្រៅ (Deep generative models) និងក្របខណ្ឌរៀនសូត្របែបបេសៀន (Bayesian learning) ដើម្បីបង្កើនប្រសិទ្ធភាពក្នុងការហ្វឹកហាត់កែសម្រួលប៉ារ៉ាម៉ែត្រ (Parameter-Efficient Fine-Tuning)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard Low-Rank Adaptation (LoRA) ការបន្សាំកម្រិតទាបស្តង់ដារ (Standard LoRA) |
ងាយស្រួលអនុវត្ត សន្សំសំចៃប៉ារ៉ាម៉ែត្រ និងកាត់បន្ថយទំហំផ្ទុកទិន្នន័យ (Memory) បើធៀបនឹងការហ្វឹកហាត់ម៉ូដែលទាំងមូល (Full Fine-tuning)។ | ងាយរងគ្រោះដោយបញ្ហាភ្លេចចំណេះដឹងដើមទាំងស្រុង (Catastrophic Forgetting) និងមិនសូវមានប្រសិទ្ធភាពលើទិន្នន័យក្រៅដែន (Out-of-domain)។ | ផ្តល់លទ្ធផលបន្សាំនៅលើទិន្នន័យគោលដៅបានល្អ ប៉ុន្តែធ្វើឱ្យសមត្ថភាពដើម (Zero-shot performance) ធ្លាក់ចុះយ៉ាងខ្លាំង។ |
| Kronecker-Factored Approximate Curvature (KFAC) - Bayesian LoRA ការប៉ាន់ស្មានឡាប្លាសកត្តា Kronecker សម្រាប់បន្សាំ Bayesian LoRA |
ជួយរក្សាចំណេះដឹងដើមរបស់ម៉ូដែលបានល្អឥតខ្ចោះ និងការពារការភ្លេចទាំងស្រុងប្រកបដោយប្រសិទ្ធភាពខ្ពស់ដោយផ្អែកលើទ្រឹស្តី Bayesian។ | ទាមទារការចងចាំ (Memory) និងការគណនាខ្ពស់ជាងវិធីសាស្ត្រធម្មតា ដោយសារត្រូវគណនាម៉ាទ្រីស Hessian ។ | ផ្តល់ការអភិរក្សចំណេះដឹងដើមបានល្អជាងវិធីសាស្ត្រ EWC និង L2-SP ដោយរក្សាបាននូវគុណភាពនៃការបន្សាំកម្រិតខ្ពស់។ |
| Improved Variational Online Newton (IVON) កម្មវិធីបង្កើនប្រសិទ្ធភាពទាញសេចក្តីសន្និដ្ឋានអថេរ IVON |
ជួយកាត់បន្ថយភាពជឿជាក់ហួសហេតុ (Overconfidence) របស់ម៉ូដែល និងអាចកាត់បន្ថយប៉ារ៉ាម៉ែត្រដែលមិនចាំបាច់ដោយស្វ័យប្រវត្តិ។ | ត្រូវការការសាកល្បងតម្លៃ (Sampling) ក្នុងដំណាក់កាល Inference ដែលធ្វើឱ្យល្បឿនសន្និដ្ឋានយឺតជាងមុនប្រសិនបើប្រើចំនួន Sample ច្រើន។ | ផ្តល់ល្បឿនលឿនជាង AdaLoRA ដែលប្រើ Adam រហូតដល់ ១០% និងធ្វើឱ្យការក្រិតតាមខ្នាត (Calibration) កាន់តែមានភាពសុក្រឹត។ |
| Diffusion Transformer (DiT) ស្ថាបត្យកម្មរចនាសម្ព័ន្ធបំប្លែង DiT |
បង្កើតសំឡេងបានលឿន និងមានលក្ខណៈធម្មជាតិខ្ពស់ ជាពិសេសសម្រាប់ការបន្សាំសំឡេងថ្មីដែលមានទិន្នន័យតិច (Few-shot) ។ | អាចមានភាពស្មុគស្មាញក្នុងការរៀបចំជាងម៉ូដែល Transformer ធម្មតា និងតម្រូវឱ្យមានម៉ូដែលជំនួយ (Vocoder) ដើម្បីបញ្ចេញសំឡេង។ | មានល្បឿនគណនាលឿនជាងម៉ូដែល WaveNet ៧០% ជាមួយនឹងគុណភាពសំឡេង និងភាពស្រដៀងគ្នានៃសំឡេងប្រសើរជាងមុន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់ ជាពិសេស GPU ដែលមានសមត្ថភាពខ្លាំងសម្រាប់ការហ្វឹកហាត់ម៉ូដែល និងការគណនាម៉ាទ្រីសស្មុគស្មាញ (Hessian matrices)។
ការសិក្សានេះប្រើប្រាស់ជាចម្បងនូវសំណុំទិន្នន័យភាសាអង់គ្លេស (LibriTTS, VCTK) និងភាសាបារាំង ដែលមានការបញ្ចេញសំឡេងច្បាស់លាស់ មានទិន្នន័យច្រើន និងមានការតម្រឹម (alignment) ល្អ។ វាមិនមានការសាកល្បងលើភាសាដែលមានសូរសព្ទស្មុគស្មាញ ឬទិន្នន័យមានកម្រិត (Low-resource) ដូចជាភាសាខ្មែរនោះទេ។ នេះមានន័យថា ការយកមកប្រើប្រាស់ផ្ទាល់នៅកម្ពុជា អាចជួបបញ្ហាប្រឈមធំៗក្នុងដំណាក់កាលវិភាគអត្ថបទ (Text Normalization និង Grapheme-to-Phoneme) និងកង្វះទិន្នន័យស្តង់ដារ។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកបរិមាណទិន្នន័យក៏ដោយ វិធីសាស្ត្របន្សាំប៉ារ៉ាម៉ែត្រប្រសិទ្ធភាពខ្ពស់ (PEFT) និងប្រព័ន្ធ DiT នេះមានសក្តានុពលខ្លាំងសម្រាប់អភិវឌ្ឍបច្ចេកវិទ្យាសំឡេងនៅកម្ពុជា។
សរុបមក ការអនុវត្តបច្ចេកទេសបន្សាំប៉ារ៉ាម៉ែត្រឆ្លាតវៃទាំងនេះ អាចជួយសាកលវិទ្យាល័យ និងស្ថាប័នស្រាវជ្រាវនៅកម្ពុជាសន្សំសំចៃថវិកាក្នុងការហ្វឹកហាត់ AI ខ្នាតធំ និងជម្រុញការបង្កើត AI ផ្នែកភាសាជាតិប្រកបដោយប្រសិទ្ធភាពសូម្បីតែក្នុងបរិបទខ្វះខាតទិន្នន័យ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Parameter-Efficient Fine-Tuning (PEFT) | ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដ៏ធំមួយដោយធ្វើការផ្លាស់ប្តូរតែប៉ារ៉ាម៉ែត្រមួយចំនួនតូចប៉ុណ្ណោះ ខណៈពេលដែលប៉ារ៉ាម៉ែត្រភាគច្រើនត្រូវបានកកស្ទះរក្សាទុកនៅដដែល។ វាជួយសន្សំសំចៃថាមពលកុំព្យូទ័រ និងទំហំផ្ទុកទិន្នន័យយ៉ាងច្រើន តែនៅតែអាចឱ្យម៉ូដែលរៀនកិច្ចការថ្មីៗ ឬសម្របតាមទិន្នន័យថ្មីបានយ៉ាងមានប្រសិទ្ធភាព។ | ប្រៀបដូចជាការកែច្នៃរថយន្តដោយប្តូរតែពណ៌លាប និងកង់ជាជាងដោះដូរម៉ាស៊ីនទាំងមូលចេញ ប៉ុន្តែនៅតែធ្វើឱ្យរថយន្តនោះមើលទៅថ្មីនិងប្លែកពីគេ។ |
| Low-Rank Adaptation (LoRA) | គឺជាវិធីសាស្ត្រមួយនៃ PEFT ដែលបន្ថែមម៉ាទ្រីសតូចៗ (low-rank matrices) ចូលទៅក្នុងទម្ងន់ (weights) ដើមរបស់ម៉ូដែលដើម្បីរៀនព័ត៌មានថ្មី ដោយជៀសវាងការធ្វើបច្ចុប្បន្នភាពម៉ាទ្រីសទម្ងន់ដើមទាំងមូលដែលធំនិងទាមទារការគណនាខ្ពស់។ | ដូចជាការសរសេរចំណាំលើសៀវភៅដោយប្រើក្រដាសស្អិត (sticky notes) បិទពីលើ ជាជាងលុបអក្សរដើមក្នុងសៀវភៅហើយសរសេរថ្មីទាំងស្រុង។ |
| Catastrophic Forgetting | ជាបាតុភូតមួយដែលម៉ូដែល AI បាត់បង់ឬភ្លេចចំណេះដឹងនិងសមត្ថភាពដើមដែលវាធ្លាប់រៀនពីមុនទាំងស្រុង នៅពេលដែលវាត្រូវបានគេយកទៅហ្វឹកហាត់បន្តដើម្បីរៀនកិច្ចការថ្មី។ | ដូចជាមនុស្សម្នាក់ដែលខំរៀនភាសាថ្មីមួយ រហូតដល់ភ្លេចរបៀបនិយាយភាសាកំណើតរបស់ខ្លួនឯងទាំងស្រុង។ |
| Diffusion Models | ប្រភេទម៉ូដែលបង្កើតទិន្នន័យ (Generative AI) ដែលដំណើរការដោយការបន្ថែមសំឡេងរំខាន (noise) បន្តិចម្តងៗទៅក្នុងទិន្នន័យ រហូតទាល់តែមើលលែងយល់ រួចបង្រៀនប្រព័ន្ធឱ្យចេះដកសំឡេងរំខាននោះចេញវិញ ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមានគុណភាពខ្ពស់ ដូចជារូបភាព ឬសំឡេងមនុស្ស។ | ប្រៀបដូចជាជាងចម្លាក់ដែលយកដុំថ្មរដិបរដុប (noise) មកដោះនិងខាត់បន្តិចម្តងៗ រហូតក្លាយជារូបចម្លាក់ដ៏ស្រស់ស្អាតមួយ។ |
| Laplace Approximation | វិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានរបាយប្រូបាប៊ីលីតេដ៏ស្មុគស្មាញ (complex posterior distribution) ដោយប្រើប្រាស់របាយហ្គោសៀន (Gaussian distribution) ដែលសាមញ្ញជាង ដើម្បីងាយស្រួលក្នុងការទាញយកភាពមិនប្រាកដប្រជា (uncertainty) របស់ប្រព័ន្ធកុំព្យូទ័រដោយមិនបាច់ចំណាយពេលយូរ។ | ដូចជាការប្រើប្រាស់រាងរង្វង់មូលសាមញ្ញបំផុត ដើម្បីប៉ាន់ស្មានទំហំនិងទីតាំងនៃពពកនៅលើមេឃដែលមានរូបរាងស្មុគស្មាញ។ |
| Variational Inference | បច្ចេកទេសក្នុងការទាញយកសេចក្តីសន្និដ្ឋានបែបបេសៀន (Bayesian) ដោយបំប្លែងបញ្ហានៃការស្វែងរករបាយទិន្នន័យពិតប្រាកដដែលស្មុគស្មាញ ទៅជាបញ្ហានៃការធ្វើឱ្យប្រសើរឡើង (optimization problem) ដោយជ្រើសរើសរបាយដែលងាយស្រួលគណនាមកធ្វើការកែតម្រូវឱ្យកៀកនឹងរបាយពិតប្រាកដបំផុត។ | ប្រៀបដូចជាការដែលអ្នកមិនដឹងរាងពិតប្រាកដនៃស្រមោលវត្ថុមួយ តែអ្នកយកពុម្ពប្លាស្ទិកដែលមានស្រាប់មកតម្រឹមចុះឡើងទាល់តែវាស៊ីគ្នាហាក់បីដូចជាស្រមោលនោះពិតៗ។ |
| Adaptive Layer Normalization (adaLN) | គឺជាសមាសភាគនៅក្នុងបណ្តាញ Neural Network ដែលជួយកែតម្រូវទំហំនៃទិន្នន័យ (normalization) ដោយផ្អែកលើលក្ខខណ្ឌជាក់លាក់ពីខាងក្រៅ (ឧទាហរណ៍៖ អត្ថបទ ឬ លក្ខណៈសំឡេងទិសដៅ) ដើម្បីគ្រប់គ្រងនិងសម្រួលសញ្ញាបញ្ចេញអោយត្រូវនឹងបរិបទ។ | ដូចជាអ្នកគ្រប់គ្រងសំឡេង (sound engineer) ដែលចេះសារ៉េកម្រិតសំឡេងឧបករណ៍ភ្លេងនីមួយៗដោយស្វ័យប្រវត្តិ ទៅតាមប្រភេទចង្វាក់បទចម្រៀងដែលកំពុងលេង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖