Original Title: PCAD: Towards ASR-Robust Spoken Language Understanding via Prototype Calibration and Asymmetric Decoupling
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

PCAD៖ ឆ្ពោះទៅរកការយល់ដឹងពីភាសានិយាយដែលធន់នឹង ASR តាមរយៈការធ្វើសមកាលកម្មគំរូដើម និងការផ្ដាច់ដោយអសមមាត្រ

ចំណងជើងដើម៖ PCAD: Towards ASR-Robust Spoken Language Understanding via Prototype Calibration and Asymmetric Decoupling

អ្នកនិពន្ធ៖ Xianwei Zhuang (Peking University), Xuxin Cheng (Peking University), Liming Liang (Peking University), Yuxin Xie (Peking University), Zhichang Wang (Peking University), Zhiqi Huang (Peking University), Yuexian Zou (Peking University)

ឆ្នាំបោះពុម្ព៖ 2024 Association for Computational Linguistics (ACL)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធយល់ដឹងពីភាសានិយាយ (SLU) តែងតែទទួលរងនូវការសាយភាយកំហុសពីប្រព័ន្ធសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) ដែលធ្វើឱ្យប៉ះពាល់ដល់ប្រសិទ្ធភាពរបស់ម៉ូដែលនានានៅក្នុងស្ថានភាពជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយឈ្មោះថា PCAD ដើម្បីដោះស្រាយបញ្ហានេះតាមរយៈការបណ្តុះបណ្តាលដែលបំបែកលក្ខណៈ និងធ្វើសមកាលកម្មគំរូដើម។

ការធ្វើសមកាលកម្មគំរូដើម (Prototype Calibration Loss): ប្រើប្រាស់សម្រាប់កាត់បន្ថយភាពលម្អៀងនៃសំណាកនៅក្នុងដំណាក់កាលបណ្តុះបណ្តាលបឋម (Pre-training)។
ការធ្វើសមកាលកម្មដែលងាយប្រតិកម្មនឹងកំហុស (Error-Sensitive Prototype Calibration): ផ្តោតលើការកែតម្រូវកំហុសអត្ថន័យយ៉ាងជាក់លាក់កំឡុងពេលសម្រួលម៉ូដែល (Fine-tuning)។
ក្បួនដោះស្រាយ GS-EMA (Gradient-Sensitive Exponential Moving Average): បង្កើតឡើងសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលគ្រូ-សិស្ស (Teacher-Student Model) បែបអសមមាត្រ ដើម្បីរក្សាតុល្យភាពរវាងភាពត្រឹមត្រូវនិងភាពធន់នឹងកំហុស។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្របខ័ណ្ឌ PCAD ទទួលបានលទ្ធផលប្រសើរជាងវិធីសាស្ត្រមុនៗយ៉ាងច្បាស់លាស់ ដោយសម្រេចបានភាពត្រឹមត្រូវរួម (Joint accuracy) ៩១.៨៩% លើសំណុំទិន្នន័យ SLURP ។
ម៉ូដែលនេះអាចទប់ទល់នឹងកម្រិតសំឡេងរំខាននៃ ASR បានយ៉ាងល្អ ដោយបង្កើនភាពត្រឹមត្រូវ ៥.១៣% ធៀបនឹងម៉ូដែល SpokenCSE នៅពេលប្រឈមនឹងកម្រិតសំឡេងរំខានខ្ពស់ (High WER) ។
ការប្រើប្រាស់ការទស្សន៍ទាយដែលត្រឹមត្រូវ (Correct predictions) ជាគំរូដើម ផ្តល់លទ្ធផលល្អបំផុត ដោយសារវាជួយជៀសវាងការបញ្ចូលអត្ថន័យខុស (Erroneous semantics) ទៅក្នុងម៉ូដែល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
RoBERTa (Liu et al., 2019) ម៉ូដែល RoBERTa បឋម	ងាយស្រួលប្រើប្រាស់ជាមូលដ្ឋានគ្រឹះសម្រាប់ការយល់ដឹងពីភាសា និងអាចចាប់យកអត្ថន័យរួមបានល្អ។	ងាយរងគ្រោះដោយសារកំហុស ASR ព្រោះមិនមានយន្តការទប់ទល់នឹងកំហុស និងគ្មានការបំបែកលក្ខណៈពិសេសនៃសំឡេងរំខាន។	សម្រេចបានភាពត្រឹមត្រូវ ៨៣.៩៧% លើ SLURP និង ៩៤.៥៣% លើ ATIS (ដោយគ្មានអត្ថបទដើមពេលសម្រួលម៉ូដែល)។
SpokenCSE (Chang and Chen, 2022) វិធីសាស្ត្រ SpokenCSE ដែលប្រើការរៀនបែបប្រៀបធៀប (Contrastive Learning)	ជួយកាត់បន្ថយកំហុស ASR តាមរយៈការរៀនទាញរកភាពដូចគ្នារវាងអត្ថបទស្អាតនិងអត្ថបទដែលមានកំហុស។	ប្រឈមនឹងបញ្ហាទោរទង្គត់នៃសំណាក (Sample bias) ក្នុងដំណាក់កាលបណ្តុះបណ្តាលបឋម និងមិនបានផ្តោតលើកំហុសអត្ថន័យច្បាស់លាស់។	សម្រេចបានភាពត្រឹមត្រូវ ៨៥.២៦% លើ SLURP និង ៩៥.១០% លើ ATIS។
ML-LMCL (Cheng et al., 2023a) វិធីសាស្ត្រ ML-LMCL (ការរៀនទៅវិញទៅមក និង Large-margin Contrastive Learning)	ទទួលបានលទ្ធផលប្រសើរជាងមុនតាមរយៈការជំរុញឱ្យម៉ូដែលបំបែកលក្ខណៈពិសេសឱ្យកាន់តែឆ្ងាយពីគ្នា (Large-margin)។	នៅតែអនុវត្តការបណ្តុះបណ្តាលទិន្នន័យអត្ថបទស្អាតនិងមានកំហុសស្មើៗគ្នា (Symmetrically) ដែលធ្វើឱ្យការរៀនសូត្រមិនសូវមានតុល្យភាព។	សម្រេចបានភាពត្រឹមត្រូវ ៨៨.៥២% លើ SLURP និង ៩៦.៥២% លើ ATIS។
PCAD (Proposed) ក្របខ័ណ្ឌ PCAD (ការធ្វើសមកាលកម្មគំរូដើម និងការផ្ដាច់អសមមាត្រ)	ដោះស្រាយបញ្ហាទោរទង្គត់នៃទិន្នន័យ កែតម្រូវកំហុសអត្ថន័យបានល្អបំផុត និងថ្លឹងថ្លែងការរៀនសូត្រដោយស្វ័យប្រវត្តិរវាងអត្ថបទស្អាតនិងមានកំហុស។	ទាមទារការពឹងផ្អែកលើអត្ថបទសរសេរដោយដៃ (Manual transcripts) ក្នុងបរិមាណច្រើន ដែលពិបាករកក្នុងស្ថានភាពជាក់ស្តែង។	ទទួលបានលទ្ធផលខ្ពស់បំផុតកម្រិត ៩០.៥៨% លើ SLURP និង ៩៧.៦៤% លើ ATIS។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រធន់ធ្ងន់ (High-performance computing) និងការគណនាដ៏ស្មុគស្មាញសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល ព្រមទាំងសំណុំទិន្នន័យអត្ថបទស្របគ្នា។

Hardware: ប្រើប្រាស់បន្ទះក្រាហ្វិក 8 NVIDIA RTX3090 GPUs សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល។
Software/Framework: តម្រូវឱ្យមានការប្រើប្រាស់បរិស្ថាន Pytorch និងម៉ូដែលបឋមដូចជា RoBERTa និង Phoneme-BERT។
Dataset: ត្រូវការសំណុំទិន្នន័យខ្នាតធំដែលមានទាំងអត្ថបទ ASR និងអត្ថបទសរសេរដោយដៃត្រឹមត្រូវ (SLURP, ATIS, TREC6) ដើម្បីប្រើប្រាស់ជាទិន្នន័យបណ្តុះបណ្តាល និងផ្ទៀងផ្ទាត់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេសសុទ្ធសាធ (SLURP, ATIS, TREC6) និងប្រើប្រាស់ Google Web API ដើម្បីបង្កើតអត្ថបទ ASR។ នេះជារឿងដ៏សំខាន់សម្រាប់កម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់វេយ្យាករណ៍ និងការបញ្ចេញសំឡេងស្មុគស្មាញ ដែលធ្វើឱ្យប្រព័ន្ធ ASR ខ្មែរមានអត្រាកំហុសពាក្យ (WER) ខ្ពស់ជាងអង់គ្លេសឆ្ងាយ ដូច្នេះម៉ូដែលនេះត្រូវតែសាកល្បងនិងកែសម្រួលបន្ថែមដើម្បីយកមកប្រើប្រាស់ជាមួយភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ PCAD នេះមានសក្តានុពលខ្ពស់សម្រាប់ការកែលម្អប្រព័ន្ធ AI យល់ដឹងពីភាសាខ្មែរ ជាពិសេសនៅក្នុងបរិបទដែលប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) ខ្មែរនៅមានកម្រិតភាពត្រឹមត្រូវនៅឡើយ។

វិស័យបម្រើសេវាកម្មអតិថិជន (Customer Service Bots): ក្រុមហ៊ុនទូរគមនាគមន៍ ឬធនាគារក្នុងស្រុក (ឧទាហរណ៍៖ ABA, Smart, Cellcard) អាចប្រើប្រាស់ក្របខ័ណ្ឌនេះដើម្បីអភិវឌ្ឍ AI Voice Bots ដែលអាចយល់ពីបញ្ជាអតិថិជនបានត្រឹមត្រូវ ទោះបីជាការចាប់សំឡេងមានកំហុសដោយសារសំឡេងរំខានក៏ដោយ។
ប្រព័ន្ធគ្រប់គ្រងផ្ទះឆ្លាតវៃ (Smart Home Devices): អាចយកទៅអនុវត្តក្នុងការផលិតឧបករណ៍បញ្ជាដោយសំឡេងជាភាសាខ្មែរ សម្រាប់បិទ/បើកឧបករណ៍អគ្គិសនីក្នុងផ្ទះ ដែលទាមទារការយល់ដឹងពីចេតនា (Intent recognition) បានត្រឹមត្រូវបំផុត ទោះបីនិយាយខុសតុងក៏ដោយ។
វេជ្ជសាស្រ្ត និងការកត់ត្រា (Medical Dictation): ជួយដល់គ្រូពេទ្យនៅតាមមន្ទីរពេទ្យក្នុងការកត់ត្រាប្រវត្តិជំងឺតាមរយៈសំឡេង ដោយប្រព័ន្ធអាចកែប្រែកំហុសនៃការស្គាល់ពាក្យពេទ្យខុស ទៅជាអត្ថន័យដើមដែលត្រឹមត្រូវ។

សរុបមក បើទោះបីជាការអនុវត្តទាមទារឱ្យមានការរៀបចំសំណុំទិន្នន័យស្របគ្នា (អត្ថបទស្អាត និងអត្ថបទ ASR) ជាភាសាខ្មែរក៏ដោយ វានៅតែជាជំហានដ៏សំខាន់មួយក្នុងការជម្នះឧបសគ្គនៃការអភិវឌ្ឍ AI ឆ្លាតវៃនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃម៉ូដែលភាសា: សិក្សាពីការប្រើប្រាស់ម៉ូដែលភាសាខ្នាតធំដោយប្រើបណ្ណាល័យ Hugging Face Transformers និងសាកល្បងដំណើរការម៉ូដែល RoBERTa ឬ mBERT ជាមូលដ្ឋានសម្រាប់ការយល់ដឹងពីអត្ថបទ។
បង្កើតសំណុំទិន្នន័យស្របគ្នា (Parallel Dataset) សម្រាប់ភាសាខ្មែរ: ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ និងអត្ថបទដើមដែលកត់ត្រាដោយដៃ។ បន្ទាប់មក ប្រើប្រាស់ Google Cloud Speech-to-Text API ឬ OpenAI Whisper ដើម្បីទាញយកអត្ថបទ ASR ដែលមានកំហុស ដើម្បីផ្គូផ្គងជាទិន្នន័យ (Clean vs Noisy)។
អនុវត្តការរៀនបែបប្រៀបធៀប (Contrastive Learning): សរសេរកូដនៅក្នុង PyTorch ដោយបង្កើតមុខងារ Self-supervised Contrastive Learning ដើម្បីបង្រៀនម៉ូដែលឱ្យទាញយកលក្ខណៈស្រដៀងគ្នារវាងអត្ថបទកត់ត្រាដោយដៃនិងអត្ថបទ ASR ចូលទៅក្នុងចន្លោះ (Latent space) តែមួយ។
ដាក់បញ្ចូលយន្តការធ្វើសមកាលកម្មគំរូដើម (PCAD): អនុវត្តក្បួនដោះស្រាយ Prototype Calibration Loss (PCL) និង Error-Sensitive PCL ទៅក្នុងដំណាក់កាល Fine-tuning របស់អ្នក ដើម្បីជួយម៉ូដែលកែតម្រូវកំហុសអត្ថន័យ និងផ្តល់ទម្ងន់ពិន័យខ្ពស់ដល់ទិន្នន័យដែលទស្សន៍ទាយខុស។
វាយតម្លៃជាមួយកម្រិតសំឡេងរំខានផ្សេងៗ (Robustness Testing): វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយប្រើរង្វាស់ Accuracy និងធ្វើការបែងចែកទិន្នន័យធ្វើតេស្តទៅតាមកម្រិត Word Error Rate (WER) ផ្សេងៗគ្នា ដើម្បីវាស់ស្ទង់ថាតើម៉ូដែលរបស់អ្នកពិតជាធន់នឹងកំហុស ASR កម្រិតធ្ងន់ធ្ងរដែរឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Entrepreneurial Intention	គឺជាកម្រិតនៃការប្តេជ្ញាចិត្ត និងការត្រៀមខ្លួនរួចជាស្រេចរបស់បុគ្គលម្នាក់ៗ ក្នុងការបង្កើតអាជីវកម្មថ្មី ឬចាប់ផ្តើមគម្រោងសហគ្រិនភាព ដោយផ្អែកលើអាកប្បកិរិយា និងការគាំទ្រពីមជ្ឈដ្ឋានជុំវិញ។	ដូចជាការដែលយើងមានបំណងប្រាថ្នាយ៉ាងមុតមាំ និងមានផែនការច្បាស់លាស់ក្នុងការបើកហាងកាហ្វេមួយជារបស់ខ្លួនឯងអញ្ចឹងដែរ។
Startup Ecosystem	បណ្តាញទំនាក់ទំនងដែលពាក់ព័ន្ធនឹងបុគ្គល អង្គការ (ដូចជាសាកលវិទ្យាល័យ ធនាគារ វិនិយោគិន) និងគោលនយោបាយរដ្ឋាភិបាល ដែលធ្វើការរួមគ្នាដើម្បីគាំទ្រ និងជំរុញឱ្យអាជីវកម្មថ្មីៗអាចលូតលាស់ និងអភិវឌ្ឍបាន។	ប្រៀបដូចជាសួនច្បារមួយដែលមានដី ទឹក ពន្លឺព្រះអាទិត្យ និងអ្នកថែសួន ដែលសហការគ្នាជួយឱ្យគ្រាប់ពូជ (អាជីវកម្មថ្មី) អាចដុះលូតលាស់បានយ៉ាងល្អ។
Theory of Planned Behavior (TPB)	ជាទ្រឹស្តីចិត្តសាស្ត្រដែលពន្យល់ថា អាកប្បកិរិយារបស់មនុស្សម្នាក់ (ឧ. ការសម្រេចចិត្តចាប់ផ្តើមអាជីវកម្ម) ត្រូវបានកំណត់ដោយចេតនារបស់ពួកគេ ហើយចេតនានេះកើតចេញពីកត្តាបី៖ អាកប្បកិរិយាផ្ទាល់ខ្លួន សម្ពាធសង្គម និងការជឿជាក់លើសមត្ថភាពខ្លួនឯង។	ដូចជាការទស្សន៍ទាយថាតើសិស្សម្នាក់នឹងប្រឡងជាប់ឬអត់ ដោយមើលលើការចូលចិត្តរៀនរបស់គេ ការជំរុញពីឪពុកម្តាយ និងការជឿជាក់ថាគេអាចធ្វើបាន។
Digital Competence	សមត្ថភាពក្នុងការយល់ដឹង ប្រើប្រាស់ និងច្នៃប្រឌិតដោយប្រើប្រាស់បច្ចេកវិទ្យាឌីជីថល (ដូចជា AI, Big Data, ការវិភាគទិន្នន័យ) ដើម្បីដោះស្រាយបញ្ហា និងបង្កើនប្រសិទ្ធភាពក្នុងប្រតិបត្តិការអាជីវកម្ម។	ដូចជាការចេះប្រើប្រាស់ស្មាតហ្វូន និងកម្មវិធីកាត់តវីដេអូដើម្បីផ្សព្វផ្សាយលក់ផលិតផលនៅលើបណ្តាញសង្គមឱ្យមានប្រសិទ្ធភាព។
Experiential Learning	ជាវិធីសាស្ត្រនៃការរៀនសូត្រតាមរយៈការអនុវត្តជាក់ស្តែង និងការឆ្លុះបញ្ចាំងពីបទពិសោធន៍ទាំងនោះ ដើម្បីបំប្លែងចំណេះដឹងទ្រឹស្តីទៅជាជំនាញដែលអាចប្រើប្រាស់បានក្នុងស្ថានភាពពិតប្រាកដ។	ដូចជាការរៀនជិះកង់ដោយការសាកល្បងជិះផ្ទាល់ ហើយដួល រួចក្រោកមកកែតម្រូវរបៀបជិះ ជាជាងគ្រាន់តែអានសៀវភៅណែនាំពីរបៀបជិះកង់។
Social Capital	គុណតម្លៃ និងធនធានដែលទទួលបានពីបណ្តាញទំនាក់ទំនងសង្គម ដូចជាការគាំទ្រពីមិត្តភក្តិ គ្រួសារ ទីប្រឹក្សា និងអ្នកវិនិយោគ ដែលជួយសម្រួលដល់ការចាប់ផ្តើម និងអភិវឌ្ឍអាជីវកម្ម។	ប្រៀបដូចជាការមានអ្នកស្គាល់គ្នាច្រើន ដែលអាចជួយណែនាំអតិថិជន ឬឱ្យខ្ចីដើមទុននៅពេលដែលយើងត្រូវការជំនួយបន្ទាន់។
Business Incubator	ជាមជ្ឈមណ្ឌល ឬកម្មវិធីដែលបង្កើតឡើង (ជារឿយៗដោយសាកលវិទ្យាល័យ ឬស្ថាប័នរដ្ឋ) ដើម្បីជួយក្រុមហ៊ុនដែលទើបបង្កើតថ្មីឱ្យអភិវឌ្ឍ តាមរយៈការផ្តល់ទីកន្លែងធ្វើការ ការបង្វឹក ការប្រឹក្សា និងការតភ្ជាប់ទៅកាន់ប្រភពទុន។	ដូចជាកន្លែងថែទាំទារកទើបនឹងកើត ដោយផ្តល់កម្តៅ ទឹកដោះ និងការดูแลពីគ្រូពេទ្យ រហូតដល់ទារកនោះរឹងមាំអាចចេញទៅរស់នៅខាងក្រៅបាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖