Original Title: I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration
Source: doi.org/10.21437/Interspeech.2023-2475
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ខ្ញុំរៀនពីកំហុស ខ្ញុំអាចជួសជុលវាបាន!៖ រចនាសម្ព័ន្ធ Detector-Corrector សម្រាប់ការកែតម្រូវកំហុស ASR

ចំណងជើងដើម៖ I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration

អ្នកនិពន្ធ៖ Heui-Yeen Yeen (Sogang University, Korea), Min-Ju Kim (Sogang University, Korea), Myoung-Wan Koo (Sogang University, Korea)

ឆ្នាំបោះពុម្ព៖ 2023 INTERSPEECH

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំហុសនៃការសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) បណ្តាលឱ្យមានការធ្លាក់ចុះយ៉ាងខ្លាំងនូវដំណើរការយល់ដឹងភាសានិយាយ (SLU) នៅក្នុងប្រព័ន្ធសន្ទនា ខណៈវិធីសាស្ត្រកែតម្រូវបច្ចុប្បន្នមានភាពយឺតយ៉ាវ និងងាយនឹងកំហុស (Overfit) ចំពោះម៉ូដែលជាក់លាក់ណាមួយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវរចនាសម្ព័ន្ធ Detector-Corrector ថ្មីមួយដែលរួមបញ្ចូលគ្នានូវការក្លែងធ្វើកំហុស និងការកែតម្រូវកំហុសដោយជ្រើសរើសទីតាំងដើម្បីកាត់បន្ថយរយៈពេលដំណើរការ និងបង្កើនភាពត្រឹមត្រូវ។

ការរកឃើញកំហុសដោយការបណ្តុះបណ្តាលរួមគ្នា (Collaborative Training Detector) ដែលមានកម្មវិធីបង្កើត (Generator) និងកម្មវិធីរើសអើង (Discriminator) ដោយប្រើទម្រង់ដូចគំរូ ELECTRA។
ការកែតម្រូវចន្លោះកំហុសតាមលក្ខខណ្ឌ (Conditional Decoding Corrector) ដោយប្រើគំរូ T5 ដើម្បីជួសជុលតែផ្នែកដែលមានកំហុសដែលត្រូវបានរកឃើញដោយ Detector ប៉ុណ្ណោះ។
ការប្រើប្រាស់សំណុំទិន្នន័យ SLURP និង IEMOCAP សម្រាប់ការវាយតម្លៃការចាត់ថ្នាក់អារម្មណ៍ និងគោលបំណង (Intent Classification) នៃប្រព័ន្ធ SLU។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធនេះបានកាត់បន្ថយពេលវេលាអនុវត្ត (Inference Time) មកត្រឹម 0.11 វិនាទី បើប្រៀបធៀបទៅនឹងគំរូ T5 ធម្មតាដែលប្រើពេល 0.15 វិនាទី ដោយកែតម្រូវតែទីតាំងដែលមានកំហុស។
ប្រព័ន្ធនេះបានបង្ហាញពីការធ្វើឱ្យប្រសើរឡើងនូវដំណើរការចាត់ថ្នាក់គោលបំណង (Intent Classification) ដោយទទួលបានភាពត្រឹមត្រូវ 77.9% ធៀបនឹង 74.9% នៃលទ្ធផល ASR ដើម។
ម៉ូដែលនេះមានភាពរឹងមាំ និងអាចទូទាត់ទូទៅបានយ៉ាងល្អចំពោះទិន្នន័យគំរូ ASR ដែលមិនធ្លាប់បានឃើញពីមុន (Out-of-domain) ដោយរក្សាបាននូវកម្រិត F1 Score ជាមធ្យម 80 សម្រាប់ការរកឃើញកំហុស។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
ASR result (Baseline) លទ្ធផលពីកម្មវិធីស្គាល់សំឡេង (Baseline)	មិនមានការចំណាយពេលវេលាគណនាបន្ថែម (Inference Time) សម្រាប់ដំណើរការកែតម្រូវកំហុសនោះទេ។	មានអត្រាកំហុសខ្ពស់ (WER) ដែលធ្វើឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់ដំណើរការយល់ដឹងភាសានិយាយ (SLU) នៅផ្នែកខាងចុង។	កម្រិតភាពត្រឹមត្រូវ (ACC) ត្រឹមតែ 74.9% សម្រាប់ការចាត់ថ្នាក់គោលបំណង (IC)។
T5 (Seq2Seq) គំរូ T5 សម្រាប់ការបកប្រែជាបន្តបន្ទាប់ (Seq2Seq)	អាចកាត់បន្ថយអត្រាកំហុសពាក្យ (WER) បានល្អបំផុតធៀបនឹងវិធីសាស្ត្រផ្សេងៗ។	ទាមទារពេលវេលាដំណើរការយូរ (0.15s) និងធ្វើឱ្យធ្លាក់ចុះនូវកម្រិតភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ ដោយសារវាបង្កើតអត្ថបទថ្មីទាំងស្រុងដែលអូសទាញឱ្យបាត់បង់បរិបទដើម។	កម្រិត WER ទាបបំផុត 24.5 ប៉ុន្តែកម្រិតភាពត្រឹមត្រូវ (ACC) សម្រាប់ការចាត់ថ្នាក់គោលបំណង (IC) ធ្លាក់មកនៅត្រឹម 73.5%។
ConstDecoder គំរូ ConstDecoder ផ្អែកលើការដាក់កម្រិតការឌិកូដ	មានល្បឿននៃការអនុវត្ត (Inference Time) លឿនបំផុតត្រឹមតែ 0.01 វិនាទីប៉ុណ្ណោះ។	មានដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំង (Overfitting) ជាពិសេសនៅពេលជួបទិន្នន័យ ឬប្រភេទ ASR ដែលវាមិនធ្លាប់បានរៀនពីមុនមក។	អត្រាកំហុសពាក្យ (WER) កើនឡើងខ្ពស់ដល់ 48.2 សម្រាប់ការចាត់ថ្នាក់គោលបំណង។
Ours (Detector-Corrector) គំរូដែលបានស្នើឡើង (Detector-Corrector)	ជួយកែតម្រូវបានយ៉ាងល្អនូវកំហុសដែលប៉ះពាល់ដល់អត្ថន័យ ដោយកែប្រែតែផ្នែកដែលខុស ទើបរក្សាបាននូវបរិបទដើម និងប្រើពេលលឿនជាងគំរូ T5 ធម្មតា។	អត្រា WER រួមមានការកើនឡើងបន្តិចបើប្រៀបធៀបទៅនឹងគំរូ T5 (Seq2Seq) ប៉ុន្តែមិនប៉ះពាល់ដល់លទ្ធផលចុងក្រោយនោះទេ។	ទទួលបានកម្រិតភាពត្រឹមត្រូវ (ACC) ខ្ពស់ជាងគេគឺ 77.9% សម្រាប់ការចាត់ថ្នាក់គោលបំណង និងចាយពេលត្រឹម 0.11s/ទិន្នន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ (GPU) កម្រិតខ្ពស់ និងទិន្នន័យអត្ថបទ/សំឡេងដែលមានទំហំធំដើម្បីបណ្តុះបណ្តាលម៉ូដែលពីរផ្សេងគ្នា។

Hardware: ទាមទារក្រាហ្វិកកាត NVIDIA RTX A5000 24G សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល (Training)។
Dataset: ត្រូវការទិន្នន័យសម្រាប់ធ្វើការបណ្តុះបណ្តាលចំនួន 97,218 ឯកសារ (រួមមាន LibriSpeech, ATIS, SLURP និង IEMOCAP) ។
Software & Models: ប្រើប្រាស់ស្ថាបត្យកម្ម ELECTRA-base សម្រាប់ Detector, T5-base សម្រាប់ Corrector, និងកម្មវិធីស្គាល់សំឡេងផ្សេងៗ (Conformer, Google, Whisper) ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (LibriSpeech, ATIS) ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ច្បាស់លាស់។ វាមិនបានគិតគូរពីភាសាដែលមានធនធានតិចតួច (Low-resource languages) ឬភាសាដែលមានទម្រង់សូរសព្ទស្មុគស្មាញដូចជាភាសាខ្មែរនោះទេ។ នេះជារឿងសំខាន់សម្រាប់កម្ពុជា ព្រោះការបំប្លែងសំឡេងជាអត្ថបទ (ASR) ជាភាសាខ្មែរនៅមានកម្រិត និងមានកំហុសច្រើន ដែលទាមទារការកែសម្រួលបន្ថែមឱ្យត្រូវនឹងបរិបទក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកែតម្រូវកំហុស ASR នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបញ្ជាដោយសំឡេង និង Chatbot នៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): អាចប្រើប្រាស់ដើម្បីកែតម្រូវកំហុស ASR នៅក្នុងកម្មវិធី Mobile Banking ពេលអតិថិជនប្រើសំឡេងបញ្ជាផ្ទេរប្រាក់ ដែលជួយឱ្យប្រព័ន្ធយល់ពីគោលបំណង (Intent Classification) បានត្រឹមត្រូវ ទោះបីជាការបញ្ចេញសំឡេងមិនសូវច្បាស់ក៏ដោយ។
សេវាកម្មបម្រើអតិថិជន (Telecom / Call Centers): ក្រុមហ៊ុនទូរស័ព្ទ ឬក្រុមហ៊ុនផ្តល់សេវាកម្មអ៊ីនធឺណិតអាចប្រើបច្ចេកវិទ្យានេះដើម្បីទាញយកអត្ថន័យ និងការកត់សម្គាល់អារម្មណ៍ (Emotion Recognition) ពីការហៅចូលរបស់អតិថិជន ទោះបីជាប្រព័ន្ធ ASR ចាប់ពាក្យខុសខ្លះក៏ដោយ។
ប្រព័ន្ធរដ្ឋាភិបាលឌីជីថល (Digital Government): ជួយសម្រួលដល់ការបញ្ចូលទិន្នន័យដោយសំឡេងសម្រាប់មន្ត្រីមូលដ្ឋាន ឬប្រជាពលរដ្ឋដែលមិនសូវស្ទាត់ជំនាញវាយអក្សរ ដោយធានាថាប្រព័ន្ធរដ្ឋបាលយល់ពាក្យបញ្ជា ឬព័ត៌មានបានត្រឹមត្រូវតាមរយៈការកែតម្រូវដោយស្វ័យប្រវត្តិ។

ជារួម ការអនុវត្តរចនាសម្ព័ន្ធ Detector-Corrector នេះអាចដោះស្រាយចំណុចខ្សោយនៃប្រព័ន្ធ ASR ភាសាខ្មែរនាពេលបច្ចុប្បន្ន ដោយផ្តោតលើការកែតែចំណុចខុស ដើម្បីរក្សាន័យដើមឱ្យបានល្អសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃគំរូភាសា (Language Models): សិក្សាពីស្ថាបត្យកម្ម Transformer ដោយផ្តោតលើគំរូ ELECTRA សម្រាប់ការចាប់កំហុស (Discriminator) និងគំរូ T5 សម្រាប់ការបង្កើតអត្ថបទ (Text Generation) ។
រៀបចំទិន្នន័យ ASR ជាភាសាខ្មែរ (Khmer ASR Dataset): ប្រមូលសំណុំទិន្នន័យសំឡេងខ្មែរ រួចបង្កើតលទ្ធផល ASR ដោយប្រើប្រព័ន្ធដូចជា Google ASR ឬ Whisper ។ បន្ទាប់មក ប្រើក្បួន Levenshtein distance តាមរយៈបណ្ណាល័យ python-Levenshtein ដើម្បីប្រៀបធៀបជាមួយអត្ថបទដើម និងបង្កើតស្លាកកំហុស (Error Labels: 0 សម្រាប់ត្រូវ និង 1 សម្រាប់ខុស)។
បណ្តុះបណ្តាលម៉ូដែល Detector-Corrector: អនុវត្តការបណ្តុះបណ្តាលរួមគ្នា (Collaborative Training) ទៅលើម៉ូដែល Detector ដើម្បីក្លែងធ្វើកំហុស និងចាប់កំហុស រួចប្រើប្រាស់ Corrector ដើម្បីកែតម្រូវតែផ្នែកដែលខុស ដោយប្រើ Hugging Face Transformers និង PyTorch ។
វាយតម្លៃប្រព័ន្ធលើការងារជាក់ស្តែង (Downstream Evaluation): ធ្វើតេស្តម៉ូដែលដោយបញ្ចូលវាទៅក្នុងប្រព័ន្ធកាត់ន័យគោលបំណង (Intent Classification) ឧទាហរណ៍ដូចជាប្រព័ន្ធ Rasa ចំពោះ Chatbot ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវនៃកម្រិតភាសា (Accuracy) ធៀបនឹងលទ្ធផល ASR ដើម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Automatic Speech Recognition (ASR)	ប្រព័ន្ធកុំព្យូទ័រដែលបំប្លែងសំឡេងនិយាយរបស់មនុស្សទៅជាអត្ថបទដោយស្វ័យប្រវត្តិ ដើម្បីឱ្យម៉ាស៊ីនអាចយកទៅដំណើរការបន្តបាន ដូចជាការបកប្រែ ឬវិភាគអត្ថន័យ។	ដូចជាលេខាធិការដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចវាយអត្ថបទចូលកុំព្យូទ័រតាមពាក្យនីមួយៗអញ្ចឹងដែរ។
Spoken language understanding (SLU)	ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមយល់ពីអត្ថន័យ និងគោលបំណងពិតប្រាកដនៃពាក្យសម្តីដែលមនុស្សនិយាយ បន្ទាប់ពីវាត្រូវបានបំប្លែងទៅជាអត្ថបទរួចរាល់។	ដូចជាការស្តាប់មិត្តភក្តិប្រាប់រឿងរ៉ាវ រួចយើងចាប់បានថាតើគេចង់បានអ្វី ឬមានអារម្មណ៍បែបណាពិតប្រាកដចេញពីពាក្យសម្តីនោះ។
Collaborative training	វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិតពីរក្នុងពេលតែមួយ ដោយមួយមានតួនាទីបង្កើតកំហុស (Generator) និងមួយទៀតមានតួនាទីចាប់កំហុសនោះ (Discriminator) ដើម្បីឱ្យពួកវាទាំងពីរកាន់តែមានសមត្ថភាពខ្ពស់។	ដូចជាកូនសិស្សម្នាក់ព្យាយាមលាក់កំហុសក្នុងលំហាត់ ឯគ្រូបង្រៀនម្នាក់ទៀតព្យាយាមរកកំហុសនោះ ដែលធ្វើឱ្យពួកគេទាំងពីរពូកែរៀងៗខ្លួន។
Word Error Rate (WER)	រង្វាស់សម្រាប់វាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ ដោយគណនាភាគរយនៃពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមលើសធៀបនឹងអត្ថបទពិតប្រាកដ។	ដូចជាការកាត់ពិន្ទុសិស្សនៅក្នុងការប្រឡងសរសេរតាមអាន ដោយរាប់ចំនួនពាក្យដែលសរសេរខុស បាត់ ឬលើសធៀបនឹងអត្ថបទដើម។
Conditional decoding	វិធីសាស្ត្រក្នុងការបង្កើតអត្ថបទថ្មីដោយម៉ូដែល AI ដែលវាត្រូវផ្អែកលើលក្ខខណ្ឌ ឬផ្នែកខ្លះនៃអត្ថបទចាស់ ដើម្បីកែប្រែតែចំណុចដែលតម្រូវឱ្យកែដោយមិនប៉ះពាល់ផ្នែកផ្សេងទៀតដែលត្រឹមត្រូវស្រាប់។	ដូចជាជាងជួសជុលសម្លៀកបំពាក់ដែលកាត់ និងដេរតែត្រង់កន្លែងរហែក ដោយមិនប៉ះពាល់ដល់សាច់ក្រណាត់ដែលនៅល្អ។
Masked language modeling (MLM)	បច្ចេកទេសបង្រៀន AI ឱ្យយល់ពីបរិបទភាសា ដោយលាក់ពាក្យមួយចំនួននៅក្នុងប្រយោគ ហើយតម្រូវឱ្យ AI ទាយរកពាក្យដែលបាត់នោះដោយផ្អែកលើពាក្យនៅជុំវិញវា។	ដូចជាល្បែងបំពេញចន្លោះនៅក្នុងប្រយោគ ដែលយើងត្រូវទាយពាក្យដែលត្រឹមត្រូវយកមកបំពេញតាមន័យនៃប្រយោគទាំងមូល។
Levenshtein distance	រូបមន្តគណិតវិទ្យាសម្រាប់វាស់ភាពខុសគ្នារវាងពាក្យ ឬប្រយោគពីរ ដោយរាប់ចំនួនជំហានអប្បបរមាដែលត្រូវលុប បន្ថែម ឬជំនួសអក្សរ ដើម្បីបំប្លែងពាក្យមួយទៅជាពាក្យមួយទៀត។	ដូចជាការរាប់ចំនួនជំហាននៃការរុះរើ និងផ្គុំតួអក្សរឡេហ្គោ (Lego) ដើម្បីប្តូរពីរូបរាងមួយទៅជារូបរាងមួយទៀត។
Intent classification	ដំណើរការដែលប្រព័ន្ធ AI វិភាគអត្ថបទ ឬសំឡេងបញ្ជា ដើម្បីចាត់ថ្នាក់ថាតើអ្នកប្រើប្រាស់មានគោលបំណងចង់ឱ្យប្រព័ន្ធធ្វើអ្វីឱ្យប្រាកដ (ឧទាហរណ៍៖ សួរម៉ោង, បញ្ជាបិទភ្លើង ឬកក់សំបុត្រ)។	ដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋានស្តាប់ការរៀបរាប់របស់ភ្ញៀវ រួចកត់ត្រាចូលក្នុងបញ្ជីយ៉ាងខ្លីថាភ្ញៀវចង់កម្ម៉ង់ម្ហូបអ្វីពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖