Original Title: I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration
Source: doi.org/10.21437/Interspeech.2023-2475
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ខ្ញុំរៀនពីកំហុស ខ្ញុំអាចជួសជុលវាបាន!៖ រចនាសម្ព័ន្ធ Detector-Corrector សម្រាប់ការកែតម្រូវកំហុស ASR

ចំណងជើងដើម៖ I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration

អ្នកនិពន្ធ៖ Heui-Yeen Yeen (Sogang University, Korea), Min-Ju Kim (Sogang University, Korea), Myoung-Wan Koo (Sogang University, Korea)

ឆ្នាំបោះពុម្ព៖ 2023 INTERSPEECH

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំហុសនៃការសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) បណ្តាលឱ្យមានការធ្លាក់ចុះយ៉ាងខ្លាំងនូវដំណើរការយល់ដឹងភាសានិយាយ (SLU) នៅក្នុងប្រព័ន្ធសន្ទនា ខណៈវិធីសាស្ត្រកែតម្រូវបច្ចុប្បន្នមានភាពយឺតយ៉ាវ និងងាយនឹងកំហុស (Overfit) ចំពោះម៉ូដែលជាក់លាក់ណាមួយ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវរចនាសម្ព័ន្ធ Detector-Corrector ថ្មីមួយដែលរួមបញ្ចូលគ្នានូវការក្លែងធ្វើកំហុស និងការកែតម្រូវកំហុសដោយជ្រើសរើសទីតាំងដើម្បីកាត់បន្ថយរយៈពេលដំណើរការ និងបង្កើនភាពត្រឹមត្រូវ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
ASR result (Baseline)
លទ្ធផលពីកម្មវិធីស្គាល់សំឡេង (Baseline)
មិនមានការចំណាយពេលវេលាគណនាបន្ថែម (Inference Time) សម្រាប់ដំណើរការកែតម្រូវកំហុសនោះទេ។ មានអត្រាកំហុសខ្ពស់ (WER) ដែលធ្វើឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់ដំណើរការយល់ដឹងភាសានិយាយ (SLU) នៅផ្នែកខាងចុង។ កម្រិតភាពត្រឹមត្រូវ (ACC) ត្រឹមតែ 74.9% សម្រាប់ការចាត់ថ្នាក់គោលបំណង (IC)។
T5 (Seq2Seq)
គំរូ T5 សម្រាប់ការបកប្រែជាបន្តបន្ទាប់ (Seq2Seq)
អាចកាត់បន្ថយអត្រាកំហុសពាក្យ (WER) បានល្អបំផុតធៀបនឹងវិធីសាស្ត្រផ្សេងៗ។ ទាមទារពេលវេលាដំណើរការយូរ (0.15s) និងធ្វើឱ្យធ្លាក់ចុះនូវកម្រិតភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ ដោយសារវាបង្កើតអត្ថបទថ្មីទាំងស្រុងដែលអូសទាញឱ្យបាត់បង់បរិបទដើម។ កម្រិត WER ទាបបំផុត 24.5 ប៉ុន្តែកម្រិតភាពត្រឹមត្រូវ (ACC) សម្រាប់ការចាត់ថ្នាក់គោលបំណង (IC) ធ្លាក់មកនៅត្រឹម 73.5%។
ConstDecoder
គំរូ ConstDecoder ផ្អែកលើការដាក់កម្រិតការឌិកូដ
មានល្បឿននៃការអនុវត្ត (Inference Time) លឿនបំផុតត្រឹមតែ 0.01 វិនាទីប៉ុណ្ណោះ។ មានដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំង (Overfitting) ជាពិសេសនៅពេលជួបទិន្នន័យ ឬប្រភេទ ASR ដែលវាមិនធ្លាប់បានរៀនពីមុនមក។ អត្រាកំហុសពាក្យ (WER) កើនឡើងខ្ពស់ដល់ 48.2 សម្រាប់ការចាត់ថ្នាក់គោលបំណង។
Ours (Detector-Corrector)
គំរូដែលបានស្នើឡើង (Detector-Corrector)
ជួយកែតម្រូវបានយ៉ាងល្អនូវកំហុសដែលប៉ះពាល់ដល់អត្ថន័យ ដោយកែប្រែតែផ្នែកដែលខុស ទើបរក្សាបាននូវបរិបទដើម និងប្រើពេលលឿនជាងគំរូ T5 ធម្មតា។ អត្រា WER រួមមានការកើនឡើងបន្តិចបើប្រៀបធៀបទៅនឹងគំរូ T5 (Seq2Seq) ប៉ុន្តែមិនប៉ះពាល់ដល់លទ្ធផលចុងក្រោយនោះទេ។ ទទួលបានកម្រិតភាពត្រឹមត្រូវ (ACC) ខ្ពស់ជាងគេគឺ 77.9% សម្រាប់ការចាត់ថ្នាក់គោលបំណង និងចាយពេលត្រឹម 0.11s/ទិន្នន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ (GPU) កម្រិតខ្ពស់ និងទិន្នន័យអត្ថបទ/សំឡេងដែលមានទំហំធំដើម្បីបណ្តុះបណ្តាលម៉ូដែលពីរផ្សេងគ្នា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (LibriSpeech, ATIS) ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ច្បាស់លាស់។ វាមិនបានគិតគូរពីភាសាដែលមានធនធានតិចតួច (Low-resource languages) ឬភាសាដែលមានទម្រង់សូរសព្ទស្មុគស្មាញដូចជាភាសាខ្មែរនោះទេ។ នេះជារឿងសំខាន់សម្រាប់កម្ពុជា ព្រោះការបំប្លែងសំឡេងជាអត្ថបទ (ASR) ជាភាសាខ្មែរនៅមានកម្រិត និងមានកំហុសច្រើន ដែលទាមទារការកែសម្រួលបន្ថែមឱ្យត្រូវនឹងបរិបទក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកែតម្រូវកំហុស ASR នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបញ្ជាដោយសំឡេង និង Chatbot នៅកម្ពុជា។

ជារួម ការអនុវត្តរចនាសម្ព័ន្ធ Detector-Corrector នេះអាចដោះស្រាយចំណុចខ្សោយនៃប្រព័ន្ធ ASR ភាសាខ្មែរនាពេលបច្ចុប្បន្ន ដោយផ្តោតលើការកែតែចំណុចខុស ដើម្បីរក្សាន័យដើមឱ្យបានល្អសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃគំរូភាសា (Language Models): សិក្សាពីស្ថាបត្យកម្ម Transformer ដោយផ្តោតលើគំរូ ELECTRA សម្រាប់ការចាប់កំហុស (Discriminator) និងគំរូ T5 សម្រាប់ការបង្កើតអត្ថបទ (Text Generation) ។
  2. រៀបចំទិន្នន័យ ASR ជាភាសាខ្មែរ (Khmer ASR Dataset): ប្រមូលសំណុំទិន្នន័យសំឡេងខ្មែរ រួចបង្កើតលទ្ធផល ASR ដោយប្រើប្រព័ន្ធដូចជា Google ASR ឬ Whisper ។ បន្ទាប់មក ប្រើក្បួន Levenshtein distance តាមរយៈបណ្ណាល័យ python-Levenshtein ដើម្បីប្រៀបធៀបជាមួយអត្ថបទដើម និងបង្កើតស្លាកកំហុស (Error Labels: 0 សម្រាប់ត្រូវ និង 1 សម្រាប់ខុស)។
  3. បណ្តុះបណ្តាលម៉ូដែល Detector-Corrector: អនុវត្តការបណ្តុះបណ្តាលរួមគ្នា (Collaborative Training) ទៅលើម៉ូដែល Detector ដើម្បីក្លែងធ្វើកំហុស និងចាប់កំហុស រួចប្រើប្រាស់ Corrector ដើម្បីកែតម្រូវតែផ្នែកដែលខុស ដោយប្រើ Hugging Face Transformers និង PyTorch ។
  4. វាយតម្លៃប្រព័ន្ធលើការងារជាក់ស្តែង (Downstream Evaluation): ធ្វើតេស្តម៉ូដែលដោយបញ្ចូលវាទៅក្នុងប្រព័ន្ធកាត់ន័យគោលបំណង (Intent Classification) ឧទាហរណ៍ដូចជាប្រព័ន្ធ Rasa ចំពោះ Chatbot ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវនៃកម្រិតភាសា (Accuracy) ធៀបនឹងលទ្ធផល ASR ដើម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Automatic Speech Recognition (ASR) ប្រព័ន្ធកុំព្យូទ័រដែលបំប្លែងសំឡេងនិយាយរបស់មនុស្សទៅជាអត្ថបទដោយស្វ័យប្រវត្តិ ដើម្បីឱ្យម៉ាស៊ីនអាចយកទៅដំណើរការបន្តបាន ដូចជាការបកប្រែ ឬវិភាគអត្ថន័យ។ ដូចជាលេខាធិការដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចវាយអត្ថបទចូលកុំព្យូទ័រតាមពាក្យនីមួយៗអញ្ចឹងដែរ។
Spoken language understanding (SLU) ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមយល់ពីអត្ថន័យ និងគោលបំណងពិតប្រាកដនៃពាក្យសម្តីដែលមនុស្សនិយាយ បន្ទាប់ពីវាត្រូវបានបំប្លែងទៅជាអត្ថបទរួចរាល់។ ដូចជាការស្តាប់មិត្តភក្តិប្រាប់រឿងរ៉ាវ រួចយើងចាប់បានថាតើគេចង់បានអ្វី ឬមានអារម្មណ៍បែបណាពិតប្រាកដចេញពីពាក្យសម្តីនោះ។
Collaborative training វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិតពីរក្នុងពេលតែមួយ ដោយមួយមានតួនាទីបង្កើតកំហុស (Generator) និងមួយទៀតមានតួនាទីចាប់កំហុសនោះ (Discriminator) ដើម្បីឱ្យពួកវាទាំងពីរកាន់តែមានសមត្ថភាពខ្ពស់។ ដូចជាកូនសិស្សម្នាក់ព្យាយាមលាក់កំហុសក្នុងលំហាត់ ឯគ្រូបង្រៀនម្នាក់ទៀតព្យាយាមរកកំហុសនោះ ដែលធ្វើឱ្យពួកគេទាំងពីរពូកែរៀងៗខ្លួន។
Word Error Rate (WER) រង្វាស់សម្រាប់វាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ ដោយគណនាភាគរយនៃពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមលើសធៀបនឹងអត្ថបទពិតប្រាកដ។ ដូចជាការកាត់ពិន្ទុសិស្សនៅក្នុងការប្រឡងសរសេរតាមអាន ដោយរាប់ចំនួនពាក្យដែលសរសេរខុស បាត់ ឬលើសធៀបនឹងអត្ថបទដើម។
Conditional decoding វិធីសាស្ត្រក្នុងការបង្កើតអត្ថបទថ្មីដោយម៉ូដែល AI ដែលវាត្រូវផ្អែកលើលក្ខខណ្ឌ ឬផ្នែកខ្លះនៃអត្ថបទចាស់ ដើម្បីកែប្រែតែចំណុចដែលតម្រូវឱ្យកែដោយមិនប៉ះពាល់ផ្នែកផ្សេងទៀតដែលត្រឹមត្រូវស្រាប់។ ដូចជាជាងជួសជុលសម្លៀកបំពាក់ដែលកាត់ និងដេរតែត្រង់កន្លែងរហែក ដោយមិនប៉ះពាល់ដល់សាច់ក្រណាត់ដែលនៅល្អ។
Masked language modeling (MLM) បច្ចេកទេសបង្រៀន AI ឱ្យយល់ពីបរិបទភាសា ដោយលាក់ពាក្យមួយចំនួននៅក្នុងប្រយោគ ហើយតម្រូវឱ្យ AI ទាយរកពាក្យដែលបាត់នោះដោយផ្អែកលើពាក្យនៅជុំវិញវា។ ដូចជាល្បែងបំពេញចន្លោះនៅក្នុងប្រយោគ ដែលយើងត្រូវទាយពាក្យដែលត្រឹមត្រូវយកមកបំពេញតាមន័យនៃប្រយោគទាំងមូល។
Levenshtein distance រូបមន្តគណិតវិទ្យាសម្រាប់វាស់ភាពខុសគ្នារវាងពាក្យ ឬប្រយោគពីរ ដោយរាប់ចំនួនជំហានអប្បបរមាដែលត្រូវលុប បន្ថែម ឬជំនួសអក្សរ ដើម្បីបំប្លែងពាក្យមួយទៅជាពាក្យមួយទៀត។ ដូចជាការរាប់ចំនួនជំហាននៃការរុះរើ និងផ្គុំតួអក្សរឡេហ្គោ (Lego) ដើម្បីប្តូរពីរូបរាងមួយទៅជារូបរាងមួយទៀត។
Intent classification ដំណើរការដែលប្រព័ន្ធ AI វិភាគអត្ថបទ ឬសំឡេងបញ្ជា ដើម្បីចាត់ថ្នាក់ថាតើអ្នកប្រើប្រាស់មានគោលបំណងចង់ឱ្យប្រព័ន្ធធ្វើអ្វីឱ្យប្រាកដ (ឧទាហរណ៍៖ សួរម៉ោង, បញ្ជាបិទភ្លើង ឬកក់សំបុត្រ)។ ដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋានស្តាប់ការរៀបរាប់របស់ភ្ញៀវ រួចកត់ត្រាចូលក្នុងបញ្ជីយ៉ាងខ្លីថាភ្ញៀវចង់កម្ម៉ង់ម្ហូបអ្វីពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖