Original Title: An Empirical Comparison of Joint Optimization Techniques for Speech Translation
Source: doi.org/10.21437/Interspeech.2013-603
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រៀបធៀបតាមបែបពិសោធន៍នៃបច្ចេកទេសបង្កើនប្រសិទ្ធភាពរួមគ្នាសម្រាប់ការបកប្រែសំឡេង

ចំណងជើងដើម៖ An Empirical Comparison of Joint Optimization Techniques for Speech Translation

អ្នកនិពន្ធ៖ Masaya Ohgushi (Nara Institute of Science and Technology), Graham Neubig (Nara Institute of Science and Technology), Sakriani Sakti (Nara Institute of Science and Technology), Tomoki Toda (Nara Institute of Science and Technology), Satoshi Nakamura (Nara Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2013 INTERSPEECH

វិស័យសិក្សា៖ Computational Linguistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធបកប្រែសំឡេងជាទូទៅធ្វើការបង្កើនប្រសិទ្ធភាពផ្នែកទទួលស្គាល់សំឡេង (ASR) និងផ្នែកបកប្រែ (MT) ដាច់ដោយឡែកពីគ្នា ដែលនាំឱ្យលទ្ធផលមិនសូវល្អប្រសើរនៅពេលមានកំហុសក្នុងការសម្គាល់សំឡេង។ ការសិក្សានេះដោះស្រាយបញ្ហានេះដោយធ្វើការប្រៀបធៀបវិធីសាស្ត្របង្កើនប្រសិទ្ធភាពរួមគ្នានៃប្រព័ន្ធទាំងពីរ ដើម្បីលើកកម្ពស់គុណភាពបកប្រែ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀបតាមបែបពិសោធន៍លើក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាពចំនួនបី និងបានស្នើឡើងនូវវិធីសាស្ត្របង្កើនប្រសិទ្ធភាពកូនកាត់ថ្មីមួយ។

ការបង្កើនប្រសិទ្ធភាពអត្រាកំហុសអប្បបរមា (Minimum Error Rate Training - MERT)
ក្បួនដោះស្រាយបន្ធូរបន្ថយបញ្ជូលគែមជាបាច់ (Batch Margin Infused Relaxed Algorithm - MIRA)
ការបង្កើនប្រសិទ្ធភាពចំណាត់ថ្នាក់តាមគូ (Pairwise Ranking Optimization - PRO) ដោយប្រើប្រាស់ Smooth BLEU+1
វិធីសាស្ត្របង្កើនប្រសិទ្ធភាពកូនកាត់ (Hybrid Optimization) ដោយប្រើប្រាស់មុខងារពាក្យបំបែក (Lexicalized features) សម្រាប់ពាក្យដែលបានសម្គាល់

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ក្បួនដោះស្រាយ PRO ជាមួយរង្វាស់វាយតម្លៃ Smooth BLEU+1 ផ្តល់នូវភាពប្រសើរឡើងគួរឱ្យកត់សម្គាល់លើគុណភាពនៃការបកប្រែធៀបនឹងវិធីសាស្ត្រ MERT និង MIRA ដែលជៀសវាងបាននូវបញ្ហាប្រយោគខ្លីពេក។
ការរួមបញ្ចូលគ្នាល្អបំផុតនៃក្បួនដោះស្រាយ និងមុខងារនេះ ទទួលបានកំណើនរហូតដល់ 1.3 ពិន្ទុ BLEU សម្រាប់ការបកប្រែសំឡេង។
វិធីសាស្ត្រដែលបានស្នើនេះមានប្រសិទ្ធភាពខ្ពស់ ដោយប្រើប្រាស់ថាមពលគណនាត្រឹមតែ 27% នៃវិធីសាស្ត្របង្កើនប្រសិទ្ធភាពរួមគ្នាមុនៗប៉ុណ្ណោះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Minimum Error Rate Training (MERT) ការបង្កើនប្រសិទ្ធភាពអត្រាកំហុសអប្បបរមា (MERT)	ជាវិធីសាស្ត្រមូលដ្ឋានដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលាយ និងអាចទាញយកពិន្ទុ BLEU ខ្ពស់លើទិន្នន័យហ្វឹកហាត់។	ដំណើរការយឺតខ្លាំងនៅពេលមានមុខងារ (Features) ច្រើន និងងាយរងនូវបញ្ហា Overfitting លើទិន្នន័យសាកល្បង។	ចំណាយពេលយូរជាងគេបំផុត (២៣០,០០០ វិនាទី សម្រាប់ n-best+ASR) និងទទួលបានលទ្ធផលបកប្រែមិនសូវល្អលើទិន្នន័យសាកល្បងជាក់ស្តែង។
Batch Margin Infused Relaxed Algorithm (MIRA) ក្បួនដោះស្រាយបន្ធូរបន្ថយបញ្ជូលគែមជាបាច់ (MIRA)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់ Sparse features និងអាចជួយការពារបញ្ហា Overfitting តាមរយៈ Regularization។	តម្រូវឱ្យមានការជ្រើសរើស Oracle translation ដែលអាចជួបប្រទះការលំបាកក្នុងការកំណត់ឱ្យបានច្បាស់លាស់។	ចំណាយពេលតិចជាង MERT ច្រើន ប៉ុន្តែទទួលបានគុណភាពបកប្រែទាបជាង PRO លើទិន្នន័យសាកល្បង។
Pairwise Ranking Optimization (PRO) with Smooth BLEU+1 ការបង្កើនប្រសិទ្ធភាពចំណាត់ថ្នាក់តាមគូ (PRO) ជាមួយ Smooth BLEU+1	ជួយជៀសវាងបញ្ហាប្រយោគខ្លីពេក (Short sentence bias) និងរៀបចំចំណាត់ថ្នាក់ល្អសម្រាប់បេក្ខភាពបកប្រែជាច្រើន (n-best lists)។	មិនសូវមានភាពបត់បែននៅពេលប្រើជាមួយ Sparse features សុទ្ធ ដោយសារវាទាមទារនូវភាពចម្រុះនៃពាក្យ។	ទទួលបានកំណើនគុណភាពបកប្រែខ្ពស់បំផុតរហូតដល់ ១.៣ ពិន្ទុ BLEU ដោយចំណាយពេលគណនាត្រឹមតែ ២៧% ធៀបនឹង MERT។
Hybrid Optimization វិធីសាស្ត្របង្កើនប្រសិទ្ធភាពកូនកាត់	ទាញយកអត្ថប្រយោជន៍ពី Smooth BLEU+1 សម្រាប់ Dense features និង BLEU+1 ធម្មតាសម្រាប់ Sparse features (Lexicalized features)។	មានភាពស្មុគស្មាញក្នុងការរៀបចំ ហើយលទ្ធផលកើនឡើងមានកម្រិតតិចតួចធៀបនឹងកិច្ចខិតខំប្រឹងប្រែង។	ផ្តល់នូវកំណើនបន្ថែមតូចមួយចំនួន ០.១៧ ពិន្ទុ BLEU លើទិន្នន័យសាកល្បង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់សម្រាប់ការហ្វឹកហាត់ម៉ូដែល និងទំហំទិន្នន័យជាក់លាក់សម្រាប់ការបកប្រែសំឡេង។

Software: កម្មវិធីកូដបើកចំហរួមមាន Moses (សម្រាប់ការបកប្រែដោយម៉ាស៊ីន), Julius (សម្រាប់ ASR), HTK (សម្រាប់ Acoustic Model) និង MegaM classifier សម្រាប់រៀបចំចំណាត់ថ្នាក់ PRO។
Hardware: ទាមទារម៉ាស៊ីនដែលមាន CPU/GPU កម្រិតខ្ពស់ ដើម្បីដំណើរការក្បួនដោះស្រាយដែលចំណាយពេល Tuning រហូតដល់រាប់ម៉ឺនវិនាទី និងដោះស្រាយទិន្នន័យប្រភេទ n-best lists ធំៗ។
Dataset: ទិន្នន័យ Corpus of Spontaneous Japanese (CSJ) សម្រាប់ការទទួលស្គាល់សំឡេង និងទិន្នន័យ BTEC (១៦២,០០០ ប្រយោគ) សម្រាប់ការបកប្រែសន្ទនាទេសចរណ៍ពីជប៉ុនទៅអង់គ្លេស។
Expertise: ត្រូវការអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅខាងផ្នែកដំណើរការភាសាធម្មជាតិ (NLP), ការទទួលស្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) និង Machine Learning Optimization។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យសន្ទនាទេសចរណ៍ពីភាសាជប៉ុនទៅអង់គ្លេស (BTEC corpus)។ ទម្រង់វេយ្យាករណ៍ និងរចនាសម្ព័ន្ធសូរសព្ទនៃភាសាទាំងពីរនេះគឺខុសគ្នាស្រឡះពីភាសាខ្មែរ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសំឡេង និងអត្ថបទភាសាខ្មែរដែលមានគុណភាពខ្ពស់ គឺជាឧបសគ្គចម្បងក្នុងការអនុវត្តម៉ូដែលនេះដោយផ្ទាល់ដោយមិនមានការកែសម្រួល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមខាងផ្នែកទិន្នន័យក៏ដោយ បច្ចេកទេសបង្កើនប្រសិទ្ធភាពរួមគ្នានេះមានសក្តានុពលខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធបកប្រែភាសាខ្មែរឱ្យមានភាពប្រសើរឡើង។

វិស័យទេសចរណ៍ (តំបន់សៀមរាប): អាចអភិវឌ្ឍកម្មវិធីបកប្រែសំឡេងផ្ទាល់ (Speech-to-Speech Translation) ដើម្បីជួយសម្រួលដល់ការប្រាស្រ័យទាក់ទងរវាងអ្នកទេសចរបរទេស និងអាជីវករក្នុងស្រុក។
ប្រព័ន្ធសេវាកម្មអតិថិជន (Call Centers): ប្រើប្រាស់ការបង្កើនប្រសិទ្ធភាពរួមគ្នានេះ ដើម្បីចាប់យកសំឡេងនិយាយភាសាខ្មែរផ្ទាល់ (Spontaneous speech) និងបកប្រែជាអត្ថបទបានកាន់តែច្បាស់ ទោះបីជាអតិថិជននិយាយលឿន ឬមានសំឡេងរំខានក៏ដោយ។
វិទ្យាស្ថានស្រាវជ្រាវ (ឧទាហរណ៍៖ CADT): អាចយកក្បួនដោះស្រាយ PRO និង Smooth BLEU+1 ធ្វើជាមូលដ្ឋានគ្រឹះក្នុងការស្រាវជ្រាវ និងហ្វឹកហាត់ម៉ូដែល ASR និង MT សម្រាប់ភាសាខ្មែរ។

ជារួម ការអនុវត្តវិធីសាស្ត្របង្កើនប្រសិទ្ធភាពរួមគ្នា (Joint Optimization) នេះនឹងជួយកាត់បន្ថយឥទ្ធិពលនៃកំហុសស្តាប់សំឡេង (ASR errors) ដែលជារឿយៗតែងតែកើតមានក្នុងភាសាខ្មែរ ធ្វើឱ្យការបកប្រែមានភាពត្រឹមត្រូវ និងអាចប្រើប្រាស់ជាផ្លូវការបាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំសំណុំទិន្នន័យសន្ទនាភាសាខ្មែរ: ចាប់ផ្តើមដោយការប្រមូលទិន្នន័យសំឡេង និងអត្ថបទស្របគ្នា (Parallel Corpus) ជាភាសាខ្មែរ ផ្តោតលើការសន្ទនាទេសចរណ៍ ឬប្រចាំថ្ងៃ ដោយប្រើប្រាស់ស្តង់ដារប្រហាក់ប្រហែលនឹងទិន្នន័យ BTEC យកមកសម្អាតអក្សរ និងសញ្ញាខណ្ឌឱ្យបានត្រឹមត្រូវ។
សាងសង់ប្រព័ន្ធកូនកាត់ ASR និង MT: ដំឡើងកម្មវិធីកូដបើកចំហដូចជា Julius ឬ Kaldi សម្រាប់ម៉ូដែលសម្គាល់សំឡេង (ASR) និង Moses សម្រាប់ម៉ូដែលបកប្រែ (MT) ហើយធ្វើការហ្វឹកហាត់វាដាច់ដោយឡែកពីគ្នាជាជំហានដំបូង។
អនុវត្តការទាញយកបេក្ខភាព n-best: ប្រើប្រាស់ម៉ូដែល ASR ដែលបានហ្វឹកហាត់រួច ដើម្បីបង្កើតបញ្ជីលទ្ធផលការសម្គាល់សំឡេងច្រើនជម្រើស (n-best lists) ចំនួន ៥០ ជម្រើសសម្រាប់ប្រយោគនីមួយៗ រួចបញ្ជូនវាទៅកាន់ប្រព័ន្ធ MT។
បង្កើនប្រសិទ្ធភាពរួមគ្នាជាមួយ PRO: អនុវត្តក្បួនដោះស្រាយ Pairwise Ranking Optimization (PRO) ដោយប្រើប្រាស់រង្វាស់វាយតម្លៃ Smooth BLEU+1 ដើម្បីទូទាត់ទម្ងន់មុខងារ (Feature weights) របស់ម៉ូដែលទាំងពីរចូលគ្នា ព្រមទាំងជៀសវាងបញ្ហាការបកប្រែខ្លីពេក។
វាយតម្លៃ និងកែលម្អ (Hybrid Tuning): ធ្វើការសាកល្បងបន្ថែមដោយដាក់បញ្ចូលមុខងារកម្រិតពាក្យ (Lexicalized features) និងប្រៀបធៀបគុណភាពជាមួយម៉ូដែលដើមដោយប្រើប្រាស់ពិន្ទុ BLEU Score ដើម្បីសម្រេចថាតើវិធីសាស្ត្រ Hybrid ត្រឹមត្រូវសម្រាប់កម្រិតទិន្នន័យភាសាខ្មែរដែរឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Joint Optimization	ការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធពីរ ឬច្រើន (ដូចជាប្រព័ន្ធសម្គាល់សំឡេង និងប្រព័ន្ធបកប្រែ) ក្នុងពេលតែមួយ ដើម្បីឱ្យពួកវាធ្វើការស៊ីចង្វាក់គ្នា និងកាត់បន្ថយកំហុសសរុប ជាជាងការកែសម្រួលវាដាច់ដោយឡែកពីគ្នា។	ដូចជាការបង្រៀនអ្នកចម្រៀង និងអ្នកលេងភ្លេងឱ្យហាត់សមជាមួយគ្នាក្នុងពេលតែមួយ ដើម្បីឱ្យការប្រគំតន្ត្រីរួមមានភាពពិរោះ ជាជាងការហាត់រៀងៗខ្លួន។
Minimum Error Rate Training (MERT)	គឺជាក្បួនដោះស្រាយសម្រាប់ប្រព័ន្ធបកប្រែដោយម៉ាស៊ីន ដែលស្វែងរកតម្លៃទម្ងន់ប៉ារ៉ាម៉ែត្រណាដែលជួយកាត់បន្ថយអត្រាកំហុស (ឬបង្កើនពិន្ទុ BLEU) ឱ្យនៅតិចបំផុតលើទិន្នន័យហ្វឹកហាត់។	ដូចជាការកាច់ប៉ូតុងម៉ាស៊ីនត្រជាក់ចុះឡើងៗម្តងបន្តិចៗ ដើម្បីរកមើលសីតុណ្ហភាពណាដែលធ្វើឱ្យអ្នកក្នុងបន្ទប់មានអារម្មណ៍ស្រួលបំផុត។
Pairwise Ranking Optimization (PRO)	ជាវិធីសាស្ត្រវាយតម្លៃនិងកែសម្រួលប្រព័ន្ធបកប្រែ ដោយយកលទ្ធផលបកប្រែមកប្រៀបធៀបគ្នាម្តងមួយគូៗ រួចបង្រៀនម៉ាស៊ីនឱ្យចេះរៀបចំណាត់ថ្នាក់ថាមួយណាល្អជាងមួយណា។	ដូចជាការឱ្យគណៈកម្មការភ្លក់ម្ហូបពីរចានម្តងៗ រួចប្រាប់ថាមួយណាឆ្ងាញ់ជាង ដើម្បីបង្រៀនចុងភៅឱ្យដឹងពីចំណូលចិត្តរបស់អតិថិជន។
Batch Margin Infused Relaxed Algorithm (MIRA)	ជាក្បួនដោះស្រាយ Machine Learning មួយប្រភេទដែលធ្វើការកែតម្រូវទម្ងន់ម៉ូដែលជាបាច់ៗ (Batches) ដោយផ្តោតលើការបែងចែកដាច់ស្រឡះ (Margin) រវាងលទ្ធផលល្អនិងអាក្រក់ ដើម្បីជៀសវាងការទន្ទេញចាំទិន្នន័យ (Overfitting)។	ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះញែករបស់ត្រូវនិងខុសជារង្វង់ឆ្ងាយពីគ្នា ដើម្បីកុំឱ្យវាច្រឡំគ្នានៅថ្ងៃក្រោយ។
BLEU score	ជារង្វាស់ស្តង់ដារសម្រាប់វាស់ស្ទង់គុណភាពនៃការបកប្រែដោយម៉ាស៊ីន ដោយរាប់ចំនួនពាក្យ ឬឃ្លាដែលម៉ាស៊ីនបកប្រែត្រូវគ្នាទៅនឹងអត្ថបទដើមដែលបកប្រែដោយមនុស្ស។	ដូចជាការផ្តល់ពិន្ទុអក្ខរាវិរុទ្ធដល់សិស្ស ដោយផ្ទៀងផ្ទាត់កិច្ចការសិស្សទៅនឹងសៀវភៅចម្លើយ។
Smooth BLEU+1	ជាទម្រង់កែច្នៃនៃរង្វាស់ BLEU ដែលជួយដោះស្រាយបញ្ហាពិន្ទុសូន្យនៅពេលម៉ាស៊ីនបកប្រែបានប្រយោគខ្លីពេក ឬមិនមានពាក្យត្រូវគ្នាទាល់តែសោះ ដោយការបូកបន្ថែមចំនួន 1 ទៅលើការគណនាប្រភាគ និងលើកទឹកចិត្តឱ្យម៉ាស៊ីនបកប្រែបង្កើតប្រយោគដែលមានប្រវែងសមស្រប។	ដូចជាការបូកពិន្ទុលើកទឹកចិត្ត (Bonus) ដល់សិស្សទោះបីជាសិស្សឆ្លើយខុសខ្លះក៏ដោយ ដើម្បីកុំឱ្យសិស្សបាក់ទឹកចិត្តក្នុងការសរសេរចម្លើយវែងៗ។
n-best lists	បញ្ជីនៃជម្រើសលទ្ធផលល្អបំផុតចំនួន n ដែលប្រព័ន្ធកុំព្យូទ័រ (ដូចជាប្រព័ន្ធសម្គាល់សំឡេង) បង្កើតបាន ដើម្បីទុកឱ្យប្រព័ន្ធបន្ទាប់ (ប្រព័ន្ធបកប្រែ) ពិចារណានិងជ្រើសរើសយកមួយណាដែលត្រឹមត្រូវបំផុតតាមបរិបទ។	ដូចជាការផ្តល់ជម្រើសចម្លើយ A, B, C, D ឱ្យសិស្សជ្រើសរើស ជាជាងការបង្ខំឱ្យសិស្សទាយចម្លើយតែមួយដោយខ្លួនឯង។
Sparse features	លក្ខណៈពិសេសកម្រិតពាក្យ ឬទិន្នន័យនីមួយៗដែលមានចំនួនច្រើនសន្ធឹកសន្ធាប់ ប៉ុន្តែកម្រនឹងលេចឡើងក្នុងទិន្នន័យទូទៅ។ វាត្រូវបានប្រើដើម្បីផ្តល់ទម្ងន់ខុសៗគ្នាទៅលើពាក្យនីមួយៗ ដើម្បីជួយម៉ាស៊ីនបែងចែកបរិបទនៃពាក្យបានកាន់តែល្អ។	ដូចជាការទន្ទេញចំណាំចំណុចពិសេសតូចៗរាប់ពាន់របស់មនុស្សម្នាក់ៗ (ដូចជាប្រជ្រុយ ស្នាមសម្លាក) ដើម្បីចំណាំមុខពួកគេបានកាន់តែច្បាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖