Original Title: Using Deep Neural Networks for Automated Speech Recognition
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅសម្រាប់ការស្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ

ចំណងជើងដើម៖ Using Deep Neural Networks for Automated Speech Recognition

អ្នកនិពន្ធ៖ Elie Michel (Interactions LLC)

ឆ្នាំបោះពុម្ព៖ 2015

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ របាយការណ៍នេះដោះស្រាយនូវបញ្ហាប្រឈមផ្នែកគណនា និងពេលវេលាដ៏យូរក្នុងការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅ (DNNs) សម្រាប់ប្រព័ន្ធស្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការពិសោធន៍ដោយប្រើប្រាស់ឧបករណ៍ផ្សេងៗ (ដូចជា Torch និង Theano) លើសំណុំទិន្នន័យ MNIST និង ASR ដើម្បីសាកល្បងការគណនាស្របគ្នា និងវិធីសាស្ត្របណ្តុះបណ្តាលថ្មីៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Standard DNN (Traditional Pipeline)
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតស្តង់ដារ (វិធីសាស្ត្រប្រពៃណី)
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការសម្គាល់ពាក្យ ព្រោះវាជាវិធីសាស្ត្រដើមដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយ។ ប្រើប្រាស់ពេលវេលាយូរខ្លាំងក្នុងការបណ្តុះបណ្តាល (Training time) ជាពិសេសលើសំណុំទិន្នន័យធំៗ។ សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ (Word accuracy) ចំនួន ៧៦,៥%។
Subsampled DNN (SUB)
ការយកគំរូរងនៃបណ្ដាញសរសៃប្រសាទ
ជួយពន្លឿនល្បឿននៃការបំប្លែងកូដ (Decoding) បានលឿនជាងមុន ដោយមិនចាំបាច់ដំណើរការគ្រប់ជំហានពេលវេលា។ ភាពត្រឹមត្រូវថយចុះបន្តិចបន្តួច ហើយប្រសិទ្ធភាពនៃការយកគំរូរងនឹងធ្លាក់ចុះនៅពេលដែលទំហំ Output កាន់តែធំ។ សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៧៤,៥%។
S Method (DNN-S)
វិធីសាស្ត្រ S (បង្កើតថ្មីដោយ Interactions)
កាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលបានយ៉ាងច្រើន (លឿនជាង ៣,៥ ដង) ដោយរក្សាបាននូវកម្រិតភាពត្រឹមត្រូវខ្ពស់ដដែល។ ជាវិធីសាស្ត្រដែលកំពុងស្ថិតក្រោមការចុះប៉ាតង់ (Patented) មិនត្រូវបានបើកចំហរទូលាយសម្រាប់ការប្រើប្រាស់ជាសាធារណៈឡើយ។ កាត់បន្ថយពេល Training ជាង ៣,៥ ដង និងសម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៧៦,៤%។
Recurrent Neural Networks (RNN)
បណ្ដាញសរសៃប្រសាទវិលជុំ
មានសមត្ថភាពខ្ពស់ក្នុងការចងចាំ (Memory) និងដំណើរការទិន្នន័យដែលមានទំហំប្រែប្រួលដូចជាសម្លេងមនុស្ស។ ពិបាកក្នុងការបណ្តុះបណ្តាលដោយសារបញ្ហា Vanishing Gradient ។ សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យខ្ពស់បំផុតរហូតដល់ ៧៦,៨%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបណ្តុះបណ្តាលប្រព័ន្ធ ASR នេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅទីក្រុង New York សហរដ្ឋអាមេរិក (ក្រុមហ៊ុន Interactions LLC) ដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេសដូចជា Switchboard ជាដើម។ ម៉ូដែលនិងក្បួនដោះស្រាយទាំងនេះត្រូវបានកែសម្រួលយ៉ាងជាក់លាក់សម្រាប់វេយ្យាករណ៍ និងការបញ្ចេញសំឡេងបែបអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមដ៏ធំមួយ ព្រោះភាសាខ្មែរមានទម្រង់សូរសព្ទខុសគ្នាស្រឡះ មិនមានការដកឃ្លារវាងពាក្យច្បាស់លាស់ និងជាភាសាដែលខ្វះខាតសំណុំទិន្នន័យឌីជីថលទំហំធំ (Under-resourced language) សម្រាប់ការហ្វឹកហាត់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្តោតលើភាសាអង់គ្លេសក៏ដោយ វិធីសាស្ត្រគ្រឹះនៃ ASR និងការធ្វើឲ្យប្រសើរឡើងនូវល្បឿនបណ្តុះបណ្តាលម៉ូដែល គឺមានសារៈសំខាន់ខ្លាំងសម្រាប់ការអភិវឌ្ឍនៅកម្ពុជា។

សរុបមក ការយល់ដឹងពីបច្ចេកទេសបង្កើនល្បឿនបណ្តុះបណ្តាល (ដូចជា Subsampling) នឹងជួយសន្សំសំចៃពេលវេលា និងធនធាន ដែលស័ក្តិសមបំផុតសម្រាប់បរិបទស្រាវជ្រាវដែលនៅមានកម្រិតថវិកា និងធនធាននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Speech Recognition: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តីមូលដ្ឋានរួមមាន Hidden Markov Models (HMM), Acoustic Modeling, និង Natural Language Understanding (NLU) មុននឹងឈានទៅប្រើប្រាស់ Deep Learning។
  2. អនុវត្តការសរសេរកូដជាមួយឧបករណ៍ស្តង់ដារ: អនុវត្តការកសាងម៉ូដែលជាមួយឧបករណ៍ទំនើបដោយជំនួសអតីត Torch ជាមួយនឹង PyTorch ព្រមទាំងសាកល្បងរៀបចំប្រព័ន្ធ ASR ខ្នាតតូចដោយប្រើ Kaldi Speech Recognition Toolkit
  3. ប្រមូល និងបង្កើតសំណុំទិន្នន័យសម្លេងភាសាខ្មែរ: រៀបចំប្រមូលទិន្នន័យសម្លេងនិយាយភាសាខ្មែរ (Audio) និងវាយអត្ថបទចម្លងកម្រិតពាក្យ (Transcripts) ដើម្បីបង្កើតជាកញ្ចប់ទិន្នន័យមូលដ្ឋាន ដោយអាចប្រើប្រាស់រចនាសម្ព័ន្ធស្រដៀងនឹង Switchboard Corpus
  4. សាកល្បងបច្ចេកទេស Optimization និងហ្វឹកហាត់ម៉ូដែល: អនុវត្តបច្ចេកទេស Subsampling ឬការបណ្តុះបណ្តាលស្របគ្នា ដើម្បីកាត់បន្ថយពេលវេលា Training ដោយប្រើប្រាស់ GPU កម្រិតមធ្យមដែលសាកល្បងលើសំណុំទិន្នន័យភាសាខ្មែរខាងលើ រួចវាស់ស្ទង់អត្រា Word Error Rate (WER)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Adaptive-Understanding ជាយន្តការឬវិធីសាស្ត្រដែលម៉ាស៊ីនអាចវាយតម្លៃកម្រិតទំនុកចិត្តរបស់ខ្លួនឯង ហើយប្រសិនបើម៉ាស៊ីនរកឃើញថាខ្លួនឯងមិនច្បាស់លាស់ក្នុងការស្គាល់សំឡេង ឬអត្ថន័យ វាអាចផ្ទេរសំណួរនោះទៅកាន់មនុស្ស (Human Analysts) ដើម្បីជួយដោះស្រាយជំនួសវិញ។ ដូចជាសិស្សដែលព្យាយាមធ្វើលំហាត់ដោយខ្លួនឯងសិន តែបើលំហាត់នោះពិបាកពេក ទើបលើកដៃសួរគ្រូឲ្យជួយ។
Hidden Markov Model ជាម៉ូដែលស្ថិតិដែលប្រើដើម្បីវិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា ដោយវាសន្មតថាអ្វីដែលយើងអាចវាស់វែងបានពីខាងក្រៅ (ដូចជារលកសំឡេង) គឺកើតចេញពីស្ថានភាពលាក់កំបាំងជាបន្តបន្ទាប់ (ដូចជាសូរសព្ទអក្សរ) ដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់។ ដូចជាការទាយពីអាកាសធាតុនៅខាងក្រៅផ្ទះ (រឿងលាក់កំបាំង) ដោយពឹងផ្អែកតែលើការសង្កេតមើលសម្លៀកបំពាក់របស់មនុស្សដែលដើរកាត់មុខបង្អួច (រឿងដែលមើលឃើញ)។
Viterbi algorithm ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីស្វែងរកលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំង (hidden states) ដែលទំនងជាត្រឹមត្រូវបំផុត ដើម្បីផ្គូផ្គងទៅនឹងលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងបានសង្កេតឃើញ ជួយដល់ការបំប្លែងកូដពីសំឡេងទៅជាអត្ថបទ។ ដូចជាការប្រើប្រាស់ផែនទីជីភីអេស (GPS) ដើម្បីគណនារកផ្លូវដែលលឿននិងត្រឹមត្រូវបំផុត ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងជាច្រើនដើម្បីទៅដល់គោលដៅ។
Feedback Alignment ជាវិធីសាស្ត្រក្នុងការបណ្តុះបណ្តាលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ដែលជំនួសឱ្យការប្រើប្រាស់ម៉ាទ្រីសទម្ងន់ត្រឡប់ (backpropagation) ដ៏ស្មុគស្មាញ វាបែរជាប្រើប្រាស់ម៉ាទ្រីសចៃដន្យថេរមួយដើម្បីបញ្ជូនសញ្ញាកំហុសត្រឡប់ក្រោយវិញ ដែលមានភាពស្រដៀងទៅនឹងដំណើរការខួរក្បាលមនុស្សពិតៗ។ ដូចជាការរៀនបោះបាល់ចូលកន្ត្រក ដោយគ្រាន់តែមានអ្នកប្រាប់ថាខុសគោលដៅទៅឆ្វេងឬស្តាំបន្តិចបន្តួច ជាជាងការគណនារង្វាស់កម្លាំងសាច់ដុំលម្អិតពេកគ្រប់ចលនា។
Natural Gradient ជាវិធីសាស្ត្រកែតម្រូវទម្ងន់ម៉ូដែល Machine Learning ដែលមិនត្រឹមតែពឹងផ្អែកលើទិសដៅនៃកំហុសប៉ុណ្ណោះទេ តែថែមទាំងគិតគូរពីរចនាសម្ព័ន្ធធរណីមាត្រនៃលំហប៉ារ៉ាម៉ែត្រ ដើម្បីការពារកុំឲ្យឯកតា (neurons) ផ្លាស់ប្តូរតួនាទីក្នុងការគណនារបស់ពួកវាញឹកញាប់ពេក។ ដូចជាការដើរចុះពីលើភ្នំដោយរើសយកផ្លូវដែលងាយស្រួលដើរ និងមិនសូវរអិល ជាជាងគ្រាន់តែដើរតម្រង់ចុះតាមផ្លូវដែលចោតខ្លាំងបំផុត។
Acoustic Model ជាផ្នែកមួយនៃប្រព័ន្ធស្គាល់សំឡេង ដែលទទួលខុសត្រូវក្នុងការបំប្លែងទិន្នន័យរលកសំឡេង (audio frames) ទៅជាសូរសព្ទ (phones) ឬឯកតាសំឡេងតូចៗ ដោយប្រើប្រាស់រូបមន្តស្ថិតិ និងបណ្ដាញសរសៃប្រសាទ។ ដូចជាត្រចៀកមនុស្សដែលទទួលរលកខ្យល់ ហើយបំប្លែងរលកខ្យល់នោះទៅជាសំឡេងស្រៈ ឬព្យញ្ជនៈនីមួយៗដែលយើងអាចចំណាំបាន។
Language Model ជាម៉ូដែលដែលវាយតម្លៃនិងព្យាករណ៍ពីប្រូបាប៊ីលីតេ (probability) នៃពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយផ្អែកលើច្បាប់វេយ្យាករណ៍ និងបរិបទនៃពាក្យមុនៗ ដើម្បីជួយឲ្យប្រព័ន្ធកុំព្យូទ័រអាចជ្រើសរើសពាក្យបានត្រឹមត្រូវតាមអត្ថន័យ។ ដូចជាមុខងារស្មានពាក្យ (Autocorrect) នៅលើទូរស័ព្ទដៃ ដែលដឹងថាបើអ្នកសរសេរពាក្យ 'ញ៉ាំ' នោះពាក្យបន្ទាប់ទំនងជាពាក្យ 'បាយ' ជាជាងពាក្យ 'ដេក'។
Subsampling ជាបច្ចេកទេសកាត់បន្ថយទំហំទិន្នន័យដែលត្រូវដំណើរការ ដោយរំលងជំហានពេលវេលាមួយចំនួន (ឧទាហរណ៍៖ យកទិន្នន័យតែម្តងក្នុងចន្លោះពេល ២ ហ្វ្រេម) ដើម្បីបង្កើនល្បឿនក្នុងការបំប្លែងកូដ និងកាត់បន្ថយពេលវេលាគណនាដោយមិនឲ្យបាត់បង់ភាពត្រឹមត្រូវខ្លាំងពេក។ ដូចជាការអានសៀវភៅរំលងៗដោយអានតែចំណុចសំខាន់ៗរៀងរាល់ពីរទំព័រម្តង ដើម្បីអាចយល់សាច់រឿងបានលឿនជាងមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖