Original Title: Using Deep Neural Networks for Automated Speech Recognition
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅសម្រាប់ការស្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ

ចំណងជើងដើម៖ Using Deep Neural Networks for Automated Speech Recognition

អ្នកនិពន្ធ៖ Elie Michel (Interactions LLC)

ឆ្នាំបោះពុម្ព៖ 2015

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ របាយការណ៍នេះដោះស្រាយនូវបញ្ហាប្រឈមផ្នែកគណនា និងពេលវេលាដ៏យូរក្នុងការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅ (DNNs) សម្រាប់ប្រព័ន្ធស្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការពិសោធន៍ដោយប្រើប្រាស់ឧបករណ៍ផ្សេងៗ (ដូចជា Torch និង Theano) លើសំណុំទិន្នន័យ MNIST និង ASR ដើម្បីសាកល្បងការគណនាស្របគ្នា និងវិធីសាស្ត្របណ្តុះបណ្តាលថ្មីៗ។

ការអនុវត្តវិធីសាស្ត្រតម្រឹមត្រឡប់ (Feedback Alignment Implementation)
ការយកគំរូរងនៃបណ្ដាញសរសៃប្រសាទ (Neural Network Subsampling)
ការបំប្លែងកូដ Viterbi និងការស្វែងរកតាមក្រឡាចត្រង្គ (Viterbi Decoding and Grid-searching)
ការបណ្តុះបណ្តាលតាមវិធីសាស្ត្រ S ដែលជាកម្មសិទ្ធិបញ្ញា (Proprietary S Method Training)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ Feedback Alignment មិនអាចដំណើរការស្របគ្នាបានល្អទេ ដោយសារការបង្កកម៉ាទ្រីសត្រឡប់មិនបានកំណត់តួនាទីច្បាស់លាស់ដល់ឯកតាលាក់កំបាំងកំឡុងពេល backpropagation ។
ការអនុវត្តការយកគំរូរង (DNN Subsampling) ផ្តល់នូវភាពត្រឹមត្រូវនៃពាក្យ ៧៤,៥% ព្រមទាំងជួយពន្លឿនដំណើរការបំប្លែងកូដបានយ៉ាងលឿនបើធៀបនឹងប្រព័ន្ធប្រពៃណី។
វិធីសាស្ត្រថ្មី 'S method' បានកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលជាង ៣,៥ ដង ខណៈពេលរក្សាបាននូវភាពត្រឹមត្រូវនៃពាក្យក្នុងកម្រិតខ្ពស់ ៧៦,៤% ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard DNN (Traditional Pipeline) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតស្តង់ដារ (វិធីសាស្ត្រប្រពៃណី)	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការសម្គាល់ពាក្យ ព្រោះវាជាវិធីសាស្ត្រដើមដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយ។	ប្រើប្រាស់ពេលវេលាយូរខ្លាំងក្នុងការបណ្តុះបណ្តាល (Training time) ជាពិសេសលើសំណុំទិន្នន័យធំៗ។	សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ (Word accuracy) ចំនួន ៧៦,៥%។
Subsampled DNN (SUB) ការយកគំរូរងនៃបណ្ដាញសរសៃប្រសាទ	ជួយពន្លឿនល្បឿននៃការបំប្លែងកូដ (Decoding) បានលឿនជាងមុន ដោយមិនចាំបាច់ដំណើរការគ្រប់ជំហានពេលវេលា។	ភាពត្រឹមត្រូវថយចុះបន្តិចបន្តួច ហើយប្រសិទ្ធភាពនៃការយកគំរូរងនឹងធ្លាក់ចុះនៅពេលដែលទំហំ Output កាន់តែធំ។	សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៧៤,៥%។
S Method (DNN-S) វិធីសាស្ត្រ S (បង្កើតថ្មីដោយ Interactions)	កាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលបានយ៉ាងច្រើន (លឿនជាង ៣,៥ ដង) ដោយរក្សាបាននូវកម្រិតភាពត្រឹមត្រូវខ្ពស់ដដែល។	ជាវិធីសាស្ត្រដែលកំពុងស្ថិតក្រោមការចុះប៉ាតង់ (Patented) មិនត្រូវបានបើកចំហរទូលាយសម្រាប់ការប្រើប្រាស់ជាសាធារណៈឡើយ។	កាត់បន្ថយពេល Training ជាង ៣,៥ ដង និងសម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៧៦,៤%។
Recurrent Neural Networks (RNN) បណ្ដាញសរសៃប្រសាទវិលជុំ	មានសមត្ថភាពខ្ពស់ក្នុងការចងចាំ (Memory) និងដំណើរការទិន្នន័យដែលមានទំហំប្រែប្រួលដូចជាសម្លេងមនុស្ស។	ពិបាកក្នុងការបណ្តុះបណ្តាលដោយសារបញ្ហា Vanishing Gradient ។	សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យខ្ពស់បំផុតរហូតដល់ ៧៦,៨%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបណ្តុះបណ្តាលប្រព័ន្ធ ASR នេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់។

Software: ប្រើប្រាស់ឧបករណ៍ និងកូដបើកចំហរដូចជា Torch (Lua), Theano (Python) និងប្រព័ន្ធ Kaldi ព្រមទាំងឧបករណ៍ឯកជនឈ្មោះ Watson។
Hardware: ទាមទារការប្រើប្រាស់ GPU ដែលមានអនុភាពខ្ពស់ ដើម្បីដំណើរការសំណុំទិន្នន័យធំៗ និងជួយពន្លឿនការគណនា បើទោះជាជួបបញ្ហាទំហំអង្គចងចាំមានកំណត់ក្ដី។
Dataset: ត្រូវការសំណុំទិន្នន័យសម្លេងដែលមានទំហំធំ និងមានស្លាក (Labels) ច្បាស់លាស់ ដូចជា Switchboard (រាប់ពាន់ម៉ោង) និងសំណុំទិន្នន័យផ្ទាល់ខ្លួនចំនួន ៧៤,០០០ ប្រយោគ។
Expertise: តម្រូវឲ្យមានអ្នកជំនាញកម្រិតខ្ពស់ផ្នែក Machine Learning, Deep Learning ព្រមទាំងចំណេះដឹងផ្នែកវិភាគសម្លេង (Acoustic Modeling និង Hidden Markov Models)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅទីក្រុង New York សហរដ្ឋអាមេរិក (ក្រុមហ៊ុន Interactions LLC) ដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេសដូចជា Switchboard ជាដើម។ ម៉ូដែលនិងក្បួនដោះស្រាយទាំងនេះត្រូវបានកែសម្រួលយ៉ាងជាក់លាក់សម្រាប់វេយ្យាករណ៍ និងការបញ្ចេញសំឡេងបែបអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមដ៏ធំមួយ ព្រោះភាសាខ្មែរមានទម្រង់សូរសព្ទខុសគ្នាស្រឡះ មិនមានការដកឃ្លារវាងពាក្យច្បាស់លាស់ និងជាភាសាដែលខ្វះខាតសំណុំទិន្នន័យឌីជីថលទំហំធំ (Under-resourced language) សម្រាប់ការហ្វឹកហាត់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្តោតលើភាសាអង់គ្លេសក៏ដោយ វិធីសាស្ត្រគ្រឹះនៃ ASR និងការធ្វើឲ្យប្រសើរឡើងនូវល្បឿនបណ្តុះបណ្តាលម៉ូដែល គឺមានសារៈសំខាន់ខ្លាំងសម្រាប់ការអភិវឌ្ឍនៅកម្ពុជា។

សេវាកម្មអតិថិជន និងទូរគមនាគមន៍ (Customer Service & Telecom): ក្រុមហ៊ុនទូរគមនាគមន៍ (ដូចជា Smart, Cellcard) ឬធនាគារ (ដូចជា ABA) អាចប្រើប្រាស់បច្ចេកវិទ្យា Adaptive-Understanding នេះ ដើម្បីឆ្លើយតបសំណួរអតិថិជនជាសំឡេងដោយស្វ័យប្រវត្តិ (Virtual Assistants) និងកាត់បន្ថយការចំណាយលើបុគ្គលិក Call Center។
វិស័យស្រាវជ្រាវនៅតាមសាកលវិទ្យាល័យ (University Research): អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យដូចជា RUPP ឬ ITC អាចយកស្ថាបត្យកម្មប្រព័ន្ធ (Pipeline) ដូចដែលបានរៀបរាប់ក្នុងឯកសារនេះ មកកសាង និងអភិវឌ្ឍប្រព័ន្ធទទួលស្គាល់សំឡេងភាសាខ្មែរជាលើកដំបូង។

សរុបមក ការយល់ដឹងពីបច្ចេកទេសបង្កើនល្បឿនបណ្តុះបណ្តាល (ដូចជា Subsampling) នឹងជួយសន្សំសំចៃពេលវេលា និងធនធាន ដែលស័ក្តិសមបំផុតសម្រាប់បរិបទស្រាវជ្រាវដែលនៅមានកម្រិតថវិកា និងធនធាននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Speech Recognition: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តីមូលដ្ឋានរួមមាន Hidden Markov Models (HMM), Acoustic Modeling, និង Natural Language Understanding (NLU) មុននឹងឈានទៅប្រើប្រាស់ Deep Learning។
អនុវត្តការសរសេរកូដជាមួយឧបករណ៍ស្តង់ដារ: អនុវត្តការកសាងម៉ូដែលជាមួយឧបករណ៍ទំនើបដោយជំនួសអតីត Torch ជាមួយនឹង PyTorch ព្រមទាំងសាកល្បងរៀបចំប្រព័ន្ធ ASR ខ្នាតតូចដោយប្រើ Kaldi Speech Recognition Toolkit។
ប្រមូល និងបង្កើតសំណុំទិន្នន័យសម្លេងភាសាខ្មែរ: រៀបចំប្រមូលទិន្នន័យសម្លេងនិយាយភាសាខ្មែរ (Audio) និងវាយអត្ថបទចម្លងកម្រិតពាក្យ (Transcripts) ដើម្បីបង្កើតជាកញ្ចប់ទិន្នន័យមូលដ្ឋាន ដោយអាចប្រើប្រាស់រចនាសម្ព័ន្ធស្រដៀងនឹង Switchboard Corpus។
សាកល្បងបច្ចេកទេស Optimization និងហ្វឹកហាត់ម៉ូដែល: អនុវត្តបច្ចេកទេស Subsampling ឬការបណ្តុះបណ្តាលស្របគ្នា ដើម្បីកាត់បន្ថយពេលវេលា Training ដោយប្រើប្រាស់ GPU កម្រិតមធ្យមដែលសាកល្បងលើសំណុំទិន្នន័យភាសាខ្មែរខាងលើ រួចវាស់ស្ទង់អត្រា Word Error Rate (WER)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Adaptive-Understanding	ជាយន្តការឬវិធីសាស្ត្រដែលម៉ាស៊ីនអាចវាយតម្លៃកម្រិតទំនុកចិត្តរបស់ខ្លួនឯង ហើយប្រសិនបើម៉ាស៊ីនរកឃើញថាខ្លួនឯងមិនច្បាស់លាស់ក្នុងការស្គាល់សំឡេង ឬអត្ថន័យ វាអាចផ្ទេរសំណួរនោះទៅកាន់មនុស្ស (Human Analysts) ដើម្បីជួយដោះស្រាយជំនួសវិញ។	ដូចជាសិស្សដែលព្យាយាមធ្វើលំហាត់ដោយខ្លួនឯងសិន តែបើលំហាត់នោះពិបាកពេក ទើបលើកដៃសួរគ្រូឲ្យជួយ។
Hidden Markov Model	ជាម៉ូដែលស្ថិតិដែលប្រើដើម្បីវិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា ដោយវាសន្មតថាអ្វីដែលយើងអាចវាស់វែងបានពីខាងក្រៅ (ដូចជារលកសំឡេង) គឺកើតចេញពីស្ថានភាពលាក់កំបាំងជាបន្តបន្ទាប់ (ដូចជាសូរសព្ទអក្សរ) ដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់។	ដូចជាការទាយពីអាកាសធាតុនៅខាងក្រៅផ្ទះ (រឿងលាក់កំបាំង) ដោយពឹងផ្អែកតែលើការសង្កេតមើលសម្លៀកបំពាក់របស់មនុស្សដែលដើរកាត់មុខបង្អួច (រឿងដែលមើលឃើញ)។
Viterbi algorithm	ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីស្វែងរកលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំង (hidden states) ដែលទំនងជាត្រឹមត្រូវបំផុត ដើម្បីផ្គូផ្គងទៅនឹងលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងបានសង្កេតឃើញ ជួយដល់ការបំប្លែងកូដពីសំឡេងទៅជាអត្ថបទ។	ដូចជាការប្រើប្រាស់ផែនទីជីភីអេស (GPS) ដើម្បីគណនារកផ្លូវដែលលឿននិងត្រឹមត្រូវបំផុត ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងជាច្រើនដើម្បីទៅដល់គោលដៅ។
Feedback Alignment	ជាវិធីសាស្ត្រក្នុងការបណ្តុះបណ្តាលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ដែលជំនួសឱ្យការប្រើប្រាស់ម៉ាទ្រីសទម្ងន់ត្រឡប់ (backpropagation) ដ៏ស្មុគស្មាញ វាបែរជាប្រើប្រាស់ម៉ាទ្រីសចៃដន្យថេរមួយដើម្បីបញ្ជូនសញ្ញាកំហុសត្រឡប់ក្រោយវិញ ដែលមានភាពស្រដៀងទៅនឹងដំណើរការខួរក្បាលមនុស្សពិតៗ។	ដូចជាការរៀនបោះបាល់ចូលកន្ត្រក ដោយគ្រាន់តែមានអ្នកប្រាប់ថាខុសគោលដៅទៅឆ្វេងឬស្តាំបន្តិចបន្តួច ជាជាងការគណនារង្វាស់កម្លាំងសាច់ដុំលម្អិតពេកគ្រប់ចលនា។
Natural Gradient	ជាវិធីសាស្ត្រកែតម្រូវទម្ងន់ម៉ូដែល Machine Learning ដែលមិនត្រឹមតែពឹងផ្អែកលើទិសដៅនៃកំហុសប៉ុណ្ណោះទេ តែថែមទាំងគិតគូរពីរចនាសម្ព័ន្ធធរណីមាត្រនៃលំហប៉ារ៉ាម៉ែត្រ ដើម្បីការពារកុំឲ្យឯកតា (neurons) ផ្លាស់ប្តូរតួនាទីក្នុងការគណនារបស់ពួកវាញឹកញាប់ពេក។	ដូចជាការដើរចុះពីលើភ្នំដោយរើសយកផ្លូវដែលងាយស្រួលដើរ និងមិនសូវរអិល ជាជាងគ្រាន់តែដើរតម្រង់ចុះតាមផ្លូវដែលចោតខ្លាំងបំផុត។
Acoustic Model	ជាផ្នែកមួយនៃប្រព័ន្ធស្គាល់សំឡេង ដែលទទួលខុសត្រូវក្នុងការបំប្លែងទិន្នន័យរលកសំឡេង (audio frames) ទៅជាសូរសព្ទ (phones) ឬឯកតាសំឡេងតូចៗ ដោយប្រើប្រាស់រូបមន្តស្ថិតិ និងបណ្ដាញសរសៃប្រសាទ។	ដូចជាត្រចៀកមនុស្សដែលទទួលរលកខ្យល់ ហើយបំប្លែងរលកខ្យល់នោះទៅជាសំឡេងស្រៈ ឬព្យញ្ជនៈនីមួយៗដែលយើងអាចចំណាំបាន។
Language Model	ជាម៉ូដែលដែលវាយតម្លៃនិងព្យាករណ៍ពីប្រូបាប៊ីលីតេ (probability) នៃពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយផ្អែកលើច្បាប់វេយ្យាករណ៍ និងបរិបទនៃពាក្យមុនៗ ដើម្បីជួយឲ្យប្រព័ន្ធកុំព្យូទ័រអាចជ្រើសរើសពាក្យបានត្រឹមត្រូវតាមអត្ថន័យ។	ដូចជាមុខងារស្មានពាក្យ (Autocorrect) នៅលើទូរស័ព្ទដៃ ដែលដឹងថាបើអ្នកសរសេរពាក្យ 'ញ៉ាំ' នោះពាក្យបន្ទាប់ទំនងជាពាក្យ 'បាយ' ជាជាងពាក្យ 'ដេក'។
Subsampling	ជាបច្ចេកទេសកាត់បន្ថយទំហំទិន្នន័យដែលត្រូវដំណើរការ ដោយរំលងជំហានពេលវេលាមួយចំនួន (ឧទាហរណ៍៖ យកទិន្នន័យតែម្តងក្នុងចន្លោះពេល ២ ហ្វ្រេម) ដើម្បីបង្កើនល្បឿនក្នុងការបំប្លែងកូដ និងកាត់បន្ថយពេលវេលាគណនាដោយមិនឲ្យបាត់បង់ភាពត្រឹមត្រូវខ្លាំងពេក។	ដូចជាការអានសៀវភៅរំលងៗដោយអានតែចំណុចសំខាន់ៗរៀងរាល់ពីរទំព័រម្តង ដើម្បីអាចយល់សាច់រឿងបានលឿនជាងមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖