បញ្ហា (The Problem)៖ របាយការណ៍នេះដោះស្រាយនូវបញ្ហាប្រឈមផ្នែកគណនា និងពេលវេលាដ៏យូរក្នុងការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតជ្រៅ (DNNs) សម្រាប់ប្រព័ន្ធស្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការពិសោធន៍ដោយប្រើប្រាស់ឧបករណ៍ផ្សេងៗ (ដូចជា Torch និង Theano) លើសំណុំទិន្នន័យ MNIST និង ASR ដើម្បីសាកល្បងការគណនាស្របគ្នា និងវិធីសាស្ត្របណ្តុះបណ្តាលថ្មីៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard DNN (Traditional Pipeline) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតស្តង់ដារ (វិធីសាស្ត្រប្រពៃណី) |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការសម្គាល់ពាក្យ ព្រោះវាជាវិធីសាស្ត្រដើមដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយ។ | ប្រើប្រាស់ពេលវេលាយូរខ្លាំងក្នុងការបណ្តុះបណ្តាល (Training time) ជាពិសេសលើសំណុំទិន្នន័យធំៗ។ | សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ (Word accuracy) ចំនួន ៧៦,៥%។ |
| Subsampled DNN (SUB) ការយកគំរូរងនៃបណ្ដាញសរសៃប្រសាទ |
ជួយពន្លឿនល្បឿននៃការបំប្លែងកូដ (Decoding) បានលឿនជាងមុន ដោយមិនចាំបាច់ដំណើរការគ្រប់ជំហានពេលវេលា។ | ភាពត្រឹមត្រូវថយចុះបន្តិចបន្តួច ហើយប្រសិទ្ធភាពនៃការយកគំរូរងនឹងធ្លាក់ចុះនៅពេលដែលទំហំ Output កាន់តែធំ។ | សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៧៤,៥%។ |
| S Method (DNN-S) វិធីសាស្ត្រ S (បង្កើតថ្មីដោយ Interactions) |
កាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលបានយ៉ាងច្រើន (លឿនជាង ៣,៥ ដង) ដោយរក្សាបាននូវកម្រិតភាពត្រឹមត្រូវខ្ពស់ដដែល។ | ជាវិធីសាស្ត្រដែលកំពុងស្ថិតក្រោមការចុះប៉ាតង់ (Patented) មិនត្រូវបានបើកចំហរទូលាយសម្រាប់ការប្រើប្រាស់ជាសាធារណៈឡើយ។ | កាត់បន្ថយពេល Training ជាង ៣,៥ ដង និងសម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៧៦,៤%។ |
| Recurrent Neural Networks (RNN) បណ្ដាញសរសៃប្រសាទវិលជុំ |
មានសមត្ថភាពខ្ពស់ក្នុងការចងចាំ (Memory) និងដំណើរការទិន្នន័យដែលមានទំហំប្រែប្រួលដូចជាសម្លេងមនុស្ស។ | ពិបាកក្នុងការបណ្តុះបណ្តាលដោយសារបញ្ហា Vanishing Gradient ។ | សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យខ្ពស់បំផុតរហូតដល់ ៧៦,៨%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការបណ្តុះបណ្តាលប្រព័ន្ធ ASR នេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅទីក្រុង New York សហរដ្ឋអាមេរិក (ក្រុមហ៊ុន Interactions LLC) ដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេសដូចជា Switchboard ជាដើម។ ម៉ូដែលនិងក្បួនដោះស្រាយទាំងនេះត្រូវបានកែសម្រួលយ៉ាងជាក់លាក់សម្រាប់វេយ្យាករណ៍ និងការបញ្ចេញសំឡេងបែបអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមដ៏ធំមួយ ព្រោះភាសាខ្មែរមានទម្រង់សូរសព្ទខុសគ្នាស្រឡះ មិនមានការដកឃ្លារវាងពាក្យច្បាស់លាស់ និងជាភាសាដែលខ្វះខាតសំណុំទិន្នន័យឌីជីថលទំហំធំ (Under-resourced language) សម្រាប់ការហ្វឹកហាត់។
ទោះបីជាការសិក្សានេះផ្តោតលើភាសាអង់គ្លេសក៏ដោយ វិធីសាស្ត្រគ្រឹះនៃ ASR និងការធ្វើឲ្យប្រសើរឡើងនូវល្បឿនបណ្តុះបណ្តាលម៉ូដែល គឺមានសារៈសំខាន់ខ្លាំងសម្រាប់ការអភិវឌ្ឍនៅកម្ពុជា។
សរុបមក ការយល់ដឹងពីបច្ចេកទេសបង្កើនល្បឿនបណ្តុះបណ្តាល (ដូចជា Subsampling) នឹងជួយសន្សំសំចៃពេលវេលា និងធនធាន ដែលស័ក្តិសមបំផុតសម្រាប់បរិបទស្រាវជ្រាវដែលនៅមានកម្រិតថវិកា និងធនធាននៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Adaptive-Understanding | ជាយន្តការឬវិធីសាស្ត្រដែលម៉ាស៊ីនអាចវាយតម្លៃកម្រិតទំនុកចិត្តរបស់ខ្លួនឯង ហើយប្រសិនបើម៉ាស៊ីនរកឃើញថាខ្លួនឯងមិនច្បាស់លាស់ក្នុងការស្គាល់សំឡេង ឬអត្ថន័យ វាអាចផ្ទេរសំណួរនោះទៅកាន់មនុស្ស (Human Analysts) ដើម្បីជួយដោះស្រាយជំនួសវិញ។ | ដូចជាសិស្សដែលព្យាយាមធ្វើលំហាត់ដោយខ្លួនឯងសិន តែបើលំហាត់នោះពិបាកពេក ទើបលើកដៃសួរគ្រូឲ្យជួយ។ |
| Hidden Markov Model | ជាម៉ូដែលស្ថិតិដែលប្រើដើម្បីវិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា ដោយវាសន្មតថាអ្វីដែលយើងអាចវាស់វែងបានពីខាងក្រៅ (ដូចជារលកសំឡេង) គឺកើតចេញពីស្ថានភាពលាក់កំបាំងជាបន្តបន្ទាប់ (ដូចជាសូរសព្ទអក្សរ) ដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់។ | ដូចជាការទាយពីអាកាសធាតុនៅខាងក្រៅផ្ទះ (រឿងលាក់កំបាំង) ដោយពឹងផ្អែកតែលើការសង្កេតមើលសម្លៀកបំពាក់របស់មនុស្សដែលដើរកាត់មុខបង្អួច (រឿងដែលមើលឃើញ)។ |
| Viterbi algorithm | ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីស្វែងរកលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំង (hidden states) ដែលទំនងជាត្រឹមត្រូវបំផុត ដើម្បីផ្គូផ្គងទៅនឹងលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងបានសង្កេតឃើញ ជួយដល់ការបំប្លែងកូដពីសំឡេងទៅជាអត្ថបទ។ | ដូចជាការប្រើប្រាស់ផែនទីជីភីអេស (GPS) ដើម្បីគណនារកផ្លូវដែលលឿននិងត្រឹមត្រូវបំផុត ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងជាច្រើនដើម្បីទៅដល់គោលដៅ។ |
| Feedback Alignment | ជាវិធីសាស្ត្រក្នុងការបណ្តុះបណ្តាលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ដែលជំនួសឱ្យការប្រើប្រាស់ម៉ាទ្រីសទម្ងន់ត្រឡប់ (backpropagation) ដ៏ស្មុគស្មាញ វាបែរជាប្រើប្រាស់ម៉ាទ្រីសចៃដន្យថេរមួយដើម្បីបញ្ជូនសញ្ញាកំហុសត្រឡប់ក្រោយវិញ ដែលមានភាពស្រដៀងទៅនឹងដំណើរការខួរក្បាលមនុស្សពិតៗ។ | ដូចជាការរៀនបោះបាល់ចូលកន្ត្រក ដោយគ្រាន់តែមានអ្នកប្រាប់ថាខុសគោលដៅទៅឆ្វេងឬស្តាំបន្តិចបន្តួច ជាជាងការគណនារង្វាស់កម្លាំងសាច់ដុំលម្អិតពេកគ្រប់ចលនា។ |
| Natural Gradient | ជាវិធីសាស្ត្រកែតម្រូវទម្ងន់ម៉ូដែល Machine Learning ដែលមិនត្រឹមតែពឹងផ្អែកលើទិសដៅនៃកំហុសប៉ុណ្ណោះទេ តែថែមទាំងគិតគូរពីរចនាសម្ព័ន្ធធរណីមាត្រនៃលំហប៉ារ៉ាម៉ែត្រ ដើម្បីការពារកុំឲ្យឯកតា (neurons) ផ្លាស់ប្តូរតួនាទីក្នុងការគណនារបស់ពួកវាញឹកញាប់ពេក។ | ដូចជាការដើរចុះពីលើភ្នំដោយរើសយកផ្លូវដែលងាយស្រួលដើរ និងមិនសូវរអិល ជាជាងគ្រាន់តែដើរតម្រង់ចុះតាមផ្លូវដែលចោតខ្លាំងបំផុត។ |
| Acoustic Model | ជាផ្នែកមួយនៃប្រព័ន្ធស្គាល់សំឡេង ដែលទទួលខុសត្រូវក្នុងការបំប្លែងទិន្នន័យរលកសំឡេង (audio frames) ទៅជាសូរសព្ទ (phones) ឬឯកតាសំឡេងតូចៗ ដោយប្រើប្រាស់រូបមន្តស្ថិតិ និងបណ្ដាញសរសៃប្រសាទ។ | ដូចជាត្រចៀកមនុស្សដែលទទួលរលកខ្យល់ ហើយបំប្លែងរលកខ្យល់នោះទៅជាសំឡេងស្រៈ ឬព្យញ្ជនៈនីមួយៗដែលយើងអាចចំណាំបាន។ |
| Language Model | ជាម៉ូដែលដែលវាយតម្លៃនិងព្យាករណ៍ពីប្រូបាប៊ីលីតេ (probability) នៃពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយផ្អែកលើច្បាប់វេយ្យាករណ៍ និងបរិបទនៃពាក្យមុនៗ ដើម្បីជួយឲ្យប្រព័ន្ធកុំព្យូទ័រអាចជ្រើសរើសពាក្យបានត្រឹមត្រូវតាមអត្ថន័យ។ | ដូចជាមុខងារស្មានពាក្យ (Autocorrect) នៅលើទូរស័ព្ទដៃ ដែលដឹងថាបើអ្នកសរសេរពាក្យ 'ញ៉ាំ' នោះពាក្យបន្ទាប់ទំនងជាពាក្យ 'បាយ' ជាជាងពាក្យ 'ដេក'។ |
| Subsampling | ជាបច្ចេកទេសកាត់បន្ថយទំហំទិន្នន័យដែលត្រូវដំណើរការ ដោយរំលងជំហានពេលវេលាមួយចំនួន (ឧទាហរណ៍៖ យកទិន្នន័យតែម្តងក្នុងចន្លោះពេល ២ ហ្វ្រេម) ដើម្បីបង្កើនល្បឿនក្នុងការបំប្លែងកូដ និងកាត់បន្ថយពេលវេលាគណនាដោយមិនឲ្យបាត់បង់ភាពត្រឹមត្រូវខ្លាំងពេក។ | ដូចជាការអានសៀវភៅរំលងៗដោយអានតែចំណុចសំខាន់ៗរៀងរាល់ពីរទំព័រម្តង ដើម្បីអាចយល់សាច់រឿងបានលឿនជាងមុន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖