បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីបញ្ហាប្រឈមក្នុងការបង្កើតប្រព័ន្ធកុំព្យូទ័រដែលអាចសម្គាល់ និងយល់ដឹងពីសំឡេងនិយាយរបស់មនុស្សបានយ៉ាងច្បាស់លាស់សម្រាប់កម្មវិធីពាណិជ្ជកម្ម និងនៅក្នុងបរិស្ថានដែលមានសម្លេងរំខានផ្សេងៗ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធធ្វើការរៀបរាប់លម្អិតអំពីក្របខ័ណ្ឌស្ថិតិស្ដង់ដារសម្រាប់ដំណើរការសំឡេង ដែលរួមបញ្ចូលការវិភាគសូរសព្ទ ការស្វែងរកសម្មតិកម្ម និងម៉ូដែលវាក្យសម្ព័ន្ធភាសា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| HMM with Small Vocabulary / Constrained Grammar ការប្រើម៉ូដែល HMM ជាមួយវាក្យសព្ទកំណត់ និងវេយ្យាករណ៍តឹងរ៉ឹង (ឧទាហរណ៍៖ ការសម្គាល់លេខ) |
មានភាពសុក្រឹតខ្ពស់ខ្លាំង និងមានល្បឿនលឿនក្នុងការដំណើរការសម្គាល់ដោយសារទំហំវាក្យសព្ទតូច និងមិនសូវស្មុគស្មាញ។ | មិនអាចយល់ដឹងពីការសន្ទនាបែបធម្មជាតិបានឡើយ និងមានដែនកំណត់ខ្ពស់ក្នុងការប្រើប្រាស់ក្នុងស្ថានភាពជាក់ស្តែងទូទៅ។ | ទទួលបានអត្រាកំហុសពាក្យ (WER) ទាបបំផុតចន្លោះពី 0.3% ទៅ 2.0%។ |
| HMM with Large Vocabulary / Conversational Speech ការប្រើម៉ូដែល HMM ជាមួយវាក្យសព្ទធំទូលាយ និងការសន្ទនាបែបធម្មជាតិ |
អនុញ្ញាតឱ្យមានការប្រាស្រ័យទាក់ទងដោយសេរី និងធម្មជាតិរវាងមនុស្ស និងម៉ាស៊ីនដោយមិនចាំបាច់ទន្ទេញពាក្យបញ្ជា។ | អត្រាកំហុសកើនឡើងយ៉ាងខ្លាំង ដោយសារភាពស្មុគស្មាញនៃពាក្យ និងត្រូវការទិន្នន័យបង្វឹកព្រមទាំងថាមពលកុំព្យូទ័រដ៏ធំមហិមា។ | អត្រាកំហុសពាក្យ (WER) កើនឡើងដល់កម្រិតខ្ពស់ចន្លោះពី 27% ទៅ 35%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងតាមវិធីសាស្ត្រស្ថិតិទាមទារនូវទិន្នន័យបង្វឹកយ៉ាងសន្ធឹកសន្ធាប់ និងថាមពលកុំព្យូទ័រដ៏ធំមហិមាសម្រាប់ដំណើរការបណ្ដាញស្វែងរកដែលមានទំហំធំ (ឧទាហរណ៍៖ ទំហំរហូតដល់ ១០^២២ states)។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យភាសាអង់គ្លេសនៅសហរដ្ឋអាមេរិក (ដូចជា Wall Street Journal, Switchboard)។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តបច្ចេកវិទ្យានេះត្រូវប្រឈមនឹងកង្វះខាតទិន្នន័យស្តង់ដារនៃភាសាខ្មែរ ហើយតម្រូវឱ្យមានការគិតគូរពីភាពចម្រុះនៃគ្រាមភាសាតាមតំបន់ និងបញ្ហាសម្លេងរំខានក្នុងបរិស្ថានជាក់ស្តែងនៅក្នុងស្រុក។
ទោះបីជាវិធីសាស្ត្រនេះត្រូវបានអភិវឌ្ឍតាំងពីយូរ ប៉ុន្តែគោលការណ៍គ្រឹះរបស់វាមានអត្ថប្រយោជន៍ និងមានសក្តានុពលខ្លាំងសម្រាប់ការចាប់ផ្តើមបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិកម្មដោយប្រើសំឡេងនៅកម្ពុជា។
ជារួម បច្ចេកវិទ្យានេះអាចជំរុញបរិយាប័ន្នឌីជីថល (Digital Inclusion) នៅកម្ពុជា ប្រសិនបើមានការវិនិយោគគ្រប់គ្រាន់លើការប្រមូលទិន្នន័យភាសាជាតិ និងការអភិវឌ្ឍម៉ូដែលដែលសមស្របតាមបរិបទមូលដ្ឋាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Model (HMM) | ជាម៉ូដែលស្ថិតិមួយដែលប្រើដើម្បីធ្វើម៉ូដែលសូរសព្ទ (Acoustic modeling) ដោយវាធ្វើការទស្សន៍ទាយលទ្ធភាពនៃបម្រែបម្រួលសំឡេងដែលប្រែប្រួលតាមពេលវេលា ដោយផ្អែកលើចលនាដែលយើងមើលមិនឃើញផ្ទាល់ (hidden states)។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុថ្ងៃស្អែក ដោយអង្កេតមើលតែសកម្មភាពមនុស្សពាក់អាវភ្លៀង ជំនួសឱ្យការមើលពពកនៅលើមេឃផ្ទាល់។ |
| Mel-Frequency Cepstral Coefficients (MFCCs) | ជាបច្ចេកទេសបំប្លែងរលកសំឡេងទៅជាទិន្នន័យលេខកូដ (feature vectors) ដែលតំណាងឱ្យលក្ខណៈពិសេសនៃសូរសព្ទ ដោយធ្វើត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សចាប់យក និងញែកកម្រិតសំឡេង។ | ដូចជាការច្រោះយកតែរសជាតិស្នូលនៃម្ហូប (ប្រៃ ផ្អែម ជូរ) ដើម្បីកំណត់ថាវាជាម្ហូបអ្វី ដោយមិនបាច់រៀបរាប់ពីគ្រឿងផ្សំទាំងអស់។ |
| N-gram language model | ជាម៉ូដែលភាសាដែលប្រើសម្រាប់ទស្សន៍ទាយប្រូបាប៊ីលីតេនៃពាក្យបន្ទាប់នៅក្នុងប្រយោគមួយ ដោយពឹងផ្អែកលើការវិភាគស្ថិតិនៃពាក្យចំនួន (N-1) ដែលនៅពីមុខវា។ | ដូចជាមុខងារទាយពាក្យស្វ័យប្រវត្តិ (Auto-predict) នៅលើក្តារចុចទូរសព្ទដៃ ដែលលោតពាក្យ "បាយ" ភ្លាមៗនៅពេលយើងវាយពាក្យ "ហូប"។ |
| Maximum a posteriori (MAP) | ជាគោលការណ៍គណិតវិទ្យា (Bayesian) ក្នុងការសម្រេចចិត្តជ្រើសរើសចម្លើយដែលត្រឹមត្រូវបំផុត ដោយថ្លឹងថ្លែងរវាងសូរសព្ទដែលម៉ាស៊ីនស្តាប់ឮ និងប្រូបាប៊ីលីតេនៃវេយ្យាករណ៍ភាសា។ | ដូចជាការស្តាប់សំឡេងរអ៊ូមិនច្បាស់ពីមិត្តភក្តិ តែអ្នកអាចទាយដឹងថាគេនិយាយពីអ្វី ដោយសារអ្នកស្គាល់ទម្លាប់នៃការនិយាយរបស់គេ។ |
| Viterbi decoding algorithm | ជាក្បួនដោះស្រាយ (Algorithm) ដ៏មានប្រសិទ្ធភាពក្នុងការស្វែងរកផ្លូវ ឬបន្សំនៃពាក្យដែលត្រឹមត្រូវបំផុត និងមានពិន្ទុខ្ពស់ជាងគេ ឆ្លងកាត់បណ្តាញនៃជម្រើសរាប់លាន ក្នុងរយៈពេលដ៏ខ្លី។ | ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុត ក្នុងចំណោមបណ្តាញផ្លូវខ្វាត់ខ្វែងរាប់រយ។ |
| Weighted Finite State Transducers (WFST) | ជាទម្រង់បណ្តាញតំណាងទិន្នន័យ (Network Representation) ដែលច្របាច់បញ្ចូលគ្នានូវម៉ូដែលសំឡេង វាក្យសព្ទ និងវេយ្យាករណ៍ រួចបង្រួមទំហំរបស់វាដើម្បីឱ្យកុំព្យូទ័រអាចស្វែងរកបានលឿនជាងមុនជាច្រើនដង។ | ដូចជាការបង្កើតសៀវភៅបញ្ជីមាតិកាសង្ខេប (Index) សម្រាប់សៀវភៅធំមួយក្បាល ដើម្បីងាយស្រួលរកទំព័រដែលចង់បានភ្លាមៗ ដោយមិនបាច់បើកមើលម្តងមួយទំព័រ។ |
| Out-of-Vocabulary (OOV) | ជាអត្រានៃពាក្យ ឬវាក្យសព្ទថ្មីៗដែលមិនមាននៅក្នុងឃ្លាំងទិន្នន័យដែលប្រព័ន្ធធ្លាប់បានរៀន (Training set) ដែលជាហេតុធ្វើឱ្យម៉ាស៊ីនមិនអាចសម្គាល់ពាក្យនោះបាន។ | ដូចជាការសួរក្មេងម្នាក់ពីឈ្មោះរុក្ខជាតិដែលគេមិនធ្លាប់ឃើញពីមុនមក គេច្បាស់ជានឹងហៅខុស ឬឆ្លើយថាមិនដឹង។ |
| Mixed initiative | ជាវិធីសាស្ត្រនៃការគ្រប់គ្រងការសន្ទនារវាងមនុស្ស និងម៉ាស៊ីន ដែលអនុញ្ញាតឱ្យភាគីទាំងសងខាងអាចផ្លាស់ប្តូរវេនគ្នាក្នុងការដឹកនាំការសន្ទនា ឬសួរសំណួរទៅវិញទៅមកដើម្បីសម្រេចគោលដៅ។ | ដូចជាការតថ្លៃជាមួយអ្នកលក់ ដែលពេលខ្លះអ្នកលក់ជាអ្នកសួរនាំ ហើយពេលខ្លះទៀតអ្នកទិញជាអ្នកទាមទារព័ត៌មានវិញ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖