បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហានៃការបំប្លែងសញ្ញាសំឡេងអូឌីយ៉ូទៅជាអត្ថបទ (Text) តាមរយៈប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR) ដោយផ្តោតលើភាពស្មុគស្មាញនៃបច្ចេកវិទ្យានេះ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ (Review) ទៅលើវិធីសាស្ត្រ និងឧបករណ៍ផ្សេងៗដែលត្រូវបានប្រើប្រាស់ក្នុងដំណើរការសម្គាល់សំឡេង ជាពិសេសការយកគំរូតាមលក្ខណៈស្ថិតិរបស់ម៉ូដែល Hidden Markov (HMM)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hidden Markov Model (HMM) ម៉ូដែលម៉ាកូវលាក់កំបាំង |
មានមូលដ្ឋានស្ថិតិរឹងមាំ អាចហ្វឹកហាត់ដោយស្វ័យប្រវត្តិ និងចាត់ចែងទិន្នន័យដែលមានប្រវែងប្រែប្រួលបានល្អ។ | ទាមទារទិន្នន័យហ្វឹកហាត់ដែលមានចំណារពន្យល់ច្រេីន ហើយមានភាពស្មុគស្មាញខ្ពស់ក្នុងការសម្គាល់សំឡេងនិយាយជាប់ៗគ្នា (Continuous speech)។ | ក្លាយជាបច្ចេកទេសស្ថិតិស្នូលដ៏ជោគជ័យនិងពេញនិយមបំផុតសម្រាប់ការសម្គាល់សំឡេងទូទៅ។ |
| Artificial Neural Networks (ANN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត |
អាចដោះស្រាយកិច្ចការសម្គាល់សំឡេងស្មុគស្មាញ ទិន្នន័យមានសំឡេងរំខាន និងមិនពឹងផ្អែកលើអ្នកនិយាយ (Speaker independence)។ | មិនអាចពង្រីកទំហំបានល្អសម្រាប់វាក្យសព្ទធំៗ (Large vocabularies) បើធៀបនឹងម៉ូដែល HMM នោះទេ។ | ផ្តល់ភាពសុក្រឹតខ្ពស់ជាង HMM សម្រាប់ការសម្គាល់សូរសព្ទ (Phoneme) និងវាក្យសព្ទដែលមានទំហំកំណត់។ |
| Hybrid HMM-ANN ប្រព័ន្ធកូនកាត់ HMM និង ANN |
ទាញយកអត្ថប្រយោជន៍ពីសមត្ថភាពសម្គាល់សូរសព្ទរបស់ ANN និងសមត្ថភាពគ្រប់គ្រងលំដាប់ភាសារបស់ HMM ចូលគ្នា។ | ទាមទារធនធានគណនា និងភាពស្មុគស្មាញក្នុងការតំឡើងប្រព័ន្ធច្រើនជាងការប្រើម៉ូដែលទោល។ | ជួយបង្កើនអត្រានៃការសម្គាល់ពាក្យបានយ៉ាងពិតប្រាកដ ជាពិសេសសម្រាប់ពាក្យដាច់ដោយឡែក (Isolated words)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ ឬទំហំផ្នែករឹងជាក់លាក់នាពេលបច្ចុប្បន្ននោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់យ៉ាងច្បាស់លើតម្រូវការទិន្នន័យសម្រាប់ការហ្វឹកហាត់។
ឯកសារនេះគឺជាការពិនិត្យឡើងវិញនូវប្រវត្តិ និងទ្រឹស្តីទូទៅ ដោយផ្អែកលើការស្រាវជ្រាវនៅបស្ចិមប្រទេស (ដូចជាគម្រោងរបស់ DARPA និង IBM)។ វាមិនមានការបញ្ជាក់ពីការសាកល្បងលើភាសាដែលមានធនធានតិចតួចឡើយ ដែលនេះជាបញ្ហាប្រឈមសម្រាប់កម្ពុជាដែលត្រូវការសំណុំទិន្នន័យភាសាខ្មែរ (Khmer Corpus) ធំៗដើម្បីឲ្យម៉ូដែលទាំងនេះដំណើរការបានល្អ។
បច្ចេកទេសនៅក្នុងឯកសារនេះ គឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់អ្នកស្រាវជ្រាវនៅកម្ពុជាដើម្បីអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ឲ្យមានភាពច្បាស់លាស់។
ការយល់ដឹងពីការប្រើប្រាស់ម៉ូដែលកូនកាត់ HMM/ANN នឹងបើកផ្លូវដល់ការបង្កើតកម្មវិធី AI ឆ្លាតវៃដែលអាចស្តាប់និងយល់ភាសាខ្មែរបានយ៉ាងរលូនក្នុងបរិបទអាជីវកម្មនិងសង្គមជាក់ស្តែង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Model (HMM) | ម៉ូដែលស្ថិតិដែលប្រើដើម្បីទស្សន៍ទាយលំដាប់លំដោយនៃស្ថានភាពដែលយើងមិនអាចមើលឃើញដោយផ្ទាល់ (Hidden states) ដោយធ្វើការវិភាគទៅលើទិន្នន័យដែលយើងអាចសង្កេតនិងវាស់វែងបាន (Observations) ដូចជាសញ្ញាសំឡេងជាដើម។ | ដូចជាការទស្សន៍ទាយថាអាកាសធាតុថ្ងៃនេះមានភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សដើរតាមផ្លូវកាន់ឆ័ត្រឬពាក់អាវភ្លៀងដែរឬទេ។ |
| Automatic Speech Recognition (ASR) | បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអាចស្តាប់ វិភាគ និងបំប្លែងរលកសំឡេងនិយាយរបស់មនុស្សទៅជាទម្រង់អត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ។ | ដូចជាលេខាធិការម្នាក់ដែលអង្គុយស្តាប់អ្នកនិយាយ រួចវាយអត្ថបទតាមពាក្យដែលអ្នកបាននិយាយនោះចូលទៅក្នុងកុំព្យូទ័រភ្លាមៗ។ |
| Dynamic Time Warping (DTW) | ក្បួនដោះស្រាយសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងសញ្ញាសំឡេងពីរ ដែលមានល្បឿន ឬប្រវែងពេលវេលាខុសគ្នា (ឧទាហរណ៍៖ មនុស្សពីរនាក់និយាយពាក្យដដែល តែម្នាក់និយាយលឿន ម្នាក់ទៀតនិយាយយឺត)។ | ដូចជាការយកខ្សែយឺតពីរខ្សែមកទាញពន្លូតឲ្យមានប្រវែងស្មើគ្នា ដើម្បីប្រៀបធៀបមើលថាតើវាមានពណ៌និងក្បាច់ដូចគ្នាដែរឬទេ។ |
| Cepstral coefficients | តម្លៃលេខដែលតំណាងឱ្យលក្ខណៈពិសេសនៃរលកសំឡេង (Acoustic features) ដែលត្រូវបានទាញយកតាមរយៈការបំប្លែងគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលប្រៀបធៀបនិងចំណាំទម្រង់នៃសំឡេងនោះ។ | ដូចជាការដកស្រង់យកតែលក្ខណៈពិសេសនៃស្នាមម្រាមដៃរបស់មនុស្សម្នាក់ៗ ដើម្បីងាយស្រួលក្នុងការផ្ទៀងផ្ទាត់និងស្វែងរកអត្តសញ្ញាណ។ |
| Viterbi algorithm | ក្បួនដោះស្រាយគណិតវិទ្យាដែលត្រូវបានប្រើយ៉ាងទូលំទូលាយក្នុងម៉ូដែល HMM សម្រាប់គណនា និងស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃស្ថានភាពដែលត្រឹមត្រូវនិងមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ពីទិន្នន័យសំឡេង។ | ដូចជាការប្រើប្រាស់កម្មវិធីផែនទី (Google Maps) ដើម្បីគណនា និងស្វែងរកផ្លូវដែលលឿន និងមានប្រសិទ្ធភាពបំផុតក្នុងការធ្វើដំណើរពីចំណុចមួយទៅចំណុចមួយទៀត។ |
| Artificial Neural Networks (ANN) | ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដោយយកគំរូតាមបណ្ដាញសរសៃប្រសាទខួរក្បាលរបស់មនុស្ស ដើម្បីរៀនចំណាំទម្រង់ទិន្នន័យ និងដោះស្រាយបញ្ហាស្មុគស្មាញដូចជាការសម្គាល់សំឡេងដែលមិនច្បាស់។ | ដូចជាការបង្រៀនកូនក្មេងឲ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបភាពសត្វឆ្កែជាច្រើនដងរហូតដល់ក្មេងនោះចំណាំលក្ខណៈរបស់វាបានដោយខ្លួនឯង។ |
| Gaussian distributions | ការចែកចាយទិន្នន័យតាមបែបស្ថិតិដែលមានរាងដូចជួង (Bell curve) ដែលក្នុងបច្ចេកវិទ្យាសម្គាល់សំឡេង វាត្រូវបានប្រើដើម្បីគណនាប្រូបាប៊ីលីតេនៃលក្ខណៈពិសេសរបស់សំឡេងនៅក្នុងស្ថានភាពនីមួយៗរបស់ម៉ូដែល។ | ដូចជាការវាស់កម្ពស់សិស្សក្នុងថ្នាក់ ដែលសិស្សភាគច្រើនមានកម្ពស់មធ្យម (នៅកណ្តាលជួង) ហើយសិស្សខ្ពស់ពេកឬទាបពេកមានចំនួនតិចតួចនៅសងខាង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖