បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកំណត់ភាពត្រឹមត្រូវនៃលទ្ធផលនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងនិយាយដើម្បីកាត់បន្ថយការចាប់យកពាក្យខុស (False Alarms) សម្រាប់ប្រព័ន្ធផ្តល់ព័ត៌មានកសិកម្ម AgroAccess ជាភាសា Marathi។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតប្រព័ន្ធស្វែងរកពាក្យគន្លឹះសូរស័ព្ទ (Acoustic Keyword Spotting) និងអនុវត្តរង្វាស់ភាពជឿជាក់ (Confidence Measures) ផ្សេងៗជាដំណាក់កាលដំណើរការបន្តបន្ទាប់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline Acoustic KWS (KW-Filler network) ប្រព័ន្ធគោលសម្រាប់ស្វែងរកពាក្យគន្លឹះផ្អែកលើបណ្តាញ KW-Filler |
ងាយស្រួលក្នុងការរៀបចំ និងមានសមត្ថភាពខ្ពស់ក្នុងការមិនរំលងទីតាំងពាក្យគោលដៅ (High hit rate/recall)។ | មានអត្រាចាប់យកពាក្យខុស (False alarms) ច្រើន ប្រសិនបើមិនមានវគ្គចម្រាញ់ (Refinement stage) បន្ថែមទេ។ | ទទួលបានរង្វាស់ប្រសិទ្ធភាពសរុប (Figure of Merit - FOM) ត្រឹមតែ 51.27% ប៉ុណ្ណោះ។ |
| KWS with Re-recognition KW-Filler network ការស្វែងរកពាក្យគន្លឹះដោយប្រើបណ្តាញ KW-Filler សម្គាល់ឡើងវិញ (Re-recognition) |
ជួយកាត់បន្ថយការចាប់យកពាក្យខុសបានយ៉ាងមានប្រសិទ្ធភាព និងនៅតែរក្សាបាននូវអត្រាចាប់យកត្រូវក្នុងកម្រិតខ្ពស់។ | ទាមទារដំណើរការគណនាស្ទួនបន្ថែម និងត្រូវចំណាយពេលកំណត់ប៉ារ៉ាម៉ែត្រ (Parameter tuning) ច្រើន។ | រង្វាស់ប្រសិទ្ធភាពសរុប (FOM) កើនឡើងដល់ 58.6% (កើនឡើង 7% ធៀបនឹងប្រព័ន្ធគោល)។ |
| Acoustic Score Normalisation (Phone confusion matrix based) ការធ្វើនីត្យានុកូលភាពពិន្ទុសូរស័ព្ទផ្អែកលើម៉ាទ្រីសច្រឡំសូរសព្ទ |
ជួយកាត់បន្ថយបញ្ហាលម្អៀងពិន្ទុ ដែលបណ្តាលមកពីប្រវែងពាក្យខ្លីវែងខុសគ្នា និងការភាន់ច្រឡំរវាងស្រៈឬព្យញ្ជនៈស្រដៀងគ្នា។ | ភាពត្រឹមត្រូវពឹងផ្អែកខ្លាំងទៅលើសមត្ថភាពនៃការសម្គាល់សូរសព្ទ (Phone recognition performance) បើប្រព័ន្ធនោះខ្សោយ លទ្ធផលដែលបាននឹងមិនល្អទេ។ | ផ្តល់លទ្ធផលកែលម្អមធ្យម ប៉ុន្តែនៅតែមានប្រសិទ្ធភាពទាបជាងការប្រើប្រាស់រង្វាស់ផ្អែកលើបញ្ជី N-best។ |
| N-best list based Confidence Measures រង្វាស់ភាពជឿជាក់ផ្អែកលើបញ្ជីពាក្យប្រូបាប៊ីលីតេខ្ពស់បំផុត (N-best list) |
មានប្រសិទ្ធភាពខ្ពស់ ងាយស្រួលក្នុងការគណនា និងមិនសូវពឹងផ្អែកទៅលើភាពត្រឹមត្រូវកម្រិតសូរសព្ទនោះទេ។ | ត្រូវការប្រព័ន្ធកំណត់រចនាសម្ព័ន្ធដែលអាចបង្កើតបញ្ជី N-best បាន (មិនអាចប្រើជាមួយ Finite State Grammar ក្នុងកូដដើមរបស់ Sphinx3 បានទេ)។ | ផ្តល់លទ្ធផលល្អបំផុតក្នុងការបែងចែករវាងពាក្យត្រូវនិងពាក្យខុស ពិសេសនៅពេលពឹងផ្អែកលើពិន្ទុ Language Model។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រកម្រិតមធ្យម តែពឹងផ្អែកជាចម្បងលើទិន្នន័យសំឡេងដែលបានកត់ត្រាយ៉ាងត្រឹមត្រូវ និងទាមទារពេលវេលាច្រើនក្នុងការកំណត់កែតម្រូវប៉ារ៉ាម៉ែត្រ (Tuning)។
ការសិក្សានេះប្រមូលទិន្នន័យអ្នកនិយាយពីតំបន់ផ្សេងៗគ្នានៅរដ្ឋ Maharashtra (ប្រទេសឥណ្ឌា) ដោយថតក្នុងស្ថានភាពជាក់ស្តែងតាមរយៈទូរស័ព្ទ ដែលមានសំឡេងរំខាន និងគ្រាមភាសាចម្រុះ។ សម្រាប់កម្ពុជា កត្តានេះមានសារៈសំខាន់ណាស់ ព្រោះការបង្កើតប្រព័ន្ធសម្រាប់កសិករខ្មែរនឹងត្រូវប្រឈមមុខនឹងសំឡេងរំខានជុំវិញ (ត្រាក់ទ័រ ខ្យល់បក់) និងគ្រាមភាសាខុសៗគ្នាតាមតំបន់ដូចជា អ្នកបាត់ដំបង អ្នកកំពង់ធំ ឬអ្នកស្វាយរៀង។
វិធីសាស្រ្តអនុវត្តរង្វាស់ភាពជឿជាក់ និងការស្វែងរកពាក្យគន្លឹះនៅក្នុងការស្រាវជ្រាវនេះ មានសក្តានុពលខ្ពស់ខ្លាំងណាស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធឆ្លើយតបដោយសំឡេង (IVR) នៅក្នុងប្រទេសកម្ពុជា។
ជារួម ការអនុវត្តយន្តការត្រួតពិនិត្យសុពលភាពនៃចម្លើយ (Response Validity Check) គឺជាជំហានដ៏ចាំបាច់បំផុតសម្រាប់អ្នកអភិវឌ្ឍន៍កម្មវិធីកម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធសន្ទនាដោយសំឡេងរឹងមាំ ដែលមិនស្តាប់ច្រឡំនិងឆ្លើយខុសសាច់រឿង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Keyword Spotting (KWS) | ការស្វែងរកពាក្យគន្លឹះក្នុងប្រព័ន្ធសម្គាល់សំឡេង ជាបច្ចេកទេសដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមចាប់យកតែពាក្យសំខាន់ៗដែលបានកំណត់ទុកជាមុន ពីក្នុងលំហូរសំឡេងនិយាយជាបន្តបន្ទាប់ ដោយមិនខ្វល់ឬកត់ត្រាពាក្យផ្សេងទៀតដែលមិនពាក់ព័ន្ធឡើយ។ | ដូចជាពេលយើងស្តាប់ចម្រៀងមួយបទដើម្បីចាំស្តាប់តែពាក្យមួយម៉ាត់ដែលយើងចង់ឮ ដោយមិនខ្វល់ពីអត្ថន័យនៃបទចម្រៀងទាំងមូល។ |
| Confidence Measure (CM) | រង្វាស់កម្រិតនៃភាពជឿជាក់ គឺជាតម្លៃលេខដែលប្រព័ន្ធកុំព្យូទ័រប្រើដើម្បីវាយតម្លៃប្រូបាប៊ីលីតេ ឬការជឿជាក់សរុបទៅលើលទ្ធផលរបស់វា ថាតើវាមានភាពប្រាកដប្រជាកម្រិតណាថាសំឡេងដែលវាឮពិតជាពាក្យដែលវាទាយទុកមែន។ | ដូចជាការបញ្ជាក់ភាគរយនៃការជឿជាក់លើចម្លើយរបស់សិស្សម្នាក់ពេលគ្រូសួរ (ឧទាហរណ៍៖ ខ្ញុំជឿជាក់ ៩០% ថាចម្លើយនេះត្រូវ)។ |
| Out-Of-Vocabulary (OOV) | ពាក្យក្រៅវាក្យសព្ទ គឺជាពាក្យដែលអ្នកប្រើប្រាស់និយាយចេញមក ប៉ុន្តែពាក្យនោះមិនមានរក្សាទុកនៅក្នុងវចនានុក្រមទិន្នន័យរបស់ប្រព័ន្ធសម្គាល់សំឡេងនោះទេ ដែលវាជារឿយៗធ្វើឱ្យប្រព័ន្ធស្តាប់ច្រឡំទៅជាពាក្យផ្សេង។ | ដូចជាពេលជនបរទេសម្នាក់និយាយពាក្យប្លែកមួយមកកាន់យើង ដែលពាក្យនោះមិនធ្លាប់មានក្នុងវចនានុក្រមខួរក្បាលរបស់យើងសោះ ធ្វើឱ្យយើងស្តាប់មិនយល់ឬគិតទៅជាពាក្យផ្សេង។ |
| N-best list | បញ្ជីនៃជម្រើសចម្លើយល្អបំផុតចំនួន N (ឧទាហរណ៍ ៥ ឬ ១០ជម្រើស) ដែលប្រព័ន្ធសម្គាល់សំឡេងសន្និដ្ឋានថាអាចជាលំដាប់ពាក្យដែលអ្នកប្រើប្រាស់បាននិយាយ ដោយតម្រៀបតាមលំដាប់ពិន្ទុប្រូបាប៊ីលីតេខ្ពស់ជាងគេ។ | ដូចជាការទាយឈ្មោះមនុស្សម្នាក់ដែលដើរមកពីចម្ងាយ ដោយយើងសរសេរឈ្មោះ៣នាក់ដែលយើងគិតថាស្រដៀងជាងគេតម្រៀបគ្នាតាមលំដាប់ភាពច្បាស់លាស់។ |
| False Alarms | ការចាប់សញ្ញាខុស ឬការរាយការណ៍ខុសនៅក្នុងប្រព័ន្ធ KWS គឺកើតឡើងនៅពេលដែលប្រព័ន្ធរាយការណ៍ថាវាបានរកឃើញពាក្យគន្លឹះ ទាំងដែលការពិតអ្នកប្រើប្រាស់មិនបាននិយាយពាក្យនោះសោះ។ | ដូចជាសំឡេងស៊ីរ៉ែនរោទ៍ប្រាប់ថាមានចោរចូលផ្ទះ ទាំងដែលការពិតគ្រាន់តែជាសត្វឆ្មាលោតកាត់សេនស័រ។ |
| Figure of Merit (FOM) | រង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃប្រសិទ្ធភាពសរុបរបស់ប្រព័ន្ធស្វែងរកពាក្យគន្លឹះ ដោយធ្វើការគណនាមធ្យមភាគនៃអត្រាចាប់បានពិតប្រាកដ (Hit rate) ធៀបនឹងអត្រាចាប់សញ្ញាខុស (False alarms) ក្នុងកម្រិតអនុលោមផ្សេងៗគ្នា។ | ដូចជាការបូកសរុបពិន្ទុប្រចាំឆ្នាំរបស់សិស្សដែលឆ្លុះបញ្ចាំងពីសមត្ថភាពសរុប ដើម្បីប្រៀបធៀបថាតើសិស្សណាពូកែជាងគេជារួម។ |
| Acoustic Score Normalisation | ដំណើរការកែតម្រូវពិន្ទុសូរស័ព្ទ ដោយធ្វើប្រៀបធៀប ឬថ្លឹងថ្លែងពិន្ទុនៃពាក្យដែលចាប់បានជាមួយពិន្ទុគោល ដើម្បីកាត់បន្ថយភាពលម្អៀងដែលបណ្តាលមកពីកត្តាប្រវែងពាក្យខ្លីវែង ឬសំឡេងរំខានផ្សេងៗ។ | ដូចជាការបូកពិន្ទុបន្ថែមឬដកពិន្ទុចេញដើម្បីឱ្យមានតុល្យភាពយុត្តិធម៌ក្នុងការប្រកួតរវាងអ្នកដែលមានប្រៀបនិងអ្នកចាញ់ប្រៀបពីធម្មជាតិ។ |
| Viterbi search | ក្បួនដោះស្រាយតាមគណិតវិទ្យាដែលប្រព័ន្ធម៉ូដែលម៉ាកូវ (HMM) ប្រើដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃពាក្យដែលទំនងបំផុត (មានពិន្ទុសរុបខ្ពស់ជាងគេ) ពីក្នុងក្រាហ្វបណ្តាញនៃលទ្ធភាពដែលអាចកើតមានរាប់ពាន់ម៉ឺនជម្រើស។ | ដូចជាការប្រើប្រាស់កម្មវិធី Google Maps ដើម្បីរាវរកផ្លូវដែលលឿនបំផុតទៅកាន់គោលដៅ ក្នុងចំណោមផ្លូវខ្វាត់ខ្វែងជាច្រើន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖