បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាតាមការនិយាយ (Spoken Dialogue Systems - SDS) ជារឿយៗបរាជ័យក្នុងការដោះស្រាយកំហុសនៃការសម្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ (ASR) ដោយសារពួកវាខ្វះសមត្ថភាពយល់ដឹងដូចមនុស្សក្នុងការកំណត់ ក៏ដូចជាស្តារឡើងវិញពីការយល់ខុសដោយប្រើចំណេះដឹងបរិបទ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្របខ័ណ្ឌពិសោធន៍ផ្អែកលើវិបសាយ ដែលអ្នកចូលរួមត្រូវវាយតម្លៃសម្មតិកម្ម ASR ដែលមានកំហុសដោយគ្មានការបញ្ចូលព័ត៌មានសំឡេង ដើម្បីបំបែកនិងសង្កេតមើលដំណើរការដោះស្រាយកំហុសនៃការយល់ដឹងរបស់មនុស្ស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard ASR Confidence Scoring ការផ្តល់ពិន្ទុទំនុកចិត្តនៃការសម្គាល់សំឡេង (ASR) ស្តង់ដារ |
មានល្បឿនលឿន និងដំណើរការដោយស្វ័យប្រវត្តិដោយពឹងផ្អែកលើម៉ូដែលសូរស័ព្ទ និងម៉ូដែលភាសា។ | ជួបការលំបាកនៅពេលមានកំហុសច្រើន ហើយមិនមានសមត្ថភាពវិភាគបរិបទជាក់ស្តែងស៊ីជម្រៅនោះទេ។ | មានទំនាក់ទំនងកម្រិតទាបជាមួយនឹងអត្រាកំហុសពាក្យជាក់ស្តែង (WER) បើប្រៀបធៀបនឹងការប៉ាន់ស្មានរបស់មនុស្ស។ |
| Human Cognitive Speech Processing ដំណើរការយល់ដឹងពីការនិយាយដោយមនុស្ស |
មានភាពត្រឹមត្រូវខ្ពស់ដោយប្រើប្រាស់ចំណេះដឹងផ្នែកភាសាវិទ្យា និងបរិបទជាក់ស្តែង ដើម្បីប៉ាន់ស្មាន និងបកស្រាយអត្ថន័យ។ | មានភាពស្មុគស្មាញខ្ពស់ក្នុងការសរសេរកូដដើម្បីឲ្យប្រព័ន្ធកុំព្យូទ័រអាចធ្វើត្រាប់តាមបានទាំងស្រុង។ | អាចវាយតម្លៃភាពត្រឹមត្រូវនៃការនិយាយបានយ៉ាងច្បាស់លាស់ ទោះបីជាគ្មានព័ត៌មានសំឡេង (Acoustic information) ក៏ដោយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកជាចម្បងលើការធ្វើតេស្តជាមួយអ្នកចូលរួមជាមនុស្ស ព្រមទាំងការប្រមូលទិន្នន័យសន្ទនាជាក់ស្តែង។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់អ្នកចូលរួមចំនួន ៣៦ នាក់នៅក្នុងប្រទេសអាល្លឺម៉ង់ ដែលភាគច្រើនជាអ្នកស្ថិតក្នុងមជ្ឈដ្ឋានសាកលវិទ្យាល័យ និងប្រើប្រាស់ទិន្នន័យភាសាអាល្លឺម៉ង់តែប៉ុណ្ណោះ។ សម្រាប់ប្រទេសកម្ពុជា វាទាមទារឲ្យមានការប្រមូលទិន្នន័យជាភាសាខ្មែរ និងការយល់ដឹងស៊ីជម្រៅពីបរិបទសង្គម-វប្បធម៌ក្នុងស្រុក ដើម្បីឲ្យម៉ូដែលនេះអាចដំណើរការបានយ៉ាងមានប្រសិទ្ធភាព។
វិធីសាស្ត្រក្នុងការដោះស្រាយកំហុសដោយប្រើបរិបទយល់ដឹងនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ AI សន្ទនានៅកម្ពុជា។
ការបញ្ចូលយន្តការយល់ដឹងអំពីបរិបទទៅក្នុងប្រព័ន្ធ AI នឹងជួយបង្កើនភាពរលូន និងភាពជាក់លាក់នៃប្រព័ន្ធអន្តរកម្មដោយសំឡេងសម្រាប់អ្នកប្រើប្រាស់កម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Automatic Speech Recognition (ASR) | ដំណើរការបច្ចេកវិទ្យាដែលប្រព័ន្ធកុំព្យូទ័រស្តាប់សំឡេងនិយាយរបស់មនុស្ស ហើយបំប្លែងវាទៅជាអត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ។ | ដូចជាលេខាដែលចាំស្តាប់សម្តីរបស់យើង ហើយវាយអក្សរបញ្ចូលក្នុងកុំព្យូទ័រតាមអ្វីដែលយើងនិយាយ។ |
| Spoken Dialogue Systems (SDS) | ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានរចនាឡើងដើម្បីអនុញ្ញាតឱ្យមនុស្សធ្វើអន្តរកម្ម និងសន្ទនាជាមួយម៉ាស៊ីនតាមរយៈការប្រើប្រាស់សំឡេងធម្មជាតិ។ | ដូចជាកម្មវិធី Siri ឬ Google Assistant ដែលយើងអាចនិយាយសួរឬបញ្ជា ហើយវាអាចឆ្លើយតបមកយើងវិញដោយសំឡេងបាន។ |
| Cognitive Error Handling | យន្តការដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមធ្វើត្រាប់តាមសមត្ថភាពគិតរបស់មនុស្ស ដើម្បីកាត់ស្មាន និងជួសជុលកំហុសនៅពេលដែលវាស្តាប់ពាក្យរបស់អ្នកប្រើប្រាស់មិនសូវច្បាស់ ដោយផ្អែកលើបរិបទសន្ទនា។ | ដូចជាពេលយើងនិយាយទូរស័ព្ទហើយសេវាដាច់ៗ តែយើងនៅតែអាចស្មានដឹងថាគេនិយាយពីអ្វី ដោយផ្អែកលើសាច់រឿងដែលកំពុងនិយាយ។ |
| Word Error Rate (WER) | ជារង្វាស់ខ្នាតស្តង់ដារមួយដែលគេប្រើដើម្បីវាយតម្លៃកម្រិតភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សំឡេង ដោយគណនាភាគរយនៃពាក្យដែលប្រព័ន្ធកត់ត្រាខុសធៀបនឹងពាក្យសរុប។ | ដូចជាការដាក់ពិន្ទុប្រឡងសរសេរតាមអាន ដោយរាប់មើលថាសិស្សសរសេរខុសប៉ុន្មានពាក្យក្នុងចំណោមពាក្យទាំងអស់។ |
| Subvocalization | សកម្មភាពផ្លូវចិត្តដែលមនុស្សបញ្ចេញសំឡេងពាក្យពេចន៍នៅខាងក្នុងខួរក្បាល (អានក្នុងចិត្ត) នៅពេលដែលពួកគេកំពុងអានអត្ថបទដោយមិនបន្លឺសំឡេងចេញមកក្រៅ។ | ដូចជាពេលយើងអានសៀវភៅស្ងាត់ៗ តែយើងនៅតែលឺសំឡេងខ្លួនឯងកំពុងអានលាន់នៅក្នុងក្បាល។ |
| Slot filling | វិធីសាស្ត្រក្នុងប្រព័ន្ធយល់ដឹងភាសា ដែលប្រព័ន្ធទាញយកតែព័ត៌មានសំខាន់ៗ (ដូចជា ទីតាំង ឬពេលវេលា) ពីប្រយោគសន្ទនា ដើម្បីយកទៅបំពេញចន្លោះទិន្នន័យដែលវាត្រូវការសម្រាប់អនុវត្តបញ្ជា។ | ដូចជាការបំពេញទម្រង់បែបបទ ដែលយើងត្រូវស្រង់យកតែព័ត៌មានជាក់លាក់ (ឈ្មោះ ថ្ងៃខែ) ចេញពីឯកសារទៅបំពេញតាមប្រឡោះនីមួយៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖