បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកំណត់កម្រិតទំនុកចិត្ត (Confidence Threshold) នៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេងនិយាយ ដែលការកំណត់កម្រិតថេរមិនអាចសម្របទៅនឹងការផ្លាស់ប្តូរនៃបរិយាកាសសំឡេងរំខាន ដែលធ្វើឱ្យប្រព័ន្ធកាត់ពាក្យត្រូវចោល ឬទទួលយកពាក្យខុសច្រើន។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការប្រៀបធៀបដំណើរការរវាងកម្រិតទំនុកចិត្តថេរ និងកម្រិតទំនុកចិត្តបន្សាំ ដោយប្រើប្រាស់ប្រព័ន្ធសន្ទនា SAPLEN និងម៉ាស៊ីនក្លែងធ្វើសំឡេងរំខាន ដើម្បីតាមដានប្រសិទ្ធភាពនៃការស្គាល់ពាក្យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Fixed Confidence Threshold (FT) កម្រិតទំនុកចិត្តថេរ (Fixed Confidence Threshold) |
ងាយស្រួលក្នុងការអនុវត្ត និងតំឡើង។ នៅកម្រិត FT=0.7 វាផ្តល់នូវការពេញចិត្តខ្ពស់ពីអ្នកប្រើប្រាស់ ដោយសារប្រព័ន្ធអាចសង្គ្រោះកំហុសដោយស្វ័យប្រវត្តិដោយមិនរំខានដល់អ្នកប្រើប្រាស់។ | មិនអាចបត់បែនតាមកម្រិតសំឡេងរំខានជាក់ស្តែងបាន។ ប្រសិនបើកម្រិតនេះខ្ពស់ពេក (ឧ. FT=0.9) អ្នកប្រើប្រាស់ភាគច្រើន (៧៥%) នឹងបោះបង់ការសន្ទនាដោយសារប្រព័ន្ធបដិសេធពាក្យញឹកញាប់ពេក។ | រយៈពេលសន្ទនាមធ្យមគឺ ២៥,០៤ វេន និងអត្រាយល់ដឹងប្រយោគគឺ ៨២,២៥% (នៅកម្រិតថេរ FT=0.6)។ |
| Adaptive Confidence Threshold (ACT) កម្រិតទំនុកចិត្តបែបបន្សាំ (Adaptive Confidence Threshold) |
អាចកែតម្រូវដោយស្វ័យប្រវត្តិទៅតាមស្ថានភាពបរិស្ថាន និងកម្រិតសំឡេងរំខាន។ ជួយកាត់បន្ថយរយៈពេលនៃការសន្ទនាសរុប និងបង្កើនភាពត្រឹមត្រូវនៃការយល់ដឹងប្រយោគ។ | យុទ្ធសាស្ត្រនៃការធ្វើបច្ចុប្បន្នភាពកម្រិតនេះនៅមានលក្ខណៈសាមញ្ញនៅឡើយ (ប្រើប្រាស់មធ្យមភាគពីអន្តរកម្មមុនៗ) ហើយទើបតែបានសាកល្បងក្នុងលក្ខខណ្ឌក្លែងធ្វើសំឡេងរំខាន (Simulated conditions) ប៉ុណ្ណោះ។ | កាត់បន្ថយរយៈពេលសន្ទនាមកត្រឹម ២១,៣៤ វេន និងបង្កើនអត្រាយល់ដឹងប្រយោគដល់ ៨៦,៩៦%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តបច្ចេកទេសនេះទាមទារនូវប្រព័ន្ធទទួលស្គាល់សំឡេង (Speech Recognizer) ដែលមានសមត្ថភាពបញ្ចេញតម្លៃកម្រិតទំនុកចិត្ត (Confidence Measures) និងហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រសម្រាប់ការគណនាជាប្រចាំ។
ការសិក្សានេះត្រូវបានធ្វើឡើងជាភាសាអេស្ប៉ាញ ដោយផ្តោតលើបរិបទនៃការកុម្ម៉ង់អាហាររហ័ស (Fast-food) ជាមួយអ្នកប្រើប្រាស់ចំនួន ១០០ នាក់ និងការក្លែងធ្វើសំឡេងរំខានក្នុងបន្ទប់ពិសោធន៍។ សម្រាប់ប្រទេសកម្ពុជា វាជាការចាំបាច់ណាស់ដែលត្រូវទាមទារការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគ្រាមភាសាផ្សេងៗគ្នា និងការសាកល្បងក្នុងបរិយាកាសជាក់ស្តែងដែលមានសំឡេងរំខានច្រើន (ដូចជាតាមដងផ្លូវ ឬហាងកាហ្វេ) ដើម្បីធានាបាននូវប្រសិទ្ធភាពពិតប្រាកដ។
បច្ចេកទេសកម្រិតទំនុកចិត្តបន្សាំនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិដោយប្រើសំឡេង (Voicebots) នៅក្នុងប្រទេសកម្ពុជា។
ជារួម ការប្រើប្រាស់បច្ចេកទេស ACT នឹងជួយឱ្យប្រព័ន្ធបញ្ជាដោយសំឡេងភាសាខ្មែរកាន់តែមានភាពបត់បែន ងាយស្រួលប្រើ និងកាត់បន្ថយភាពធុញទ្រាន់របស់អតិថិជនក្នុងស្ថានភាពមានសំឡេងរំខាននៃជីវិតប្រចាំថ្ងៃ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Spoken Dialogue Systems | ប្រព័ន្ធកុំព្យូទ័រដែលអាចសន្ទនាជាមួយមនុស្សដោយប្រើសំឡេង តាមរយៈការស្តាប់ (Speech Recognition) ការយល់ន័យ (Understanding) និងការឆ្លើយតបជាសំឡេងត្រឡប់មកវិញ (Speech Synthesis)។ | ដូចជាជំនួយការឆ្លាតវៃ (Siri របស់ Apple ឬ Google Assistant) ដែលយើងអាចនិយាយបញ្ជា ឬសួរសំណួរវាបានដោយផ្ទាល់មាត់។ |
| Confidence Threshold | កម្រិតពិន្ទុអប្បបរមាដែលប្រព័ន្ធកុំព្យូទ័រកំណត់ ដើម្បីសម្រេចថា តើពាក្យដែលវាស្តាប់ឮនោះត្រឹមត្រូវឬអត់។ បើពិន្ទុដែលប្រព័ន្ធវាយតម្លៃទាបជាងកម្រិតនេះ វាចាត់ទុកថាជាកំហុស ហើយទាមទារឱ្យអ្នកនិយាយម្តងទៀត។ | ដូចជាពិន្ទុប្រឡងជាប់ បើប្រព័ន្ធស្តាប់ឮច្បាស់ហើយវាឱ្យពិន្ទុខ្លួនឯងលើសកម្រិតនេះ វាគិតថាវាស្តាប់បានត្រឹមត្រូវហើយ។ |
| Adaptive Confidence Threshold (ACT) | បច្ចេកទេសដែលប្រព័ន្ធអាចផ្លាស់ប្តូរកម្រិតទំនុកចិត្តរបស់ខ្លួនដោយស្វ័យប្រវត្តិ ទៅតាមស្ថានភាពរំខាននៃបរិយាកាសជុំវិញអ្នកនិយាយ ដោយផ្អែកលើការបូកសរុបមធ្យមភាគនៃប្រវត្តិសន្ទនាមុនៗ។ | ដូចជាមនុស្សយើងដែរ ពេលនៅកន្លែងស្ងាត់យើងស្តាប់គ្នាតាមធម្មតា តែពេលមានសំឡេងឡូឡា យើងដឹងខ្លួនឯងថាយើងត្រូវផ្ទៀងត្រចៀកស្តាប់ឱ្យបានច្បាស់ជាងមុន ឬសួរវែកញែកបន្ថែមដើម្បីកុំឱ្យស្តាប់ខុស។ |
| Semi-Continuous Hidden Markov Models (SCHMM) | ម៉ូដែលគណិតវិទ្យាស្ថិតិដែលត្រូវបានប្រើប្រាស់នៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេង ដើម្បីបំប្លែងរលកសំឡេងទៅជាឯកតាពាក្យ ដោយរួមបញ្ចូលគ្នានូវលក្ខណៈពិសេសនៃសូរសព្ទបន្តបន្ទាប់គ្នា និងប្រូបាប៊ីលីតេ។ | ដូចជាអ្នកបកប្រែដែលស្មានពាក្យបន្ទាប់ ដោយផ្អែកលើការវិភាគចង្វាក់បញ្ចេញសំឡេងដែលផ្លាស់ប្តូរជាបន្តបន្ទាប់ពីមួយម៉ាត់ទៅមួយម៉ាត់។ |
| Bigrams | ទម្រង់ម៉ូដែលភាសាស្ថិតិដែលព្យាករណ៍ពាក្យមួយ ដោយពឹងផ្អែកទៅលើពាក្យតែមួយគត់ដែលនៅពីមុខវា ដើម្បីជួយឱ្យប្រព័ន្ធកាត់ន័យប្រយោគ និងទទួលស្គាល់ពាក្យបានត្រឹមត្រូវជាងមុន។ | ដូចជាពេលយើងឃើញពាក្យ "ញ៉ាំ" នោះប្រព័ន្ធអាចទាយទុកមុនថាពាក្យបន្ទាប់មានភាគរយខ្ពស់ថាជាពាក្យ "បាយ" ឬ "ទឹក"។ |
| Implicit Recovery | សមត្ថភាពរបស់ប្រព័ន្ធសន្ទនាក្នុងការបន្តដំណើរការទៅមុខយ៉ាងរលូន និងកែតម្រូវកំហុសនៃការស្តាប់ដោយស្ងាត់ៗ ដោយមិនចាំបាច់សួរអ្នកប្រើប្រាស់ឱ្យនិយាយបញ្ជាក់ម្តងទៀតចំៗឡើយ។ | ដូចជាពេលមិត្តភក្តិនិយាយមិនសូវច្បាស់ តែយើងនៅតែអាចស្មានដឹងថាគេចង់និយាយពីអ្វីតាមរយៈបរិបទ ហើយឆ្លើយតបទៅវិញបានយ៉ាងរលូនដោយមិនបាច់សួរគេឱ្យនិយាយឡើងវិញ។ |
| Turn Correction Ratio (TCR) | អត្រានៃចំនួនវេនសន្ទនាដែលអ្នកប្រើប្រាស់ត្រូវធ្វើការកែតម្រូវ ឬនិយាយបញ្ជាក់ម្តងទៀត ធៀបនឹងចំនួនវេនសន្ទនាសរុប។ វាជារង្វាស់សម្រាប់វាស់ភាពរអាក់រអួល និងប្រសិទ្ធភាពនៃការសន្ទនា។ | ដូចជាការរាប់ចំនួនដងដែលយើងត្រូវប្រកែកថា "អត់ទេ ខ្ញុំចង់មានន័យថា..." ពេលកំពុងជជែកជាមួយនរណាម្នាក់ដែលស្តាប់យើងមិនសូវបាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖