បញ្ហា (The Problem)៖ ប្រព័ន្ធកិច្ចសន្ទនាតាមរយៈសំឡេងបច្ចុប្បន្ន (SDSs) កំពុងជួបប្រទះបញ្ហាជាមួយនឹងភាពមិនប្រាកដប្រជាដែលបណ្តាលមកពីបណ្តាញសម្គាល់សំឡេងស្វ័យប្រវត្តិ (ASR) និងខ្វះខាតគំរូគ្រប់ជ្រុងជ្រោយផ្អែកលើទិន្នន័យអន្តរកម្មដែលអាចជួយណែនាំអាកប្បកិរិយារបស់ម៉ាស៊ីនឱ្យបានល្អប្រសើរ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រចំនួនបីដំណាក់កាល ដែលរួមមានការប្រមូលទិន្នន័យ ការបង្កើតគំរូកិច្ចសន្ទនា និងការគ្រប់គ្រងកិច្ចសន្ទនាដោយប្រើប្រាស់ POMDPs ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Traditional Methods (Rule-based & Thresholds) វិធីសាស្ត្រប្រពៃណី (ផ្អែកលើច្បាប់ និងកម្រិតកំណត់) |
ងាយស្រួលយល់ អភិវឌ្ឍរហ័ស និងងាយស្រួលដាក់ឱ្យដំណើរការក្នុងប្រព័ន្ធពាណិជ្ជកម្ម។ | មិនបានគិតគូរពីភាពមិនប្រាកដប្រជាឱ្យបានទូលំទូលាយ និងអាស្រ័យលើការកំណត់កម្រិត (Thresholds) ដោយដៃ។ | ប្រើជាមូលដ្ឋានប្រៀបធៀប (Baseline) នៅក្នុងប្រព័ន្ធពាណិជ្ជកម្មភាគច្រើន ប៉ុន្តែខ្វះភាពបត់បែនពេលមានកំហុស។ |
| Markov Decision Processes (MDPs) ដំណើរការសម្រេចចិត្តម៉ាកូវ (MDPs) |
ធ្វើគំរូពីភាពមិនប្រាកដប្រជានៃសកម្មភាពម៉ាស៊ីនបានល្អ និងអាចរៀនពីគោលការណ៍ល្អបំផុត (Optimal policies) ដោយស្វ័យប្រវត្តិ។ | មិនអាចធ្វើគំរូពីភាពមិនប្រាកដប្រជានៃស្ថានភាពបច្ចុប្បន្ន (State uncertainty) ដោយផ្ទាល់បានទេ ព្រោះវាសន្មតថាវាស្គាល់ស្ថានភាពច្បាស់។ | បង្ហាញពីភាពប្រសើរជាងវិធីសាស្ត្រប្រពៃណីក្នុងការស្វែងរកយុទ្ធសាស្ត្រល្អបំផុត ប៉ុន្តែនៅមានកម្រិតពេលប្រឈមនឹងកំហុស ASR។ |
| Partially Observable Markov Decision Processes (POMDPs) ដំណើរការ POMDPs (សំណើរបស់គម្រោង) |
អាចធ្វើគំរូបញ្ជូលគ្នានូវភាពមិនប្រាកដប្រជាទាំងអស់ (ជំនឿអ្នកប្រើប្រាស់ បណ្តាញ ASR និងស្ថានភាពកិច្ចសន្ទនា) យ៉ាងច្បាស់លាស់។ | មានភាពស្មុគស្មាញខ្លាំងក្នុងការគណនា និងទាមទារការព្យាយាមដោះស្រាយតាមបែបប៉ាន់ស្មាន (Approximate solutions)។ | គំរូសាកល្បង (Toy POMDP) បង្ហាញពីលទ្ធភាពខ្ពស់ក្នុងការសម្របខ្លួន និងកាត់បន្ថយកំហុសនៃការសន្ទនាប្រកបដោយប្រសិទ្ធភាព។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានច្រើនទាំងកម្លាំងមនុស្សសម្រាប់ការប្រមូលទិន្នន័យ និងកម្លាំងម៉ាស៊ីនកុំព្យូទ័រសម្រាប់ការគណនាគំរូគណិតវិទ្យាស្មុគស្មាញ។
ការសិក្សានេះផ្អែកលើទិន្នន័យ និងកិច្ចសន្ទនាជាភាសាអង់គ្លេស ព្រមទាំងមានការចូលរួមពីនិស្សិតនៅសាកលវិទ្យាល័យ Cambridge ប្រទេសអង់គ្លេស។ លក្ខណៈនៃការបញ្ចេញសំឡេង ទម្លាប់នៃការសន្ទនា និងអត្រាកំហុសនៃការសម្គាល់សំឡេង (WER) មានភាពខុសគ្នាស្រឡះពីមជ្ឈដ្ឋានអ្នកប្រើប្រាស់នៅប្រទេសកម្ពុជា។ ដូច្នេះ គំរូអ្នកប្រើប្រាស់ (User Model) ដែលបង្កើតឡើងក្នុងទីនេះ មិនអាចយកមកអនុវត្តផ្ទាល់ជាមួយភាសាខ្មែរដោយមិនមានការកែតម្រូវ ឬប្រមូលទិន្នន័យថ្មីនោះទេ។
ទោះបីជាមានឧបសគ្គខាងទិន្នន័យភាសា វិធីសាស្ត្រគណិតវិទ្យា POMDP នេះគឺមានតម្លៃខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃនៅកម្ពុជា។
សរុបមក ការអនុវត្តទ្រឹស្តីនេះនៅកម្ពុជាទាមទារការវិនិយោគជាមុនលើការប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរ (Khmer Spoken Dialogue Corpus) ទើបអាចទាញយកសក្តានុពលពេញលេញនៃម៉ូដែល POMDP បាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Partially Observable Markov Decision Process (POMDP) | ជាទម្រង់គណិតវិទ្យាមួយសម្រាប់ធ្វើការសម្រេចចិត្តក្នុងស្ថានភាពដែលប្រព័ន្ធកុំព្យូទ័រមិនដឹងច្បាស់១០០%ពីអ្វីដែលកំពុងកើតឡើង (អាចសង្កេតឃើញតែមួយផ្នែក) ដោយវាប្រើប្រូបាប៊ីលីតេដើម្បីប៉ាន់ស្មានស្ថានភាពពិតប្រាកដ និងជ្រើសរើសសកម្មភាពបន្ទាប់។ | ដូចជាការលេងលាក់កន្សែងដែលអ្នកត្រូវបិទភ្នែក ហើយត្រូវស្មានថាគេនៅឯណាដោយពឹងផ្អែកលើការស្តាប់សំឡេងជុំវិញខ្លួន។ |
| Automated Speech Recognition (ASR) | ជាបច្ចេកវិទ្យាដែលចាប់យកសំឡេងនិយាយរបស់មនុស្ស រួចបំប្លែងវាទៅជាអត្ថបទកូដកុំព្យូទ័រ។ នៅក្នុងប្រព័ន្ធសន្ទនា បណ្តាញនេះតែងតែបង្កើតកំហុស (ASR-channel uncertainty) ដោយសារការបាត់បង់សំនៀង ឬការស្តាប់ពាក្យខុស។ | ដូចជាលេខាដែលអង្គុយស្តាប់អ្នកនិយាយ រួចសរសេរតាមត្រង់ៗ ទោះបីជាពេលខ្លះស្តាប់ខុសក៏ដោយ។ |
| Grounding | ក្នុងកិច្ចសន្ទនា គឺជាដំណើរការដែលអ្នកនិយាយ និងអ្នកស្តាប់ព្យាយាមផ្ទៀងផ្ទាត់ និងបញ្ជាក់ប្រាប់គ្នាទៅវិញទៅមកថាពួកគេពិតជាយល់ស្រប និងយល់អត្ថន័យដូចគ្នា ដើម្បីធានាថាមិនមានការយល់ច្រឡំរវាងភាគីទាំងសងខាង។ | ដូចជាពេលអ្នកប្រាប់លេខទូរស័ព្ទទៅគេ ហើយគេអានលេខនោះត្រឡប់មកអ្នកវិញ ដើម្បីបញ្ជាក់ថាគេកត់បានត្រឹមត្រូវ។ |
| Wizard-of-Oz (WoZ) | ជាវិធីសាស្ត្រពិសោធន៍មួយដែលអ្នកប្រើប្រាស់គិតថាខ្លួនកំពុងសន្ទនាជាមួយប្រព័ន្ធកុំព្យូទ័រស្វ័យប្រវត្តិ ប៉ុន្តែតាមពិតមានមនុស្ស (Wizard) នៅពីក្រោយឆាកជាអ្នកវាយអត្ថបទ ឬបញ្ជាការឆ្លើយតប។ | ដូចជាកូនក្មេងគិតថាតុក្កតាចេះនិយាយឆ្លើយឆ្លងជាមួយខ្លួន តែតាមពិតមានមនុស្សលាក់ខ្លួននិយាយជំនួសវានៅពីក្រោយជញ្ជាំង។ |
| Barge-in | មុខងារនៅក្នុងប្រព័ន្ធសន្ទនាតាមរយៈសំឡេង ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់និយាយកាត់ប្រព័ន្ធ ឬបញ្ឈប់កុំព្យូទ័រនៅពេលវាកំពុងចាក់សំឡេងឆ្លើយតប។ | ដូចជាពេលមិត្តភក្តិកំពុងនិយាយរៀបរាប់វែងឆ្ងាយ ហើយអ្នកនិយាយកាត់កណ្តាលរឿងដោយមិនចាំគេនិយាយចប់។ |
| Belief State | ជារបាយប្រូបាប៊ីលីតេ (Probability distribution) នៅក្នុងគំរូ POMDP ដែលតំណាងឱ្យកម្រិតនៃការជឿជាក់របស់ម៉ាស៊ីនទៅលើស្ថានភាពបច្ចុប្បន្នរបស់អ្នកប្រើប្រាស់ ដោយសារវាមិនអាចដឹងពីបំណងពិតប្រាកដ១០០%។ | ដូចជាការសន្និដ្ឋានរបស់គ្រូពេទ្យថាអ្នកជំងឺអាចមានជំងឺ A ៧០% ឬជំងឺ B ៣០% ដោយផ្អែកលើការពិនិត្យរោគសញ្ញាជាក់ស្តែង។ |
| Reward Function | ការកំណត់ពិន្ទុ ឬរង្វាន់នៅក្នុងដំណើរការរៀនពង្រឹង (Reinforcement Learning) ដើម្បីប្រាប់ម៉ាស៊ីនថាតើសកម្មភាពដែលវាទើបធ្វើនោះល្អ ឬអាក្រក់ ក្នុងគោលបំណងជំរុញឱ្យវាស្វែងរកយុទ្ធសាស្ត្រសន្ទនាល្អបំផុតក្នុងរយៈពេលវែង។ | ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយឱ្យចំណីពេលវាធ្វើត្រូវ និងមិនឱ្យចំណីពេលវាធ្វើខុស។ |
| Turn-taking | ច្បាប់ ឬទម្លាប់នៃការផ្លាស់ប្តូរវេនគ្នានិយាយនៅក្នុងកិច្ចសន្ទនា ដើម្បីកុំឱ្យនិយាយជាន់គ្នា និងដឹងថាពេលណាត្រូវនិយាយ ពេលណាត្រូវស្តាប់។ | ដូចជាការគោរពភ្លើងស្តុបចរាចរណ៍ ដែលកំណត់ថាពេលណាខាងណាត្រូវរត់ ពេលណាត្រូវឈប់ ដើម្បីកុំឱ្យបុកគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖