បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការទាញយកស្ថានភាពអារម្មណ៍ (Affective state) របស់អ្នកប្រើប្រាស់ និងការសម្របឥរិយាបថរបស់ប្រព័ន្ធសន្ទនាឱ្យស្របតាមស្ថានភាពទាំងនោះ ទោះបីជាមានភាពមិនប្រាកដប្រជា និងភាពស្រពិចស្រពិលក្នុងការសន្ទនារវាងមនុស្សនិងកុំព្យូទ័រក៏ដោយ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះផ្តោតលើការអភិវឌ្ឍវិធីសាស្ត្រគំរូសន្ទនារហ័ស (RDPM) និងប្រើប្រាស់វិធីសាស្ត្រគណិតវិទ្យា POMDP រួមបញ្ចូលគ្នាជាមួយបណ្តាញសម្រេចចិត្តសកម្ម (DDN) ដើម្បីបង្កើតប្រព័ន្ធគ្រប់គ្រងការសន្ទនា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hybrid DDN-POMDP Approach វិធីសាស្ត្រកូនកាត់ DDN និង POMDP (ស្នើឡើងដោយអ្នកនិពន្ធ) |
មានសមត្ថភាពពង្រីកទំហំប្រព័ន្ធបានធំ (អាចដោះស្រាយរន្ធរាប់រយ និងតម្លៃរាប់ពាន់) អាប់ដេតព័ត៌មានបានលឿន (Real-time) និងមានភាពរឹងមាំចំពោះកំហុសនៃការបញ្ចេញសំឡេង ឬអារម្មណ៍របស់អ្នកប្រើប្រាស់។ | ទាមទារការកែសម្រួលគំរូរង្វាន់ខាងក្នុង (Internal reward tuning) ដោយដៃ ហើយលទ្ធផលអាចមិនល្អឥតខ្ចោះ១០០% ដូចវិធីសាស្ត្រ POMDP ដើម។ | អាចធ្វើបច្ចុប្បន្នភាពជំនឿ (Belief update) ក្នុងរយៈពេលតិចជាង ១វិនាទី សម្រាប់រន្ធដែលមានតម្លៃរហូតដល់ ៥០០ និងទទួលបានពិន្ទុខ្ពស់ជាងវិធីសាស្ត្របង្កើតដោយដៃ។ |
| Approximate POMDP (Perseus / ZMDP) ការដោះស្រាយ POMDP បែបប៉ាន់ស្មានដោយប្រើ Perseus ឬ ZMDP |
អាចស្វែងរកគោលការណ៍ល្អបំផុត (Near-optimal policy) ដោយស្វ័យប្រវត្តិសម្រាប់បញ្ហាតូចៗ និងដោះស្រាយភាពមិនប្រាកដប្រជាបានយ៉ាងល្អឥតខ្ចោះ។ | ត្រូវការកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំង និងមិនអាចទប់ទល់នឹងបញ្ហាដែលមានទំហំធំបានទេ (Curse of dimensionality)។ | ដំណើរការបានល្អបំផុតសម្រាប់បញ្ហាដែលមានរន្ធតែមួយ (តិចជាង ១៥ ទៅ ៤៥ តម្លៃ) ប៉ុន្តែបរាជ័យទាំងស្រុងក្នុងការគណនាប្រព័ន្ធដែលមានរន្ធច្រើន។ |
| Handcrafted Policies (HC1, HC2, HC3) គោលការណ៍គ្រប់គ្រងការសន្ទនាបង្កើតដោយដៃផ្អែកលើវិធាន |
ងាយស្រួលក្នុងការសរសេរកូដ ដំណើរការលឿន និងមិនតម្រូវឱ្យមានការបង្វឹក (Training) ពីទិន្នន័យនោះទេ។ | ងាយនឹងបរាជ័យនៅពេលប្រព័ន្ធចាប់សំឡេងខុសច្រើន ឬនៅពេលអ្នកប្រើប្រាស់ផ្លាស់ប្តូរអារម្មណ៍ ដែលធ្វើឱ្យការសន្ទនាយូរ និងគួរឱ្យធុញ។ | ពិន្ទុដំណើរការ (Average return) ធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលដែលប្រូបាប៊ីលីតេនៃកំហុសបង្កឡើងដោយភាពតានតឹងកើនឡើង (pe >= 0.1)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការធ្វើតេស្តសាកល្បង ប៉ុន្តែទាមទារជំនាញកម្រិតខ្ពស់ក្នុងការរៀបចំម៉ូដែលគណិតវិទ្យា។
ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើការក្លែងធ្វើអ្នកប្រើប្រាស់ (User Simulation) និងទិន្នន័យសាកល្បង WoZ ដែលប្រមូលបានជាភាសាអឺរ៉ុប (អង់គ្លេស អាល្លឺម៉ង់ ហូឡង់) ព្រមទាំងប្រើប្រាស់គំរូអារម្មណ៍ផ្អែកលើចិត្តវិទ្យាលោកខាងលិច (OCC model)។ សម្រាប់ប្រទេសកម្ពុជា កង្វះខាតទិន្នន័យសន្ទនាជាភាសាខ្មែរ (Khmer Dialogue Corpora) និងភាពខុសគ្នានៃការបង្ហាញអារម្មណ៍តាមបែបវប្បធម៌ អាចជាឧបសគ្គចម្បងក្នុងការយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកភាសាក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធបម្រើសេវាកម្មឆ្លាតវៃនៅកម្ពុជា។
ការចាប់ផ្តើមប្រមូលទិន្នន័យសំឡេង និងអារម្មណ៍ជាភាសាខ្មែរ ហើយយកមកសាកល្បងជាមួយស្ថាបត្យកម្ម DDN-POMDP នេះ នឹងអាចផ្លាស់ប្តូរមុខមាត់សេវាកម្មអតិថិជនស្វ័យប្រវត្តិនៅកម្ពុជាឱ្យកាន់តែមានលក្ខណៈធម្មជាតិ និងប្រកបដោយការយល់ចិត្ត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Partially Observable Markov Decision Processes (POMDP) | ជាគំរូគណិតវិទ្យាមួយដែលជួយឱ្យប្រព័ន្ធកុំព្យូទ័រអាចធ្វើការសម្រេចចិត្តបានល្អបំផុតបន្តបន្ទាប់គ្នា ទោះបីជាវាទទួលបានព័ត៌មានមិនពេញលេញ ឬមិនច្បាស់លាស់ពីអ្នកប្រើប្រាស់ក៏ដោយ (ឧទាហរណ៍៖ ស្តាប់សំឡេងខុស ឬមិនប្រាកដពីអារម្មណ៍អ្នកប្រើ) ដោយប្រើប្រាស់ការគណនាប្រូបាប៊ីលីតេ។ | ដូចជាការព្យាយាមដើរក្នុងបន្ទប់ងងឹតដោយប្រើតែការស្ទាបស្ទង់ និងការចងចាំដើម្បីសម្រេចចិត្តថាត្រូវឈានជើងទៅណាត្រង់ណាដោយសុវត្ថិភាពបំផុត។ |
| Dynamic Decision Networks (DDN) | ជាបណ្តាញក្រាហ្វិកស្ថិតិដែលជួយប្រព័ន្ធកុំព្យូទ័រឱ្យចេះគណនានិងជ្រើសរើសសកម្មភាពបានរហ័ស ដោយការព្យាករណ៍ទុកជាមុននូវលទ្ធផលដែលអាចកើតមានក្នុងរយៈពេលខ្លីខាងមុខ ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញនៃការគណនាសម្រាប់ប្រព័ន្ធធំៗ។ | ដូចជាអ្នកលេងអុកដែលគិតទុកមុនត្រឹមតែ ២ ឬ ៣ ជំហានបន្ទាប់ ដើម្បីអាចដើរបានលឿន ជាជាងការអង្គុយគិតគ្រប់ជំហានរហូតដល់ចប់ហ្គេមដែលស៊ីពេលយូរ។ |
| Belief state | ជាការតំណាងស្ថានភាពពិតរបស់អ្នកប្រើប្រាស់ក្នុងទម្រង់ជា 'ប្រូបាប៊ីលីតេនៃការជឿជាក់' របស់ប្រព័ន្ធកុំព្យូទ័រ (ឧ. ភាគរយដែលអ្នកប្រើកំពុងខឹង ឬសប្បាយចិត្ត) ហើយវាអាប់ដេតជានិច្ចរាល់ពេលទទួលបានព័ត៌មានថ្មី (Observations)។ | ដូចជាគ្រូពេទ្យម្នាក់ដែលសន្និដ្ឋានពីភាគរយនៃជំងឺរបស់អ្នកជំងឺ (៧០% ផ្តាសាយ ៣០% គ្រុនឈាម) ហើយផ្លាស់ប្តូរភាគរយនៃការសន្និដ្ឋាននេះភ្លាមៗនៅពេលទទួលបានលទ្ធផលតេស្តឈាមថ្មី។ |
| Wizard of Oz (WoZ) | ជាវិធីសាស្ត្រសាកល្បងមួយនៅក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI ដែលតម្រូវឱ្យមនុស្សលួចបញ្ជាប្រព័ន្ធពីក្រោយខ្នង (ដើរតួជាកុំព្យូទ័រ) ដើម្បីឱ្យអ្នកប្រើប្រាស់គិតថាពួកគេកំពុងនិយាយជាមួយកុំព្យូទ័រផ្ទាល់ ក្នុងគោលបំណងប្រមូលទិន្នន័យ និងសិក្សាពីអាកប្បកិរិយាអ្នកប្រើមុននឹងសរសេរកូដ។ | ដូចជាការលេងអាយ៉ង ដែលមានមនុស្សនៅពីក្រោយខ្នងចាំកន្ត្រាក់ខ្សែបញ្ជាឱ្យអាយ៉ងមានចលនាដូចមានជីវិតពិតប្រាកដ ដើម្បីមើលពីប្រតិកម្មរបស់អ្នកទស្សនា។ |
| Affective Computing | ជាបច្ចេកវិទ្យាកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីឱ្យប្រព័ន្ធកុំព្យូទ័រអាចស្គាល់ យល់ដឹង បកស្រាយ និងឆ្លើយតបទៅនឹងស្ថានភាពអារម្មណ៍របស់មនុស្ស (ដូចជា ភាពតានតឹង ខឹង ឬសប្បាយ) ក្នុងអំឡុងពេលធ្វើអន្តរកម្ម។ | ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យមាន 'បេះដូង' អាចស្តាប់ដឹងថាម្ចាស់កំពុងមួម៉ៅតាមរយៈសម្លេង ហើយចេះនិយាយលួងលោម ឬប្តូរឥរិយាបថត្រឡប់មកវិញ។ |
| Frame-based dialogue model | ជាទម្រង់នៃការគ្រប់គ្រងការសន្ទនាដែលកុំព្យូទ័រសួរសំណួរទៅកាន់អ្នកប្រើប្រាស់ជាបន្តបន្ទាប់ ដើម្បីបំពេញចន្លោះទិន្នន័យដែលនៅខ្វះ (ឧទាហរណ៍៖ ប្រភេទអាហារ ទីតាំង និងកាលបរិច្ឆេទ) រហូតទាល់តែប្រព័ន្ធមានព័ត៌មានគ្រប់គ្រាន់ក្នុងការផ្តល់ចម្លើយ។ | ដូចជាអ្នករត់តុដែលកាន់កូនសៀវភៅមួយមានប្រអប់ទទេៗសម្រាប់បំពេញ ហើយសួរភ្ញៀវម្តងមួយៗ (ញ៉ាំអី? ផឹកអី? យកទឹកកកអត់?) រហូតដល់ពេញតារាងទើបដើរទៅកម្ម៉ង់ចុងភៅ។ |
| Value Iteration | ជាក្បួនអាល់កូរីត (Algorithm) សម្រាប់ជួយកុំព្យូទ័រក្នុងការស្វែងរកយុទ្ធសាស្ត្រ ឬសកម្មភាពដ៏ល្អបំផុត ដោយធ្វើការគណនាបូកសរុបរង្វាន់ដែលរំពឹងទុកពីជម្រើសនីមួយៗសារចុះសារឡើង រហូតទាល់តែរកឃើញគោលការណ៍ដែលលែងប្រែប្រួល។ | ដូចជាសិស្សម្នាក់ដែលព្យាយាមរកផ្លូវទៅសាលាឱ្យលឿនបំផុត ដោយសាកល្បងជិះតាមផ្លូវផ្សេងៗគ្នា ហើយកត់ត្រាទុកពេលវេលាដែលចំណេញជារៀងរាល់ថ្ងៃ រហូតរកឃើញផ្លូវមួយដែលល្អបំផុតមិនអាចកែប្រែបានទៀត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖