បញ្ហា (The Problem)៖ ការកសាងប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) សម្រាប់ដែនកម្មវិធីផ្សេងៗគ្នាត្រូវចំណាយពេលច្រើន ដោយសារសមាសធាតុនីមួយៗទាមទារទិន្នន័យជាក់លាក់សម្រាប់ដែននោះដើម្បីយកមកធ្វើការបង្វឹក។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រថ្មីមួយដើម្បីលុបបំបាត់ការពឹងផ្អែកលើដែនកំណត់ ដោយប្រើប្រាស់ការធ្វើប៉ារ៉ាម៉ែត្រលើអុនតូឡូស៊ី (Ontology Parameterisation) និងដំណើរការបង្វឹកតាមរយៈការពង្រឹង (Reinforcement Learning)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| DIP in-domain ការបង្វឹកគោលការណ៍ DIP ក្នុងដែនផ្ទាល់ |
ទទួលបានអត្រាជោគជ័យខ្ពស់បំផុត និងមានភាពសុក្រឹតល្អក្នុងការឆ្លើយតប។ | ទាមទារពេលវេលា និងធនធានច្រើនក្នុងការប្រមូលទិន្នន័យបង្វឹកសម្រាប់ដែននីមួយៗពីដំបូង។ | អត្រាជោគជ័យ ៩៨.៣% លើការក្លែងធ្វើសន្ទនា និង ៨៤.៤% លើការសាកល្បងជាមួយមនុស្សពិត ព្រមទាំងទទួលបានពិន្ទុភាពធម្មជាតិ ៤.៥១/៦។ |
| DIP transferred ការផ្ទេរគោលការណ៍ DIP ពីដែនផ្សេង |
អាចយកទៅប្រើប្រាស់ក្នុងដែនថ្មីបានភ្លាមៗដោយមិនបាច់បង្វឹកឡើងវិញ ចំណេញពេលវេលា និងថវិកា។ | អត្រាជោគជ័យធ្លាក់ចុះបន្តិចបន្តួច បើធៀបនឹងការបង្វឹកដោយប្រើទិន្នន័យក្នុងដែនផ្ទាល់។ | អត្រាជោគជ័យ ៩៧.៨% លើការក្លែងធ្វើសន្ទនា និង ៨១.៤% លើមនុស្សពិត ប៉ុន្តែទទួលបានពិន្ទុភាពធម្មជាតិខ្ពស់ជាងបន្តិច (៤.៨៣/៦)។ |
| BUDS GP-SARSA ប្រព័ន្ធ BUDS ប្រើប្រាស់ GP-SARSA |
ជាប្រព័ន្ធគោលដែលមានប្រសិទ្ធភាព ដែលប្រើប្រាស់ស្ថានភាពជំនឿពេញលេញ (Full belief state) សម្រាប់ការសម្រេចចិត្ត។ | ត្រូវការពេលវេលាយូរក្នុងការបង្វឹក (Converge យឺត) បើធៀបទៅនឹងវិធីសាស្ត្រ DIP ថ្មី។ | ទទួលបានរង្វាន់មធ្យម (Average reward) ទាបជាងបន្តិច និងមានល្បឿនបង្វឹកយឺតជាង DIP (យោងតាមគំនូសតាងទី១)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវាទាមទារកម្លាំងម៉ាស៊ីនគណនាសមរម្យសម្រាប់ដំណើរការ Reinforcement Learning និងប្រព័ន្ធក្លែងធ្វើ។
ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើសន្ទនា និងទិន្នន័យសាកល្បងពីអ្នកប្រើប្រាស់នៅលើប្រព័ន្ធ MTurk ដែលភាគច្រើនជាអ្នកនិយាយភាសាអង់គ្លេសនៅលោកខាងលិច។ ទម្រង់នៃការសន្ទនា និងអាកប្បកិរិយារបស់អ្នកប្រើប្រាស់ទាំងនេះអាចមានភាពខុសគ្នាស្រឡះពីបរិបទវប្បធម៌ និងភាសាខ្មែរ។ នេះជារឿងសំខាន់សម្រាប់កម្ពុជា ព្រោះការបង្កើតប្រព័ន្ធសន្ទនាឆ្លាតវៃជាភាសាខ្មែរ ទាមទារការយល់ដឹងពីរបៀបនិយាយកាត់ និយាយឆិត ឬការប្រើប្រាស់ពាក្យពេចន៍ក្នុងស្រុកពិតប្រាកដ។
វិធីសាស្ត្រនៃការផ្ទេរគោលការណ៍សន្ទនាដោយមិនពឹងផ្អែកលើដែនកំណត់នេះ គឺមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ដែលជាប្រទេសកំពុងមានបញ្ហាខ្វះខាតទិន្នន័យ (Low-resource settings)។
ជារួម បច្ចេកវិទ្យានេះផ្តល់នូវផ្លូវកាត់ដ៏មានប្រសិទ្ធភាពក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI សន្ទនាឆ្លាតវៃនៅកម្ពុជា ដោយជួយកាត់បន្ថយពេលវេលា និងថ្លៃចំណាយក្នុងការប្រមូលទិន្នន័យយ៉ាងសន្ធឹកសន្ធាប់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Partially Observable Markov Decision Processes (POMDPs) | ម៉ូដែលគណិតវិទ្យាសម្រាប់ធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ ក្នុងស្ថានភាពដែលប្រព័ន្ធមិនមានព័ត៌មានគ្រប់ជ្រុងជ្រោយ ឬច្បាស់លាស់ (ឧ. សំឡេងអ្នកប្រើប្រាស់ស្តាប់មិនសូវបានដោយសារសំឡេងរំខាន) ដោយប្រព័ន្ធត្រូវប្រើប្រូបាប៊ីលីតេដើម្បីប៉ាន់ស្មានស្ថានភាពពិតប្រាកដ។ | ដូចជាគ្រូពេទ្យវាយតម្លៃរោគសញ្ញាជំងឺដោយការស្មានផ្អែកលើព័ត៌មានមានកម្រិត រួចសម្រេចចិត្តថាតើត្រូវផ្តល់ថ្នាំប្រភេទណា។ |
| Dialogue Policy | ក្បួន ឬយុទ្ធសាស្ត្រដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ប្រើប្រាស់ដើម្បីសម្រេចថាតើវាគួរឆ្លើយតប ឬធ្វើសកម្មភាពអ្វីបន្តទៀតទៅកាន់អ្នកប្រើប្រាស់ ដោយផ្អែកលើស្ថានភាពបច្ចុប្បន្ននៃការសន្ទនា ដើម្បីឈានទៅសម្រេចគោលដៅ។ | ដូចជាសៀវភៅណែនាំរបស់បុគ្គលិកបម្រើសេវាកម្មអតិថិជន ដែលប្រាប់ថាតើត្រូវឆ្លើយតបបែបណានៅពេលអតិថិជនសួរ ឬត្អូញត្អែរ។ |
| Domain Ontology | រចនាសម្ព័ន្ធព័ត៌មានដែលកំណត់ពីប្រភេទនៃទិន្នន័យ (Slots) និងតម្លៃរបស់វា (Values) នៅក្នុងប្រធានបទ ឬដែនកម្មវិធីជាក់លាក់ណាមួយ។ ឧទាហរណ៍ ក្នុងដែនភោជនីយដ្ឋាន អុនតូឡូស៊ីរួមមាន តម្លៃ ប្រភេទអាហារ និងទីតាំង។ | ដូចជាតារាងម៉ឺនុយនៅក្នុងហាងកាហ្វេ ដែលបែងចែកប្រភេទភេសជ្ជៈ ទំហំកែវ និងកម្រិតជាតិស្ករយ៉ាងច្បាស់លាស់។ |
| Reinforcement Learning (RL) | វិធីសាស្ត្រមួយនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលប្រព័ន្ធរៀនធ្វើសកម្មភាពតាមរយៈការសាកល្បងនិងកំហុស ដោយទទួលបានរង្វាន់ (Reward) នៅពេលវាធ្វើសកម្មភាពត្រឹមត្រូវ និងការពិន័យ (Penalty) នៅពេលធ្វើខុស។ | ដូចជាការបង្ហាត់សត្វឆ្កែ ដោយផ្តល់ចំណីនៅពេលវាស្តាប់បង្គាប់ និងស្តីបន្ទោសនៅពេលវាធ្វើខុស។ |
| Belief State | ការចែកចាយប្រូបាប៊ីលីតេទៅលើអ្វីដែលអ្នកប្រើប្រាស់ចង់បាន (User Goal) នៅពេលណាមួយនៃការសន្ទនា ដោយសារប្រព័ន្ធមិនអាចដឹងប្រាកដ ១០០% ថាអ្នកប្រើប្រាស់ពិតជាចង់បានអ្វីនោះទេ ដោយសារកំហុសនៃការស្តាប់ (ASR errors)។ | ដូចជាការស្មានរបស់អ្នកលក់ថាភ្ញៀវទំនងជាចង់ទិញអាវពណ៌ក្រហម ៨០% ឬពណ៌ខៀវ ២០% ផ្អែកលើការសម្លឹងមើលរបស់ភ្ញៀវ។ |
| Domain-Independent Featurisation | ការបំប្លែងលក្ខណៈនៃទិន្នន័យ (Features) ឱ្យទៅជាទម្រង់រួមមួយដែលមិនអាស្រ័យលើប្រធានបទ ឬដែនកំណត់ណាមួយ ដើម្បីឱ្យម៉ូដែលដែលបានហ្វឹកហាត់រួចអាចយកទៅប្រើប្រាស់ជាមួយប្រធានបទថ្មីផ្សេងទៀតបានដោយមិនបាច់ហ្វឹកហាត់ពីដំបូងឡើយ។ | ដូចជាការរៀនបើកបររថយន្តដោយយល់ពីគោលការណ៍ប្រើចង្កូតនិងហ្វ្រាំង ដែលអាចឱ្យអ្នកយកទៅបើកបររថយន្តម៉ាកអ្វីក៏បាន។ |
| GP-SARSA | ក្បួនដោះស្រាយមួយក្នុង Reinforcement Learning ដែលប្រើប្រាស់ Gaussian Processes (GP) ដើម្បីជួយឱ្យប្រព័ន្ធរៀនពីយុទ្ធសាស្ត្រសន្ទនាបានលឿន និងអាចទស្សន៍ទាយសកម្មភាពល្អបំផុតក្នុងស្ថានភាពដែលមិនធ្លាប់ជួបពីមុនមក។ | ដូចជាសិស្សពូកែដែលចេះទាញបទពិសោធន៍ពីការដោះស្រាយលំហាត់ចាស់ៗ មកទាយដោះស្រាយលំហាត់ថ្មីបានយ៉ាងលឿន និងត្រឹមត្រូវ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖