បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការសម្របខ្លួនរួមគ្នា (co-adaptation) រវាងអ្នកប្រើប្រាស់ និងប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) ក្នុងកិច្ចការដែលមិនមានសហប្រតិបត្តិការ ដែលទាមទារឱ្យមានការផ្លាស់ប្តូរពីគំរូ MDP (Markov Decision Process) បែបប្រពៃណី។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើក្របខ័ណ្ឌហ្គេមស្តូកាស្ទិច (Stochastic Game) ដើម្បីធ្វើម៉ូដែលការសន្ទនា ដោយប្រើប្រាស់ភ្នាក់ងាររៀនពង្រឹង (RL agents) ដែលប្រកួតប្រជែងគ្នាក្នុងល្បែងសូន្យ-បូក (Zero-Sum game) ក្រោមលក្ខខណ្ឌក្លែងធ្វើដែលមានសម្លេងរំខាន។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Q-Learning ការរៀន Q-Learning តាមបែបប្រពៃណី |
ងាយស្រួលក្នុងការអនុវត្ត និងជានិមិត្តរូបនៃការរៀនពង្រឹង (Reinforcement Learning) ជាមូលដ្ឋាន។ | មិនអាចសម្របខ្លួនទៅនឹងបរិស្ថានដែលភ្នាក់ងារផ្សេងទៀតកំពុងផ្លាស់ប្តូរ (Non-stationarities) និងមិនរៀនប្រើប្រាស់សកម្មភាព 'confirm' ដើម្បីដោះស្រាយភាពមិនប្រាកដប្រជា។ | មិនអាចឈានដល់ចំណុចតុល្យភាព Nash Equilibrium ឡើយ ហើយរយៈពេលនៃការសន្ទនាបែរជាថយចុះនៅពេលដែលសម្លេងរំខាន (SER) កើនឡើង។ |
| WoLF-PHC ក្បួនដោះស្រាយ WoLF-PHC |
ព្យាយាមដោះស្រាយភាពមិនប្រាកដប្រជាដោយប្រើអត្រារៀនសូត្រអថេរ (Variable learning rate) ដើម្បីសម្របខ្លួនយឺតពេលឈ្នះ និងលឿនពេលចាញ់។ | ប្រើប្រាស់សកម្មភាព 'confirm' ច្រើនហួសហេតុពេក ទោះបីជាមិនមានសម្លេងរំខានក៏ដោយ ដោយសារតែវាមានទំនោរចាត់ទុកខ្លួនឯងថាជាអ្នកចាញ់ជានិច្ច។ | មិនអាចធានាការឈានដល់ចំណុចតុល្យភាព (Convergence) ក្នុងការសន្ទនានេះទេ ហើយចំនួននៃការសួរទាមទារការបញ្ជាក់គឺថេរជានិច្ច ទោះ SER ប្រែប្រួលក៏ដោយ។ |
| AGPI-Q (Approximate Generalized Policy Iteration-Q) ការអនុវត្តក្បួនដោះស្រាយ AGPI-Q |
អាចធានាបាននូវការឈានដល់ចំណុចតុល្យភាព Nash Equilibrium និងមានភាពរឹងមាំក្នុងការគ្រប់គ្រងសម្លេងរំខាន (Noise)។ | ទាមទារការបង្កើតទិន្នន័យក្លែងធ្វើ (Simulated data) ចំនួនច្រើនជាមុនសិន ដើម្បីដំណើរការជាទម្រង់ Batch RL។ | រយៈពេលនៃការសន្ទនា និងចំនួនសកម្មភាព 'confirm' កើនឡើងសមាមាត្រទៅនឹងកម្រិតនៃសម្លេងរំខាន (SER) ដែលបង្ហាញពីយុទ្ធសាស្ត្រដោះស្រាយបញ្ហាដ៏ឆ្លាតវៃ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើទិន្នន័យ (Simulation) ដូច្នេះធនធានចម្បងគឺថាមពលកុំព្យូទ័រសម្រាប់ការហ្វឹកហាត់ម៉ូដែលកម្រិតខ្ពស់ និងចំណេះដឹងផ្នែកគណិតវិទ្យា។
ការសិក្សានេះប្រើប្រាស់ត្រឹមតែទិន្នន័យក្លែងធ្វើ (Simulated interactions) នៅក្នុងហ្គេមទាយលេខ (Zero-Sum Dialogue Game) ដោយមិនមានការប្រើប្រាស់ទិន្នន័យសន្ទនាពិតប្រាកដរបស់មនុស្សឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាម៉ូដែលត្រូវតែយកមកសាកល្បងនិងកែសម្រួលជាមួយនឹងទិន្នន័យសន្ទនាភាសាខ្មែរពិតប្រាកដ (Real conversational logs) ព្រោះអាកប្បកិរិយារបស់មនុស្សមានភាពស្មុគស្មាញ និងមិនដើរតាមក្បួនតក្កវិទ្យាទាំងស្រុងដូចភ្នាក់ងារ AI នោះទេ។
វិធីសាស្ត្រក្នុងការចាត់ទុកការសន្ទនាជាហ្គេមស្តូកាស្ទិចនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ AI សន្ទនាឆ្លាតវៃ (Spoken Dialogue Systems) នៅកម្ពុជា ដែលជារឿយៗជួបបញ្ហាកំហុសក្នុងការចាប់សំឡេង (ASR errors)។
ជារួម ការផ្លាស់ប្តូរពីគំរូ MDP ធម្មតា មកប្រើប្រាស់ក្បួនដោះស្រាយរួមគ្នា (Joint optimization) នេះ គឺជាគន្លឹះដ៏សំខាន់សម្រាប់បង្កើត AI សន្ទនាភាសាខ្មែរដែលអាចទប់ទល់នឹងកំហុស NLU/ASR នាពេលអនាគត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Stochastic Game | ជាទម្រង់គណិតវិទ្យាដែលពង្រីកពីម៉ូដែល Markov Decision Process (MDP) សម្រាប់ប្រើប្រាស់ក្នុងស្ថានភាពដែលមានភ្នាក់ងារច្រើន (Multi-agent)។ នៅក្នុងការស្រាវជ្រាវនេះ វាមានន័យថាការផ្លាស់ប្តូរស្ថានភាពនៃការសន្ទនា និងរង្វាន់ដែលទទួលបាន គឺអាស្រ័យលើសកម្មភាពរួមគ្នារបស់ទាំងកុំព្យូទ័រ និងអ្នកប្រើប្រាស់ ដែលម្នាក់ៗមានគោលដៅផ្ទាល់ខ្លួន។ | ដូចជាការលេងអុកដែលអ្នកលេងទាំងសងខាងត្រូវផ្លាស់ប្តូរយុទ្ធសាស្ត្ររបស់ខ្លួនជានិច្ចទៅតាមសកម្មភាពរបស់អ្នកម្ខាងទៀត មិនមែនលេងទល់នឹងកុំព្យូទ័រដែលដើរតាមក្បួនដដែលៗនោះទេ។ |
| Nash Equilibrium | ជាចំណុចតុល្យភាពនៅក្នុងទ្រឹស្តីហ្គេម (Game Theory) ដែលភ្នាក់ងារនីមួយៗបានជ្រើសរើសយុទ្ធសាស្ត្រល្អបំផុតរបស់ខ្លួន ដោយផ្អែកលើយុទ្ធសាស្ត្ររបស់អ្នកដទៃ ហើយគ្មានអ្នកណាម្នាក់អាចទទួលបានផលចំណេញបន្ថែមដោយការផ្លាស់ប្តូរយុទ្ធសាស្ត្រតែឯកឯងនោះទេ។ | ដូចជាពេលដែលក្រុមហ៊ុនពីរលក់ទំនិញដូចគ្នា ហើយពួកគេទាំងពីរបានកំណត់តម្លៃមួយដែលគ្មានអ្នកណាហ៊ានបញ្ចុះតម្លៃឬតម្លើងថ្លៃទៀត ព្រោះបើធ្វើដូច្នេះគេនឹងខាតបង់។ |
| Reinforcement Learning | ជាវិធីសាស្ត្រមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារ (Agent) រៀនធ្វើសេចក្តីសម្រេចចិត្តតាមរយៈការសាកល្បងធ្វើសកម្មភាពនៅក្នុងបរិស្ថានមួយ ហើយទទួលបានរង្វាន់ (Reward) ពេលធ្វើត្រូវ ឬការពិន័យ (Punishment) ពេលធ្វើខុសត្រលប់មកវិញ។ | ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះអង្គុយ ដោយយើងឱ្យចំណីពេលវាធ្វើត្រូវ និងមិនឱ្យពេលវាធ្វើខុស។ |
| Zero-Sum Game | ជាប្រភេទហ្គេមដែលផលចំណេញរបស់អ្នកលេងម្នាក់ គឺជាការខាតបង់របស់អ្នកលេងម្នាក់ទៀតក្នុងទំហំស្មើគ្នា។ នៅក្នុងការស្រាវជ្រាវនេះ គេប្រើវាដើម្បីក្លែងធ្វើការប្រកួតប្រជែងរវាងមនុស្សនិងម៉ាស៊ីនក្នុងការទាយលេខសម្ងាត់ ដែលមិនមានការសហការគ្នាឡើយ។ | ដូចជាការចែកនំខេកមួយដុំ បើអ្នកម្ខាងយកចំណែកធំ អ្នកម្ខាងទៀតច្បាស់ជាទទួលបានចំណែកតូច។ |
| Co-adaptation | ដំណើរការដែលភ្នាក់ងារពីរ ឬច្រើនផ្លាស់ប្តូរអាកប្បកិរិយា និងសម្របយុទ្ធសាស្ត្ររបស់ពួកគេទៅវិញទៅមកជាបន្តបន្ទាប់ ស្របពេលដែលពួកគេកំពុងប្រាស្រ័យទាក់ទងគ្នា ឬប្រកួតប្រជែងគ្នា។ | ដូចជាអ្នករត់ប្រណាំងពីរនាក់ដែលម្នាក់ៗខិតខំរត់លឿនជាងមុន ដោយសារតែឃើញដៃគូម្ខាងទៀតបង្កើនល្បឿន។ |
| Spoken Dialogue System (SDS) | ជាប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានរចនាឡើងដើម្បីសន្ទនាជាមួយមនុស្សដោយប្រើភាសានិយាយ តាមរយៈការរួមបញ្ចូលនូវបច្ចេកវិទ្យាទទួលស្គាល់សំឡេង (ASR) និងការយល់ដឹងភាសា (NLU) សម្រាប់ធ្វើការសម្រេចចិត្តឆ្លើយតប។ | ដូចជាកម្មវិធី Siri ឬ Google Assistant ដែលអ្នកអាចនិយាយបញ្ជា ឬសួរសំណួរដោយផ្ទាល់មាត់បាន។ |
| Q-function | ជាអនុគមន៍គណិតវិទ្យាក្នុងម៉ូដែល Reinforcement Learning ដែលវាស់ស្ទង់តម្លៃ ឬគុណភាពនៃការរំពឹងទុក (Expected value) នៃសកម្មភាពណាមួយនៅពេលដែលភ្នាក់ងារស្ថិតក្នុងស្ថានភាពជាក់លាក់ ដើម្បីជួយសម្រេចចិត្តថាតើគួរជ្រើសរើសសកម្មភាពមួយណាទើបទទួលបានរង្វាន់ខ្ពស់បំផុតនៅទីបញ្ចប់។ | ដូចជាត្រីវិស័យក្នុងខួរក្បាលដែលប្រាប់យើងថាតើការដើរទៅផ្លូវខាងឆ្វេង ឬខាងស្តាំ មួយណាដែលនឹងនាំយើងទៅដល់គោលដៅលឿនជាង និងទទួលបានប្រាក់រង្វាន់ច្រើនជាង។ |
| AGPI-Q | ជាក្បួនដោះស្រាយមួយ (Approximate Generalized Policy Iteration-Q) ដែលអាចរកឃើញចំណុចតុល្យភាព Nash Equilibrium តាមរយៈការរៀនពីទិន្នន័យការសន្ទនាចាស់ៗ (Batch RL) ដោយមិនចាំបាច់មានទំនាក់ទំនងផ្ទាល់ជាមួយបរិស្ថានជាប្រចាំ ហើយវាមានប្រសិទ្ធភាពក្នុងការទប់ទល់នឹងសម្លេងរំខាននៃប្រព័ន្ធ ASR។ | ដូចជាសិស្សដែលរៀនពូកែដោយគ្រាន់តែមើលកម្រងលំហាត់ចាស់ៗដែលគេធ្លាប់ធ្វើខុស ឬត្រូវ រួចអាចស្វែងរកក្បួនដោះស្រាយដ៏ល្អឥតខ្ចោះដោយខ្លួនឯង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖