Original Title: Optimizing dialog policy with large action spaces using deep reinforcement learning
Source: doi.org/10.11591/ijeecs.v36.i1.pp428-440
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរនូវគោលការណ៍សន្ទនាជាមួយលំហសកម្មភាពធំៗដោយប្រើប្រាស់ការរៀនពង្រឹងស៊ីជម្រៅ

ចំណងជើងដើម៖ Optimizing dialog policy with large action spaces using deep reinforcement learning

អ្នកនិពន្ធ៖ Manisha Thakkar (MIT World Peace University), Nitin Pise (MIT World Peace University)

ឆ្នាំបោះពុម្ព៖ 2024 Indonesian Journal of Electrical Engineering and Computer Science

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាផ្ដោតលើកិច្ចការ (Task-Oriented Dialogue Systems) ភាគច្រើនប្រើប្រាស់វិធានកំណត់ទុកជាមុនដែលពិបាកក្នុងការពង្រីក ខណៈការប្រើប្រាស់ការរៀនពង្រឹងស៊ីជម្រៅ (DRL) ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងកម្មវិធីក្លែងធ្វើអ្នកប្រើប្រាស់ដែលស្មុគស្មាញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រពីរជំហានដោយរួមបញ្ចូលការរៀនត្រាប់តាម (Imitation Learning) និងក្បួនដោះស្រាយការរៀនពង្រឹង (Reinforcement Learning) ដើម្បីបង្កើនល្បឿននៃការបង្វឹកម៉ូដែលសន្ទនា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Supervised Learning (MLE)
ការរៀនតាមបែបមានការគ្រប់គ្រង (Supervised Learning - MLE)
ងាយស្រួលក្នុងការអនុវត្ត និងដើរតួជាមូលដ្ឋានគ្រឹះ (Warm-up) ដ៏ល្អសម្រាប់ការបង្វឹកបន្ត។ មានអត្រាជោគជ័យទាបបំផុតក្នុងការបញ្ចប់កិច្ចការ និងមិនសូវមានភាពបត់បែនក្នុងបរិស្ថានថ្មី។ អត្រាជោគជ័យ ៤៨,៤% និងអត្រាបញ្ចប់កិច្ចការ ៥២,៦% ក្នងស្ថាបត្យកម្ម Pipeline។
Policy Gradient (PG)
ក្បួនដោះស្រាយ Policy Gradient (PG)
អាចរៀនពីបទពិសោធន៍ផ្ទាល់តាមរយៈយន្តការវាយតម្លៃ និងផ្តល់រង្វាន់។ បង្ហាញលទ្ធផលខ្សោយជាងគេក្នុងការធ្វើឱ្យសម្រេចគោលដៅសន្ទនា ដោយមានវេនសន្ទនាច្រើន។ អត្រាជោគជ័យត្រឹមតែ ៤៤,៣% និងប្រើវេនសន្ទនាជាមធ្យម ១៤,៦៩។
Guided dialogue policy learning (GDPL)
ការរៀនគោលការណ៍សន្ទនាដោយប្រើ Adversarial Inverse RL (GDPL)
មានល្បឿននៃការធ្វើសមាហរណកម្ម (Convergence speed) លឿនជាងក្បួនដោះស្រាយ PPO។ អត្រាជោគជ័យនៅតែទាប (មិនដល់ ៥០%) ដែលមិនទាន់អាចប្រើប្រាស់ជាផ្លូវការបានល្អ។ អត្រាជោគជ័យ ៤៨,៥% និងប្រើវេនសន្ទនាជាមធ្យម ១១,៤៧។
Proximal Policy Optimization (PPO) with Behavior Cloning
ក្បួនដោះស្រាយ PPO រួមបញ្ចូលជាមួយការរៀនត្រាប់តាម (វិធីសាស្ត្រស្នើឡើង)
កាត់បន្ថយពេលវេលាបង្វឹកពីចំណុចសូន្យ និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការសន្ទនាពហុវិស័យ ដោយប្រើប៉ារ៉ាម៉ែត្រតិច។ ទាមទារទិន្នន័យគំរូអ្នកជំនាញដែលគ្មានកំហុស ដើម្បីជៀសវាងការចម្លងកំហុស (Error replication) ទៅក្នុងប្រព័ន្ធ។ អត្រាជោគជ័យ ៧៦,៤% (ដល់ទៅ ៩១,៨% ក្នុងការសាកល្បងខ្លះ) និងកាត់បន្ថយវេនសន្ទនាបានប្រមាណ ៥០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រមធ្យមសម្រាប់ការបង្វឹកម៉ូដែល ការរៀនពង្រឹង (RL) ប៉ុន្តែវិធីសាស្ត្រដែលបានស្នើឡើងជួយកាត់បន្ថយបន្ទុកកុំព្យូទ័រ និងទំហំប៉ារ៉ាម៉ែត្របានយ៉ាងច្រើនបើធៀបនឹងម៉ូដែល End-to-End។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យ MultiWOZ2.1 ដែលជាការសន្ទនាជាភាសាអង់គ្លេសផ្តោតលើវិស័យទេសចរណ៍នៅប៉ែកអឺរ៉ុប។ សម្រាប់បរិបទប្រទេសកម្ពុជា អាកប្បកិរិយានៃការសន្ទនា ការប្រើប្រាស់ពាក្យពេចន៍ និងរចនាសម្ព័ន្ធទិន្នន័យទេសចរណ៍អាចមានទម្រង់ខុសប្លែកពីនេះទាំងស្រុង។ ដូចនេះ វាចាំបាច់ត្រូវមានការប្រមូលនិងរៀបចំទិន្នន័យជាភាសាខ្មែរដែលមានគុណភាពខ្ពស់ ដើម្បីឱ្យប្រព័ន្ធនេះអាចដំណើរការបានពិតប្រាកដ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍជំនួយការឆ្លាតវៃ (Chatbots) នៅកម្ពុជា ដោយសារវាត្រូវការកម្លាំងកុំព្យូទ័រតិចជាងការប្រើប្រាស់ម៉ូដែលភាសាខ្នាតធំ (LLMs)។

ការប្រើប្រាស់វិធីសាស្ត្របំពង់ក (Pipeline) រួមជាមួយការរៀនពង្រឹងនេះ គឺជាជម្រើសដ៏ស័ក្តិសមសម្រាប់ស្ថាប័នកម្ពុជាក្នុងការកសាងប្រព័ន្ធ AI ផ្ទាល់ខ្លួន ដោយមិនចាំបាច់ពឹងផ្អែកទាំងស្រុងលើសេវាកម្មបរទេសដែលមានតម្លៃថ្លៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាស្វែងយល់ពីប្រព័ន្ធសន្ទនាបែប Pipeline: និស្សិតគប្បីចាប់ផ្តើមជាមួយនឹងការស្វែងយល់អំពីសមាសធាតុចម្បងៗដូចជា NLU, DST, POL និង NLG ដោយប្រើប្រាស់ ConvLab-3 framework ដើម្បីសាកល្បងដំណើរការប្រព័ន្ធសន្ទនាគំរូ។
  2. ប្រមូល និងរៀបចំទិន្នន័យសន្ទនាភាសាខ្មែរ: ផ្តោតលើវិស័យជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ការកក់សំបុត្រឡានក្រុងភ្នំពេញ-សៀមរាប) ហើយប្រមូលទិន្នន័យសន្ទនាពិតប្រាកដ រួចធ្វើចំណារទិន្នន័យ (Annotation) តាមទម្រង់ស្តង់ដារ MultiWOZ format
  3. អនុវត្តការរៀនត្រាប់តាម (Imitation Learning): សរសេរកូដដើម្បីបង្វឹកម៉ូដែលគោលការណ៍សន្ទនា (Dialogue Policy) កម្រិតដំបូងដោយប្រើប្រាស់បច្ចេកទេស Behavior Cloning តាមរយៈ Supervised Learning លើទិន្នន័យដែលបានរៀបចំ។
  4. ពង្រឹងភាពឆ្លាតវៃជាមួយក្បួនដោះស្រាយ PPO: ប្រើប្រាស់ទម្ងន់ម៉ូដែលពីជំហានមុន (Pre-trained weights) មកធ្វើការបង្វឹកបន្តដោយប្រើក្បួនដោះស្រាយ Proximal Policy Optimization (PPO) រួមជាមួយនឹងកម្មវិធីក្លែងធ្វើអ្នកប្រើប្រាស់ (User Simulator) ដើម្បីបង្រៀន AI ឱ្យចេះដោះស្រាយកាលៈទេសៈស្មុគស្មាញ។
  5. វាយតម្លៃ និងធ្វើសមាហរណកម្មទៅកាន់កម្មវិធីប្រើប្រាស់: សាកល្បងវាស់ស្ទង់អត្រាជោគជ័យ និងចំនួនវេនសន្ទនា (Turns) រួចអភិវឌ្ឍចំណុចប្រទាក់ (API) ភ្ជាប់ប្រព័ន្ធនេះទៅកាន់បណ្ដាញទំនាក់ទំនងពេញនិយមនៅកម្ពុជា ដូចជា Telegram Bot ឬ Facebook Messenger។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Dialogue policy ជាសមាសភាគស្នូលមួយនៃប្រព័ន្ធសន្ទនាដែលមានតួនាទីសម្រេចចិត្តជ្រើសរើសសកម្មភាពបន្ទាប់ (ដូចជាការសួរសំណួរបន្ថែម ឬផ្តល់ចម្លើយ) ដោយផ្អែកលើស្ថានភាពសន្ទនាបច្ចុប្បន្ន ដើម្បីជួយសម្រេចគោលដៅរបស់អ្នកប្រើប្រាស់ឱ្យបានលឿននិងត្រឹមត្រូវ។ ដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋានដែលដឹងថាពេលណាត្រូវសួរភ្ញៀវពីការកុម្ម៉ង់ម្ហូប និងពេលណាត្រូវយកវិក្កយបត្រមកគិតប្រាក់។
Deep reinforcement learning ជាបច្ចេកទេសបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលរួមបញ្ចូលបណ្ដាញសរសៃប្រសាទ (Neural Networks) ជាមួយនឹងការរៀនពង្រឹង (Reinforcement Learning) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័ររៀនធ្វើការសម្រេចចិត្តក្នុងស្ថានភាពស្មុគស្មាញ និងទិន្នន័យធំៗ តាមរយៈការសាកល្បងនិងកំហុស ដោយប្រព័ន្ធទទួលបានរង្វាន់ឬពិន័យ។ ដូចជាការបង្វឹកសត្វឆ្កែឱ្យចេះចាប់បាល់ ដោយយើងផ្តល់នំចំណីជារង្វាន់នៅពេលវាធ្វើបានល្អ និងដកហូតរង្វាន់ពេលវាធ្វើខុស។
Proximal policy optimization ជាក្បួនដោះស្រាយដ៏ពេញនិយមមួយនៃការរៀនពង្រឹង (Reinforcement Learning) ដែលធានាថាការអាប់ដេតចំណេះដឹងថ្មីៗរបស់ម៉ូដែលមិនផ្លាស់ប្តូរទំហំធំពេកពីចំណេះដឹងចាស់ ដើម្បីរក្សាស្ថិរភាពកុំឱ្យវាបាត់បង់សមត្ថភាពមុនៗ។ ដូចជាការរៀនជិះកង់ដោយកែតម្រូវចលនាខ្លួនបន្តិចម្តងៗ ដើម្បីកុំឱ្យដួល ជាជាងការប្តូររបៀបជិះភ្លាមៗ ១៨០ ដឺក្រេ។
Imitation learning ជាវិធីសាស្ត្របង្វឹកប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដោយឱ្យវាសង្កេតនិងចម្លងតាមអាកប្បកិរិយា ឬការសម្រេចចិត្តរបស់អ្នកជំនាញ (មនុស្ស) ដោយផ្ទាល់ ជាជាងការឱ្យវារាវរកវិធីដោយខ្លួនឯងពីចំណុចសូន្យ ដែលជួយចំណេញពេលវេលាយ៉ាងច្រើន។ ដូចជាកូនក្មេងរៀនចងខ្សែស្បែកជើងដោយការសម្លឹងមើល និងធ្វើតាមសកម្មភាពរបស់ឪពុកម្តាយ។
Task-oriented dialogue system ជាប្រព័ន្ធកុំព្យូទ័រសន្ទនា (Chatbot) ដែលត្រូវបានរចនាឡើងយ៉ាងច្បាស់លាស់ដើម្បីជួយអ្នកប្រើប្រាស់បញ្ចប់កិច្ចការជាក់លាក់ណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ ស្វែងរកភោជនីយដ្ឋាន ឬហៅតាក់ស៊ី ក្នុងចំនួនវេនសន្ទនាដ៏ខ្លីបំផុត។ ដូចជាភ្នាក់ងារបម្រើសេវាកម្មអតិថិជនតាមទូរសព្ទដែលសួររកព័ត៌មានចាំបាច់តែប៉ុន្មានម៉ាត់ ដើម្បីដោះស្រាយបញ្ហាជូនយើង។
User Simulator ជាកម្មវិធីកុំព្យូទ័រដែលដើរតួជាមនុស្ស (អ្នកប្រើប្រាស់) ជាមួយអាកប្បកិរិយាចៃដន្យ ដើម្បីធ្វើការសន្ទនាសាកល្បងរាប់ពាន់ដងជាមួយប្រព័ន្ធសន្ទនា (Dialogue Agent) ក្នុងគោលបំណងបង្វឹកវាឱ្យឆ្លាតវៃដោយមិនចាំបាច់រំខានប្រើមនុស្សពិតប្រាកដ។ ដូចជាកីឡាករប្រដាល់ដែលហ្វឹកហាត់វាយជាមួយបាវខ្សាច់ ឬម៉ាស៊ីន មុននឹងឡើងសង្វៀនប្រកួតជាមួយមនុស្សពិត។
Markov decision process ជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូនៃដំណើរការសម្រេចចិត្តតាមដំណាក់កាល ដែលលទ្ធផលនៃសកម្មភាពនីមួយៗពឹងផ្អែកតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ (មិនខ្វល់ពីអតីតកាលដ៏យូរលង់) ដោយគិតបញ្ចូលទាំងប្រូបាប៊ីលីតេ និងរង្វាន់រំពឹងទុក។ ដូចជាការលេងអុក ដែលការដើរកូនបន្ទាប់គឺពឹងផ្អែកតែលើទីតាំងកូនអុកបច្ចុប្បន្ននៅលើក្តារប៉ុណ្ណោះ មិនមែនពឹងផ្អែកថាតើកូនអុកនោះដើរមកដល់ទីនេះតាមផ្លូវណានោះទេ។
Multi-domain environment ជាបរិបទសន្ទនាទូលំទូលាយដែលអ្នកប្រើប្រាស់អាចប្តូរប្រធានបទ ឬមានគោលដៅលើសពីមួយ (ឆ្លងកាត់ច្រើនវិស័យ) នៅក្នុងវគ្គសន្ទនាតែមួយ ឧទាហរណ៍៖ កក់សណ្ឋាគាររួច ហើយសួររកភោជនីយដ្ឋានក្បែរនោះ ព្រមទាំងហៅតាក់ស៊ីបន្តទៀត។ ដូចជាផ្សារទំនើបធំមួយ ដែលអ្នកអាចទិញម្ហូបផង ទិញសម្លៀកបំពាក់ផង និងមើលកុនផង ដោយមិនចាំបាច់ចេញទៅកន្លែងផ្សេង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖