Original Title: 基于强化学习的任务型对话策略研究综述
Source: doi.org/10.11897/SP.J.1016.2024.01201
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាស្រាវជ្រាវលើគោលការណ៍សន្ទនាផ្ដោតលើកិច្ចការដោយផ្អែកលើការរៀនពង្រឹង (Reinforcement Learning)

ចំណងជើងដើម៖ 基于强化学习的任务型对话策略研究综述

អ្នកនិពន្ធ៖ XU Kai (South China University of Technology), WANG Zhen-Yu, WANG Xu, QIN Hua, LONG Yu-Xuan

ឆ្នាំបោះពុម្ព៖ 2024 CHINESE JOURNAL OF COMPUTERS

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហានៃការខ្វះខាតការស្រាវជ្រាវសរុប (Survey) ទូលំទូលាយអំពីគោលការណ៍នៃការសន្ទនាផ្ដោតលើកិច្ចការ (Task-oriented dialogue policies) ដោយប្រើប្រាស់ក្បួនដោះស្រាយការរៀនពង្រឹង (Reinforcement Learning) នៅក្នុងប្រព័ន្ធទំនាក់ទំនងរវាងមនុស្សនិងកុំព្យូទ័រ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការចាត់ថ្នាក់ និងវិភាគជាប្រព័ន្ធលើក្បួនដោះស្រាយការរៀនពង្រឹងផ្សេងៗ ដោយបែងចែកតាមប្រភេទបច្ចេកទេស និងសេណារីយ៉ូនៃការអនុវត្ត។

ការវាយតម្លៃលើតម្លៃអនុគមន៍ និងគោលនយោបាយកម្រិត (Value-based and Policy Gradient RL)
ការរៀនពង្រឹងតាមឋានានុក្រម និងផ្អែកលើគំរូ (Hierarchical and Model-based RL)
ការវិភាគលើប្រព័ន្ធសន្ទនាពហុវិស័យ និងពហុទម្រង់ (Multi-domain and Multi-modal dialogue systems)
ការវាយតម្លៃលើប្រព័ន្ធក្លែងធ្វើអ្នកប្រើប្រាស់ និងសំណុំទិន្នន័យ (User simulators and datasets evaluation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរួមបញ្ចូលគ្នានៃក្បួនដោះស្រាយការរៀនពង្រឹង (RL) ជាមួយនិងបច្ចេកវិទ្យា Deep Learning បានបង្កើនប្រសិទ្ធភាពយ៉ាងខ្លាំងក្នុងការជ្រើសរើសសកម្មភាពសន្ទនាដ៏ត្រឹមត្រូវ និងទប់ទល់នឹងភាពស្មុគស្មាញនៃទិន្នន័យ។
ប្រព័ន្ធសន្ទនាដែលមានសមត្ថភាពយល់ចិត្ត (Empathetic dialogue) និងដំណើរការឆ្លងវិស័យ (Multi-domain) គឺជាទិសដៅស្រាវជ្រាវដ៏មានសក្តានុពលបំផុតក្នុងការធ្វើឱ្យការឆ្លើយតបកាន់តែមានលក្ខណៈដូចមនុស្សធម្មជាតិ។
ទោះបីជាមានការរីកចម្រើននៃ Large Language Models (LLMs) ក៏ដោយ វិធីសាស្ត្របំពង់ (Pipeline methods) ដែលប្រើប្រាស់ RL នៅតែមានសារៈសំខាន់សម្រាប់ការគ្រប់គ្រងទិន្នន័យប្រកបដោយសុវត្ថិភាព ការចំណាយទាប និងភាពអាចបកស្រាយបាន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Value-based RL (e.g., DQN) ការរៀនពង្រឹងផ្អែកលើតម្លៃអនុគមន៍	មានរចនាសម្ព័ន្ធសាមញ្ញ និងងាយស្រួលក្នុងការអនុវត្ត ដែលជាមូលដ្ឋានគ្រឹះនៃម៉ូដែលគោលការណ៍សន្ទនា។	ងាយនឹងប៉ាន់ស្មានតម្លៃលើស (Overestimation bias) និងខ្វះស្ថិរភាពក្នុងការរៀន បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រទំនើបៗ។	អត្រាជោគជ័យសន្ទនា ០.៨០៥៥ (ម៉ូដែល ACL-DQN) លើសំណុំទិន្នន័យ Microsoft Dialogue Challenge។
Policy Gradient RL (e.g., A2C, PPO) ការរៀនពង្រឹងផ្អែកលើជម្រាលគោលនយោបាយ	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកជម្រើស និងអាចដោះស្រាយបញ្ហាលំហសកម្មភាពបន្ត (Continuous action spaces) បានយ៉ាងល្អ។	ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការទិន្នន័យគំរូច្រើន (High sample complexity) ដើម្បីបង្វឹកម៉ូដែលឱ្យមានស្ថិរភាព។	អត្រាជោគជ័យសន្ទនា ០.៨៧៥ (ម៉ូដែល Adversarial A2C) លើសំណុំទិន្នន័យ Microsoft Dialogue Challenge។
Hierarchical RL (HRL) ការរៀនពង្រឹងតាមឋានានុក្រម	ដោះស្រាយបញ្ហារង្វាន់កម្រ (Sparse rewards) បានយ៉ាងល្អ ដោយបំបែកគោលដៅធំទៅជាកិច្ចការតូចៗ (Sub-goals)។	ទាមទារការកំណត់គោលដៅរងដោយដៃ ឬត្រូវការទិន្នន័យពីអ្នកជំនាញដើម្បីកសាងឋានានុក្រម ដែលចំណាយពេលវេលាច្រើន។	អត្រាជោគជ័យសន្ទនា ០.៩២៨ (ម៉ូដែល HRLG) និងចំនួនវេនសន្ទនាមធ្យម ១៣.១ លើសំណុំទិន្នន័យ MultiWOZ 2.1។
Model-based RL (e.g., DDQ) ការរៀនពង្រឹងផ្អែកលើគំរូ	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការសន្សំសំចៃទិន្នន័យអន្តរកម្មពិត ដោយប្រើប្រាស់ប្រព័ន្ធក្លែងធ្វើ (Simulator) ដើម្បីបង្កើតទិន្នន័យហ្វឹកហាត់បន្ថែម។	គុណភាពនៃម៉ូដែលអាស្រ័យយ៉ាងខ្លាំងទៅលើភាពត្រឹមត្រូវនៃប្រព័ន្ធក្លែងធ្វើ បើប្រព័ន្ធក្លែងធ្វើមិនល្អ វានឹងផ្តល់លទ្ធផលខុស។	អត្រាជោគជ័យសន្ទនា ០.៧៨៤០ (ម៉ូដែល DDQ) លើសំណុំទិន្នន័យ Microsoft Dialogue Challenge។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបង្វឹកប្រព័ន្ធសន្ទនាផ្អែកលើការរៀនពង្រឹង (RL) ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងទិន្នន័យអន្តរកម្មច្រើនដើម្បីធានាបាននូវប្រសិទ្ធភាពនៃការសន្ទនា។

Software: ត្រូវការវេទិកាអភិវឌ្ឍន៍ប្រព័ន្ធសន្ទនាដូចជា ConvLab-3, Pydial ឬ ParlAI រួមជាមួយនឹងប្រព័ន្ធក្លែងធ្វើអ្នកប្រើប្រាស់ (User Simulators)។
Hardware: ទាមទារម៉ាស៊ីនកុំព្យូទ័រដែលមាន GPU កម្លាំងខ្លាំង ដើម្បីដំណើរការបណ្តាញសរសៃប្រសាទជ្រៅ (Deep Neural Networks) សម្រាប់ការគណនាយ៉ាងស្មុគស្មាញ។
Dataset: ត្រូវការសំណុំទិន្នន័យសន្ទនាពហុវិស័យធំៗ (ដូចជា MultiWOZ, CrossWOZ) រួមទាំងទិន្នន័យដែលបានកត់ចំណាំដោយអ្នកជំនាញសម្រាប់ធ្វើការបង្វឹក។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងជ្រៅជ្រះផ្នែក Reinforcement Learning, Natural Language Processing (NLP) និងការរចនាប្រព័ន្ធសន្ទនា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកជាចម្បងលើសំណុំទិន្នន័យភាសាអង់គ្លេស និងចិន (ដូចជា MultiWOZ, SGD និង CrossWOZ) ដែលផ្តោតលើសេវាកម្មដូចជា ការកក់សណ្ឋាគារ ភោជនីយដ្ឋាន និងតាក់ស៊ី នៅក្នុងបរិបទប្រទេសអភិវឌ្ឍន៍។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសន្ទនាជាភាសាខ្មែរដែលមានគុណភាពខ្ពស់ និងភាពខុសគ្នានៃបរិបទសង្គម គឺជាបញ្ហាប្រឈមចម្បងក្នុងការយកម៉ូដែលទាំងនេះមកអនុវត្តផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានៃប្រព័ន្ធសន្ទនាផ្ដោតលើកិច្ចការនេះ មានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ក្នុងការធ្វើស្វ័យប្រវត្តិកម្មសេវាកម្មអតិថិជន និងការផ្តល់ព័ត៌មានប្រកបដោយភាពឆ្លាតវៃ។

វិស័យទេសចរណ៍ និងបដិសណ្ឋារកិច្ច (Tourism & Hospitality): អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីបង្កើត Chatbot ឆ្លាតវៃ សម្រាប់ជួយភ្ញៀវទេសចរកក់សណ្ឋាគារ ទិញសំបុត្ររថយន្ត និងស្វែងរកទីតាំងកម្សាន្តនានានៅខេត្តសៀមរាប ឬរាជធានីភ្នំពេញ តាមរយៈគោលការណ៍សន្ទនាពហុវិស័យ (Multi-domain dialog policies)។
វិស័យសុខាភិបាល (Healthcare): អាចប្រើប្រាស់ប្រព័ន្ធសន្ទនាដើម្បីសាកសួររោគសញ្ញាបឋម និងណែនាំអ្នកជំងឺទៅកាន់ផ្នែកព្យាបាលដែលត្រឹមត្រូវ នៅក្នុងមន្ទីរពេទ្យរដ្ឋ ដូចជាមន្ទីរពេទ្យកាល់ម៉ែត ដោយយកគំរូតាមសំណុំទិន្នន័យ Medical DS ជួយកាត់បន្ថយការកកស្ទះអ្នកជំងឺ។
សេវាកម្មហិរញ្ញវត្ថុ និងធនាគារ (Banking & Finance): ធនាគារក្នុងស្រុក (ឧទាហរណ៍៖ ABA Bank ឬ ACLEDA) អាចអនុវត្តប្រព័ន្ធសន្ទនាផ្ដោតលើកិច្ចការនេះ ដើម្បីឆ្លើយតបសំណួរអតិថិជនអំពីសេវាកម្មកម្ចី ការបើកគណនី ឬការផ្ទេរប្រាក់ ដោយស្វ័យប្រវត្តិ។

ការអភិវឌ្ឍប្រព័ន្ធសន្ទនាដែលជំរុញដោយ AI នឹងចូលរួមចំណែកយ៉ាងសំខាន់ក្នុងការជំរុញការផ្លាស់ប្តូរឌីជីថល (Digital Transformation) ទាំងក្នុងវិស័យរដ្ឋ និងឯកជននៅកម្ពុជា ឱ្យកាន់តែមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ RL និង NLP: និស្សិតគួរចាប់ផ្តើមសិក្សាពីគំនិតជាមូលដ្ឋាននៃសញ្ញាណ Markov Decision Process (MDP) និងក្បួនដោះស្រាយ RL សំខាន់ៗ ដូចជា Q-Learning និង Policy Gradient ព្រមទាំងបច្ចេកវិទ្យាភាសាធម្មជាតិ (NLP) សម្រាប់យល់ពីអត្ថន័យបរិបទសន្ទនា។
ប្រើប្រាស់វេទិកាស្រាវជ្រាវដែលមានស្រាប់: អនុវត្តការសរសេរកូដ និងសាកល្បងម៉ូដែលដោយប្រើប្រាស់វេទិកាបើកទូលាយដូចជា ConvLab-3 ឬ Pydial ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូឌុលនីមួយៗ (NLU, DST, Dialog Policy, NLG) នៃប្រព័ន្ធសន្ទនាធ្វើការរួមគ្នា។
ប្រមូល និងរៀបចំទិន្នន័យសន្ទនាជាភាសាខ្មែរ: ផ្តួចផ្តើមគម្រោងប្រមូលទិន្នន័យសន្ទនាខ្នាតតូចជាភាសាខ្មែរ សម្រាប់គោលដៅជាក់លាក់ណាមួយ (ឧ. ការកក់សំបុត្រឡានក្រុង) ដោយធ្វើការកត់ចំណាំ (Annotation) និងយកគំរូតាមរចនាសម្ព័ន្ធរបស់សំណុំទិន្នន័យ MultiWOZ។
អភិវឌ្ឍប្រព័ន្ធសន្ទនាដែលមានសមត្ថភាពយល់ចិត្ត: ស្រាវជ្រាវពីការបញ្ជូលមុខងារចាប់អារម្មណ៍ (Emotion recognition) ទៅក្នុងម៉ូដែល ដោយអនុវត្តតាមយុទ្ធសាស្ត្រ Empathetic Dialogue Policy ដើម្បីឲ្យ Chatbot អាចផ្តល់ការឆ្លើយតបដែលសក្តិសមទៅនឹងអារម្មណ៍របស់អ្នកប្រើប្រាស់។
វាយតម្លៃ និងកែលម្អម៉ូដែលដោយប្រើប្រព័ន្ធក្លែងធ្វើ: ប្រើប្រាស់ប្រព័ន្ធក្លែងធ្វើអ្នកប្រើប្រាស់ (User Simulators) ដើម្បីបង្វឹកម៉ូដែល RL ជាជាងការប្រើមនុស្សពិត ដើម្បីកាត់បន្ថយចំណាយ និងវាយតម្លៃប្រសិទ្ធភាពដោយប្រើរង្វាស់ស្តង់ដារដូចជា Dialog Success Rate ជាដើម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement Learning (RL)	ជាវិធីសាស្ត្រមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារ (Agent) រៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងអនុវត្តជាមួយបរិស្ថាន (trial and error) ដោយវាស្វែងរកយុទ្ធសាស្រ្តណាដែលទទួលបានរង្វាន់ (Reward) ខ្ពស់បំផុត និងជៀសវាងសកម្មភាពដែលត្រូវរងការពិន័យ (Penalty)។	ដូចជាការបង្ហាត់សត្វឆ្កែដោយឲ្យចំណីពេលវាធ្វើតាមបញ្ជា និងស្តីបន្ទោសពេលវាធ្វើខុស ដើម្បីឲ្យវារៀនពីទម្លាប់ល្អ។
Markov Decision Process (MDP)	ជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូពីការសម្រេចចិត្តក្នុងស្ថានភាពមួយដែលលទ្ធផលនៃការផ្លាស់ប្តូរគឺពឹងផ្អែកទាំងស្រុងទៅលើស្ថានភាពបច្ចុប្បន្ន និងសកម្មភាពដែលបានជ្រើសរើស មិនមែនពឹងផ្អែកលើប្រវត្តិអតីតកាលឡើយ។ វាមានធាតុផ្សំសំខាន់ៗដូចជា ស្ថានភាព (State), សកម្មភាព (Action), រង្វាន់ (Reward) និងប្រូបាប៊ីលីតេ (Transition probability)។	ដូចជាការលេងអុក ដែលការសម្រេចចិត្តដើរកូនអុកបន្ទាប់របស់អ្នក គឺពឹងផ្អែកទាំងស្រុងលើទីតាំងកូនអុកបច្ចុប្បន្ននៅលើក្ដារ មិនមែនពឹងផ្អែកលើការដើរតាំងពីដំបូងឡើយ។
Task-Oriented Dialogue System	ជាប្រព័ន្ធកុំព្យូទ័រ (Chatbot) ដែលត្រូវបានរចនាឡើងដើម្បីជួយអ្នកប្រើប្រាស់បញ្ចប់កិច្ចការជាក់លាក់ណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ ការកក់សណ្ឋាគារ ការទិញទំនិញ ឬការស្វែងរកព័ត៌មានអាកាសធាតុ តាមរយៈការសន្ទនាឆ្លើយឆ្លង។	ដូចជាភ្នាក់ងារបម្រើអតិថិជនតាមទូរស័ព្ទ ដែលសួរសំណួរទៅកាន់អ្នក ដើម្បីជួយរៀបចំការកក់តុញ៉ាំអាហារ។
Deep Q-Network (DQN)	ជាក្បួនដោះស្រាយ (Algorithm) ដែលរួមបញ្ចូលគ្នារវាងការរៀន Q-Learning ជាមួយនឹងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Neural Networks) ដើម្បីវាយតម្លៃ និងស្វែងរកសកម្មភាព (Action) ដែលនឹងទទួលបានតម្លៃរង្វាន់ខ្ពស់បំផុតនៅក្នុងស្ថានភាពទីតាំងទិន្នន័យដ៏ស្មុគស្មាញ។	ដូចជាខួរក្បាលសិប្បនិម្មិតដែលអាចទស្សន៍ទាយដឹងមុនថា តើការនិយាយឆ្លើយតបមួយណាទៅកាន់អតិថិជន នឹងធ្វើឲ្យអតិថិជនពេញចិត្តបំផុត។
Policy Gradient	ជាវិធីសាស្ត្រក្នុង Reinforcement Learning ដែលផ្តោតលើការរៀន និងធ្វើឲ្យគោលនយោបាយ (Policy) ប្រសើរឡើងដោយផ្ទាល់ តាមរយៈការគណនាជម្រាល (Gradient) ដើម្បីបង្កើនប្រូបាប៊ីលីតេនៃសកម្មភាពដែលនាំមកនូវរង្វាន់ខ្ពស់ និងកាត់បន្ថយសកម្មភាពដែលទទួលបានរង្វាន់ទាប។	ដូចជាកីឡាករបាល់បោះដែលកែតម្រូវកាយវិការបោះបាល់របស់ខ្លួនដោយផ្ទាល់ តាមរយៈការសង្កេតមើលថាតើកាយវិការមុនៗបោះចូលកន្ត្រកឬអត់។
Hierarchical Reinforcement Learning (HRL)	វិធីសាស្ត្រក្នុងការបំបែកបញ្ហាធំៗនិងស្មុគស្មាញ ទៅជាកិច្ចការតូចៗដែលមានឋានានុក្រម (Sub-goals) ដើម្បីឲ្យម៉ូដែល RL ងាយស្រួលរៀនដោះស្រាយម្តងមួយៗ ដោយមិនជួបបញ្ហាកង្វះរង្វាន់ (Sparse rewards) ជាជាងការព្យាយាមដោះស្រាយបញ្ហាធំទាំងមូលក្នុងពេលតែមួយ។	ដូចជាការរៀបចំផែនការធ្វើដំណើរទៅបរទេស ដែលយើងត្រូវបែងចែកជាកិច្ចការតូចៗដូចជា ការទិញសំបុត្រយន្តហោះ ការកក់សណ្ឋាគារ និងការរៀបចំវ៉ាលីស។
Empathetic Dialogue Policy	ជាគោលការណ៍សន្ទនា ដែលម៉ូដែលបំពាក់នូវសមត្ថភាពអាចចាប់ថ្នាក់ វិភាគ និងយល់ពីអារម្មណ៍ ឬស្ថានភាពផ្លូវចិត្តរបស់អ្នកប្រើប្រាស់ រួចធ្វើការឆ្លើយតបទៅវិញប្រកបដោយការយល់ចិត្ត និងផ្តល់ការគាំទ្រផ្លូវចិត្តបានត្រឹមត្រូវ។	ដូចជាមិត្តភក្តិដែលចេះលួងលោម និងនិយាយលើកទឹកចិត្ត នៅពេលដែលអ្នកប្រាប់ថាអ្នកកំពុងមានអារម្មណ៍មិនល្អ។
User Simulator	ជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីដើរតួជាអ្នកប្រើប្រាស់ (មនុស្សពិត) ក្នុងការឆ្លើយឆ្លងជាមួយប្រព័ន្ធសន្ទនា ដើម្បីឲ្យប្រព័ន្ធអាចធ្វើការហ្វឹកហាត់ក្បួន RL របស់ខ្លួនបានលឿន និងចំណាយតិច មុននឹងដាក់ឲ្យប្រើប្រាស់ផ្ទាល់ជាមួយមនុស្ស។	ដូចជាកីឡាករវាយសី ដែលហ្វឹកហាត់វាយបាល់ត្រលប់ទៅវិញជាមួយម៉ាស៊ីនបាញ់បាល់សិប្បនិម្មិត មុនពេលទៅប្រកួតជាមួយមនុស្សពិត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖