Original Title: Domain-independent User Satisfaction Reward Estimation for Dialogue Policy Learning
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប៉ាន់ស្មានរង្វាន់ភាពពេញចិត្តរបស់អ្នកប្រើប្រាស់ដោយមិនពឹងផ្អែកលើដែនកំណត់សម្រាប់ការរៀនគោលការណ៍សន្ទនា

ចំណងជើងដើម៖ Domain-independent User Satisfaction Reward Estimation for Dialogue Policy Learning

អ្នកនិពន្ធ៖ Stefan Ultes, University of Cambridge, Paweł Budzianowski, University of Cambridge, Iñigo Casanueva, University of Cambridge, Nikola Mrkšić, University of Cambridge, Lina Rojas-Barahona, University of Cambridge, Pei-Hao Su, University of Cambridge, Tsung-Hsien Wen, University of Cambridge, Milica Gašić, University of Cambridge, Steve Young, University of Cambridge

ឆ្នាំបោះពុម្ព៖ 2017 INTERSPEECH

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់អត្រាជោគជ័យនៃកិច្ចការ (Task Success) ជាសញ្ញារង្វាន់គោលក្នុងការបង្វឹកប្រព័ន្ធសន្ទនាឆ្លាតវៃ ដោយស្នើឱ្យប្រើប្រាស់ការប៉ាន់ស្មានភាពពេញចិត្តរបស់អ្នកប្រើប្រាស់ជំនួសវិញ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្ររៀនតាមរយៈការពង្រឹង (Reinforcement Learning) ដោយផ្តោតលើរង្វាន់គុណភាពអន្តរកម្ម ដែលមិនពឹងផ្អែកលើដែនកំណត់នៃប្រធានបទសន្ទនា។

ការទាញយកលក្ខណៈពិសេសមិនពឹងផ្អែកលើដែនកំណត់ (Domain-independent feature extraction) ពីការសន្ទនា
ការបង្ហាត់ម៉ូដែលប៉ាន់ស្មានដោយប្រើ Support Vector Machine (SVM) ជាមួយនឹងសំណុំទិន្នន័យ LEGO
ការរៀនតាមរយៈការពង្រឹងកម្រិតគោលការណ៍ (Policy-level Reinforcement Learning) ប្រើ GP-SARSA algorithm
ការវាយតម្លៃលើប្រព័ន្ធក្លែងធ្វើ (Simulated evaluation) ចំនួន ៥ ដែន និងការសាកល្បងជាមួយអ្នកប្រើប្រាស់ពិតប្រាកដ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលប៉ាន់ស្មានគុណភាពអន្តរកម្ម (IQ estimator) ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ០.៨៩ នៅពេលរួមបញ្ចូលតម្លៃក្បែរខាងគ្នា។
ការប្រើប្រាស់រង្វាន់ IQ (RIQ) ទទួលបានអត្រាជោគជ័យនៃកិច្ចការ (TSR) ប្រហាក់ប្រហែលនឹងការប្រើរង្វាន់តាមបែបប្រពៃណី ដោយសម្រេចបានអត្រា ០.៩៨ លើដែនភោជនីយដ្ឋាន ខណៈពេលដែលទទួលបានកម្រិតពេញចិត្តខ្ពស់ជាង។
ម៉ូដែលរង្វាន់ដែលបានបង្ហាត់លើដែនប្រព័ន្ធព័ត៌មានឡានក្រុង អាចប្រើប្រាស់យ៉ាងមានប្រសិទ្ធភាពទៅលើដែនចំនួន ៥ ផ្សេងទៀតដោយមិនចាំបាច់ដឹងពីទិន្នន័យពាក់ព័ន្ធនឹងដែនថ្មីទាំងនោះឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Task Success (TS) Baseline ការប្រើប្រាស់អត្រាជោគជ័យនៃកិច្ចការជាគោល (R_TS)	មានទំនាក់ទំនងល្អជាមួយនឹងភាពជោគជ័យសរុបនៃការសន្ទនា និងជារង្វាន់គោលដៅច្បាស់លាស់។	ទាមទារឱ្យប្រព័ន្ធដឹងពីគោលដៅរបស់អ្នកប្រើប្រាស់ជាមុន (Domain-dependent) ដែលពិបាកអនុវត្តលើដែនថ្មីៗ និងមិនអាចវាយតម្លៃអារម្មណ៍អ្នកប្រើបានពេញលេញ។	សម្រេចបានអត្រាជោគជ័យខ្ពស់លើការសាកល្បង ប៉ុន្តែទទួលបានគុណភាពអន្តរកម្ម (AIQ) និងពិន្ទុពេញចិត្តទាបជាងវិធីសាស្ត្រ R_IQ។
Interaction Quality (IQ) Reward Estimation ការប៉ាន់ស្មានរង្វាន់គុណភាពអន្តរកម្មដែលបានស្នើឡើង (R_IQ)	មិនពឹងផ្អែកលើដែនកំណត់ (Domain-independent) អាចយកម៉ូដែលទៅប្រើលើដែនផ្សេងៗដោយមិនបាច់បង្ហាត់ថ្មី និងបង្កើនការពេញចិត្តរបស់អ្នកប្រើប្រាស់ពិតប្រាកដ។	ត្រូវការចំណាយកម្លាំងមនុស្សក្នុងការដាក់ពិន្ទុ (Manual annotation) លើទិន្នន័យដំបូង ហើយប្រសិទ្ធភាពអាចធ្លាក់ចុះបន្តិចបន្តួចនៅពេលប្រព័ន្ធមានសម្លេងរំខានកម្រិតខ្ពស់ (30% SER)។	រក្សាបានអត្រាជោគជ័យប្រហាក់ប្រហែល R_TS (ឧ. ០.៩៨ នៅ 0% SER) ស្របពេលដែលបង្កើនគុណភាពអន្តរកម្ម (AIQ កើនដល់ ៣.៩៦) និងអាចប្រើឆ្លងដែនបានយ៉ាងជោគជ័យ។
Direct User Satisfaction (US) ការសួរពីភាពពេញចិត្តផ្ទាល់របស់អ្នកប្រើប្រាស់ (R_US)	ឆ្លុះបញ្ចាំងពីអារម្មណ៍ និងការវាយតម្លៃពិតប្រាកដរបស់អ្នកប្រើប្រាស់ចំពោះប្រព័ន្ធបន្ទាប់ពីសន្ទនារួច។	រំខានដល់អ្នកប្រើប្រាស់ដែលត្រូវសួរនាំគ្រប់ពេល (Intrusive) ហើយចម្លើយរបស់អ្នកប្រើអាចមានភាពមិនច្បាស់លាស់ ឬលម្អៀង (Noisy labels)។	ក្នុងការសាកល្បងជាមួយមនុស្សផ្ទាល់ ទទួលបានអត្រាជោគជ័យប្រហាក់ប្រហែល R_IQ និងមានពិន្ទុពេញចិត្តសរុប (AUS) ល្អបន្តិចជាង R_TS។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញពីភាពសន្សំសំចៃធនធានខ្ពស់ ដោយផ្តោតលើទំហំទិន្នន័យតូចសម្រាប់ការបង្ហាត់ម៉ូដែលប៉ាន់ស្មានរង្វាន់ បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រមុនៗ។

Dataset: ទាមទារទិន្នន័យសន្ទនាខ្នាតតូចត្រឹមតែ ២០០ សាច់រឿង (LEGO corpus) ដែលមានការដាក់ពិន្ទុពីអ្នកជំនាញ ដើម្បីទទួលបានភាពត្រឹមត្រូវខ្ពស់។ មិនត្រូវការទិន្នន័យរាប់ពាន់ដូចប្រព័ន្ធ Deep Learning ឡើយ។
Software: ប្រើប្រាស់ប្រព័ន្ធ PyDial toolkit សម្រាប់ការក្លែងធ្វើកិច្ចសន្ទនា និងម៉ូដែល Support Vector Machine (SVM) សម្រាប់ការចាត់ថ្នាក់ IQ។
Expertise: ត្រូវការអ្នកជំនាញដើម្បីដាក់ពិន្ទុគុណភាពអន្តរកម្ម (Interaction Quality) ពីលេខ ១ ដល់ ៥ លើទិន្នន័យបង្ហាត់ដំបូង។
Human Labor: ត្រូវការជួលអ្នកប្រើប្រាស់ពិតប្រាកដ (តាមរយៈ Amazon Mechanical Turk) ដើម្បីវាយតម្លៃគោលការណ៍កិច្ចសន្ទនា និងផ្តល់ពិន្ទុវាយតម្លៃ (User Satisfaction)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការស្រាវជ្រាវនេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យប្រព័ន្ធព័ត៌មានរថយន្តក្រុង (Let's Go corpus) ក្នុងសហរដ្ឋអាមេរិក និងអ្នកសាកល្បងដែលប្រើភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា អត្រាកំហុសនៃការស្គាល់សំឡេង (ASR error rates) ជាភាសាខ្មែរអាចមានកម្រិតខ្ពស់ជាងនេះ ហើយរបៀបដែលប្រជាជនខ្មែរបង្ហាញការមិនពេញចិត្តតាមរយៈអន្តរកម្មក៏អាចខុសគ្នាពីបរិបទលោកខាងលិច ដែលទាមទារឱ្យមានសំណុំទិន្នន័យខ្មែរផ្ទាល់ខ្លួន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលមិនពឹងផ្អែកលើប្រធានបទ (Domain-independent) នេះ គឺមានសក្តានុពលខ្លាំងណាស់សម្រាប់កម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិដោយកាត់បន្ថយពេលវេលា និងការចំណាយលើការប្រមូលទិន្នន័យថ្មីៗ។

សេវាកម្មទូរគមនាគមន៍ និងធនាគារ (Telecom & Banking): ក្រុមហ៊ុនដូចជា Cellcard ឬ ធនាគារ ABA អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីបង្កើត AI Voicebot ដែលអាចផ្លាស់ប្តូរពីសេវាប្រាប់សមតុល្យប្រាក់ ទៅការរាយការណ៍បញ្ហាបច្ចេកទេស ដោយប្រើប្រាស់ម៉ូដែលប៉ាន់ស្មានរង្វាន់តែមួយដោយមិនបាច់បង្ហាត់ឡើងវិញពីសូន្យ។
វិស័យទេសចរណ៍នៅសៀមរាប ឬភ្នំពេញ (Tourism & Hospitality): អាចយកទៅបង្កើតប្រព័ន្ធ Chatbot សម្រាប់កក់បន្ទប់សណ្ឋាគារ ឬភោជនីយដ្ឋាន ដោយផ្តោតលើគុណភាពនៃការផ្តល់សេវា (Interaction Quality) ជាជាងគ្រាន់តែឆ្លើយឱ្យត្រូវគោលដៅ ជួយលើកកម្ពស់បទពិសោធន៍ភ្ញៀវទេសចរ។
សេវាព័ត៌មានសាធារណៈ (Public Services Info): អាចអភិវឌ្ឍប្រព័ន្ធសួរព័ត៌មានរថយន្តក្រុងសាលារាជធានីភ្នំពេញ (City Bus) ឬសេវាច្រកចេញចូលតែមួយ ដោយរៀនពីអន្តរកម្មអ្នកប្រើប្រាស់ផ្ទាល់ខ្លួនដើម្បីសម្រួលដល់ការឆ្លើយតប។

ការអភិវឌ្ឍប្រព័ន្ធ AI សន្ទនាដែលផ្តោតលើការពេញចិត្តរបស់អ្នកប្រើប្រាស់តាមរយៈលក្ខណៈទូទៅ នឹងជួយពន្លឿនការទទួលយកបច្ចេកវិទ្យានេះនៅគ្រប់វិស័យអាជីវកម្មក្នុងប្រទេសកម្ពុជា ក្នុងលក្ខខណ្ឌចំណាយទាប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះក្បួនដោះស្រាយ RL: ស្វែងយល់ស៊ីជម្រៅពីទ្រឹស្តី Reinforcement Learning សម្រាប់ការគ្រប់គ្រងកិច្ចសន្ទនា (Dialogue Management) ដោយផ្តោតលើក្បួនដោះស្រាយ GP-SARSA និងបច្ចេកទេស POMDP ដើម្បីចាប់ផ្តើមសាងសង់មូលដ្ឋាន។
តម្លើងនិងសាកល្បងឧបករណ៍ PyDial: ទាញយកនិងដំឡើងកម្មវិធី PyDial toolkit ពីប្រភពកូដចំហរ។ សាកល្បងដំណើរការប្រព័ន្ធកិច្ចសន្ទនាក្លែងធ្វើ (Simulated dialogue environments) ជាមួយសំណុំទិន្នន័យគំរូដូចជា CamRestaurants ជាដើម។
ប្រមូលទិន្នន័យសន្ទនាភាសាខ្មែរខ្នាតតូច: បង្កើតគម្រោងប្រមូលទិន្នន័យអត្ថបទ ឬសំឡេងសន្ទនាជាភាសាខ្មែរប្រមាណ ២០០ សាច់រឿង ក្នុងប្រធានបទមួយ (ឧ. ការកក់តុញ៉ាំអាហារ)។ បន្ទាប់មក ឱ្យអ្នកជំនាញដាក់ពិន្ទុគុណភាព (IQ labels) ពីលេខ ១ ដល់លេខ ៥ សម្រាប់រាល់ទិន្នន័យនីមួយៗ។
បង្ហាត់ម៉ូដែល Support Vector Machine (SVM): ទាញយកលក្ខណៈពិសេសដែលមិនពឹងផ្អែកលើដែនកំណត់ (ដូចជា ចំនួនដងនៃការសួរដដែលៗ, អត្រាកំហុសនៃការចាប់ពាក្យ - ASR confidence) ពីទិន្នន័យខ្មែរ ហើយប្រើប្រាស់កម្មវិធី LIBSVM ដើម្បីបង្ហាត់ម៉ូដែលប៉ាន់ស្មានការពេញចិត្ត (IQ Estimator)។
ដាក់ពង្រាយជាប្រព័ន្ធឆ្លើយតប Chatbot លក្ខណៈធុរកិច្ច: យកម៉ូដែលប៉ាន់ស្មាន IQ ដែលទទួលបាន ទៅធ្វើជារង្វាន់ (Reward Function) ក្នុងប្រព័ន្ធពិត ដើម្បីបង្ហាត់ Chatbot សេវាកម្មអតិថិជននៅលើប្រព័ន្ធ Telegram ឬ Facebook Messenger របស់អាជីវកម្មក្នុងស្រុកឱ្យចេះកែលម្អការសន្ទនាដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement Learning (RL)	ការរៀនតាមរយៈការពង្រឹង គឺជាវិធីសាស្ត្រមួយក្នុងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រព័ន្ធរៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងនិងកំហុស ដោយទទួលបានរង្វាន់នៅពេលសម្រេចចិត្តត្រូវ និងទទួលការពិន័យនៅពេលសម្រេចចិត្តខុស។	ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះស្តាប់បង្គាប់ ដោយផ្តល់នំជាចំណីនៅពេលវាធ្វើតាមបញ្ជាបានត្រឹមត្រូវ។
Dialogue Policy	គោលការណ៍កិច្ចសន្ទនា គឺជាសំណុំនៃក្បួន ឬយុទ្ធសាស្ត្រដែលប្រព័ន្ធ Chatbot ឬ AI ប្រើប្រាស់ដើម្បីសម្រេចចិត្តថាត្រូវឆ្លើយតបបែបណាទៅកាន់អ្នកប្រើប្រាស់នៅក្នុងជំហាននីមួយៗនៃការសន្ទនា ដើម្បីឈានទៅសម្រេចគោលដៅ។	ដូចជាសៀវភៅណែនាំរបស់បុគ្គលិកបម្រើសេវាកម្មអតិថិជន ដែលប្រាប់ពួកគេថាត្រូវឆ្លើយតបយ៉ាងដូចម្តេចចំពោះសំណួរឬបញ្ហាផ្សេងៗរបស់ភ្ញៀវ។
Interaction Quality (IQ)	គុណភាពអន្តរកម្ម គឺជារង្វាស់វាយតម្លៃគុណភាពនៃការសន្ទនាប្រកបដោយសត្យានុម័ត (objective) ដែលត្រូវបានដាក់ពិន្ទុដោយអ្នកជំនាញ ដោយផ្អែកលើលក្ខណៈនៃការសន្ទនាដូចជា ចំនួនដងនៃការសួរដដែលៗ ឬកំហុសក្នុងការចាប់ពាក្យ ជំនួសឱ្យការសួរអារម្មណ៍អ្នកប្រើប្រាស់ផ្ទាល់។	ដូចជាការឱ្យគ្រូបង្រៀនដាក់ពិន្ទុវាយតម្លៃលើរបៀបដែលសិស្សធ្វើបទបង្ហាញ ជាជាងសួរមិត្តរួមថ្នាក់ថាតើពួកគេចូលចិត្តការធ្វើបទបង្ហាញនោះឬអត់។
Task Success (TS)	ភាពជោគជ័យនៃកិច្ចការ គឺជារង្វាស់ដែលពិនិត្យមើលថាតើប្រព័ន្ធ AI អាចសម្រេចគោលដៅចុងក្រោយរបស់អ្នកប្រើប្រាស់បានឬទេ (ឧទាហរណ៍៖ រកភោជនីយដ្ឋានឃើញ ឬកក់សំបុត្របានសម្រេច) ដោយមិនគិតពីភាពលំបាកក្នុងដំណើរការនៃការសន្ទនានោះទេ។	ដូចជាការប្រឡងជាប់ ទោះបីជាអ្នកត្រូវអានសៀវភៅដល់យប់ជ្រៅ និងស្ត្រេសខ្លាំងកំឡុងពេលរៀនក៏ដោយ សំខាន់គឺលទ្ធផលចុងក្រោយគឺប្រឡងជាប់។
Domain-independent	លក្ខណៈមិនពឹងផ្អែកលើដែនកំណត់ មានន័យថាម៉ូដែល ឬក្បួនដោះស្រាយមួយអាចដំណើរការបានលើប្រធានបទ ឬប្រភេទអាជីវកម្មផ្សេងៗគ្នាដោយមិនចាំបាច់មានព័ត៌មានជាក់លាក់នៃប្រធានបទនោះ (ឧទាហរណ៍ អាចប្រើសម្រាប់ទាំងការកក់សណ្ឋាគារ និងការព្យាករណ៍អាកាសធាតុ)។	ដូចជាសោរចាក់សព្វ (Master Key) ដែលអាចចាក់បើកទ្វារបានគ្រប់បន្ទប់ក្នុងអគារ ដោយមិនចាំបាច់ដឹងថាជាបន្ទប់អ្វីនោះទេ។
Support Vector Machine (SVM)	ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ គឺជាក្បួនដោះស្រាយផ្នែក Machine Learning ដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ ដោយស្វែងរកបន្ទាត់ ឬព្រំដែនដ៏ល្អបំផុតដើម្បីបំបែកក្រុមទិន្នន័យដែលមានលក្ខណៈខុសៗគ្នាទៅតាមប្រភេទរបស់វា។	ដូចជាការគូសបន្ទាត់កាត់ចំពាក់កណ្តាលនៅលើតុ ដើម្បីបំបែកផ្លែប៉ោម និងផ្លែក្រូចឱ្យនៅម្ខាងម្នាក់ដាច់ពីគ្នាបានល្អបំផុត។
GP-SARSA algorithm	ជាក្បួនដោះស្រាយក្នុង Reinforcement Learning ដែលប្រើប្រាស់វិធីសាស្ត្រស្ថិតិ Gaussian Process ដើម្បីប៉ាន់ស្មានតម្លៃនៃសកម្មភាពណាមួយក្នុងស្ថានភាពជាក់លាក់ ដែលជួយឱ្យប្រព័ន្ធរៀនបានលឿននិងមានប្រសិទ្ធភាពសូម្បីតែមានទិន្នន័យតិចតួច (Sample efficient)។	ដូចជាអ្នករុករកដែលប្រើត្រីវិស័យនិងបទពិសោធន៍ដើម្បីទស្សន៍ទាយថាផ្លូវមួយណានឹងនាំទៅរកកំណប់បានលឿនបំផុត ទោះបីជាមិនធ្លាប់ដើរផ្លូវនោះពីមុនមកក៏ដោយ។
Semantic Error Rate (SER)	អត្រាកំហុសអត្ថន័យ គឺជារង្វាស់នៃភាគរយដែលប្រព័ន្ធ AI ចាប់យកអត្ថន័យនៃពាក្យសម្តីរបស់អ្នកប្រើប្រាស់ខុស ដែលច្រើនតែកើតឡើងដោយសារសម្លេងរំខាន ឬភាពមិនច្បាស់លាស់នៅក្នុងប្រព័ន្ធស្រូបសំឡេងនិយាយ។	ដូចជាការលេងល្បែងខ្សឹបប្រាប់តៗគ្នា ហើយសាររបស់អ្នកចុងក្រោយខុសពីសារដើមទាំងស្រុងដោយសារការស្តាប់ច្រឡំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖