Original Title: Learning Domain-Independent Dialogue Policies via Ontology Parameterisation
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនគោលការណ៍សន្ទនាឯករាជ្យពីដែនកំណត់ តាមរយៈការធ្វើប៉ារ៉ាម៉ែត្រអុនតូឡូស៊ី

ចំណងជើងដើម៖ Learning Domain-Independent Dialogue Policies via Ontology Parameterisation

អ្នកនិពន្ធ៖ Zhuoran Wang (Toshiba Research Europe Ltd., Cambridge, UK), Tsung-Hsien Wen (Engineering Department, University of Cambridge, UK), Pei-Hao Su (Engineering Department, University of Cambridge, UK), Yannis Stylianou (Toshiba Research Europe Ltd., Cambridge, UK)

ឆ្នាំបោះពុម្ព៖ 2015 SIGDIAL Conference

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកសាងប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) សម្រាប់ដែនកម្មវិធីផ្សេងៗគ្នាត្រូវចំណាយពេលច្រើន ដោយសារសមាសធាតុនីមួយៗទាមទារទិន្នន័យជាក់លាក់សម្រាប់ដែននោះដើម្បីយកមកធ្វើការបង្វឹក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រថ្មីមួយដើម្បីលុបបំបាត់ការពឹងផ្អែកលើដែនកំណត់ ដោយប្រើប្រាស់ការធ្វើប៉ារ៉ាម៉ែត្រលើអុនតូឡូស៊ី (Ontology Parameterisation) និងដំណើរការបង្វឹកតាមរយៈការពង្រឹង (Reinforcement Learning)។

ការធ្វើប៉ារ៉ាម៉ែត្រអុនតូឡូស៊ីឯករាជ្យពីដែន (Domain-Independent Ontology Parameterisation - DIP)
ដំណើរការសម្រេចចិត្តម៉ាកូវដែលអាចសង្កេតបានដោយផ្នែក (Partially Observable Markov Decision Processes - POMDPs)
ការបង្វឹកគោលការណ៍តាមរយៈក្បួនដោះស្រាយ GP-SARSA (GP-SARSA Policy Training)
ការក្លែងធ្វើអ្នកប្រើប្រាស់ និងការសាកល្បងលើមនុស្សពិត (User Simulation and Human Subject Experiments)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គោលការណ៍ដែលបានបង្វឹកដោយប្រើតំណាង DIP អាចផ្ទេរពីដែនស្វែងរកភោជនីយដ្ឋាន ទៅកាន់ដែនលក់កុំព្យូទ័រយួរដៃ ដោយសម្រេចបានអត្រាជោគជ័យ ៩៧,៨% ធៀបនឹង ៩៨,៣% នៃគោលការណ៍ក្នុងដែនផ្ទាល់ (ផ្អែកលើការក្លែងធ្វើការសន្ទនា)។
នៅក្នុងការសាកល្បងជាមួយមនុស្សពិត គោលការណ៍ដែលបានផ្ទេរទទួលបានអត្រាជោគជ័យ ៨១,៤% និងទទួលបានពិន្ទុវាយតម្លៃភាពធម្មជាតិ ៤,៨៣ ដែលខ្ពស់ជាងបន្តិចធៀបនឹងគោលការណ៍ក្នុងដែនដែលទទួលបាន ៤,៥១ ។
វិធីសាស្ត្រនេះជួយពន្លឿនការបង្វឹកគោលការណ៍សន្ទនាសម្រាប់ដែនថ្មីៗ ដោយកាត់បន្ថយតម្រូវការក្នុងការប្រមូលទិន្នន័យជាក់លាក់យ៉ាងច្រើននៅដំណាក់កាលដំបូង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
DIP in-domain ការបង្វឹកគោលការណ៍ DIP ក្នុងដែនផ្ទាល់	ទទួលបានអត្រាជោគជ័យខ្ពស់បំផុត និងមានភាពសុក្រឹតល្អក្នុងការឆ្លើយតប។	ទាមទារពេលវេលា និងធនធានច្រើនក្នុងការប្រមូលទិន្នន័យបង្វឹកសម្រាប់ដែននីមួយៗពីដំបូង។	អត្រាជោគជ័យ ៩៨.៣% លើការក្លែងធ្វើសន្ទនា និង ៨៤.៤% លើការសាកល្បងជាមួយមនុស្សពិត ព្រមទាំងទទួលបានពិន្ទុភាពធម្មជាតិ ៤.៥១/៦។
DIP transferred ការផ្ទេរគោលការណ៍ DIP ពីដែនផ្សេង	អាចយកទៅប្រើប្រាស់ក្នុងដែនថ្មីបានភ្លាមៗដោយមិនបាច់បង្វឹកឡើងវិញ ចំណេញពេលវេលា និងថវិកា។	អត្រាជោគជ័យធ្លាក់ចុះបន្តិចបន្តួច បើធៀបនឹងការបង្វឹកដោយប្រើទិន្នន័យក្នុងដែនផ្ទាល់។	អត្រាជោគជ័យ ៩៧.៨% លើការក្លែងធ្វើសន្ទនា និង ៨១.៤% លើមនុស្សពិត ប៉ុន្តែទទួលបានពិន្ទុភាពធម្មជាតិខ្ពស់ជាងបន្តិច (៤.៨៣/៦)។
BUDS GP-SARSA ប្រព័ន្ធ BUDS ប្រើប្រាស់ GP-SARSA	ជាប្រព័ន្ធគោលដែលមានប្រសិទ្ធភាព ដែលប្រើប្រាស់ស្ថានភាពជំនឿពេញលេញ (Full belief state) សម្រាប់ការសម្រេចចិត្ត។	ត្រូវការពេលវេលាយូរក្នុងការបង្វឹក (Converge យឺត) បើធៀបទៅនឹងវិធីសាស្ត្រ DIP ថ្មី។	ទទួលបានរង្វាន់មធ្យម (Average reward) ទាបជាងបន្តិច និងមានល្បឿនបង្វឹកយឺតជាង DIP (យោងតាមគំនូសតាងទី១)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវាទាមទារកម្លាំងម៉ាស៊ីនគណនាសមរម្យសម្រាប់ដំណើរការ Reinforcement Learning និងប្រព័ន្ធក្លែងធ្វើ។

Algorithms / Software: ត្រូវការក្បួនដោះស្រាយ GP-SARSA និងប្រព័ន្ធក្លែងធ្វើអ្នកប្រើប្រាស់តាមរបៀបវារៈ (Agenda-based user simulator) ដើម្បីបង្វឹក។
Dataset: ត្រូវការអុនតូឡូស៊ី (Ontologies) និងមូលដ្ឋានទិន្នន័យ (Database) ដាច់ដោយឡែកសម្រាប់ដែននីមួយៗ (ឧ. ភោជនីយដ្ឋាន និងកុំព្យូទ័រយួរដៃ)។
Human Evaluation: ទាមទារថវិកាសម្រាប់ជួលអ្នកវាយតម្លៃដែលជាមនុស្សពិតតាមរយៈប្រព័ន្ធ Amazon Mechanical Turk (MTurk)។
Expertise: អ្នកស្រាវជ្រាវត្រូវមានចំណេះដឹងស៊ីជម្រៅលើផ្នែក POMDP, ការរៀនតាមរយៈការពង្រឹង (Reinforcement Learning), និង Spoken Dialogue Systems។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើសន្ទនា និងទិន្នន័យសាកល្បងពីអ្នកប្រើប្រាស់នៅលើប្រព័ន្ធ MTurk ដែលភាគច្រើនជាអ្នកនិយាយភាសាអង់គ្លេសនៅលោកខាងលិច។ ទម្រង់នៃការសន្ទនា និងអាកប្បកិរិយារបស់អ្នកប្រើប្រាស់ទាំងនេះអាចមានភាពខុសគ្នាស្រឡះពីបរិបទវប្បធម៌ និងភាសាខ្មែរ។ នេះជារឿងសំខាន់សម្រាប់កម្ពុជា ព្រោះការបង្កើតប្រព័ន្ធសន្ទនាឆ្លាតវៃជាភាសាខ្មែរ ទាមទារការយល់ដឹងពីរបៀបនិយាយកាត់ និយាយឆិត ឬការប្រើប្រាស់ពាក្យពេចន៍ក្នុងស្រុកពិតប្រាកដ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការផ្ទេរគោលការណ៍សន្ទនាដោយមិនពឹងផ្អែកលើដែនកំណត់នេះ គឺមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ដែលជាប្រទេសកំពុងមានបញ្ហាខ្វះខាតទិន្នន័យ (Low-resource settings)។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ: ស្ថាប័នដូចជាធនាគារ ABA ឬ ACLEDA អាចបង្វឹក Chatbot ម្តងលើសេវាទូទៅ (ឧ. សួរគណនី) រួចផ្ទេរវាទៅកាន់ដែនសេវាកម្ចី ដោយមិនបាច់ប្រមូលទិន្នន័យសន្ទនារាប់ពាន់ថ្មីទៀតនោះទេ។
រដ្ឋាភិបាលអេឡិចត្រូនិក (E-Government): ក្រសួងស្ថាប័នអាចបង្កើតប្រព័ន្ធ AI សួរឆ្លើយសម្រាប់ពលរដ្ឋ ដូចជាការសាកសួរព័ត៌មានធ្វើអត្តសញ្ញាណប័ណ្ណ រួចពង្រីកទៅកាន់ការសួរព័ត៌មានចុះបញ្ជីយានយន្ត ដោយប្រើគោលការណ៍សន្ទនាតែមួយ។
វិស័យទេសចរណ៍នៅសៀមរាប ឬភ្នំពេញ: អាចយកទៅអភិវឌ្ឍប្រព័ន្ធ Voicebot ដែលជួយភ្ញៀវទេសចរស្វែងរកសណ្ឋាគារ រួចផ្ទេរប្រព័ន្ធនោះទៅជួយស្វែងរកភោជនីយដ្ឋាន ឬសេវាកម្មដឹកជញ្ជូន ដោយពឹងផ្អែកលើទិន្នន័យអុនតូឡូស៊ីដែលមានស្រាប់។

ជារួម បច្ចេកវិទ្យានេះផ្តល់នូវផ្លូវកាត់ដ៏មានប្រសិទ្ធភាពក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI សន្ទនាឆ្លាតវៃនៅកម្ពុជា ដោយជួយកាត់បន្ថយពេលវេលា និងថ្លៃចំណាយក្នុងការប្រមូលទិន្នន័យយ៉ាងសន្ធឹកសន្ធាប់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ POMDP និង RL: និស្សិតត្រូវចាប់ផ្តើមស្វែងយល់ពីគណិតវិទ្យា និងទ្រឹស្តីនៅពីក្រោយម៉ូដែល POMDP ក្នុងការតាមដានស្ថានភាពសន្ទនា (Dialogue State Tracking) និងរៀនពីវិធីសាស្ត្រ Reinforcement Learning កម្រិតខ្ពស់ដូចជា GP-SARSA ជាដើម។
ស្វែងយល់ និងអនុវត្ត Ontology Parameterisation: រៀនបំប្លែងលក្ខណៈពិសេសរបស់រន្ធទិន្នន័យ (Slots) ដូចជា ចំនួនតម្លៃ សារៈសំខាន់របស់វា និងរបាយទិន្នន័យក្នុងមូលដ្ឋានទិន្នន័យ ឱ្យទៅជាទម្រង់វ៉ិចទ័រដែលមិនអាស្រ័យលើដែនកំណត់ (Domain-independent features) ដោយប្រើ Python ឬ NumPy។
សាកល្បងហ្វឹកហាត់ជាមួយប្រព័ន្ធ PyDial: ទាញយក និងប្រើប្រាស់ PyDial (សូហ្វវែរបើកទូលាយសម្រាប់ Spoken Dialogue Systems) ដើម្បីសាកល្បងហ្វឹកហាត់គោលការណ៍សន្ទនា ជាមួយប្រព័ន្ធក្លែងធ្វើអ្នកប្រើប្រាស់ (User Simulator) ដោយប្រើប្រាស់គំរូទិន្នន័យភាសាអង់គ្លេសដែលមានស្រាប់សិន។
អភិវឌ្ឍប្រព័ន្ធគំរូជាភាសាខ្មែរខ្នាតតូច: បង្កើតទិន្នន័យអុនតូឡូស៊ីតូចមួយសម្រាប់សេវាកម្មក្នុងស្រុក (ឧ. ការកក់សំបុត្រឡានក្រុងវិរៈប៊ុនថាំ) រួចសាកល្បងផ្ទេរគោលការណ៍ដែលបានបង្វឹកនោះ ទៅកាន់សេវាកម្មថ្មីមួយទៀត (ឧ. ការកក់សណ្ឋាគារ) ដើម្បិវាស់ស្ទង់ប្រសិទ្ធភាពក្នុងបរិបទកម្ពុជាដោយប្រើប្រាស់សេវាកម្ម ChatGPT API ជំនួសមុខងារយល់ភាសា (NLU) ក៏បាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Partially Observable Markov Decision Processes (POMDPs)	ម៉ូដែលគណិតវិទ្យាសម្រាប់ធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ ក្នុងស្ថានភាពដែលប្រព័ន្ធមិនមានព័ត៌មានគ្រប់ជ្រុងជ្រោយ ឬច្បាស់លាស់ (ឧ. សំឡេងអ្នកប្រើប្រាស់ស្តាប់មិនសូវបានដោយសារសំឡេងរំខាន) ដោយប្រព័ន្ធត្រូវប្រើប្រូបាប៊ីលីតេដើម្បីប៉ាន់ស្មានស្ថានភាពពិតប្រាកដ។	ដូចជាគ្រូពេទ្យវាយតម្លៃរោគសញ្ញាជំងឺដោយការស្មានផ្អែកលើព័ត៌មានមានកម្រិត រួចសម្រេចចិត្តថាតើត្រូវផ្តល់ថ្នាំប្រភេទណា។
Dialogue Policy	ក្បួន ឬយុទ្ធសាស្ត្រដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ប្រើប្រាស់ដើម្បីសម្រេចថាតើវាគួរឆ្លើយតប ឬធ្វើសកម្មភាពអ្វីបន្តទៀតទៅកាន់អ្នកប្រើប្រាស់ ដោយផ្អែកលើស្ថានភាពបច្ចុប្បន្ននៃការសន្ទនា ដើម្បីឈានទៅសម្រេចគោលដៅ។	ដូចជាសៀវភៅណែនាំរបស់បុគ្គលិកបម្រើសេវាកម្មអតិថិជន ដែលប្រាប់ថាតើត្រូវឆ្លើយតបបែបណានៅពេលអតិថិជនសួរ ឬត្អូញត្អែរ។
Domain Ontology	រចនាសម្ព័ន្ធព័ត៌មានដែលកំណត់ពីប្រភេទនៃទិន្នន័យ (Slots) និងតម្លៃរបស់វា (Values) នៅក្នុងប្រធានបទ ឬដែនកម្មវិធីជាក់លាក់ណាមួយ។ ឧទាហរណ៍ ក្នុងដែនភោជនីយដ្ឋាន អុនតូឡូស៊ីរួមមាន តម្លៃ ប្រភេទអាហារ និងទីតាំង។	ដូចជាតារាងម៉ឺនុយនៅក្នុងហាងកាហ្វេ ដែលបែងចែកប្រភេទភេសជ្ជៈ ទំហំកែវ និងកម្រិតជាតិស្ករយ៉ាងច្បាស់លាស់។
Reinforcement Learning (RL)	វិធីសាស្ត្រមួយនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលប្រព័ន្ធរៀនធ្វើសកម្មភាពតាមរយៈការសាកល្បងនិងកំហុស ដោយទទួលបានរង្វាន់ (Reward) នៅពេលវាធ្វើសកម្មភាពត្រឹមត្រូវ និងការពិន័យ (Penalty) នៅពេលធ្វើខុស។	ដូចជាការបង្ហាត់សត្វឆ្កែ ដោយផ្តល់ចំណីនៅពេលវាស្តាប់បង្គាប់ និងស្តីបន្ទោសនៅពេលវាធ្វើខុស។
Belief State	ការចែកចាយប្រូបាប៊ីលីតេទៅលើអ្វីដែលអ្នកប្រើប្រាស់ចង់បាន (User Goal) នៅពេលណាមួយនៃការសន្ទនា ដោយសារប្រព័ន្ធមិនអាចដឹងប្រាកដ ១០០% ថាអ្នកប្រើប្រាស់ពិតជាចង់បានអ្វីនោះទេ ដោយសារកំហុសនៃការស្តាប់ (ASR errors)។	ដូចជាការស្មានរបស់អ្នកលក់ថាភ្ញៀវទំនងជាចង់ទិញអាវពណ៌ក្រហម ៨០% ឬពណ៌ខៀវ ២០% ផ្អែកលើការសម្លឹងមើលរបស់ភ្ញៀវ។
Domain-Independent Featurisation	ការបំប្លែងលក្ខណៈនៃទិន្នន័យ (Features) ឱ្យទៅជាទម្រង់រួមមួយដែលមិនអាស្រ័យលើប្រធានបទ ឬដែនកំណត់ណាមួយ ដើម្បីឱ្យម៉ូដែលដែលបានហ្វឹកហាត់រួចអាចយកទៅប្រើប្រាស់ជាមួយប្រធានបទថ្មីផ្សេងទៀតបានដោយមិនបាច់ហ្វឹកហាត់ពីដំបូងឡើយ។	ដូចជាការរៀនបើកបររថយន្តដោយយល់ពីគោលការណ៍ប្រើចង្កូតនិងហ្វ្រាំង ដែលអាចឱ្យអ្នកយកទៅបើកបររថយន្តម៉ាកអ្វីក៏បាន។
GP-SARSA	ក្បួនដោះស្រាយមួយក្នុង Reinforcement Learning ដែលប្រើប្រាស់ Gaussian Processes (GP) ដើម្បីជួយឱ្យប្រព័ន្ធរៀនពីយុទ្ធសាស្ត្រសន្ទនាបានលឿន និងអាចទស្សន៍ទាយសកម្មភាពល្អបំផុតក្នុងស្ថានភាពដែលមិនធ្លាប់ជួបពីមុនមក។	ដូចជាសិស្សពូកែដែលចេះទាញបទពិសោធន៍ពីការដោះស្រាយលំហាត់ចាស់ៗ មកទាយដោះស្រាយលំហាត់ថ្មីបានយ៉ាងលឿន និងត្រឹមត្រូវ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖