Original Title: 任务型人机对话系统中的认知技术—概念、进展及其未来
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកវិទ្យាការយល់ដឹងនៅក្នុងប្រព័ន្ធសន្ទនាផ្អែកលើកិច្ចការ៖ គោលគំនិត វឌ្ឍនភាព និងអនាគត

ចំណងជើងដើម៖ 任务型人机对话系统中的认知技术—概念、进展及其未来

អ្នកនិពន្ធ៖ Yu Kai (SpeechLab, Department of Computer Science and Engineering, Shanghai Jiao Tong University), Chen Lu (SpeechLab, Department of Computer Science and Engineering, Shanghai Jiao Tong University), Chen Bo (SpeechLab, Department of Computer Science and Engineering, Shanghai Jiao Tong University), Sun Kai (SpeechLab, Department of Computer Science and Engineering, Shanghai Jiao Tong University), Zhu Su (SpeechLab, Department of Computer Science and Engineering, Shanghai Jiao Tong University)

ឆ្នាំបោះពុម្ព៖ 2014, CHINESE JOURNAL OF COMPUTERS

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយអំពីបញ្ហានៃការកសាងភ្នាក់ងារយល់ដឹង (Cognitive agent) សម្រាប់ប្រព័ន្ធសន្ទនារវាងមនុស្សនិងម៉ាស៊ីនផ្អែកលើកិច្ចការ (Task-oriented dialogue systems) ដែលមានសមត្ថភាពដោះស្រាយជាមួយព័ត៌មានអន្តរកម្មមិនច្បាស់លាស់ (Uncertain interactive information)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះរៀបរាប់ពីទិដ្ឋភាពទូទៅនៃបច្ចេកវិទ្យាការយល់ដឹង (Cognitive technology) ដោយបែងចែករចនាសម្ព័ន្ធប្រព័ន្ធសន្ទនាជាបីកម្រិត និងវិភាគលើបច្ចេកទេសគ្រប់គ្រងផ្សេងៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Rule-based Dialogue Management
ការគ្រប់គ្រងការសន្ទនាផ្អែកលើវិធាន (Finite State / Form-filling)
ងាយស្រួលក្នុងការរចនានិងអនុវត្តសម្រាប់កិច្ចការតូចៗ ដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់។ ផ្តល់សិទ្ធិអំណាចគ្រប់គ្រងច្បាស់លាស់ដល់អ្នករចនាប្រព័ន្ធ។ ពិបាកក្នុងការពង្រីកទំហំប្រព័ន្ធនៅពេលដែលចំណេះដឹងឬលក្ខខណ្ឌកើនឡើង។ ងាយរងគ្រោះនិងបរាជ័យខ្ពស់នៅពេលមានកំហុសនៃការស្គាល់សំឡេង (Speech Recognition Errors)។ ត្រូវបានប្រើប្រាស់ដោយជោគជ័យក្នុងប្រព័ន្ធជំនាន់មុនៗដូចជា ATIS និងប្រព័ន្ធសួរព័ត៌មានជើងហោះហើរសាមញ្ញ ប៉ុន្តែមិនស័ក្តិសមនឹងការសន្ទនាស្មុគស្មាញ។
Statistical Dialogue Management (POMDP/RL)
ការគ្រប់គ្រងការសន្ទនាផ្អែកលើស្ថិតិនិងរៀនពង្រឹង (POMDP)
អាចដោះស្រាយភាពមិនច្បាស់លាស់នៃព័ត៌មានបានយ៉ាងល្អតាមរយៈការរក្សាទុកប្រូបាប (Belief State)។ អាចរៀនសូត្រពីទិន្នន័យដើម្បីធ្វើឱ្យការសម្រេចចិត្តប្រសើរឡើងជាលំដាប់។ ទាមទារទិន្នន័យច្រើនសន្ធឹកសន្ធាប់សម្រាប់ការបណ្តុះបណ្តាល និងមានភាពស្មុគស្មាញក្នុងការគណនាខ្ពស់ ដែលទាមទារការព្យាយាមធ្វើការប៉ាន់ស្មាន (Approximation) ដើម្បីប្រើប្រាស់ជាក់ស្តែង។ ង្កើនប្រសិទ្ធភាពនៃភាពរឹងមាំ (Robustness) ក្នុងការសន្ទនាពិតប្រាកដ និងអនុញ្ញាតឱ្យប្រព័ន្ធធ្វើការសម្រេចចិត្តបានល្អប្រសើរក្រោមលក្ខខណ្ឌដែលមានសំឡេងរំខាន។
N-best Approximation for State Tracking
ការប៉ាន់ស្មាន N-best សម្រាប់ការតាមដានស្ថានភាព
កាត់បន្ថយភាពស្មុគស្មាញនៃការគណនាបានយ៉ាងច្រើនដោយផ្តោតតែលើស្ថានភាពសន្ទនា (Dialogue states) មួយចំនួនតូចដែលមានប្រូបាបខ្ពស់បំផុត។ អាចបាត់បង់ព័ត៌មានលម្អិតនៃស្ថានភាពផ្សេងទៀតដែលមានប្រូបាបទាប ដែលពេលខ្លះក៏អាចជាព័ត៌មានត្រឹមត្រូវក្នុងបរិបទជាក់ស្តែងផងដែរ។ អាចអនុវត្តបានដោយជោគជ័យក្នុងប្រព័ន្ធសន្ទនាពិភពពិតខ្នាតតូចដោយរក្សាបាននូវសមត្ថភាពគណនាដែលអាចទទួលយកបាន។
Factored Approximation for State Tracking
ការប៉ាន់ស្មានតាមកត្តា (Factored Approximation)
អនុញ្ញាតឱ្យតាមដានបំណងរបស់អ្នកប្រើប្រាស់តាមកម្រិតន័យវិទ្យា (Semantic items) នីមួយៗបានលម្អិត ដោយផ្តល់នូវទិដ្ឋភាពប្រូបាបពេញលេញជាង N-best។ ទាមទារការសន្មត់ពីឯករាជ្យភាព (Independence assumption) រវាងធាតុនីមួយៗ ដែលការសន្មត់នេះអាចមិនពិតប្រាកដក្នុងបរិបទសន្ទនាស្មុគស្មាញមួយចំនួន។ ផ្តល់លទ្ធផលល្អប្រសើរជាងការប៉ាន់ស្មាន N-Best នៅពេលដែលការសន្មត់ឯករាជ្យភាពរវាងអត្ថន័យនីមួយៗមានភាពត្រឹមត្រូវខ្ពស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ផ្ទាល់ក៏ដោយ ការអភិវឌ្ឍប្រព័ន្ធសន្ទនាយល់ដឹងផ្អែកលើម៉ូដែលកម្រិតខ្ពស់ (POMDP) ទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការស្រាវជ្រាវនេះពឹងផ្អែកខ្លាំងលើគម្រោងធំៗនៅសហរដ្ឋអាមេរិក អឺរ៉ុប និងចិន (ដូចជាគម្រោង DARPA, CLASSiC) ដែលប្រព័ន្ធទាំងនោះផ្តោតលើភាសាអង់គ្លេស និងភាសាចិនជាចម្បង។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសំណុំភាសាខ្មែរ (Khmer Text/Speech Corpus) គឺជាបញ្ហាប្រឈមដ៏ធំ ដោយសារគំរូស្ថិតិទាំងនេះត្រូវការទិន្នន័យក្នុងស្រុកនិងបរិបទវប្បធម៌ខ្មែរជាចាំបាច់ដើម្បីដំណើរការបានល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការជួយធ្វើទំនើបកម្មវិស័យសេវាកម្មអតិថិជន និងការផ្តល់ព័ត៌មានឌីជីថលនៅប្រទេសកម្ពុជា។

ការយកបច្ចេកវិទ្យាសន្ទនាផ្អែកលើការយល់ដឹងនេះមកប្រើប្រាស់ នឹងជួយកាត់បន្ថយបន្ទុកការងារប្រតិបត្តិការយ៉ាងច្រើន និងផ្តល់សេវាកម្មកាន់តែរហ័សនិងងាយស្រួលដល់ប្រជាជនកម្ពុជា ជាពិសេសក្នុងយុគសម័យស្មាតហ្វូននេះ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាអំពីមូលដ្ឋានគ្រឹះ NLP និងប្រព័ន្ធសន្ទនា: និស្សិតគួរចាប់ផ្តើមរៀនពីបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) និងការយល់ដឹងភាសានិយាយ (Spoken Language Understanding) ដោយប្រើប្រាស់ភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា NLTK, spaCy, ឬ Hugging Face Transformers
  2. ប្រមូលនិងរៀបចំទិន្នន័យសន្ទនាជាភាសាខ្មែរ: ចាប់ផ្តើមគម្រោងស្រាវជ្រាវប្រមូលទិន្នន័យអត្ថបទ និងសំឡេងជាភាសាខ្មែរសម្រាប់កិច្ចការជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ការកក់សំបុត្ររថយន្តក្រុង វីរៈប៊ុនថាំ) ដើម្បីកសាងសំណុំទិន្នន័យ (Custom Dataset) ផ្ទាល់ខ្លួនសម្រាប់ធ្វើតេស្តម៉ូដែល។
  3. សាកល្បងបង្កើតគំរូគ្រប់គ្រងការសន្ទនា: អនុវត្តការរចនាប្រព័ន្ធគ្រប់គ្រងការសន្ទនា (Dialogue Management) ដោយសាកល្បងប្រើប្រាស់ Open Source Frameworks ដូចជា RasaDeepPavlov ដែលគាំទ្រការប្រើប្រាស់ Machine Learning ជំនួសឲ្យការសរសេរកូដតាមវិធាន (Rule-based) ធម្មតា។
  4. អភិវឌ្ឍកម្មវិធីត្រាប់តាមអ្នកប្រើប្រាស់ (User Simulators): សិក្សាអំពីការប្រើប្រាស់ក្បួនដោះស្រាយ Reinforcement Learning ដោយប្រើ OpenAI Gym ដើម្បីសាងសង់ User Simulator ដែលអនុញ្ញាតឲ្យប្រព័ន្ធ Chatbot របស់អ្នកហ្វឹកហាត់រាប់ពាន់ជុំមុនពេលដាក់ឲ្យប្រើប្រាស់។
  5. ធ្វើសមាហរណកម្ម និងវាយតម្លៃតាមរយៈអ្នកប្រើប្រាស់ពិត: ភ្ជាប់ប្រព័ន្ធសន្ទនារបស់អ្នកទៅកាន់បណ្តាញសង្គមតាមរយៈ Telegram APIFacebook Messenger API រួចប្រមូលអ្នកប្រើប្រាស់ពិតប្រាកដមកធ្វើតេស្ត ដើម្បីទាញយកទិន្នន័យមតិកែលម្អ និងធ្វើការអាប់ដេតប្រព័ន្ធជាបន្តបន្ទាប់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Task-Oriented Dialogue Systems ជាប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីសន្ទនាឆ្លើយឆ្លងជាមួយមនុស្សក្នុងគោលបំណងជួយសម្រេចកិច្ចការជាក់លាក់ណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ ការស្វែងរកព័ត៌មាន ឬការបញ្ជាឧបករណ៍ឆ្លាតវៃ ជាជាងការនិយាយលេងកម្សាន្តទូទៅ។ ដូចជាអ្នកខលទៅភ្នាក់ងារសេវាកម្មអតិថិជនដើម្បីប្រាប់គេឱ្យជួយបិទកាតធនាគាររបស់អ្នកដែលបាត់។
Cognitive Technology ជាបច្ចេកវិទ្យាដែលធ្វើឱ្យម៉ាស៊ីនមានសមត្ថភាពគិត យល់ដឹង រៀនសូត្រ និងសម្របខ្លួនតាមបរិបទ ដូចជាមនុស្សដែរ ជាពិសេសវាអាចទាញយកអត្ថន័យពីការបញ្ជាដែលមានភាពមិនច្បាស់លាស់ ឬមិនពេញលេញក្នុងពេលកំពុងសន្ទនា។ ដូចជាមនុស្សដែលចេះស្មានដឹងពីអត្ថន័យពិតប្រាកដរបស់អ្នកនិយាយ ទោះបីជាអ្នកនោះនិយាយរាងរដឺន ឬស្តាប់មិនសូវច្បាស់ក៏ដោយ។
Partially Observable Markov Decision Process ជាក្របខ័ណ្ឌគណិតវិទ្យាដែលប្រព័ន្ធកុំព្យូទ័រប្រើដើម្បីធ្វើការសម្រេចចិត្តក្នុងស្ថានភាពដែលវាមិនអាចដឹងច្បាស់១០០%ពីអ្វីដែលកំពុងកើតឡើង (ឧទាហរណ៍ ពេលម៉ាស៊ីនស្តាប់សំឡេងរំខានច្របូកច្របល់) ដោយប្រើប្រូបាប៊ីលីតេដើម្បីទាយពីបំណងពិតប្រាកដរបស់អ្នកប្រើប្រាស់ រួចជ្រើសរើសចម្លើយតបដែលល្អបំផុត។ ដូចជាគ្រូពេទ្យដែលធ្វើការសន្និដ្ឋានរោគវិនិច្ឆ័យជំងឺ ដោយផ្អែកលើរោគសញ្ញាមួយចំនួន ទោះបីជាមិនទាន់បានធ្វើតេស្តឈាមគ្រប់ជ្រុងជ្រោយក៏ដោយ។
Reinforcement Learning ជាវិធីសាស្ត្រនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រព័ន្ធរៀនសូត្រពីរបៀបធ្វើសកម្មភាពតាមរយៈការសាកល្បងនិងកំហុស (trial and error) ដោយទទួលបាន "រង្វាន់" ពេលធ្វើត្រូវ និង "ពិន័យ" ពេលធ្វើខុស រហូតដល់វាអាចស្វែងរកយុទ្ធសាស្ត្រដែលទទួលបានផលល្អបំផុត។ ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះអង្គុយ ដោយឱ្យនំវាស៊ីជាចំណីរាល់ពេលដែលវាធ្វើតាមបញ្ជាបានត្រឹមត្រូវ។
Belief State គឺជាការតំណាងឱ្យស្ថានភាពនៃការសន្ទនាទាំងមូលនៅពេលបច្ចុប្បន្ន ដែលវាមិនមែនជាស្ថានភាពតែមួយដែលដាច់ខាតនោះទេ ប៉ុន្តែជាបណ្តុំនៃប្រូបាប៊ីលីតេ (ភាពអាចទៅរួច) នៃអ្វីៗទាំងអស់ដែលអ្នកប្រើប្រាស់ប្រហែលជាចង់មានន័យ។ ដូចជាអ្នកកំពុងលេងបៀរ ហើយអ្នកគណនាភាគរយក្នុងខួរក្បាលថា គូប្រកួតរបស់អ្នកអាចនឹងកំពុងកាន់សន្លឹកបៀរអ្វីខ្លះនៅក្នុងដៃរបស់គេ។
User Simulator ជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីដើរតួធ្វើជាមនុស្ស (អ្នកប្រើប្រាស់) សម្រាប់ធ្វើការសន្ទនាឆ្លើយឆ្លងរាប់ម៉ឺនដងជាមួយប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (Chatbot) ដើម្បីជួយបណ្តុះបណ្តាលប្រព័ន្ធនោះឱ្យកាន់តែឆ្លាត មុនពេលយកវាទៅប្រើប្រាស់ជាមួយមនុស្សពិតប្រាកដ។ ដូចជាការប្រើប្រាស់រូបទីងមោង (Dummy) ដើម្បីតេស្តបុកឡានមើលកម្រិតសុវត្ថិភាព មុនពេលអនុញ្ញាតឱ្យមនុស្សពិតប្រាកដជិះ។
Word Confusion Network ជារចនាសម្ព័ន្ធទិន្នន័យ (ក្រាហ្វ) ដែលរក្សាទុកនូវជម្រើសពាក្យផ្សេងៗគ្នាជាច្រើនដែលម៉ាស៊ីនស្តាប់ឮ ព្រមទាំងភាគរយប្រូបាប៊ីលីតេរបស់វា នៅពេលដែលប្រព័ន្ធស្គាល់សំឡេងមិនប្រាកដថាអ្នកប្រើប្រាស់និយាយពាក្យអ្វីឱ្យប្រាកដ ជំនួសឱ្យការទាយយកតែពាក្យមួយ។ ដូចជាសិស្សដែលស្តាប់គ្រូពន្យល់មិនសូវច្បាស់ ហើយកត់ត្រាក្នុងសៀវភៅថាពាក្យនោះអាចជា "សាលា" ឬក៏ "សាល" ដោយមានដាក់សញ្ញាសួរពីក្រោយដើម្បីផ្ទៀងផ្ទាត់ពេលក្រោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖