បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយអំពីបញ្ហានៃការកសាងភ្នាក់ងារយល់ដឹង (Cognitive agent) សម្រាប់ប្រព័ន្ធសន្ទនារវាងមនុស្សនិងម៉ាស៊ីនផ្អែកលើកិច្ចការ (Task-oriented dialogue systems) ដែលមានសមត្ថភាពដោះស្រាយជាមួយព័ត៌មានអន្តរកម្មមិនច្បាស់លាស់ (Uncertain interactive information)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះរៀបរាប់ពីទិដ្ឋភាពទូទៅនៃបច្ចេកវិទ្យាការយល់ដឹង (Cognitive technology) ដោយបែងចែករចនាសម្ព័ន្ធប្រព័ន្ធសន្ទនាជាបីកម្រិត និងវិភាគលើបច្ចេកទេសគ្រប់គ្រងផ្សេងៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Rule-based Dialogue Management ការគ្រប់គ្រងការសន្ទនាផ្អែកលើវិធាន (Finite State / Form-filling) |
ងាយស្រួលក្នុងការរចនានិងអនុវត្តសម្រាប់កិច្ចការតូចៗ ដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់។ ផ្តល់សិទ្ធិអំណាចគ្រប់គ្រងច្បាស់លាស់ដល់អ្នករចនាប្រព័ន្ធ។ | ពិបាកក្នុងការពង្រីកទំហំប្រព័ន្ធនៅពេលដែលចំណេះដឹងឬលក្ខខណ្ឌកើនឡើង។ ងាយរងគ្រោះនិងបរាជ័យខ្ពស់នៅពេលមានកំហុសនៃការស្គាល់សំឡេង (Speech Recognition Errors)។ | ត្រូវបានប្រើប្រាស់ដោយជោគជ័យក្នុងប្រព័ន្ធជំនាន់មុនៗដូចជា ATIS និងប្រព័ន្ធសួរព័ត៌មានជើងហោះហើរសាមញ្ញ ប៉ុន្តែមិនស័ក្តិសមនឹងការសន្ទនាស្មុគស្មាញ។ |
| Statistical Dialogue Management (POMDP/RL) ការគ្រប់គ្រងការសន្ទនាផ្អែកលើស្ថិតិនិងរៀនពង្រឹង (POMDP) |
អាចដោះស្រាយភាពមិនច្បាស់លាស់នៃព័ត៌មានបានយ៉ាងល្អតាមរយៈការរក្សាទុកប្រូបាប (Belief State)។ អាចរៀនសូត្រពីទិន្នន័យដើម្បីធ្វើឱ្យការសម្រេចចិត្តប្រសើរឡើងជាលំដាប់។ | ទាមទារទិន្នន័យច្រើនសន្ធឹកសន្ធាប់សម្រាប់ការបណ្តុះបណ្តាល និងមានភាពស្មុគស្មាញក្នុងការគណនាខ្ពស់ ដែលទាមទារការព្យាយាមធ្វើការប៉ាន់ស្មាន (Approximation) ដើម្បីប្រើប្រាស់ជាក់ស្តែង។ | ង្កើនប្រសិទ្ធភាពនៃភាពរឹងមាំ (Robustness) ក្នុងការសន្ទនាពិតប្រាកដ និងអនុញ្ញាតឱ្យប្រព័ន្ធធ្វើការសម្រេចចិត្តបានល្អប្រសើរក្រោមលក្ខខណ្ឌដែលមានសំឡេងរំខាន។ |
| N-best Approximation for State Tracking ការប៉ាន់ស្មាន N-best សម្រាប់ការតាមដានស្ថានភាព |
កាត់បន្ថយភាពស្មុគស្មាញនៃការគណនាបានយ៉ាងច្រើនដោយផ្តោតតែលើស្ថានភាពសន្ទនា (Dialogue states) មួយចំនួនតូចដែលមានប្រូបាបខ្ពស់បំផុត។ | អាចបាត់បង់ព័ត៌មានលម្អិតនៃស្ថានភាពផ្សេងទៀតដែលមានប្រូបាបទាប ដែលពេលខ្លះក៏អាចជាព័ត៌មានត្រឹមត្រូវក្នុងបរិបទជាក់ស្តែងផងដែរ។ | អាចអនុវត្តបានដោយជោគជ័យក្នុងប្រព័ន្ធសន្ទនាពិភពពិតខ្នាតតូចដោយរក្សាបាននូវសមត្ថភាពគណនាដែលអាចទទួលយកបាន។ |
| Factored Approximation for State Tracking ការប៉ាន់ស្មានតាមកត្តា (Factored Approximation) |
អនុញ្ញាតឱ្យតាមដានបំណងរបស់អ្នកប្រើប្រាស់តាមកម្រិតន័យវិទ្យា (Semantic items) នីមួយៗបានលម្អិត ដោយផ្តល់នូវទិដ្ឋភាពប្រូបាបពេញលេញជាង N-best។ | ទាមទារការសន្មត់ពីឯករាជ្យភាព (Independence assumption) រវាងធាតុនីមួយៗ ដែលការសន្មត់នេះអាចមិនពិតប្រាកដក្នុងបរិបទសន្ទនាស្មុគស្មាញមួយចំនួន។ | ផ្តល់លទ្ធផលល្អប្រសើរជាងការប៉ាន់ស្មាន N-Best នៅពេលដែលការសន្មត់ឯករាជ្យភាពរវាងអត្ថន័យនីមួយៗមានភាពត្រឹមត្រូវខ្ពស់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ផ្ទាល់ក៏ដោយ ការអភិវឌ្ឍប្រព័ន្ធសន្ទនាយល់ដឹងផ្អែកលើម៉ូដែលកម្រិតខ្ពស់ (POMDP) ទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់។
ការស្រាវជ្រាវនេះពឹងផ្អែកខ្លាំងលើគម្រោងធំៗនៅសហរដ្ឋអាមេរិក អឺរ៉ុប និងចិន (ដូចជាគម្រោង DARPA, CLASSiC) ដែលប្រព័ន្ធទាំងនោះផ្តោតលើភាសាអង់គ្លេស និងភាសាចិនជាចម្បង។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសំណុំភាសាខ្មែរ (Khmer Text/Speech Corpus) គឺជាបញ្ហាប្រឈមដ៏ធំ ដោយសារគំរូស្ថិតិទាំងនេះត្រូវការទិន្នន័យក្នុងស្រុកនិងបរិបទវប្បធម៌ខ្មែរជាចាំបាច់ដើម្បីដំណើរការបានល្អ។
បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការជួយធ្វើទំនើបកម្មវិស័យសេវាកម្មអតិថិជន និងការផ្តល់ព័ត៌មានឌីជីថលនៅប្រទេសកម្ពុជា។
ការយកបច្ចេកវិទ្យាសន្ទនាផ្អែកលើការយល់ដឹងនេះមកប្រើប្រាស់ នឹងជួយកាត់បន្ថយបន្ទុកការងារប្រតិបត្តិការយ៉ាងច្រើន និងផ្តល់សេវាកម្មកាន់តែរហ័សនិងងាយស្រួលដល់ប្រជាជនកម្ពុជា ជាពិសេសក្នុងយុគសម័យស្មាតហ្វូននេះ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Task-Oriented Dialogue Systems | ជាប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីសន្ទនាឆ្លើយឆ្លងជាមួយមនុស្សក្នុងគោលបំណងជួយសម្រេចកិច្ចការជាក់លាក់ណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ ការស្វែងរកព័ត៌មាន ឬការបញ្ជាឧបករណ៍ឆ្លាតវៃ ជាជាងការនិយាយលេងកម្សាន្តទូទៅ។ | ដូចជាអ្នកខលទៅភ្នាក់ងារសេវាកម្មអតិថិជនដើម្បីប្រាប់គេឱ្យជួយបិទកាតធនាគាររបស់អ្នកដែលបាត់។ |
| Cognitive Technology | ជាបច្ចេកវិទ្យាដែលធ្វើឱ្យម៉ាស៊ីនមានសមត្ថភាពគិត យល់ដឹង រៀនសូត្រ និងសម្របខ្លួនតាមបរិបទ ដូចជាមនុស្សដែរ ជាពិសេសវាអាចទាញយកអត្ថន័យពីការបញ្ជាដែលមានភាពមិនច្បាស់លាស់ ឬមិនពេញលេញក្នុងពេលកំពុងសន្ទនា។ | ដូចជាមនុស្សដែលចេះស្មានដឹងពីអត្ថន័យពិតប្រាកដរបស់អ្នកនិយាយ ទោះបីជាអ្នកនោះនិយាយរាងរដឺន ឬស្តាប់មិនសូវច្បាស់ក៏ដោយ។ |
| Partially Observable Markov Decision Process | ជាក្របខ័ណ្ឌគណិតវិទ្យាដែលប្រព័ន្ធកុំព្យូទ័រប្រើដើម្បីធ្វើការសម្រេចចិត្តក្នុងស្ថានភាពដែលវាមិនអាចដឹងច្បាស់១០០%ពីអ្វីដែលកំពុងកើតឡើង (ឧទាហរណ៍ ពេលម៉ាស៊ីនស្តាប់សំឡេងរំខានច្របូកច្របល់) ដោយប្រើប្រូបាប៊ីលីតេដើម្បីទាយពីបំណងពិតប្រាកដរបស់អ្នកប្រើប្រាស់ រួចជ្រើសរើសចម្លើយតបដែលល្អបំផុត។ | ដូចជាគ្រូពេទ្យដែលធ្វើការសន្និដ្ឋានរោគវិនិច្ឆ័យជំងឺ ដោយផ្អែកលើរោគសញ្ញាមួយចំនួន ទោះបីជាមិនទាន់បានធ្វើតេស្តឈាមគ្រប់ជ្រុងជ្រោយក៏ដោយ។ |
| Reinforcement Learning | ជាវិធីសាស្ត្រនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រព័ន្ធរៀនសូត្រពីរបៀបធ្វើសកម្មភាពតាមរយៈការសាកល្បងនិងកំហុស (trial and error) ដោយទទួលបាន "រង្វាន់" ពេលធ្វើត្រូវ និង "ពិន័យ" ពេលធ្វើខុស រហូតដល់វាអាចស្វែងរកយុទ្ធសាស្ត្រដែលទទួលបានផលល្អបំផុត។ | ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះអង្គុយ ដោយឱ្យនំវាស៊ីជាចំណីរាល់ពេលដែលវាធ្វើតាមបញ្ជាបានត្រឹមត្រូវ។ |
| Belief State | គឺជាការតំណាងឱ្យស្ថានភាពនៃការសន្ទនាទាំងមូលនៅពេលបច្ចុប្បន្ន ដែលវាមិនមែនជាស្ថានភាពតែមួយដែលដាច់ខាតនោះទេ ប៉ុន្តែជាបណ្តុំនៃប្រូបាប៊ីលីតេ (ភាពអាចទៅរួច) នៃអ្វីៗទាំងអស់ដែលអ្នកប្រើប្រាស់ប្រហែលជាចង់មានន័យ។ | ដូចជាអ្នកកំពុងលេងបៀរ ហើយអ្នកគណនាភាគរយក្នុងខួរក្បាលថា គូប្រកួតរបស់អ្នកអាចនឹងកំពុងកាន់សន្លឹកបៀរអ្វីខ្លះនៅក្នុងដៃរបស់គេ។ |
| User Simulator | ជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីដើរតួធ្វើជាមនុស្ស (អ្នកប្រើប្រាស់) សម្រាប់ធ្វើការសន្ទនាឆ្លើយឆ្លងរាប់ម៉ឺនដងជាមួយប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (Chatbot) ដើម្បីជួយបណ្តុះបណ្តាលប្រព័ន្ធនោះឱ្យកាន់តែឆ្លាត មុនពេលយកវាទៅប្រើប្រាស់ជាមួយមនុស្សពិតប្រាកដ។ | ដូចជាការប្រើប្រាស់រូបទីងមោង (Dummy) ដើម្បីតេស្តបុកឡានមើលកម្រិតសុវត្ថិភាព មុនពេលអនុញ្ញាតឱ្យមនុស្សពិតប្រាកដជិះ។ |
| Word Confusion Network | ជារចនាសម្ព័ន្ធទិន្នន័យ (ក្រាហ្វ) ដែលរក្សាទុកនូវជម្រើសពាក្យផ្សេងៗគ្នាជាច្រើនដែលម៉ាស៊ីនស្តាប់ឮ ព្រមទាំងភាគរយប្រូបាប៊ីលីតេរបស់វា នៅពេលដែលប្រព័ន្ធស្គាល់សំឡេងមិនប្រាកដថាអ្នកប្រើប្រាស់និយាយពាក្យអ្វីឱ្យប្រាកដ ជំនួសឱ្យការទាយយកតែពាក្យមួយ។ | ដូចជាសិស្សដែលស្តាប់គ្រូពន្យល់មិនសូវច្បាស់ ហើយកត់ត្រាក្នុងសៀវភៅថាពាក្យនោះអាចជា "សាលា" ឬក៏ "សាល" ដោយមានដាក់សញ្ញាសួរពីក្រោយដើម្បីផ្ទៀងផ្ទាត់ពេលក្រោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖