បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការគ្រប់គ្រងការសន្ទនារវាងមនុស្សនិងម៉ាស៊ីន (human-machine dialogues) នៅក្នុងបរិស្ថានដែលមានសម្លេងរំខាននិងមិនច្បាស់លាស់ ជាពិសេសសម្រាប់មនុស្សយន្តចល័ត។ ប្រព័ន្ធការសម្រេចចិត្តម៉ាកូវធម្មតា (Conventional MDP) មិនអាចដោះស្រាយបានល្អទេនៅពេលដែលមិនអាចកំណត់គោលបំណងអ្នកប្រើប្រាស់បានច្បាស់លាស់ពីការបញ្ជាជាសំឡេង។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឱ្យប្រើប្រាស់វិធីសាស្ត្រ POMDP (Partially Observable Markov Decision Process) ដែលត្រូវបានប៉ាន់ស្មានដោយ Augmented MDP ដើម្បីបង្កើតយុទ្ធសាស្ត្រសន្ទនាដោយចាត់ទុកគោលបំណងពិតប្រាកដរបស់អ្នកប្រើប្រាស់ជាស្ថានភាពដែលកំបាំង (hidden state)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Conventional MDP ប្រព័ន្ធការសម្រេចចិត្តម៉ាកូវធម្មតា |
មានល្បឿននៃការគណនាលឿនខ្លាំង (ត្រឹមតែ ១.៦ មីលីវិនាទី) និងដំណើរការបានល្អបំផុតនៅពេលដែលប្រព័ន្ធអាចទទួលស្គាល់សំឡេងបានច្បាស់ល្អ១០០%។ | មិនអាចដោះស្រាយស្ថានភាពដែលមានសម្លេងរំខាន ឬការនិយាយមិនច្បាស់លាស់បានទេ ដោយសារប្រព័ន្ធនេះតម្រូវឱ្យដឹងពីគោលបំណងពិតប្រាកដរបស់អ្នកប្រើប្រាស់គ្រប់ពេលវេលា។ | ទទួលបានរង្វាន់សរុបជាមធ្យមត្រឹមតែ ៤៩.៧ ក្នុងមួយការសន្ទនា ដែលបង្ហាញថាវាមានកំហុសច្រើនក្នុងស្ថានភាពជាក់ស្តែង។ |
| Exact POMDP គំរូនៃការសម្រេចចិត្តម៉ាកូវកំបាំងពេញលេញ |
ផ្តល់នូវយុទ្ធសាស្ត្រល្អបំផុត (Optimal policy) និងទទួលបានពិន្ទុរង្វាន់ខ្ពស់បំផុតលឿនជាងគេសម្រាប់ការដោះស្រាយបញ្ហាតូចៗ។ | មានភាពស្មុគស្មាញខ្លាំងក្នុងការគណនា (Doubly exponential) ដែលធ្វើឱ្យវាមិនអាចដោះស្រាយបញ្ហាដែលមានចំនួនស្ថានភាព (States) ច្រើនបានឡើយ។ | ប្រើពេលដល់ទៅ ៧២៩ វិនាទី ក្នុងការគណនាសម្រាប់បញ្ហាដែលមានត្រឹមតែ ៧ ស្ថានភាព និងមិនអាចគណនាបានទាល់តែសោះសម្រាប់បញ្ហាពេញលេញ ១៣ ស្ថានភាព។ |
| Augmented MDP (Approximate POMDP) គំរូ POMDP ប៉ាន់ស្មាន |
កាត់បន្ថយពេលវេលាគណនាយ៉ាងច្រើនសន្ធឹកសន្ធាប់ដោយប្រើប្រាស់ Belief Entropy និងអាចសម្របខ្លួនទៅនឹងកម្រិតគុណភាពនៃការចាប់សំឡេងបានយ៉ាងល្អ។ | ផ្តល់នូវលទ្ធផលត្រឹមតែកម្រិតប្រហាក់ប្រហែល (Sub-optimal) បើធៀបនឹងម៉ូដែលពេញលេញ និងមាននិន្នាការសួរសំណួរបញ្ជាក់ច្រើនពេកនៅពេលវាមិនច្បាស់។ | ទទួលបានរង្វាន់សរុបជាមធ្យម ២៣០.៧ ក្នុងមួយការសន្ទនា (ខ្ពស់ជាង MDP ធម្មតា ៣ ដង) ដោយប្រើពេលគណនាត្រឹមតែ ៧១៩ មីលីវិនាទី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាមិនបានបញ្ជាក់ពីតម្លៃផ្នែករឹងជាតួលេខក្តី ការអនុវត្តប្រព័ន្ធនេះទាមទារនូវធនធានកុំព្យូទ័រដែលមានសមត្ថភាព និងឧបករណ៍មនុស្សយន្តជាក់លាក់ដើម្បីធ្វើតេស្ត។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងមន្ទីរពិសោធន៍នៅសហរដ្ឋអាមេរិក (Carnegie Mellon University) ដោយប្រើប្រាស់គំរូសន្ទនាជាភាសាអង់គ្លេសសម្រាប់មនុស្សយន្តថែទាំសុខភាព និងធ្វើតេស្តជាមួយអ្នកនិយាយភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា ការទទួលស្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) នៅមានកម្រិត និងមានបញ្ហាសំឡេងរំខានច្រើន ដែលទាមទារឱ្យមានការបង្វឹកទិន្នន័យ (Training data) ថ្មីទាំងស្រុងផ្អែកលើបរិបទភាសា និងការបញ្ចេញសំឡេងក្នុងស្រុក។
វិធីសាស្ត្រ POMDP នេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការបង្កើតប្រព័ន្ធសន្ទនាឆ្លាតវៃ (AI Voicebots) ដែលមានភាពអត់ធ្មត់នឹងកំហុសសម្លេង។
សរុបមក ការប្រើប្រាស់ទ្រឹស្តី POMDP អាចជួយដោះស្រាយបញ្ហានៃភាពមិនច្បាស់លាស់ក្នុងការទទួលស្គាល់សំឡេងភាសាខ្មែរ ដែលជាគន្លឹះដ៏សំខាន់សម្រាប់ការដាក់ឱ្យប្រើប្រាស់ AI Voice Assistants នៅក្នុងទីផ្សារកម្ពុជាប្រកបដោយប្រសិទ្ធភាពពិតប្រាកដ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Markov Decision Processes (MDPs) | ជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើការសម្រេចចិត្តក្នុងស្ថានភាពដែលលទ្ធផលអាចមានភាពចៃដន្យ (stochastic)។ ក្នុងប្រព័ន្ធនេះ កុំព្យូទ័រអាចដឹងពីស្ថានភាពបច្ចុប្បន្នច្បាស់លាស់ ១០០% ហើយវាព្យាយាមរៀនជ្រើសរើសសកម្មភាពល្អបំផុតដើម្បីទទួលបានរង្វាន់អតិបរមា។ | ដូចជាការលេងអុកដែលអ្នកអាចមើលឃើញក្ដារអុកច្បាស់លាស់ ហើយត្រូវរៀបចំយុទ្ធសាស្ត្រដើរមួយជំហានម្ដងៗដើម្បីយកឈ្នះ។ |
| Partially Observable Markov Decision Process (POMDP) | ជាប្រភេទបន្តនៃ MDP ប៉ុន្តែប្រព័ន្ធមិនអាចដឹងពីស្ថានភាពពិតប្រាកដរបស់ពិភពលោក (ឬគោលបំណងពិតរបស់អ្នកប្រើប្រាស់) ច្បាស់លាស់នោះទេ ដោយសារមានសម្លេងរំខាន ឬភាពមិនច្បាស់។ វាត្រូវពឹងផ្អែកលើការសង្កេត (observations) ដើម្បីប៉ាន់ស្មានស្ថានភាពនោះ។ | ដូចជាការលេងបៀរដែលអ្នកមិនអាចមើលឃើញសន្លឹកបៀររបស់អ្នកដទៃ ហើយត្រូវស្មានតាមរយៈការបញ្ចេញទឹកមុខឬសកម្មភាពរបស់ពួកគេ។ |
| Belief State | ជារបាយប្រូបាប៊ីលីតេ (probability distribution) ដែលប្រព័ន្ធបង្កើតឡើងដើម្បីប៉ាន់ស្មានថា តើអ្នកប្រើប្រាស់កំពុងមានបំណងអ្វីពិតប្រាកដ ដោយផ្អែកលើទិន្នន័យឬសំឡេងដែលវាទទួលបានកន្លងមក ទោះបីជាវាមិនច្បាស់ក៏ដោយ។ | ដូចជាការវាយតម្លៃភាគរយថាតើមេឃនឹងភ្លៀងឬអត់ (ឧទាហរណ៍៖ ៧០% ភ្លៀង, ៣០% ស្រឡះ) ដោយមើលលើកម្រិតនៃពពកខ្មៅ។ |
| Belief Entropy | ជាការវាស់ស្ទង់កម្រិតនៃភាពមិនច្បាស់លាស់ (uncertainty) នៅក្នុង Belief State របស់ប្រព័ន្ធ។ អង់ត្រូបពី (Entropy) កាន់តែខ្ពស់ មានន័យថាប្រព័ន្ធកាន់តែមិនប្រាកដប្រជាពីបំណងរបស់អ្នកប្រើប្រាស់។ | ដូចជាអារម្មណ៍ស្ទាក់ស្ទើររបស់អ្នកនៅពេលដែលអ្នកមានជម្រើសមុខម្ហូបច្រើនពេក ហើយមិនដឹងថាចង់ញ៉ាំអ្វីឱ្យប្រាកដ។ |
| Dialogue Management | ជាផ្នែកមួយនៃប្រព័ន្ធកុំព្យូទ័រដែលគ្រប់គ្រងលំហូរនៃការសន្ទនារវាងមនុស្ស និងម៉ាស៊ីន ដោយវាជាអ្នកសម្រេចថាតើម៉ាស៊ីនគួរឆ្លើយតបយ៉ាងដូចម្តេច សួរសំណួរបញ្ជាក់បន្ថែម ឬអនុវត្តតាមបញ្ជារបស់អ្នកប្រើប្រាស់។ | ដូចជាពិធីករកម្មវិធីដែលត្រូវចេះសួរសំណួរបន្តបន្ទាប់ និងដឹងថាពេលណាគួរសួរអ្វី ដើម្បីទាញយកព័ត៌មានពីភ្ញៀវកិត្តិយសឱ្យចំគោលដៅ។ |
| Policy | ជាយុទ្ធសាស្ត្រ ឬច្បាប់បញ្ជាដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) បង្កើតឡើងដើម្បីកំណត់ថាតើសកម្មភាពអ្វីដែលត្រូវធ្វើបន្ទាប់ ដោយផ្អែកលើស្ថានភាព (State) ឬជំនឿ (Belief) បច្ចុប្បន្ន ដើម្បីធានាថាវាទទួលបានលទ្ធផលល្អបំផុត។ | ដូចជាសៀវភៅក្បួនណែនាំដែលប្រាប់អ្នកកាត់ដេរថា ប្រសិនបើឃើញទំហំក្រណាត់ប៉ុណ្ណេះ តើគួរកាត់ចេញជារាងអ្វីទើបល្អនិងចំណេញក្រណាត់បំផុត។ |
| Stochastic planners | ជាក្បួនដោះស្រាយ (Algorithms) ដែលរៀបចំផែនការសកម្មភាពដោយគិតបញ្ចូលនូវភាពមិនច្បាស់លាស់ និងលទ្ធផលចៃដន្យដែលអាចកើតមាននៅក្នុងបរិស្ថាន ជំនួសឱ្យការសន្មតថាអ្វីៗនឹងកើតឡើងតាមការរំពឹងទុកទាំងអស់។ | ដូចជាការរៀបចំផែនការដំណើរកម្សាន្ត ដោយមានត្រៀមឆ័ត្រឬអាវភ្លៀងជាស្រេច ព្រោះអាកាសធាតុអាចប្រែប្រួលភ្លាមៗមិនអាចទាយទុកមុនបាន។ |
| Reward structure | ជាប្រព័ន្ធផ្តល់ពិន្ទុ (វិជ្ជមាន ឬអវិជ្ជមាន) នៅក្នុងក្បួនដោះស្រាយដែលប្រាប់ម៉ូដែលថាសកម្មភាពមួយណាមានប្រយោជន៍ និងមួយណាមិនគួរធ្វើ (ឧទាហរណ៍៖ សួរបញ្ជាក់ច្រើនដងពេកត្រូវកាត់ពិន្ទុ) ដើម្បីណែនាំវាឱ្យសម្រេចគោលដៅប្រកបដោយប្រសិទ្ធភាព។ | ដូចជាការបង្ហាត់សត្វសុនខ ដោយឱ្យនំចំណីនៅពេលវាធ្វើតាមបញ្ជា និងស្តីបន្ទោសនៅពេលវាធ្វើខុស ដើម្បីឱ្យវាឆាប់ចេះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖