បញ្ហា (The Problem)៖ ការរចនាយុទ្ធសាស្ត្រសម្រាប់ប្រព័ន្ធសន្ទនាជាសំឡេង (Spoken Dialogue Systems) ដោយប្រើដៃទាមទារពេលវេលា និងកម្លាំងពលកម្មច្រើន ហើយពិបាកក្នុងការដោះស្រាយជាមួយនឹងលំហសកម្មភាព (State-action spaces) ដែលមានទំហំធំជាក់ស្តែង។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវការប្រើប្រាស់វិធីសាស្ត្ររៀនពង្រឹងបែបវិវត្តន៍ (Evolutionary Reinforcement Learning) ឈ្មោះថា XCS រួមជាមួយនឹងគំរូអ្នកប្រើប្រាស់ដែលសរសេរកូដដោយដៃ (Hand-coded Simulated Users) ដើម្បីបង្កើតយុទ្ធសាស្ត្រសន្ទនាដោយស្វ័យប្រវត្តិ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hand-Coded Dialogue Strategy យុទ្ធសាស្ត្រសន្ទនាសរសេរកូដដោយដៃ |
ងាយស្រួលក្នុងការគ្រប់គ្រងតក្កវិជ្ជា (Logic) នៃការសន្ទនាសម្រាប់ប្រព័ន្ធតូចៗ និងមិនទាមទារការរៀនពីម៉ាស៊ីន។ | ចំណាយពេលអភិវឌ្ឍន៍យូរខ្លាំង (២ សប្តាហ៍) និងពិបាកក្នុងការសរសេរគ្របដណ្តប់គ្រប់ស្ថានភាពសន្ទនា (Large state spaces)។ | អត្រាសម្រេចភារកិច្ចជោគជ័យជាក់ស្តែង (Actual Task Completion) ទទួលបាន ៧៧%។ |
| Evolutionary Reinforcement Learning (XCS) ការរៀនពង្រឹងបែបវិវត្តន៍ដោយប្រើ XCS |
កាត់បន្ថយពេលវេលាអភិវឌ្ឍន៍យ៉ាងច្រើន (ត្រឹមតែ ២ ថ្ងៃ) និងមានសមត្ថភាពដោះស្រាយស្ថានភាពសន្ទនាដ៏ស្មុគស្មាញ (៦.៣ ពាន់លានស្ថានភាព)។ | លទ្ធផលនៃច្បាប់ (Rules) ដែលម៉ាស៊ីនបង្កើតមានចំនួនច្រើន (៥៧៩ ច្បាប់) ដែលពិបាកឲ្យមនុស្សអានយល់ និងទាមទារការបង្កើតគំរូអ្នកប្រើប្រាស់ក្លែងក្លាយ។ | អត្រាសម្រេចភារកិច្ចជោគជ័យជាក់ស្តែងទទួលបាន ៨១% និងមានការវាយតម្លៃខ្ពស់ពីអ្នកប្រើប្រាស់សម្រាប់ការប្រើប្រាស់នាពេលអនាគត។ |
| Tabular Q-Learning ការរៀន Q-Learning ជាទម្រង់តារាង |
អាចស្វែងរកយុទ្ធសាស្ត្រសន្ទនាដែលល្អបំផុត (Optimal policy) សម្រាប់កិច្ចការដែលមានទំហំតូច និងសាមញ្ញ។ | មិនអាចដំណើរការបានទាល់តែសោះនៅពេលដែលទំហំនៃស្ថានភាពសន្ទនាធំពេក (Curse of dimensionality) ដោយសារវាទាមទារការកត់ត្រាគ្រប់ចំណុចនៅក្នុងតារាង។ | មិនអាចអនុវត្តបានសម្រាប់ប្រព័ន្ធកក់សំបុត្រដែលមាន ៦.៣ ពាន់លានជម្រើស (State-action pairs)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារចំណេះដឹងផ្នែកសរសេរកូដ និងការកំណត់រចនាសម្ព័ន្ធបរិស្ថានក្លែងក្លាយ (Simulated Environment) ប៉ុន្តែចំណុចពិសេសគឺវាមិនតម្រូវឱ្យមានទិន្នន័យសន្ទនាធំដុំឡើយ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់អ្នកចូលរួមចំនួន ១៦ នាក់ ដែលនិយាយភាសាអង់គ្លេសជាភាសាដើម (អង់គ្លេស អាមេរិក និងអូស្ត្រាលី)។ លទ្ធផលបង្ហាញថាប្រព័ន្ធ Sphinx-4 ដំណើរការបានល្អជាមួយសម្លេងបែបអាមេរិកជាងសម្លេងផ្សេងទៀត ដោយសារទិន្នន័យបង្វឹកជារបស់អាមេរិក។ សម្រាប់កម្ពុជា នេះជាបញ្ហាសំខាន់ ព្រោះប្រព័ន្ធសម្គាល់សំឡេងភាសាខ្មែរ (Khmer ASR) ចាំបាច់ត្រូវតែមានទិន្នន័យចម្រុះពីគ្រាមភាសាតាមតំបន់ (ឧ. ភ្នំពេញ បាត់ដំបង) ដើម្បីចៀសវាងភាពលម្អៀង។
វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនដោយមិនពឹងផ្អែកលើទិន្នន័យសាទុក្ខនេះ (Corpus-free) មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ជាពិសេសសម្រាប់ការបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិ។
សរុបមក ការអនុវត្តក្បួនដោះស្រាយ XCS រួមជាមួយ Simulated User អាចជួយក្រុមហ៊ុននៅកម្ពុជាអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃបានឆាប់រហ័ស ទោះបីជាខ្វះខាតទិន្នន័យ (Data scarcity) ក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Reinforcement Learning (RL) | ជាវិធីសាស្ត្រនៃម៉ាស៊ីនរៀន (Machine Learning) ដែលកុំព្យូទ័ររៀនធ្វើការសម្រេចចិត្តដោយការសាកល្បងខុស និងត្រូវ ហើយទទួលបានរង្វាន់ពេលធ្វើត្រូវ និងការពិន័យពេលធ្វើខុស។ | ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះអង្គុយ ដោយឱ្យចំណីពេលវាធ្វើតាមបញ្ជា និងមិនឱ្យចំណីពេលវាធ្វើខុស។ |
| Markov Decision Process (MDP) | ជាទម្រង់គណិតវិទ្យាសម្រាប់ធ្វើការសម្រេចចិត្តជាលំដាប់លំដោយ ដែលសន្មតថាព័ត៌មានទាំងអស់ដែលត្រូវការដើម្បីសម្រេចចិត្តនៅជំហានបន្ទាប់ គឺមានរួចជាស្រេចនៅក្នុងស្ថានភាពបច្ចុប្បន្ន ដោយមិនចាំបាច់ខ្វល់ពីប្រវត្តិអតីតកាលឡើយ។ | ដូចជាការលេងអុក ដែលអ្នកគ្រាន់តែមើលទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្នដើម្បីដើរជំហានបន្ទាប់ ដោយមិនចាំបាច់ដឹងថាគេដើរវាមកទីនេះដោយរបៀបណានោះទេ។ |
| State-action space | ជាបណ្តុំនៃស្ថានភាពទាំងអស់ដែលអាចកើតមាននៅក្នុងប្រព័ន្ធមួយ និងសកម្មភាពទាំងអស់ដែលម៉ាស៊ីនអាចជ្រើសរើសធ្វើនៅក្នុងស្ថានភាពនីមួយៗនោះ។ | ដូចជាបញ្ជីមុខម្ហូបនៅក្នុងភោជនីយដ្ឋាន ដែលមានរាយមុខម្ហូបទាំងអស់ (ស្ថានភាព) និងជម្រើសគ្រឿងផ្សំដែលអ្នកអាចកុម្ម៉ង់បន្ថែម (សកម្មភាព)។ |
| Simulated user | ជាកម្មវិធីកុំព្យូទ័រដែលត្រូវបានសរសេរឡើងដើម្បីដើរតួជាមនុស្សក្នុងការសន្ទនាជាមួយប្រព័ន្ធសន្ទនា ដើម្បីឲ្យប្រព័ន្ធនោះអាចហ្វឹកហាត់រៀនសូត្របានរាប់ពាន់ដងដោយមិនចាំបាច់ប្រើមនុស្សពិតសាកល្បង។ | ដូចជាឧបករណ៍សម្រាប់ឱ្យអ្នកហាត់ប្រដាល់វាយហ្វឹកហាត់ (បាវសាច់) មុនពេលទៅប្រកួតជាមួយគូប្រកួតពិតប្រាកដ។ |
| Q-learning | ជាក្បួនដោះស្រាយ (Algorithm) នៅក្នុង Reinforcement Learning ដែលរៀនប៉ាន់ស្មានតម្លៃ (គុណភាព) នៃសកម្មភាពនីមួយៗក្នុងស្ថានភាពណាមួយ ដើម្បីស្វែងរកយុទ្ធសាស្ត្រដែលទទួលបានរង្វាន់ខ្ពស់បំផុតនាពេលអនាគត។ | ដូចជាការកត់ត្រាទុកក្នុងសៀវភៅថាតើផ្លូវមួយណាទៅសាលារៀនដែលចំណាយពេលតិចបំផុត ដោយផ្អែកលើបទពិសោធន៍ជិះផ្ទាល់រាល់ថ្ងៃ។ |
| Temporal Difference (TD) learning | វិធីសាស្ត្ររៀនសូត្រដែលប្រព័ន្ធធ្វើបច្ចុប្បន្នភាពការទស្សន៍ទាយរបស់ខ្លួន ដោយប្រើប្រាស់បទពិសោធន៍ថ្មីៗដែលទទួលបានភ្លាមៗ ជំនួសឲ្យការរង់ចាំរហូតដល់កិច្ចការទាំងមូលត្រូវបានបញ្ចប់។ | ដូចជាការទស្សន៍ទាយលទ្ធផលប្រកួតបាល់ទាត់ ដោយអ្នកផ្លាស់ប្តូរការទស្សន៍ទាយរបស់អ្នកភ្លាមៗរាល់ពេលដែលមានក្រុមណាមួយទាត់បញ្ចូលទី ជំនួសឲ្យការចាំទាល់តែចប់ការប្រកួត។ |
| Partial observability | គឺជាស្ថានភាពដែលប្រព័ន្ធកុំព្យូទ័រមិនអាចទទួលបានព័ត៌មានពេញលេញ ឬច្បាស់លាស់ ១០០% ពីបរិស្ថានជុំវិញខ្លួន ឧទាហរណ៍ដូចជាពេលមេក្រូហ្វូនស្រូបសំឡេងអ្នកប្រើប្រាស់មិនបានច្បាស់ល្អ។ | ដូចជាការព្យាយាមស្តាប់មិត្តភក្តិនិយាយទូរស័ព្ទ ខណៈពេលដែលអ្នកកំពុងជិះម៉ូតូតាមផ្លូវដែលមានសម្លេងខ្យល់ និងឡានកងរំពង។ |
| XCS (eXtended Classifier System) | ជាក្បួនដោះស្រាយវិវត្តន៍ (Evolutionary Algorithm) ដែលបញ្ចូលគ្នានូវការបង្កើតច្បាប់ (Rules) និងការរៀនតាមរយៈរង្វាន់ (Reinforcement Learning) ដើម្បីស្វែងរកយុទ្ធសាស្ត្រល្អបំផុតដែលមានលក្ខណៈទូទៅនិងអាចអនុវត្តបានទូលំទូលាយ ដោយមិនបាច់រក្សាទុកគ្រប់ចំណុចស្ថានភាពនោះទេ។ | ដូចជាការចម្រាញ់រើសយកតែរូបមន្តគណិតវិទ្យាណាដែលខ្លី ច្បាស់ និងអាចប្រើដោះស្រាយលំហាត់បានច្រើនទម្រង់ជាងគេបំផុត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖