បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រព័ន្ធសន្ទនាតម្រង់ទិសគោលដៅ (Task-oriented dialog systems) បែបប្រពៃណី ដែលជួបការលំបាកក្នុងការកែតម្រូវកំហុស និងភាពអាស្រ័យគ្នារវាងម៉ូឌុលនីមួយៗនៃប្រព័ន្ធ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខ័ណ្ឌប្រព័ន្ធពីដើមដល់ចប់ (End-to-end framework) តែមួយដោយប្រើប្រាស់បណ្តាញ Deep Recurrent Q-Networks (DRQN) រួមជាមួយក្បួនដោះស្រាយបែបកូនកាត់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline (Modular Baseline) ប្រព័ន្ធគោល (ម៉ូឌុលដាច់ដោយឡែក) |
មានល្បឿននៃការរៀនសូត្រលឿននៅដំណាក់កាលដំបូង។ | ដំណើរការឆាប់ដល់កម្រិតកំណត់ និងមិនអាចឈានដល់កម្រិតល្អប្រសើរបំផុត ព្រោះវាមិនត្រូវបានបណ្តុះបណ្តាលរួមគ្នា (Not jointly trained) ដែលធ្វើឱ្យមានកំហុសក្នុងការកត់ត្រាស្ថានភាព។ | ទទួលបានអត្រាឈ្នះ ៦៨,៥% និងប្រើចំនួនជុំមធ្យម ១២,២។ |
| RL (Pure Deep Reinforcement Learning) ការរៀនពង្រឹងបែបស៊ីជម្រៅសុទ្ធ |
អាចឈានដល់ដំណើរការខ្ពស់នៅពេលបញ្ចប់ការបណ្តុះបណ្តាល និងមានភាពប្រុងប្រយ័ត្នខ្ពស់ក្នុងការឆ្លើយ។ | ជួបការលំបាកនៅដំណាក់កាលដំបូង និងមានភាពយឺតយ៉ាវក្នុងការរៀន (Slow convergence) ដោយសាររង្វាន់ (Reward) មានភាពយឺតយ៉ាវ។ | ទទួលបានអត្រាឈ្នះ ៨៥,៦% និងប្រើចំនួនជុំមធ្យម ២១,៦។ |
| Hybrid-RL ការរៀនពង្រឹងបែបកូនកាត់ (វិធីសាស្ត្រស្នើឡើង) |
ឈានដល់ដំណោះស្រាយល្អបំផុតបានលឿនជាង RL សុទ្ធ ដោយទាញយកប្រយោជន៍ពីស្លាកទិន្នន័យនៃការតាមដានស្ថានភាព (State tracking labels)។ | ទាមទារឱ្យមានទិន្នន័យដែលមានការបិទស្លាក (Labelled data) មួយចំនួនសម្រាប់ការហ្វឹកហាត់រួមគ្នា។ | ទទួលបានអត្រាឈ្នះខ្ពស់បំផុត ៩០,៥% និងប្រើចំនួនជុំមធ្យម ១៩,២២។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធាននោះទេ ប៉ុន្តែផ្អែកលើទំហំនៃម៉ូដែល វាទាមទារធនធានកុំព្យូទ័រធន់មធ្យមទៅខ្ពស់ និងបរិស្ថានក្លែងធ្វើសម្រាប់ការហ្វឹកហាត់។
ការសិក្សានេះត្រូវបានធ្វើតេស្តលើកម្មវិធីក្លែងធ្វើហ្គេមសំណួរចំនួន ២០ (20Q Game) ដោយពឹងផ្អែកលើទិន្នន័យមនុស្សល្បីៗពី Freebase និងទិន្នន័យសន្ទនាពី Switchboard Dialog Act (SWDA) Corpus ដែលជាភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាការអនុវត្តជាក់ស្តែងតម្រូវឱ្យមានការប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរ (Khmer Dialog Corpus) និងការរៀបចំមូលដ្ឋានទិន្នន័យដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់ជាមុនសិន។
វិធីសាស្ត្រ End-to-End នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសន្ទនាស្វ័យប្រវត្តិឆ្លាតវៃ (Task-oriented Chatbots) នៅកម្ពុជា។
ជារួម បច្ចេកវិទ្យានេះអាចជួយស្វ័យប្រវត្តិកម្មអន្តរកម្មស្មុគស្មាញ ដែលនឹងកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការ និងបង្កើនប្រសិទ្ធភាពសេវាកម្មបម្រើអតិថិជននៅទូទាំងស្ថាប័នរដ្ឋ និងឯកជន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Task-oriented dialog systems | ជាប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីធ្វើអន្តរកម្មជាមួយមនុស្សតាមរយៈភាសា ដើម្បីសម្រេចកិច្ចការជាក់លាក់ណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ កក់សណ្ឋាគារ ឬស្វែងរកព័ត៌មាន ជាជាងគ្រាន់តែជជែកលេងកម្សាន្តទូទៅ។ | ដូចជាភ្នាក់ងារបម្រើអតិថិជនតាមទូរស័ព្ទ ដែលសួរនាំយើងរហូតដល់អាចជួយដោះស្រាយបញ្ហា ឬតម្រូវការរបស់យើងបានចប់សព្វគ្រប់។ |
| Deep Reinforcement Learning | ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលរួមបញ្ចូលគ្នារវាងការរៀនកម្រិតជ្រៅ (Deep Learning) និងការរៀនតាមរយៈការសាកល្បងនិងទទួលរង្វាន់ (Reinforcement Learning) ដែលអនុញ្ញាតឱ្យប្រព័ន្ធរៀនធ្វើការសម្រេចចិត្តក្នុងស្ថានភាពស្មុគស្មាញដោយខ្លួនឯង។ | ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះធ្វើតាមបញ្ជា ដោយឲ្យចំណីនៅពេលវាធ្វើត្រូវ និងដាក់ទោសនៅពេលវាធ្វើខុស រហូតដល់វាចងចាំទម្លាប់ល្អ។ |
| Dialog State Tracking | ជាដំណើរការនៃការកត់ត្រា និងធ្វើបច្ចុប្បន្នភាពព័ត៌មាននិងគោលបំណងរបស់អ្នកប្រើប្រាស់ជាបន្តបន្ទាប់ពីមួយប្រយោគទៅមួយប្រយោគ ដើម្បីឲ្យប្រព័ន្ធដឹងថាការសន្ទនាកំពុងស្ថិតនៅត្រង់ណា និងត្រូវការអ្វីបន្តទៀត។ | ដូចជាអ្នករត់តុដែលកត់ត្រាការកម្ម៉ង់ម្ហូបរបស់យើងចូលក្នុងសៀវភៅចំណាំ និងកែប្រែវានៅពេលយើងប្តូរចិត្តពីញ៉ាំសាច់គោទៅសាច់ជ្រូក ដើម្បីកុំឲ្យធ្វើម្ហូបខុស។ |
| Partially Observable Markov Decision Process | ជាទម្រង់គណិតវិទ្យាដែលប្រើសម្រាប់ធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ ក្នុងស្ថានភាពដែលប្រព័ន្ធ (Agent) មិនអាចដឹង ឬមើលឃើញព័ត៌មានទាំងអស់ពីបរិស្ថានជុំវិញខ្លួនបានច្បាស់លាស់ (មានភាពមិនប្រាកដប្រជាខ្ពស់)។ | ដូចជាការដើរក្នុងបន្ទប់ងងឹត ដែលយើងត្រូវស្ទាបរកផ្លូវដោយពឹងផ្អែកលើការស្មាននិងអារម្មណ៍ ព្រោះយើងមិនអាចមើលឃើញពាសពេញបន្ទប់។ |
| Deep Recurrent Q-Network | ជាប្រភេទនៃម៉ូដែលសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើប្រាស់មុខងារចងចាំ (LSTM) ដើម្បីរក្សាទុកព័ត៌មានពីអតីតកាល ជួយឲ្យប្រព័ន្ធអាចសម្រេចចិត្តបានត្រឹមត្រូវក្នុងករណីដែលសកម្មភាពបច្ចុប្បន្នត្រូវពឹងផ្អែកលើប្រវត្តិសកម្មភាពមុនៗ។ | ដូចជាមនុស្សដែលពូកែចងចាំសាច់រឿងតាំងពីដើមរហូតដល់ចប់ ធ្វើឲ្យពួកគេអាចទាយដឹងពីអ្វីដែលនឹងកើតឡើងបន្ទាប់បានយ៉ាងត្រឹមត្រូវ។ |
| End-to-end framework | ជាទម្រង់នៃការអភិវឌ្ឍប្រព័ន្ធដែលទទួលទិន្នន័យបញ្ចូល និងបញ្ចេញលទ្ធផលក្នុងតំណាក់កាលតែមួយនិងរួមគ្នា (Jointly optimized) ដោយមិនចាំបាច់បំបែកជាម៉ូឌុលតូចៗដាច់ដោយឡែកពីគ្នា ដែលជួយកាត់បន្ថយកំហុសរវាងផ្នែកនីមួយៗ។ | ដូចជារោងចក្រដែលយកវត្ថុធាតុដើមចូលម៉ាស៊ីនតែមួយ ហើយចេញមកក្លាយជាផលិតផលសម្រេចតែម្តង ដោយមិនចាំបាច់ឆ្លងកាត់ម៉ាស៊ីនច្រើនដំណាក់កាល។ |
| Credit assignment problem | ជាបញ្ហាប្រឈមក្នុងការកំណត់ថាតើសកម្មភាព ឬផ្នែកណាមួយពិតប្រាកដ (ក្នុងចំណោមជំហានជាច្រើន) ដែលជាមូលហេតុធ្វើឲ្យប្រព័ន្ធទទួលបានភាពជោគជ័យ ឬបរាជ័យនៅទីបញ្ចប់។ | ដូចជាពេលក្រុមបាល់ទាត់មួយចាញ់ការប្រកួត វាពិបាកក្នុងការចង្អុលចំៗថាតើកំហុសនេះមកពីអ្នកចាំទី ខ្សែការពារ ឬខ្សែប្រយុទ្ធឲ្យប្រាកដ។ |
| Experience replay | ជាបច្ចេកទេសបណ្តុះបណ្តាលដែលប្រព័ន្ធឆ្លាតវៃរក្សាទុកនូវបទពិសោធន៍ចាស់ៗរបស់វា រួចទាញយកវាមកហ្វឹកហាត់សារជាថ្មីម្តងហើយម្តងទៀតដោយចៃដន្យ ដើម្បីបង្កើនល្បឿន និងប្រសិទ្ធភាពនៃការរៀនសូត្រ។ | ដូចជាសិស្សដែលរំលឹកមេរៀន និងមើលលំហាត់ចាស់ៗឡើងវិញជាច្រើនដងមុនពេលប្រឡង ដើម្បីឲ្យចាំស្ទាត់ និងកុំឲ្យភ្លេចក្បួន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖