បញ្ហា (The Problem)៖ ឯកសារនេះផ្តល់នូវការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយអំពីបច្ចេកវិទ្យាការរៀនតាមបែបពង្រឹង (Reinforcement Learning) ដោយផ្តោតលើបញ្ហាស្នូល រចនាសម្ព័ន្ធ ក្បួនដោះស្រាយ និងបញ្ហាប្រឈមនៅក្នុងបរិស្ថានម៉ាកូវ (Markov) និងមិនមែនម៉ាកូវ (Non-Markov)។
វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះបានធ្វើការសំយោគឯកសារស្រាវជ្រាវដែលមានស្រាប់ ដើម្បីចាត់ថ្នាក់ក្បួនដោះស្រាយ និងវិភាគយ៉ាងស៊ីជម្រៅលើប្រធានបទកម្រិតខ្ពស់នៃការរៀនតាមបែបពង្រឹង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Q-Learning (Off-policy TD Control) ក្បួនដោះស្រាយ Q-Learning (ការរៀនក្រៅគោលការណ៍) |
មានសមត្ថភាពខ្ពស់ក្នុងការធានាស្វែងរកគោលការណ៍ល្អបំផុត (Optimal policy) ទោះបីជាភ្នាក់ងារកំពុងធ្វើការរុករកដោយចៃដន្យក៏ដោយ។ មិនតម្រូវឱ្យស្គាល់ម៉ូដែលនៃបរិស្ថាន (Model-free) នោះទេ។ | អាចប្រឈមនឹងការវាយតម្លៃតម្លៃលើស (Overestimation) នៃសកម្មភាព និងមានភាពយឺតយ៉ាវក្នុងការរួបរួម (Convergence) ប្រសិនបើលំហទិន្នន័យមានទំហំធំ។ | ត្រូវបានបញ្ជាក់ថាមានការរួបរួម (Convergent) ក្រោមលក្ខខណ្ឌជាក់លាក់ និងជាក្បួនដោះស្រាយគំរូគ្មានម៉ូដែល (Model-free) ដ៏មានប្រសិទ្ធភាពបំផុតមួយ។ |
| Sarsa (On-policy TD Control) ក្បួនដោះស្រាយ Sarsa (ការរៀនក្នុងគោលការណ៍) |
មានសុវត្ថិភាពជាង Q-Learning ក្នុងអំឡុងពេលហ្វឹកហាត់ ដោយសារវាគិតគូរពីគោលការណ៍រុករកបច្ចុប្បន្ន ដែលស័ក្តិសមសម្រាប់បរិស្ថានដែលមានការពិន័យធ្ងន់ធ្ងរ។ | លទ្ធផលចុងក្រោយ និងការស្វែងរកគោលការណ៍ល្អបំផុត គឺពឹងផ្អែកខ្លាំងទៅលើការកំណត់អត្រានៃការរុករក (Exploration rate) របស់ភ្នាក់ងារ។ | ក្បួនដោះស្រាយរៀនសូត្រពីតម្លៃពិតប្រាកដនៃសកម្មភាពបន្ទាប់ ដែលធ្វើឱ្យវាដំណើរការបានល្អក្នុងបញ្ហាដែលទាមទារការប្រុងប្រយ័ត្ន។ |
| Dyna-Q (Model-based RL) ក្បួនដោះស្រាយ Dyna-Q (ផ្អែកលើគំរូ) |
សន្សំសំចៃទិន្នន័យ (Sample efficient) យ៉ាងខ្លាំង ដោយប្រើប្រាស់បទពិសោធន៍ពីបរិស្ថានក្លែងធ្វើដើម្បីពន្លឿនល្បឿននៃការរៀនសូត្រ។ | ទាមទារថាមពលគណនាច្រើនជាងមុនសម្រាប់ជំហាននីមួយៗ ហើយប្រសិទ្ធភាពរបស់វាអាស្រ័យទាំងស្រុងទៅលើភាពសុក្រឹតនៃម៉ូដែលដែលបានប៉ាន់ស្មាន។ | ដោះស្រាយបញ្ហាយឺតយ៉ាវនៃក្បួនដោះស្រាយ TD និង Q-Learning តាមរយៈការប្រើប្រាស់បទពិសោធន៍ដែលទទួលបានដើម្បីធ្វើឱ្យប្រសើរឡើងទាំងគោលការណ៍ និងម៉ូដែល។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះគឺជាការពិនិត្យឡើងវិញជាទ្រឹស្តី ដូច្នេះមិនមានការបញ្ជាក់តួលេខច្បាស់លាស់ពីតម្លៃ ឬទំហំធនធាននោះទេ ប៉ុន្តែការអនុវត្ត Reinforcement Learning ជាក់ស្តែងតម្រូវឱ្យមានធនធានដូចខាងក្រោម។
ឯកសារនេះគឺជាការចងក្រងការស្រាវជ្រាវ (Review paper) ជាសកលគិតត្រឹមឆ្នាំ ២០០៤ ដោយមិនបានប្រើប្រាស់ទិន្នន័យប្រជាសាស្ត្រ ឬទីតាំងភូមិសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្ត RL នឹងប្រឈមនឹងបញ្ហា 'គម្លាតរវាងការក្លែងធ្វើនិងការពិត' (Sim-to-real gap)។ ប្រសិនបើយើងបណ្តុះបណ្តាលគំរូ AI ដោយប្រើទិន្នន័យបរទេស វានឹងបរាជ័យក្នុងការអនុវត្តជាក់ស្តែងនៅកម្ពុជា ដូចនេះទិន្នន័យក្លែងធ្វើត្រូវតែឆ្លុះបញ្ចាំងពីបរិបទក្នុងស្រុក។
បច្ចេកវិទ្យាការរៀនតាមបែបពង្រឹង (Reinforcement Learning) នេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃ និងការធ្វើឱ្យប្រសើរឡើងនូវស្វ័យប្រវត្តិកម្មនៅក្នុងប្រទេសកម្ពុជា។
ទោះបីជាការចាប់ផ្តើមទាមទារការកសាងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យក្លែងធ្វើ និងធនធានកុំព្យូទ័រក៏ដោយ ប៉ុន្តែ RL នឹងក្លាយជាកាតាលីករដ៏សំខាន់សម្រាប់ការធ្វើទំនើបកម្មប្រព័ន្ធស្មុគស្មាញនៅកម្ពុជានាពេលអនាគត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Reinforcement learning | ជាបច្ចេកទេសបញ្ញាសិប្បនិម្មិតដែលបង្រៀនកុំព្យូទ័រ (ភ្នាក់ងារ) ឱ្យចេះធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ តាមរយៈការសាកល្បងនិងកំហុសនៅក្នុងបរិស្ថានណាមួយ ដើម្បីទទួលបានរង្វាន់ខ្ពស់បំផុតកើនឡើងជាលំដាប់។ វាផ្តោតលើការរៀនតាមរយៈការប្រាស្រ័យទាក់ទងដោយផ្ទាល់ដោយមិនត្រូវការទិន្នន័យបង្រៀនទុកជាមុន។ | ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយការផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនផ្តល់ចំណីនៅពេលវាធ្វើខុស។ |
| Markov decision process (MDP) | ជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូពីដំណើរការនៃការសម្រេចចិត្ត ដែលអះអាងថាលទ្ធផលនៃសកម្មភាពបន្ទាប់គឺអាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ មិនអាស្រ័យលើប្រវត្តិ ឬសកម្មភាពចាស់ៗពីអតីតកាលនោះទេ។ វាជាមូលដ្ឋានគ្រឹះនៃបញ្ហាធំៗនៅក្នុងការរៀនតាមបែបពង្រឹង។ | ដូចជាការលេងអុក ដែលការដើរកូនអុកបន្ទាប់អាស្រ័យលើទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្ន មិនមែនអាស្រ័យលើក្បាច់ដែលបានដើររួចតាំងពីដើមហ្គេមនោះទេ។ |
| Exploration and exploitation | ជាដំណើរការថ្លឹងថ្លែងរវាងការសាកល្បងជម្រើសថ្មីៗដែលភ្នាក់ងារមិនធ្លាប់ស្គាល់ ដើម្បីស្វែងរកលទ្ធផលដែលអាចល្អជាង (Exploration) និងការជ្រើសរើសយកជម្រើសដែលភ្នាក់ងារធ្លាប់ដឹងថាមានលទ្ធផលល្អស្រាប់ ដើម្បីទទួលបានរង្វាន់ខ្ពស់ភ្លាមៗ (Exploitation)។ | ដូចជាការសម្រេចចិត្តថាតើគួរទៅញ៉ាំបាយនៅហាងដែលធ្លាប់ញ៉ាំឆ្ងាញ់រាល់ដង (Exploitation) ឬសាកល្បងទៅហាងទើបបើកថ្មីដែលសង្ឃឹមថាឆ្ងាញ់ជាងមុន (Exploration)។ |
| Temporal difference (TD) learning | ជាក្បួនដោះស្រាយដែលរៀនសូត្រពីភាពខុសគ្នារវាងការទស្សន៍ទាយពីរពេលផ្សេងគ្នា (បច្ចុប្បន្ន និងអនាគតដ៏ខ្លី) ដោយធ្វើបច្ចុប្បន្នភាពការវាយតម្លៃរបស់វាជាបន្តបន្ទាប់ ដោយមិនបាច់រង់ចាំដល់ទីបញ្ចប់នៃដំណើរការនោះទេ។ | ដូចជាការទាយថាមេឃនឹងភ្លៀងនៅម៉ោង ៥ លុះដល់ម៉ោង ៤ ឃើញពពកខ្មៅខ្លាំង ក៏កែសម្រួលការព្យាករណ៍ថានឹងភ្លៀងនៅម៉ោង ៤:៣០ វិញ ដោយមិនបាច់រង់ចាំដល់ម៉ោង ៥ ទើបដឹងការពិត។ |
| Q-learning | ជាប្រភេទក្បួនដោះស្រាយនៃការរៀនតាមបែបពង្រឹងដែលមិនត្រូវការស្គាល់ម៉ូដែលនៃបរិស្ថាន (Model-free) ដែលវាព្យាយាមរៀនពី 'តម្លៃនៃសកម្មភាព' សម្រាប់ជម្រើសនីមួយៗក្នុងស្ថានភាពជាក់លាក់ ដើម្បីប្រាប់ភ្នាក់ងារពីសកម្មភាពដែលល្អបំផុតដែលគួរធ្វើបន្ទាប់។ | ដូចជាសៀវភៅណែនាំសម្ងាត់មួយដែលប្រាប់អ្នករាល់ពេលឈានដល់ផ្លូវបំបែកថា តើការបត់ឆ្វេង ឬបត់ស្តាំ មួយណានឹងនាំទៅដល់ទីតាំងលាក់កំណប់ធំជាង។ |
| Partially Observable Markov Decision Process (POMDP) | ជាម៉ូដែលសម្រាប់ដោះស្រាយបញ្ហាដែលភ្នាក់ងារមិនអាចមើលឃើញ ឬទទួលដឹងពីស្ថានភាពទាំងស្រុងនៃបរិស្ថាន (ឧទាហរណ៍ មានព័ត៌មានមិនគ្រប់គ្រាន់)។ ដូច្នេះវាត្រូវពឹងផ្អែកលើប្រវត្តិនៃការសង្កេតដើម្បីទាញការសន្និដ្ឋានអំពីស្ថានភាពពិតប្រាកដ។ | ដូចជាការបើកបររថយន្តក្នុងអ័ព្ទក្រាស់ ដែលអ្នកអាចមើលឃើញតែផ្លូវខាងមុខបន្តិចបន្តួច ហើយត្រូវពឹងផ្អែកលើការចងចាំ និងការស្មានដើម្បីដឹងពីស្ថានភាពផ្លូវទាំងមូល។ |
| Function approximation | ជាបច្ចេកទេសប្រើប្រាស់រូបមន្តគណិតវិទ្យា ឬបណ្តាញសរសៃប្រសាទ (Neural Networks) ដើម្បីប៉ាន់ស្មានតម្លៃក្នុងលំហស្ថានភាពដែលមានទំហំធំខ្លាំង (Continuous space) ជំនួសឱ្យការកត់ត្រាតម្លៃរាល់ស្ថានភាពនីមួយៗចូលក្នុងតារាង ដែលជួយកាត់បន្ថយការគណនា និងសន្សំសំចៃអង្គចងចាំបានយ៉ាងច្រើន។ | ដូចជាការព្យាយាមគូរខ្សែបន្ទាត់ត្រង់មួយឱ្យកាត់ចំចំណុចទិន្នន័យជាច្រើន ដើម្បីទាយពីនិន្នាការរួម ដោយមិនបាច់ចាំចំណុចនីមួយៗទាំងអស់នោះទេ។ |
| Credit assignment problem | គឺជាបញ្ហាក្នុងការកំណត់ថាតើសកម្មភាពមួយណានៅក្នុងខ្សែសង្វាក់នៃអតីតកាល ដែលជាអ្នកទទួលខុសត្រូវ (សមនឹងទទួលរង្វាន់ ឬ ការពិន័យ) ចំពោះលទ្ធផលចុងក្រោយដែលទទួលបាន ជាពិសេសនៅពេលដែលលទ្ធផលនោះកើតឡើងយឺតយ៉ាវ (Delayed reward)។ | ដូចជានៅពេលក្រុមបាល់ទាត់មួយទាត់ចូលទី វាពិបាកក្នុងការវិនិច្ឆ័យថាតើគ្រាប់បាល់នោះកើតឡើងដោយសារខ្សែប្រយុទ្ធ ទម្រង់លេងរបស់គ្រូបង្វឹក ឬការបញ្ជូនបាល់ពីខ្សែការពារកាលពី ២០ វិនាទីមុន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖