Original Title: 强化学习研究综述
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ទិដ្ឋភាពទូទៅនៃការស្រាវជ្រាវលើការរៀនតាមបែបពង្រឹង (Reinforcement Learning)

ចំណងជើងដើម៖ 强化学习研究综述

អ្នកនិពន្ធ៖ GAO Yang (State Key Laboratory for Novel Software Technology, Nanjing University), CHEN Shi-Fu (Nanjing University), LU Xin (Nanjing University)

ឆ្នាំបោះពុម្ព៖ 2004, ACTA AUTOMATICA SINICA

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តល់នូវការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយអំពីបច្ចេកវិទ្យាការរៀនតាមបែបពង្រឹង (Reinforcement Learning) ដោយផ្តោតលើបញ្ហាស្នូល រចនាសម្ព័ន្ធ ក្បួនដោះស្រាយ និងបញ្ហាប្រឈមនៅក្នុងបរិស្ថានម៉ាកូវ (Markov) និងមិនមែនម៉ាកូវ (Non-Markov)។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះបានធ្វើការសំយោគឯកសារស្រាវជ្រាវដែលមានស្រាប់ ដើម្បីចាត់ថ្នាក់ក្បួនដោះស្រាយ និងវិភាគយ៉ាងស៊ីជម្រៅលើប្រធានបទកម្រិតខ្ពស់នៃការរៀនតាមបែបពង្រឹង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Q-Learning (Off-policy TD Control)
ក្បួនដោះស្រាយ Q-Learning (ការរៀនក្រៅគោលការណ៍)
មានសមត្ថភាពខ្ពស់ក្នុងការធានាស្វែងរកគោលការណ៍ល្អបំផុត (Optimal policy) ទោះបីជាភ្នាក់ងារកំពុងធ្វើការរុករកដោយចៃដន្យក៏ដោយ។ មិនតម្រូវឱ្យស្គាល់ម៉ូដែលនៃបរិស្ថាន (Model-free) នោះទេ។ អាចប្រឈមនឹងការវាយតម្លៃតម្លៃលើស (Overestimation) នៃសកម្មភាព និងមានភាពយឺតយ៉ាវក្នុងការរួបរួម (Convergence) ប្រសិនបើលំហទិន្នន័យមានទំហំធំ។ ត្រូវបានបញ្ជាក់ថាមានការរួបរួម (Convergent) ក្រោមលក្ខខណ្ឌជាក់លាក់ និងជាក្បួនដោះស្រាយគំរូគ្មានម៉ូដែល (Model-free) ដ៏មានប្រសិទ្ធភាពបំផុតមួយ។
Sarsa (On-policy TD Control)
ក្បួនដោះស្រាយ Sarsa (ការរៀនក្នុងគោលការណ៍)
មានសុវត្ថិភាពជាង Q-Learning ក្នុងអំឡុងពេលហ្វឹកហាត់ ដោយសារវាគិតគូរពីគោលការណ៍រុករកបច្ចុប្បន្ន ដែលស័ក្តិសមសម្រាប់បរិស្ថានដែលមានការពិន័យធ្ងន់ធ្ងរ។ លទ្ធផលចុងក្រោយ និងការស្វែងរកគោលការណ៍ល្អបំផុត គឺពឹងផ្អែកខ្លាំងទៅលើការកំណត់អត្រានៃការរុករក (Exploration rate) របស់ភ្នាក់ងារ។ ក្បួនដោះស្រាយរៀនសូត្រពីតម្លៃពិតប្រាកដនៃសកម្មភាពបន្ទាប់ ដែលធ្វើឱ្យវាដំណើរការបានល្អក្នុងបញ្ហាដែលទាមទារការប្រុងប្រយ័ត្ន។
Dyna-Q (Model-based RL)
ក្បួនដោះស្រាយ Dyna-Q (ផ្អែកលើគំរូ)
សន្សំសំចៃទិន្នន័យ (Sample efficient) យ៉ាងខ្លាំង ដោយប្រើប្រាស់បទពិសោធន៍ពីបរិស្ថានក្លែងធ្វើដើម្បីពន្លឿនល្បឿននៃការរៀនសូត្រ។ ទាមទារថាមពលគណនាច្រើនជាងមុនសម្រាប់ជំហាននីមួយៗ ហើយប្រសិទ្ធភាពរបស់វាអាស្រ័យទាំងស្រុងទៅលើភាពសុក្រឹតនៃម៉ូដែលដែលបានប៉ាន់ស្មាន។ ដោះស្រាយបញ្ហាយឺតយ៉ាវនៃក្បួនដោះស្រាយ TD និង Q-Learning តាមរយៈការប្រើប្រាស់បទពិសោធន៍ដែលទទួលបានដើម្បីធ្វើឱ្យប្រសើរឡើងទាំងគោលការណ៍ និងម៉ូដែល។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះគឺជាការពិនិត្យឡើងវិញជាទ្រឹស្តី ដូច្នេះមិនមានការបញ្ជាក់តួលេខច្បាស់លាស់ពីតម្លៃ ឬទំហំធនធាននោះទេ ប៉ុន្តែការអនុវត្ត Reinforcement Learning ជាក់ស្តែងតម្រូវឱ្យមានធនធានដូចខាងក្រោម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការចងក្រងការស្រាវជ្រាវ (Review paper) ជាសកលគិតត្រឹមឆ្នាំ ២០០៤ ដោយមិនបានប្រើប្រាស់ទិន្នន័យប្រជាសាស្ត្រ ឬទីតាំងភូមិសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្ត RL នឹងប្រឈមនឹងបញ្ហា 'គម្លាតរវាងការក្លែងធ្វើនិងការពិត' (Sim-to-real gap)។ ប្រសិនបើយើងបណ្តុះបណ្តាលគំរូ AI ដោយប្រើទិន្នន័យបរទេស វានឹងបរាជ័យក្នុងការអនុវត្តជាក់ស្តែងនៅកម្ពុជា ដូចនេះទិន្នន័យក្លែងធ្វើត្រូវតែឆ្លុះបញ្ចាំងពីបរិបទក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាការរៀនតាមបែបពង្រឹង (Reinforcement Learning) នេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃ និងការធ្វើឱ្យប្រសើរឡើងនូវស្វ័យប្រវត្តិកម្មនៅក្នុងប្រទេសកម្ពុជា។

ទោះបីជាការចាប់ផ្តើមទាមទារការកសាងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យក្លែងធ្វើ និងធនធានកុំព្យូទ័រក៏ដោយ ប៉ុន្តែ RL នឹងក្លាយជាកាតាលីករដ៏សំខាន់សម្រាប់ការធ្វើទំនើបកម្មប្រព័ន្ធស្មុគស្មាញនៅកម្ពុជានាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីទ្រឹស្តីមូលដ្ឋាន (Learn the Fundamentals): និស្សិតគប្បីចាប់ផ្តើមសិក្សាពីទ្រឹស្តីមូលដ្ឋាននៃការរៀនតាមបែបពង្រឹង ដូចជា Markov Decision Process (MDP) និងសមីការ Bellman ។ គួរអានសៀវភៅគោល Reinforcement Learning: An Introduction ដោយ Sutton & Barto។
  2. អនុវត្តក្បួនដោះស្រាយជាតារាង (Implement Tabular Algorithms): សរសេរកូដក្បួនដោះស្រាយមូលដ្ឋានដូចជា Q-Learning និង Sarsa នៅក្នុងភាសា Python។ អនុវត្តសាកល្បងពួកវាជាមួយបរិស្ថានហ្គេមងាយៗ ដោយប្រើប្រាស់បណ្ណាល័យ OpenAI Gym ដើម្បីស្វែងយល់ពីដំណើរការជាក់ស្តែង។
  3. ឈានចូលការរៀនតាមបែបពង្រឹងស៊ីជម្រៅ (Deep Reinforcement Learning): សិក្សាពីការរួមបញ្ចូលគ្នារវាង RL និងបណ្តាញសរសៃប្រសាទ (Neural Networks) ដូចជាក្បួនដោះស្រាយ DQN (Deep Q-Network) ដើម្បីដោះស្រាយបរិស្ថានដែលមានទិន្នន័យធំ ដោយប្រើប្រាស់ Frameworks ដូចជា PyTorch ឬ TensorFlow។
  4. សិក្សាពីប្រព័ន្ធភ្នាក់ងារច្រើន (Multi-Agent RL): ពង្រីកចំណេះដឹងទៅលើប្រព័ន្ធភ្នាក់ងារច្រើន (Multi-Agent Systems) ដែលមានរៀបរាប់ក្នុងឯកសារ (ឧទាហរណ៍ កិច្ចសហការ ឬការប្រកួតប្រជែង)។ អនុវត្តការកូដដោយប្រើប្រាស់បរិស្ថាន PettingZoo សម្រាប់ការគ្រប់គ្រងប្រព័ន្ធស្មុគស្មាញ។
  5. បង្កើតគម្រោងជាក់ស្តែងសម្រាប់កម្ពុជា (Build Local Practical Projects): ជ្រើសរើសបញ្ហាក្នុងស្រុកមួយ (ឧទាហរណ៍៖ ការកកស្ទះចរាចរណ៍ ឬការរៀបចំកាលវិភាគរថយន្តក្រុង) បង្កើតបរិស្ថានក្លែងធ្វើ (Custom Environment) ផ្ទាល់ខ្លួនដោយប្រើប្រាស់ទិន្នន័យពិតនៅកម្ពុជា និងបង្វឹកភ្នាក់ងារ RL ដើម្បីស្វែងរកដំណោះស្រាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement learning ជាបច្ចេកទេសបញ្ញាសិប្បនិម្មិតដែលបង្រៀនកុំព្យូទ័រ (ភ្នាក់ងារ) ឱ្យចេះធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ តាមរយៈការសាកល្បងនិងកំហុសនៅក្នុងបរិស្ថានណាមួយ ដើម្បីទទួលបានរង្វាន់ខ្ពស់បំផុតកើនឡើងជាលំដាប់។ វាផ្តោតលើការរៀនតាមរយៈការប្រាស្រ័យទាក់ទងដោយផ្ទាល់ដោយមិនត្រូវការទិន្នន័យបង្រៀនទុកជាមុន។ ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយការផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនផ្តល់ចំណីនៅពេលវាធ្វើខុស។
Markov decision process (MDP) ជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូពីដំណើរការនៃការសម្រេចចិត្ត ដែលអះអាងថាលទ្ធផលនៃសកម្មភាពបន្ទាប់គឺអាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ មិនអាស្រ័យលើប្រវត្តិ ឬសកម្មភាពចាស់ៗពីអតីតកាលនោះទេ។ វាជាមូលដ្ឋានគ្រឹះនៃបញ្ហាធំៗនៅក្នុងការរៀនតាមបែបពង្រឹង។ ដូចជាការលេងអុក ដែលការដើរកូនអុកបន្ទាប់អាស្រ័យលើទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្ន មិនមែនអាស្រ័យលើក្បាច់ដែលបានដើររួចតាំងពីដើមហ្គេមនោះទេ។
Exploration and exploitation ជាដំណើរការថ្លឹងថ្លែងរវាងការសាកល្បងជម្រើសថ្មីៗដែលភ្នាក់ងារមិនធ្លាប់ស្គាល់ ដើម្បីស្វែងរកលទ្ធផលដែលអាចល្អជាង (Exploration) និងការជ្រើសរើសយកជម្រើសដែលភ្នាក់ងារធ្លាប់ដឹងថាមានលទ្ធផលល្អស្រាប់ ដើម្បីទទួលបានរង្វាន់ខ្ពស់ភ្លាមៗ (Exploitation)។ ដូចជាការសម្រេចចិត្តថាតើគួរទៅញ៉ាំបាយនៅហាងដែលធ្លាប់ញ៉ាំឆ្ងាញ់រាល់ដង (Exploitation) ឬសាកល្បងទៅហាងទើបបើកថ្មីដែលសង្ឃឹមថាឆ្ងាញ់ជាងមុន (Exploration)។
Temporal difference (TD) learning ជាក្បួនដោះស្រាយដែលរៀនសូត្រពីភាពខុសគ្នារវាងការទស្សន៍ទាយពីរពេលផ្សេងគ្នា (បច្ចុប្បន្ន និងអនាគតដ៏ខ្លី) ដោយធ្វើបច្ចុប្បន្នភាពការវាយតម្លៃរបស់វាជាបន្តបន្ទាប់ ដោយមិនបាច់រង់ចាំដល់ទីបញ្ចប់នៃដំណើរការនោះទេ។ ដូចជាការទាយថាមេឃនឹងភ្លៀងនៅម៉ោង ៥ លុះដល់ម៉ោង ៤ ឃើញពពកខ្មៅខ្លាំង ក៏កែសម្រួលការព្យាករណ៍ថានឹងភ្លៀងនៅម៉ោង ៤:៣០ វិញ ដោយមិនបាច់រង់ចាំដល់ម៉ោង ៥ ទើបដឹងការពិត។
Q-learning ជាប្រភេទក្បួនដោះស្រាយនៃការរៀនតាមបែបពង្រឹងដែលមិនត្រូវការស្គាល់ម៉ូដែលនៃបរិស្ថាន (Model-free) ដែលវាព្យាយាមរៀនពី 'តម្លៃនៃសកម្មភាព' សម្រាប់ជម្រើសនីមួយៗក្នុងស្ថានភាពជាក់លាក់ ដើម្បីប្រាប់ភ្នាក់ងារពីសកម្មភាពដែលល្អបំផុតដែលគួរធ្វើបន្ទាប់។ ដូចជាសៀវភៅណែនាំសម្ងាត់មួយដែលប្រាប់អ្នករាល់ពេលឈានដល់ផ្លូវបំបែកថា តើការបត់ឆ្វេង ឬបត់ស្តាំ មួយណានឹងនាំទៅដល់ទីតាំងលាក់កំណប់ធំជាង។
Partially Observable Markov Decision Process (POMDP) ជាម៉ូដែលសម្រាប់ដោះស្រាយបញ្ហាដែលភ្នាក់ងារមិនអាចមើលឃើញ ឬទទួលដឹងពីស្ថានភាពទាំងស្រុងនៃបរិស្ថាន (ឧទាហរណ៍ មានព័ត៌មានមិនគ្រប់គ្រាន់)។ ដូច្នេះវាត្រូវពឹងផ្អែកលើប្រវត្តិនៃការសង្កេតដើម្បីទាញការសន្និដ្ឋានអំពីស្ថានភាពពិតប្រាកដ។ ដូចជាការបើកបររថយន្តក្នុងអ័ព្ទក្រាស់ ដែលអ្នកអាចមើលឃើញតែផ្លូវខាងមុខបន្តិចបន្តួច ហើយត្រូវពឹងផ្អែកលើការចងចាំ និងការស្មានដើម្បីដឹងពីស្ថានភាពផ្លូវទាំងមូល។
Function approximation ជាបច្ចេកទេសប្រើប្រាស់រូបមន្តគណិតវិទ្យា ឬបណ្តាញសរសៃប្រសាទ (Neural Networks) ដើម្បីប៉ាន់ស្មានតម្លៃក្នុងលំហស្ថានភាពដែលមានទំហំធំខ្លាំង (Continuous space) ជំនួសឱ្យការកត់ត្រាតម្លៃរាល់ស្ថានភាពនីមួយៗចូលក្នុងតារាង ដែលជួយកាត់បន្ថយការគណនា និងសន្សំសំចៃអង្គចងចាំបានយ៉ាងច្រើន។ ដូចជាការព្យាយាមគូរខ្សែបន្ទាត់ត្រង់មួយឱ្យកាត់ចំចំណុចទិន្នន័យជាច្រើន ដើម្បីទាយពីនិន្នាការរួម ដោយមិនបាច់ចាំចំណុចនីមួយៗទាំងអស់នោះទេ។
Credit assignment problem គឺជាបញ្ហាក្នុងការកំណត់ថាតើសកម្មភាពមួយណានៅក្នុងខ្សែសង្វាក់នៃអតីតកាល ដែលជាអ្នកទទួលខុសត្រូវ (សមនឹងទទួលរង្វាន់ ឬ ការពិន័យ) ចំពោះលទ្ធផលចុងក្រោយដែលទទួលបាន ជាពិសេសនៅពេលដែលលទ្ធផលនោះកើតឡើងយឺតយ៉ាវ (Delayed reward)។ ដូចជានៅពេលក្រុមបាល់ទាត់មួយទាត់ចូលទី វាពិបាកក្នុងការវិនិច្ឆ័យថាតើគ្រាប់បាល់នោះកើតឡើងដោយសារខ្សែប្រយុទ្ធ ទម្រង់លេងរបស់គ្រូបង្វឹក ឬការបញ្ជូនបាល់ពីខ្សែការពារកាលពី ២០ វិនាទីមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖