Original Title: A Comparative Analysis on Decision Transformers and Behavioural Cloning for Offline Reinforcement Learning in ATARI Environments
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគប្រៀបធៀបលើ Decision Transformers និង Behavioural Cloning សម្រាប់ការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning) ក្នុងបរិស្ថាន ATARI

ចំណងជើងដើម៖ A Comparative Analysis on Decision Transformers and Behavioural Cloning for Offline Reinforcement Learning in ATARI Environments

អ្នកនិពន្ធ៖ Sachin Reddy (University of KwaZulu-Natal), Asad Jeewa (Supervisor, University of KwaZulu-Natal)

ឆ្នាំបោះពុម្ព៖ 2023 SACAIR Unconference

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះវាយតម្លៃពីសមត្ថភាពរបស់ Decision Transformer (DT) ប្រៀបធៀបជាមួយនឹងការចម្លងអាកប្បកិរិយា (Behavioural Cloning - BC) នៅក្នុងបរិស្ថានហ្គេមដែលការរុករក (exploration) មានភាពស្មុគស្មាញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់បរិស្ថានហ្គេមវីដេអូ ATARI ចំនួនពីរដែលមានកម្រិតលំបាកខុសៗគ្នា ដើម្បីបង្កើតជាក្របខ័ណ្ឌវាយតម្លៃសម្រាប់ក្បួនដោះស្រាយ (Algorithm) នីមួយៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Decision Transformer (DT)
ម៉ូដែលបំលែងការសម្រេចចិត្ត (Decision Transformer)
មានសមត្ថភាពខ្ពស់ក្នុងការរុករកបែបយុទ្ធសាស្ត្រ និងមានភាពរឹងមាំនៅក្នុងបរិស្ថានហ្គេមដែលពិបាករុករក (Hard-exploration environments)។ ទាមទារការពិន័យទិន្នន័យតាមទម្រង់លំដាប់លំដោយ (Sequence modeling) និងមានភាពប្រែប្រួលខ្ពស់ (High variance) ក្នុងដំណើរការ។ ទទួលបានពិន្ទុស្តង់ដារ 19.09 ក្នុងហ្គេម Breakout និង 70.35 ក្នុងហ្គេម Frostbite។
Behavioural Cloning (BC)
ការចម្លងអាកប្បកិរិយា (Behavioural Cloning)
ជាវិធីសាស្ត្រស្តង់ដារនៃការរៀនតាមរយៈការត្រាប់តាម (Imitation learning) ដែលងាយស្រួលក្នុងការអនុវត្តជាង DT។ ជួបការលំបាកខ្លាំងនៅក្នុងបរិស្ថានដែលទាមទារចលនាស្មុគស្មាញ និងការរុករកស៊ីជម្រៅ ដូចជាហ្គេម Frostbite ជាដើម។ ទទួលបានពិន្ទុស្តង់ដារត្រឹមតែ 12.69 ក្នុងហ្គេម Breakout និង 39.37 ក្នុងហ្គេម Frostbite។
Double DQN (DDQN)
ការរៀន Q-Learning ទ្វេដង (Double DQN)
ជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាព (SOTA Q-Learning) សម្រាប់កំណត់ជាគោលស្តង់ដារវាយតម្លៃការអនុវត្តរបស់ម៉ូដែលផ្សេងៗ។ មិនមែនជាវិធីសាស្ត្រផ្តោតលើទិន្នន័យក្រៅបណ្តាញ (Offline RL) សុទ្ធសាធនោះទេ ព្រោះជាទូទៅទាមទារការធ្វើអន្តរកម្មជាមួយបរិស្ថានផ្ទាល់។ ត្រូវបានប្រើជាគោលវាយតម្លៃ ដោយកំណត់ពិន្ទុរបស់វាស្មើនឹង 100 សម្រាប់ធ្វើស្តង់ដារូបនីយកម្មពិន្ទុ (Normalized score)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកម្រិតមធ្យមដោយយកទិន្នន័យហ្វឹកហាត់ត្រឹមតែ ១% នៃទិន្នន័យក្រៅបណ្តាញសរុប និងធ្វើការហ្វឹកហាត់ក្នុងរយៈពេលខ្លី។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងបរិស្ថានវីដេអូហ្គេមនិម្មិត (ATARI) ដែលមានរង្វាន់ច្រើន (Dense rewards) និងគ្មានផលប៉ះពាល់ដល់ពិភពពិត។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តជាក់ស្តែងក្នុងវិស័យផ្សេងៗដូចជាមនុស្សយន្ត ឬចរាចរណ៍ អាចនឹងប្រឈមនឹងបញ្ហានៃរង្វាន់ដ៏កម្រ (Sparse rewards) ដែលទាមទារឱ្យមានទិន្នន័យជាក់ស្តែងក្នុងស្រុកដែលមានភាពស្មុគស្មាញជាងនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្តោតលើវីដេអូហ្គេមក៏ដោយ ក៏បច្ចេកវិទ្យា Offline Reinforcement Learning (RL) នេះអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មនៅកម្ពុជាបានយ៉ាងល្អ។

ជារួម បច្ចេកវិទ្យា Decision Transformers ផ្តល់នូវសក្តានុពលក្នុងការបង្កើតភ្នាក់ងារ AI ដែលរៀនពីទិន្នន័យអតីតកាលប្រកបដោយសុវត្ថិភាព ដែលសាកសមសម្រាប់ការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជាកម្រិតបន្ទាប់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីទ្រឹស្តីជាមូលដ្ឋាន: អ្នកសិក្សាត្រូវស្រាវជ្រាវអំពី Offline Reinforcement Learning និងរបៀបដែល Transformers (GPT architecture) អាចបំប្លែងបញ្ហា RL ទៅជាការទស្សន៍ទាយតាមលំដាប់លំដោយ (Sequence modeling problem)។
  2. រៀបចំបរិស្ថានសាកល្បង: ដំឡើង Python រួមជាមួយបណ្ណាល័យ Arcade Learning Environment (ALE) និងទាញយកបណ្តុំទិន្នន័យ D4RL ATARI-replay dataset ដើម្បីប្រើប្រាស់ជាទិន្នន័យហ្វឹកហាត់។
  3. អភិវឌ្ឍម៉ូដែលមូលដ្ឋាន Behavioural Cloning: សរសេរកូដសម្រាប់ម៉ូដែល Behavioural Cloning (BC) ដោយប្រើ PyTorch ធ្វើការបណ្តុះបណ្តាលជាមួយទិន្នន័យ ១% ហើយកត់ត្រាពិន្ទុទុកជាគោលប្រៀបធៀប (Baseline)។
  4. កសាងម៉ូដែល Decision Transformer: បង្កើតស្ថាបត្យកម្មម៉ូដែល Decision Transformer និងហ្វឹកហាត់វាជាមួយទំហំ batch size 128 និងរត់ចំនួន 5 epochs តាមរយៈឧបករណ៍ GPU
  5. ប្រៀបធៀប និងវាយតម្លៃលទ្ធផល: ប្រើប្រាស់ម៉ូដែលទាំងពីរឱ្យលេងហ្គេម Breakout និង Frostbite ចំនួន ៣ ដង (3 seeds) រួចគណនាពិន្ទុមធ្យមប្រៀបធៀបជាមួយស្តង់ដារ Double DQN ដើម្បីបញ្ជាក់ពីលទ្ធភាពនៃការរុករក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning វាគឺជាដំណើរការដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) រៀនធ្វើសេចក្តីសម្រេចចិត្ត និងស្វែងរកយុទ្ធសាស្ត្រល្អបំផុតតាមរយៈការវិភាគលើទិន្នន័យចាស់ៗដែលបានប្រមូលទុកជាមុនយ៉ាងច្រើន ដោយមិនចាំបាច់បញ្ជូនវាទៅធ្វើអន្តរកម្មសាកល្បងផ្ទាល់នៅក្នុងបរិស្ថានហ្គេមនោះឡើយ។ ដូចជាកីឡាករបាល់ទាត់ដែលរៀនពីក្បួនលេង និងយុទ្ធសាស្ត្រថ្មីៗតាមរយៈការអង្គុយមើលវីដេអូប្រកួតចាស់ៗរបស់អ្នកដទៃ ដោយមិនចាំបាច់ចុះលេងផ្ទាល់នៅលើទីលាន។
Decision Transformers វាគឺជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតម៉្យាងដែលយកបញ្ហានៃការរៀនពង្រឹង (RL) មកបំប្លែងជាការទស្សន៍ទាយតាមលំដាប់លំដោយ (Sequence modeling) ដោយប្រើប្រាស់បច្ចេកវិទ្យា Transformer ដើម្បីទស្សន៍ទាយសកម្មភាពដែលត្រូវធ្វើបន្ទាប់ដោយផ្អែកលើលទ្ធផលរង្វាន់ដែលបានកំណត់ទុក។ ដូចជាសិស្សម្នាក់ដែលអានសៀវភៅតាមលំដាប់លំដោយរហូតដល់យល់សាច់រឿង រួចអាចទាយដឹងច្បាស់ថាជំពូកបន្ទាប់តួឯកគួរធ្វើអ្វីខ្លះដើម្បីទទួលបានលទ្ធផលបញ្ចប់ដ៏មានក្តីសុខ។
Behavioural Cloning វាជាវិធីសាស្ត្រមួយដែលប្រព័ន្ធ AI ព្យាយាមរៀនតាមរយៈការចម្លងអាកប្បកិរិយា ឬសកម្មភាពរបស់អ្នកជំនាញទាំងស្រុង ដោយផ្អែកលើទិន្នន័យគំរូដែលធ្លាប់មាន ក្នុងគោលបំណងភ្ជាប់ស្ថានភាពដែលបានឃើញទៅនឹងសកម្មភាពដែលត្រូវធ្វើបន្ទាប់ដោយផ្ទាល់។ ដូចជាកូនក្មេងដែលរៀនចងខ្សែស្បែកជើងដោយការអង្គុយមើលសកម្មភាពដៃរបស់ឪពុកម្តាយ ហើយព្យាយាមធ្វើតាមរាល់ចលនាទាំងអស់ដោយមិនចាំបាច់យល់ពីហេតុផលស៊ីជម្រៅ។
General Video Game Playing វាជាបញ្ហាប្រឈមក្នុងការបង្កើតភ្នាក់ងារ AI ដែលមានសមត្ថភាពអាចលេងវីដេអូហ្គេមបានច្រើនប្រភេទផ្សេងៗគ្នា ដោយតម្រូវឱ្យវាស្វែងយល់ពីច្បាប់ និងបរិស្ថានហ្គេមនីមួយៗដោយខ្លួនឯង ជំនួសឱ្យការសរសេរកូដជាក់លាក់សម្រាប់តែហ្គេមណាមួយ។ ដូចជាអ្នកលេងហ្គេមដ៏ពូកែម្នាក់ដែលអាចលេងហ្គេមថ្មីៗគ្រប់ប្រភេទបានយ៉ាងល្អភ្លាមៗ ទោះបីជាមិនដែលធ្លាប់លេងវាពីមុនមកក៏ដោយ ព្រោះគាត់មានសមត្ថភាពចាប់គន្លឹះហ្គេមបានលឿន។
Sequence modeling គឺជាដំណើរការគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់សម្រាប់ទស្សន៍ទាយទិន្នន័យ ឬសកម្មភាពបន្ទាប់ ដោយវិភាគទៅលើទិន្នន័យដែលបានកើតឡើងជាបន្តបន្ទាប់គ្នាតាមលំដាប់លំដោយកាលពីអតីតកាល។ ដូចជាមុខងារទស្សន៍ទាយពាក្យនៅលើក្តារចុចទូរសព្ទដៃ ដែលដឹងថាអ្នកនឹងវាយពាក្យអ្វីបន្តទៀតដោយផ្អែកលើពាក្យដែលអ្នកទើបតែវាយរួចពីមុនមក។
Double DQN វាគឺជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាពក្នុងការរៀនពង្រឹង (RL) ដែលជួយកាត់បន្ថយបញ្ហានៃការវាយតម្លៃរង្វាន់ខ្ពស់ហួសហេតុពេក ដែលធ្វើឱ្យភ្នាក់ងារ AI មានភាពវៃឆ្លាតជាងមុន ហើយវាត្រូវបានគេប្រើជាគោលស្តង់ដារសម្រាប់ប្រៀបធៀបនៅក្នុងការសិក្សានេះ។ ដូចជាអ្នកវាយតម្លៃអចលនទ្រព្យពីរនាក់ដែលជួយផ្ទៀងផ្ទាត់តម្លៃគ្នាទៅវិញទៅមក ដើម្បីធានាថាផ្ទះមួយមិនត្រូវបានអ្នកទីមួយដាក់តម្លៃលក់ថ្លៃខុសពីការពិតហួសហេតុពេក។
Exploration នៅក្នុងបរិបទនៃការរៀនពង្រឹង គឺជាដំណើរការដែលភ្នាក់ងារ AI ធ្វើការសាកល្បងសកម្មភាពថ្មីៗដោយចៃដន្យដើម្បីស្វែងយល់ពីរបៀបរៀបចំក្នុងបរិស្ថាន និងស្វែងរកវិធីទទួលបានរង្វាន់ ជាពិសេសក្នុងស្ថានភាពដែលរង្វាន់កម្រនឹងទទួលបានឬលាក់កំបាំងខ្លាំង។ ដូចជាការដើររុករកកន្លែងលក់ម្ហូបឆ្ងាញ់ៗដោយខ្លួនឯងនៅក្នុងទីក្រុងថ្មីមួយដែលអ្នកមិនធ្លាប់ស្គាល់ទាល់តែសោះ ដោយសុខចិត្តដើរចូលផ្លូវតូចៗដែលមិនស្គាល់ដើម្បីសាកល្បងសំណាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖