Original Title: A Comparative Analysis on Decision Transformers and Behavioural Cloning for Offline Reinforcement Learning in ATARI Environments
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគប្រៀបធៀបលើ Decision Transformers និង Behavioural Cloning សម្រាប់ការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning) ក្នុងបរិស្ថាន ATARI

ចំណងជើងដើម៖ A Comparative Analysis on Decision Transformers and Behavioural Cloning for Offline Reinforcement Learning in ATARI Environments

អ្នកនិពន្ធ៖ Sachin Reddy (University of KwaZulu-Natal), Asad Jeewa (Supervisor, University of KwaZulu-Natal)

ឆ្នាំបោះពុម្ព៖ 2023 SACAIR Unconference

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះវាយតម្លៃពីសមត្ថភាពរបស់ Decision Transformer (DT) ប្រៀបធៀបជាមួយនឹងការចម្លងអាកប្បកិរិយា (Behavioural Cloning - BC) នៅក្នុងបរិស្ថានហ្គេមដែលការរុករក (exploration) មានភាពស្មុគស្មាញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់បរិស្ថានហ្គេមវីដេអូ ATARI ចំនួនពីរដែលមានកម្រិតលំបាកខុសៗគ្នា ដើម្បីបង្កើតជាក្របខ័ណ្ឌវាយតម្លៃសម្រាប់ក្បួនដោះស្រាយ (Algorithm) នីមួយៗ។

ការជ្រើសរើសបរិស្ថានហ្គេម (Game Environments): ប្រើប្រាស់ហ្គេម Breakout (ងាយស្រួលរុករក) និង Frostbite (ពិបាករុករក) ពីបណ្តុំ D4RL។
ការបណ្តុះបណ្តាលម៉ូដែល (Model Training): ប្រើប្រាស់ទិន្នន័យក្រៅបណ្តាញ (Offline data) ចំនួន 1% សម្រាប់វិធីសាស្ត្រនីមួយៗ និងធ្វើការបណ្តុះបណ្តាលចំនួន 5 epochs។
ការវាយតម្លៃ (Evaluation): ធ្វើការប្រៀបធៀបពិន្ទុដែលធ្វើឱ្យមានលក្ខណៈស្តង់ដារ (Normalized scores) ធៀបទៅនឹងក្បួនដោះស្រាយ Double DQN (DDQN)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅក្នុងហ្គេម Breakout ម៉ូដែល DT ទទួលបានពិន្ទុ 19.09 ដែលខ្ពស់ជាង BC ដែលទទួលបានត្រឹម 12.69 (កើនឡើង 50%)។
នៅក្នុងហ្គេម Frostbite ម៉ូដែល DT ទទួលបានពិន្ទុ 70.35 ធៀបនឹង BC ដែលទទួលបាន 39.37 (កើនឡើង 79%)។
ជារួម Decision Transformer (DT) មានដំណើរការល្អជាង Behavioural Cloning យ៉ាងខ្លាំង ជាពិសេសក្នុងបរិស្ថានដែលទាមទារការរុករកបែបយុទ្ធសាស្ត្រ (Strategic exploration) ទោះបីជាជួបការលំបាកក៏ដោយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Decision Transformer (DT) ម៉ូដែលបំលែងការសម្រេចចិត្ត (Decision Transformer)	មានសមត្ថភាពខ្ពស់ក្នុងការរុករកបែបយុទ្ធសាស្ត្រ និងមានភាពរឹងមាំនៅក្នុងបរិស្ថានហ្គេមដែលពិបាករុករក (Hard-exploration environments)។	ទាមទារការពិន័យទិន្នន័យតាមទម្រង់លំដាប់លំដោយ (Sequence modeling) និងមានភាពប្រែប្រួលខ្ពស់ (High variance) ក្នុងដំណើរការ។	ទទួលបានពិន្ទុស្តង់ដារ 19.09 ក្នុងហ្គេម Breakout និង 70.35 ក្នុងហ្គេម Frostbite។
Behavioural Cloning (BC) ការចម្លងអាកប្បកិរិយា (Behavioural Cloning)	ជាវិធីសាស្ត្រស្តង់ដារនៃការរៀនតាមរយៈការត្រាប់តាម (Imitation learning) ដែលងាយស្រួលក្នុងការអនុវត្តជាង DT។	ជួបការលំបាកខ្លាំងនៅក្នុងបរិស្ថានដែលទាមទារចលនាស្មុគស្មាញ និងការរុករកស៊ីជម្រៅ ដូចជាហ្គេម Frostbite ជាដើម។	ទទួលបានពិន្ទុស្តង់ដារត្រឹមតែ 12.69 ក្នុងហ្គេម Breakout និង 39.37 ក្នុងហ្គេម Frostbite។
Double DQN (DDQN) ការរៀន Q-Learning ទ្វេដង (Double DQN)	ជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាព (SOTA Q-Learning) សម្រាប់កំណត់ជាគោលស្តង់ដារវាយតម្លៃការអនុវត្តរបស់ម៉ូដែលផ្សេងៗ។	មិនមែនជាវិធីសាស្ត្រផ្តោតលើទិន្នន័យក្រៅបណ្តាញ (Offline RL) សុទ្ធសាធនោះទេ ព្រោះជាទូទៅទាមទារការធ្វើអន្តរកម្មជាមួយបរិស្ថានផ្ទាល់។	ត្រូវបានប្រើជាគោលវាយតម្លៃ ដោយកំណត់ពិន្ទុរបស់វាស្មើនឹង 100 សម្រាប់ធ្វើស្តង់ដារូបនីយកម្មពិន្ទុ (Normalized score)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកម្រិតមធ្យមដោយយកទិន្នន័យហ្វឹកហាត់ត្រឹមតែ ១% នៃទិន្នន័យក្រៅបណ្តាញសរុប និងធ្វើការហ្វឹកហាត់ក្នុងរយៈពេលខ្លី។

Dataset: ប្រើប្រាស់បណ្តុំទិន្នន័យ D4RL benchmark collection ជាពិសេសទិន្នន័យប្រភេទ ATARI-replay Offline dataset សម្រាប់ហ្គេម Breakout និង Frostbite។
Hardware: ទាមទារអង្គគណនា (GPU) កម្រិតមធ្យមទៅខ្ពស់ដើម្បីបង្ហាត់ម៉ូដែល Transformer-based និងដំណើរការការវាយតម្លៃជាមួយ 128 batch size និងហ្វឹកហាត់ចំនួន 5 epochs។
Software Frameworks: ចាំបាច់ត្រូវប្រើប្រាស់បណ្ណាល័យ Deep Learning ដូចជា PyTorch ឬ TensorFlow រួមជាមួយ Arcade Learning Environment (ALE) សម្រាប់ដំណើរការហ្គេមវីដេអូ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងបរិស្ថានវីដេអូហ្គេមនិម្មិត (ATARI) ដែលមានរង្វាន់ច្រើន (Dense rewards) និងគ្មានផលប៉ះពាល់ដល់ពិភពពិត។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តជាក់ស្តែងក្នុងវិស័យផ្សេងៗដូចជាមនុស្សយន្ត ឬចរាចរណ៍ អាចនឹងប្រឈមនឹងបញ្ហានៃរង្វាន់ដ៏កម្រ (Sparse rewards) ដែលទាមទារឱ្យមានទិន្នន័យជាក់ស្តែងក្នុងស្រុកដែលមានភាពស្មុគស្មាញជាងនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្តោតលើវីដេអូហ្គេមក៏ដោយ ក៏បច្ចេកវិទ្យា Offline Reinforcement Learning (RL) នេះអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មនៅកម្ពុជាបានយ៉ាងល្អ។

វិស័យស្វ័យប្រវត្តិកម្ម និងមនុស្សយន្ត (Robotics in SEZs): អាចប្រើប្រាស់ Offline RL ដើម្បិបង្ហាត់មនុស្សយន្តនៅក្នុងតំបន់សេដ្ឋកិច្ចពិសេសនៅកម្ពុជា តាមរយៈទិន្នន័យចាស់ៗដោយមិនចាំបាច់សាកល្បងផ្ទាល់ ដែលអាចបង្កឱ្យខូចខាតឧបករណ៍ថ្លៃៗ។
ការគ្រប់គ្រងចរាចរណ៍ឆ្លាតវៃ (Smart Traffic Management): រាជធានីភ្នំពេញអាចប្រមូលទិន្នន័យចរាចរណ៍ពីអតីតកាល (Offline data) រួចប្រើប្រាស់ម៉ូដែល Decision Transformer ដើម្បីទស្សន៍ទាយ និងរៀបចំបណ្តាញភ្លើងស្តុបឱ្យបានប្រសើរឡើងដោយមិនរំខានដល់ចរាចរណ៍ពិតប្រាកដ។

ជារួម បច្ចេកវិទ្យា Decision Transformers ផ្តល់នូវសក្តានុពលក្នុងការបង្កើតភ្នាក់ងារ AI ដែលរៀនពីទិន្នន័យអតីតកាលប្រកបដោយសុវត្ថិភាព ដែលសាកសមសម្រាប់ការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជាកម្រិតបន្ទាប់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីទ្រឹស្តីជាមូលដ្ឋាន: អ្នកសិក្សាត្រូវស្រាវជ្រាវអំពី Offline Reinforcement Learning និងរបៀបដែល Transformers (GPT architecture) អាចបំប្លែងបញ្ហា RL ទៅជាការទស្សន៍ទាយតាមលំដាប់លំដោយ (Sequence modeling problem)។
រៀបចំបរិស្ថានសាកល្បង: ដំឡើង Python រួមជាមួយបណ្ណាល័យ Arcade Learning Environment (ALE) និងទាញយកបណ្តុំទិន្នន័យ D4RL ATARI-replay dataset ដើម្បីប្រើប្រាស់ជាទិន្នន័យហ្វឹកហាត់។
អភិវឌ្ឍម៉ូដែលមូលដ្ឋាន Behavioural Cloning: សរសេរកូដសម្រាប់ម៉ូដែល Behavioural Cloning (BC) ដោយប្រើ PyTorch ធ្វើការបណ្តុះបណ្តាលជាមួយទិន្នន័យ ១% ហើយកត់ត្រាពិន្ទុទុកជាគោលប្រៀបធៀប (Baseline)។
កសាងម៉ូដែល Decision Transformer: បង្កើតស្ថាបត្យកម្មម៉ូដែល Decision Transformer និងហ្វឹកហាត់វាជាមួយទំហំ batch size 128 និងរត់ចំនួន 5 epochs តាមរយៈឧបករណ៍ GPU។
ប្រៀបធៀប និងវាយតម្លៃលទ្ធផល: ប្រើប្រាស់ម៉ូដែលទាំងពីរឱ្យលេងហ្គេម Breakout និង Frostbite ចំនួន ៣ ដង (3 seeds) រួចគណនាពិន្ទុមធ្យមប្រៀបធៀបជាមួយស្តង់ដារ Double DQN ដើម្បីបញ្ជាក់ពីលទ្ធភាពនៃការរុករក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning	វាគឺជាដំណើរការដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) រៀនធ្វើសេចក្តីសម្រេចចិត្ត និងស្វែងរកយុទ្ធសាស្ត្រល្អបំផុតតាមរយៈការវិភាគលើទិន្នន័យចាស់ៗដែលបានប្រមូលទុកជាមុនយ៉ាងច្រើន ដោយមិនចាំបាច់បញ្ជូនវាទៅធ្វើអន្តរកម្មសាកល្បងផ្ទាល់នៅក្នុងបរិស្ថានហ្គេមនោះឡើយ។	ដូចជាកីឡាករបាល់ទាត់ដែលរៀនពីក្បួនលេង និងយុទ្ធសាស្ត្រថ្មីៗតាមរយៈការអង្គុយមើលវីដេអូប្រកួតចាស់ៗរបស់អ្នកដទៃ ដោយមិនចាំបាច់ចុះលេងផ្ទាល់នៅលើទីលាន។
Decision Transformers	វាគឺជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតម៉្យាងដែលយកបញ្ហានៃការរៀនពង្រឹង (RL) មកបំប្លែងជាការទស្សន៍ទាយតាមលំដាប់លំដោយ (Sequence modeling) ដោយប្រើប្រាស់បច្ចេកវិទ្យា Transformer ដើម្បីទស្សន៍ទាយសកម្មភាពដែលត្រូវធ្វើបន្ទាប់ដោយផ្អែកលើលទ្ធផលរង្វាន់ដែលបានកំណត់ទុក។	ដូចជាសិស្សម្នាក់ដែលអានសៀវភៅតាមលំដាប់លំដោយរហូតដល់យល់សាច់រឿង រួចអាចទាយដឹងច្បាស់ថាជំពូកបន្ទាប់តួឯកគួរធ្វើអ្វីខ្លះដើម្បីទទួលបានលទ្ធផលបញ្ចប់ដ៏មានក្តីសុខ។
Behavioural Cloning	វាជាវិធីសាស្ត្រមួយដែលប្រព័ន្ធ AI ព្យាយាមរៀនតាមរយៈការចម្លងអាកប្បកិរិយា ឬសកម្មភាពរបស់អ្នកជំនាញទាំងស្រុង ដោយផ្អែកលើទិន្នន័យគំរូដែលធ្លាប់មាន ក្នុងគោលបំណងភ្ជាប់ស្ថានភាពដែលបានឃើញទៅនឹងសកម្មភាពដែលត្រូវធ្វើបន្ទាប់ដោយផ្ទាល់។	ដូចជាកូនក្មេងដែលរៀនចងខ្សែស្បែកជើងដោយការអង្គុយមើលសកម្មភាពដៃរបស់ឪពុកម្តាយ ហើយព្យាយាមធ្វើតាមរាល់ចលនាទាំងអស់ដោយមិនចាំបាច់យល់ពីហេតុផលស៊ីជម្រៅ។
General Video Game Playing	វាជាបញ្ហាប្រឈមក្នុងការបង្កើតភ្នាក់ងារ AI ដែលមានសមត្ថភាពអាចលេងវីដេអូហ្គេមបានច្រើនប្រភេទផ្សេងៗគ្នា ដោយតម្រូវឱ្យវាស្វែងយល់ពីច្បាប់ និងបរិស្ថានហ្គេមនីមួយៗដោយខ្លួនឯង ជំនួសឱ្យការសរសេរកូដជាក់លាក់សម្រាប់តែហ្គេមណាមួយ។	ដូចជាអ្នកលេងហ្គេមដ៏ពូកែម្នាក់ដែលអាចលេងហ្គេមថ្មីៗគ្រប់ប្រភេទបានយ៉ាងល្អភ្លាមៗ ទោះបីជាមិនដែលធ្លាប់លេងវាពីមុនមកក៏ដោយ ព្រោះគាត់មានសមត្ថភាពចាប់គន្លឹះហ្គេមបានលឿន។
Sequence modeling	គឺជាដំណើរការគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់សម្រាប់ទស្សន៍ទាយទិន្នន័យ ឬសកម្មភាពបន្ទាប់ ដោយវិភាគទៅលើទិន្នន័យដែលបានកើតឡើងជាបន្តបន្ទាប់គ្នាតាមលំដាប់លំដោយកាលពីអតីតកាល។	ដូចជាមុខងារទស្សន៍ទាយពាក្យនៅលើក្តារចុចទូរសព្ទដៃ ដែលដឹងថាអ្នកនឹងវាយពាក្យអ្វីបន្តទៀតដោយផ្អែកលើពាក្យដែលអ្នកទើបតែវាយរួចពីមុនមក។
Double DQN	វាគឺជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាពក្នុងការរៀនពង្រឹង (RL) ដែលជួយកាត់បន្ថយបញ្ហានៃការវាយតម្លៃរង្វាន់ខ្ពស់ហួសហេតុពេក ដែលធ្វើឱ្យភ្នាក់ងារ AI មានភាពវៃឆ្លាតជាងមុន ហើយវាត្រូវបានគេប្រើជាគោលស្តង់ដារសម្រាប់ប្រៀបធៀបនៅក្នុងការសិក្សានេះ។	ដូចជាអ្នកវាយតម្លៃអចលនទ្រព្យពីរនាក់ដែលជួយផ្ទៀងផ្ទាត់តម្លៃគ្នាទៅវិញទៅមក ដើម្បីធានាថាផ្ទះមួយមិនត្រូវបានអ្នកទីមួយដាក់តម្លៃលក់ថ្លៃខុសពីការពិតហួសហេតុពេក។
Exploration	នៅក្នុងបរិបទនៃការរៀនពង្រឹង គឺជាដំណើរការដែលភ្នាក់ងារ AI ធ្វើការសាកល្បងសកម្មភាពថ្មីៗដោយចៃដន្យដើម្បីស្វែងយល់ពីរបៀបរៀបចំក្នុងបរិស្ថាន និងស្វែងរកវិធីទទួលបានរង្វាន់ ជាពិសេសក្នុងស្ថានភាពដែលរង្វាន់កម្រនឹងទទួលបានឬលាក់កំបាំងខ្លាំង។	ដូចជាការដើររុករកកន្លែងលក់ម្ហូបឆ្ងាញ់ៗដោយខ្លួនឯងនៅក្នុងទីក្រុងថ្មីមួយដែលអ្នកមិនធ្លាប់ស្គាល់ទាល់តែសោះ ដោយសុខចិត្តដើរចូលផ្លូវតូចៗដែលមិនស្គាល់ដើម្បីសាកល្បងសំណាង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖