Original Title: Pre-controller for Safe Reinforcement Learning using Transformer with State-Action-Reward Representations
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឧបករណ៍ត្រួតពិនិត្យបឋមសម្រាប់ការរៀនពង្រឹងប្រកបដោយសុវត្ថិភាពដោយប្រើប្រាស់ Transformer ជាមួយតំណាង State-Action-Reward

ចំណងជើងដើម៖ Pre-controller for Safe Reinforcement Learning using Transformer with State-Action-Reward Representations

អ្នកនិពន្ធ៖ Zhiwei Shen (Waseda University), Shinichi Honiden (Waseda University)

ឆ្នាំបោះពុម្ព៖ 2024 Waseda University

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមនៃតុល្យភាពរវាងការរុករកនិងសុវត្ថិភាព (exploration-safety trade-off) នៅក្នុងការរៀនពង្រឹង (Reinforcement Learning) ជាពិសេសនៅក្នុងបរិស្ថានដែលមានហានិភ័យខ្ពស់ និងភាពស្មុគស្មាញក្នុងការរក្សាសុវត្ថិភាពភ្នាក់ងារ AI។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវយន្តការឧបករណ៍ត្រួតពិនិត្យបឋម (Pre-controller) ដោយរួមបញ្ចូលជាមួយម៉ូដែល State-Action-Reward Transformer (StARformer) ដើម្បីវាយតម្លៃ និងធានាសុវត្ថិភាពមុនពេលធ្វើសកម្មភាព។

ការធ្វើសមាហរណកម្មកត្តាសុវត្ថិភាព (Integrating Safety Factor): ការពង្រីកក្រុម token ពី ៣ (state, action, reward) ទៅជា ៤ (state, action, reward, safety) ដើម្បីបណ្តុះបណ្តាលម៉ូដែល។
ការដាក់បញ្ចូលទម្ងន់សុវត្ថិភាព (Incorporating Safety Weights): ការគុណទម្ងន់សុវត្ថិភាពជាមួយរង្វាន់ (reward) ដើម្បីផ្លាស់ប្តូរសញ្ញារង្វាន់សម្រាប់សកម្មភាពដែលប្រឈមនឹងហានិភ័យ។
ការវាយតម្លៃលើបរិស្ថាន Atari (Atari Evaluation): ធ្វើតេស្តម៉ូដែលលើហ្គេម Breakout នៃ Atari Learning Environment ដោយប្រើប្រាស់ទិន្នន័យពិតប្រាកដពី DQN Replay Dataset។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រនៃការគុណទម្ងន់សុវត្ថិភាពជាមួយនឹងរង្វាន់ (Safety Weight) ទទួលបានលទ្ធផលល្អបំផុត ដោយផ្តល់នូវរង្វាន់វគ្គ (episodic reward) ខ្ពស់បំផុតរហូតដល់ ៨±៥ បើធៀបនឹងម៉ូដែលដើមដែលទទួលបានត្រឹម ៤.៩±២។
ម៉ូដែល StARformer ដែលមានទម្ងន់សុវត្ថិភាព (Safety Weight) បានកាត់បន្ថយអត្រាបុកទង្គិច (collision frequency) យ៉ាងមានប្រសិទ្ធភាព ពោលគឺធ្លាក់ចុះពី ០.៤ មកត្រឹម ០.១។
ការបំពាក់យន្តការត្រួតពិនិត្យបឋម (Pre-controller) ទៅក្នុងដំណើរការរៀនសូត្ររបស់ StARformer បង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការសម្រេចបាននូវតុល្យភាពរវាងដំណើរការការងារ (performance) ខ្ពស់ និងការធានាសុវត្ថិភាពដ៏រឹងមាំ ដោយមិនធ្វើឲ្យប៉ះពាល់ដល់លទ្ធផលជារួម។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
StARformer (Original/Baseline) ម៉ូដែល StARformer ដើម	មានសមត្ថភាពអាចរៀនពីទិន្នន័យជាបន្តបន្ទាប់ (Sequential data) បានល្អ និងមានស្ថាបត្យកម្ម Transformer ទំនើប។	មានអត្រានៃការសម្រេចចិត្តខុសដែលបណ្តាលឱ្យមានការបុកទង្គិចខ្ពស់ (Safety risk) ព្រោះមិនមានយន្តការសុវត្ថិភាពច្បាស់លាស់។	ទទួលបានរង្វាន់វគ្គ (Episodic Reward) ចំនួន ៤.៩±២ និងមានអត្រាបុកទង្គិច ០.៤។
StARformer with Safety factor StARformer បន្ថែមកត្តាសុវត្ថិភាពជា Input	ជួយកាត់បន្ថយអត្រាបុកទង្គិចបានមួយកម្រិត ដោយម៉ូដែលចាប់ផ្តើមយល់ដឹងពីហានិភ័យ។	ធ្វើឱ្យប្រសិទ្ធភាពនៃការប្រមូលរង្វាន់ធ្លាក់ចុះទាបជាងម៉ូដែលដើម ដោយសារម៉ូដែលផ្តោតលើសុវត្ថិភាពខ្លាំងពេក។	ទទួលបានរង្វាន់វគ្គត្រឹមតែ ៣.៥±៣.៥ ប៉ុន្តែអត្រាបុកទង្គិចធ្លាក់ចុះមកត្រឹម ០.៣។
StARformer with Safety weight StARformer គុណទម្ងន់សុវត្ថិភាពជាមួយនឹងរង្វាន់	ទទួលបានលទ្ធផលល្អបំផុតទាំងការប្រមូលរង្វាន់ និងការរក្សាសុវត្ថិភាព (តុល្យភាពដ៏អស្ចារ្យ)។	ទាមទារឱ្យមានការគណនា និងកំណត់ទម្ងន់សុវត្ថិភាព (Safety weights) ឱ្យបានត្រឹមត្រូវនិងហ្មត់ចត់ជាមុន។	ទទួលបានរង្វាន់វគ្គខ្ពស់បំផុតរហូតដល់ ៨±៥ និងអត្រាបុកទង្គិចទាបបំផុតត្រឹមតែ ០.១។

ការចំណាយលើធនធាន (Resource Cost)៖ យោងតាមឯកសារ ម៉ូដែលនេះទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងចំណាយពេលបណ្តុះបណ្តាលយូរ (Resource intensive) ដោយសារភាពស្មុគស្មាញនៃស្ថាបត្យកម្ម Transformer ។

Dataset: ប្រើប្រាស់ទិន្នន័យ DQN Replay Dataset ចំនួន ៥០០,០០០ ជំហាន (តំណាងឱ្យ ១% នៃទិន្នន័យសរុប ៥០លាន) សម្រាប់ហ្គេម Atari Breakout។
Hardware: ត្រូវការម៉ាស៊ីនដែលមានកម្លាំង GPU ខ្លាំង និងអង្គចងចាំ (RAM/VRAM) ខ្ពស់ ដើម្បីដំណើរការម៉ូដែល Transformer លើទិន្នន័យរូបភាព (84x84 grayscale) និងស៊ុមវីដេអូជាបន្តបន្ទាប់។
Software / Frameworks: ទាមទារការប្រើប្រាស់ Arcade Learning Environment (ALE) សម្រាប់ការសាកល្បង និងបណ្ណាល័យ Deep Learning (ដូចជា PyTorch ឬ TensorFlow)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើង និងវាយតម្លៃដោយប្រើប្រាស់តែទិន្នន័យត្រាប់តាមពីហ្គេម Atari (Breakout) ប៉ុណ្ណោះ ដែលជាបរិស្ថាន 2D មានលក្ខណៈសាមញ្ញ។ វាមិនទាន់ឆ្លុះបញ្ចាំងពីភាពស្មុគស្មាញនៃទិន្នន័យពិភពពិត (Real-world data) ឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលដែលហ្វឹកហាត់លើហ្គេមទៅអនុវត្តក្នុងស្ថានភាពជាក់ស្តែង (ឧទាហរណ៍៖ ចរាចរណ៍) តម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម និងការប្រុងប្រយ័ត្នខ្ពស់ចំពោះ Domain Shift។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាសាកល្បងលើហ្គេមក៏ពិតមែន ប៉ុន្តែគំនិតនៃ 'ឧបករណ៍ត្រួតពិនិត្យបឋមប្រកបដោយសុវត្ថិភាព' (Safe Pre-controller) គឺមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍ AI នៅកម្ពុជា។

វិស័យដឹកជញ្ជូន និងចរាចរណ៍នៅរាជធានីភ្នំពេញ: អាចយកគោលការណ៍កាត់បន្ថយការបុកទង្គិចនេះទៅស្រាវជ្រាវលើប្រព័ន្ធជំនួយការបើកបរ (ADAS) ឬរថយន្តស្វ័យប្រវត្តិ ដើម្បីរុករកដោយសុវត្ថិភាពក្នុងស្ថានភាពចរាចរណ៍ដ៏ចង្អៀត និងស្មុគស្មាញនៅទីក្រុងភ្នំពេញ។
វិស័យកសិកម្មឆ្លាតវៃ (Smart Agriculture): អាចប្រើប្រាស់យន្តការសុវត្ថិភាពនេះសម្រាប់គ្រប់គ្រងមនុស្សយន្តកសិកម្ម (Agricultural Drones/Robots) ឱ្យធ្វើការបាញ់ថ្នាំ ឬប្រមូលផលដោយស្វ័យប្រវត្តិ ដោយចៀសវាងការបំផ្លាញដំណាំ ឬបង្កគ្រោះថ្នាក់ដល់កសិករ។
ការគ្រប់គ្រងថាមពល (Energy Grid Management): អាចប្រើដើម្បីបង្កើនប្រសិទ្ធភាពនៃការចែកចាយអគ្គិសនី (អគ្គិសនីកម្ពុជា - EDC) ដោយធានាបាននូវការវាយតម្លៃហានិភ័យមុននឹងធ្វើការសម្រេចចិត្តបែងចែកថាមពល ដើម្បីទប់ស្កាត់ការដាច់ភ្លើងដោយសារ Overload។

សរុបមក វិធីសាស្ត្រនេះផ្តល់នូវមូលដ្ឋានគ្រឹះដ៏រឹងមាំមួយសម្រាប់ការស្រាវជ្រាវ AI ដែលមិនត្រឹមតែផ្តោតលើលទ្ធផល តែថែមទាំងធានាសុវត្ថិភាព ដែលជាតម្រូវការចាំបាច់សម្រាប់ការដាក់ពង្រាយបច្ចេកវិទ្យាក្នុងសង្គមជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Sequence Modeling ក្នុង RL: និស្សិតគប្បីចាប់ផ្តើមដោយការយល់ដឹងអំពី Decision Transformer និងរបៀបដែលការរៀនពង្រឹង (RL) អាចប្រែក្លាយទៅជាបញ្ហា Sequence Modeling ដោយប្រើប្រាស់ State-Action-Reward Triplets។
រៀបចំបរិស្ថានសាកល្បង និងទិន្នន័យ (Environment & Data Setup): ដំឡើង Arcade Learning Environment (ALE) ឬ OpenAI Gym និងទាញយកទិន្នន័យ DQN Replay Dataset (ប្រហែល ១% នៃទិន្នន័យសរុប) សម្រាប់ការហ្វឹកហាត់ Offline RL។
អនុវត្តស្ថាបត្យកម្ម StARformer ដំបូង (Baseline Implementation): សរសេរកូដបង្កើតម៉ូដែល StARformer ដែលមាន Step Transformer និង Sequence Transformer ដោយប្រើប្រាស់ PyTorch ដើម្បីធ្វើការទស្សន៍ទាយសកម្មភាព (Action prediction)។
ដាក់បញ្ចូលយន្តការទម្ងន់សុវត្ថិភាព (Integrate Safety Weight): អនុវត្តវិធីសាស្ត្រដ៏ល្អបំផុតពីឯកសារស្រាវជ្រាវនេះ ដោយកំណត់ Safety Weight គុណជាមួយនឹងរង្វាន់ (Reward) នៅក្នុង Token នីមួយៗ ដើម្បីរារាំងម៉ូដែលមិនឱ្យជ្រើសរើសសកម្មភាពដែលមានហានិភ័យ។
ពង្រីកការស្រាវជ្រាវទៅកាន់បញ្ហាជាក់ស្តែង (Scale to Real-world Use Case): បន្ទាប់ពីជោគជ័យលើហ្គេម Atari ត្រូវសាកល្បងផ្លាស់ប្តូរបរិស្ថានទៅជា Traffic Simulator (ដូចជា SUMO ឬ CARLA) ដើម្បីដោះស្រាយបញ្ហាសុវត្ថិភាពចរាចរណ៍ ដែលជាប្រធានបទដ៏មានប្រយោជន៍សម្រាប់កម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement Learning (RL)	ជាផ្នែកមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារ (Agent) រៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងខុសនិងត្រូវ នៅក្នុងបរិស្ថានណាមួយ ដើម្បីស្វែងរកយុទ្ធសាស្ត្រដែលទទួលបានរង្វាន់ ឬលទ្ធផលល្អបំផុតក្នុងរយៈពេលវែង។	ដូចជាការបង្វឹកសត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនផ្តល់ឱ្យនៅពេលវាធ្វើខុស។
Pre-controller	ជាយន្តការត្រួតពិនិត្យសុវត្ថិភាពដែលដំណើរការមុនពេលភ្នាក់ងារ AI អនុវត្តសកម្មភាពណាមួយ។ វាដើរតួជាអ្នកច្រោះ (Filter) ដើម្បីទប់ស្កាត់ កែប្រែ ឬបដិសេធសកម្មភាពណាដែលត្រូវបានវាយតម្លៃថាអាចបង្កគ្រោះថ្នាក់ដល់ប្រព័ន្ធ ឬបរិស្ថាន។	ដូចជាប្រព័ន្ធហ្វ្រាំងស្វ័យប្រវត្តិនៅក្នុងរថយន្តទំនើប ដែលជួយចាប់ហ្វ្រាំងភ្លាមៗជាមុននៅពេលដឹងថានឹងអាចមានការបុកទង្គិច ទោះបីជាអ្នកបើកបរកំពុងជាន់ហ្គែរក៏ដោយ។
Transformer	ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដ៏មានឥទ្ធិពលដែលពូកែខាងចាប់យកទំនាក់ទំនងនៃទិន្នន័យដែលកើតឡើងជាបន្តបន្ទាប់ (Sequential data) ដោយប្រើប្រាស់យន្តការផ្តោតការយកចិត្តទុកដាក់ (Attention mechanism) លើផ្នែកសំខាន់ៗនៃទិន្នន័យក្នុងពេលតែមួយ។	ដូចជាមនុស្សកំពុងអានសៀវភៅ ដែលខួរក្បាលចេះផ្តោតការយកចិត្តទុកដាក់តែទៅលើពាក្យគន្លឹះសំខាន់ៗក្នុងប្រយោគ ដើម្បីយល់ន័យទាំងមូលបានយ៉ាងរហ័ស ដោយមិនបាច់អានមួយពាក្យម្តងៗ។
State-Action-Reward	ជាការចងក្រងទិន្នន័យជាក្រុមដែលមានធាតុបីរួមមាន៖ ស្ថានភាពបច្ចុប្បន្ននៃបរិស្ថាន (State) សកម្មភាពដែលភ្នាក់ងារបានជ្រើសរើស (Action) និងរង្វាន់ដែលទទួលបានត្រឡប់មកវិញ (Reward) ដែលជួយឱ្យម៉ូដែល AI ងាយស្រួលរៀនពីទំនាក់ទំនងនៃហេតុនិងផល។	ដូចជាកំណត់ហេតុប្រចាំថ្ងៃ ដែលកត់ត្រាថា "ថ្ងៃនេះអាកាសធាតុក្តៅ (State) ខ្ញុំញ៉ាំការ៉េម (Action) ធ្វើឱ្យខ្ញុំមានអារម្មណ៍ស្រស់ស្រាយ (Reward)"។
Offline Reinforcement Learning	ជាវិធីសាស្ត្របណ្តុះបណ្តាលភ្នាក់ងារ AI ដោយប្រើប្រាស់តែសំណុំទិន្នន័យចាស់ៗដែលបានប្រមូលរួចជាស្រេច (Fixed dataset) ដោយមិនតម្រូវឱ្យ AI នោះទៅធ្វើអន្តរកម្មសាកល្បងថ្មីៗផ្ទាល់ជាមួយបរិស្ថានអំឡុងពេលរៀននោះទេ។	ដូចជាការរៀនទាត់បាល់តាមរយៈការមើលវីដេអូកីឡាករល្បីៗប្រកួតកន្លងមកក្នុង YouTube ជាជាងការចុះទៅហាត់ទាត់ផ្ទាល់នៅលើទីលាន។
Markov Decision Process (MDP)	ជាក្របខ័ណ្ឌគណិតវិទ្យាដែលគេប្រើសម្រាប់កំណត់គំរូនៃដំណើរការសម្រេចចិត្ត ដែលច្បាប់គោលរបស់វាគឺស្ថានភាពបន្ទាប់ (Next state) គឺពឹងផ្អែកតែលើស្ថានភាពបច្ចុប្បន្ន និងសកម្មភាពបច្ចុប្បន្នប៉ុណ្ណោះ មិនពឹងផ្អែកលើប្រវត្តិសកម្មភាពកន្លងមកឡើយ។	ដូចជាការលេងកូនអុក ដែលការដើរជំហានបន្ទាប់គឺគិតតែពីទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្ន មិនមែនគិតពីប្រវត្តិដែលដើរតាំងពីចាប់ផ្តើមហ្គេមនោះទេ។
Episodic Reward	ជារង្វាន់សរុប (Cumulative reward) ទាំងអស់ដែលភ្នាក់ងារ AI ប្រមូលបាននៅក្នុងវគ្គនៃការសាកល្បង ឬការលេងហ្គេមមួយជុំពេញ តាំងពីចំណុចចាប់ផ្តើមរហូតដល់បញ្ចប់ ឬចាញ់។ វាជារង្វាស់គោលសម្រាប់វាស់ស្ទង់ភាពជោគជ័យរបស់ម៉ូដែល។	ដូចជាពិន្ទុសរុបចុងក្រោយដែលសិស្សម្នាក់ៗទទួលបាននៅពេលបញ្ចប់ការប្រឡងឆមាស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖