Original Title: 离线强化学习研究综述
Source: doi.org/10.11897/SP.J.1016.2025.00156
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពិនិត្យឡើងវិញលើការស្រាវជ្រាវអំពីការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning)

ចំណងជើងដើម៖ 离线强化学习研究综述

អ្នកនិពន្ធ៖ WU Lan (Soochow University), LIU Quan (Soochow University), HUANG Zhi-Gang (Soochow University), ZHANG Li-Hua (Soochow University)

ឆ្នាំបោះពុម្ព៖ 2025 Chinese Journal of Computers

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីបញ្ហាប្រឈមក្នុងការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning) ជាពិសេសបញ្ហា "បម្រែបម្រួលរបាយ (Distribution Shift)" ដែលបណ្តាលមកពីការរៀនពីសំណុំទិន្នន័យឋិតិវន្តដោយគ្មានការប្រាស្រ័យទាក់ទងជាមួយបរិស្ថានជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការពិនិត្យឡើងវិញ និងចាត់ថ្នាក់វិធីសាស្ត្រ Offline RL បរិយាកាសពិសោធន៍គោល និងកម្មវិធីអនុវត្តក្នុងពិភពពិតដែលមានស្រាប់នាពេលបច្ចុប្បន្ន។

ការចាត់ថ្នាក់ក្បួនដោះស្រាយ (Algorithm Categorization)៖ ការបែងចែកជាវិធីសាស្ត្រ Model-free, Model-based និងផ្អែកលើ Transformer (Transformer-based)
ការប្រៀបធៀបបរិយាកាសពិសោធន៍ (Experimental Environment Comparison)៖ ការវិភាគ និងប្រៀបធៀបលើសំណុំទិន្នន័យ D4RL, RL Unplugged និង NeoRL

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ Model-free និង Model-based ជួយកែលម្អស្ថិរភាពប្រឆាំងនឹងបម្រែបម្រួលរបាយ ខណៈដែលវិធីសាស្ត្រផ្អែកលើ Transformer (Transformer-based methods) លេចធ្លោក្នុងការធ្វើគំរូលំដាប់រយៈពេលយូរ។
សំណុំទិន្នន័យគោល D4RL (D4RL benchmark) នៅតែជាបរិយាកាសពិសោធន៍ដែលត្រូវបានប្រើប្រាស់ច្រើនជាងគេ ដោយសារវាមានលក្ខណៈសម្បត្តិទិន្នន័យសម្បូរបែប និងមានការប្រៀបធៀបច្បាស់លាស់។
Offline RL មានសក្តានុពលខ្ពស់សម្រាប់ការអនុវត្តក្នុងពិភពលោកពិត ដូចជាប្រព័ន្ធណែនាំ (Recommendation systems) ការបើកបរស្វ័យប្រវត្តិ និងមនុស្សយន្ត ដែលការសាកល្បងផ្ទាល់មានតម្លៃថ្លៃ និងគ្រោះថ្នាក់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Model-free Offline RL (e.g., BCQ, CQL, IQL) ការរៀនពង្រឹងក្រៅបណ្តាញដោយមិនប្រើគំរូ (Model-free Offline RL)	ងាយស្រួលក្នុងការយល់ និងអនុវត្ត។ ស៊ីធនធានគណនាតិច និងមិនចាំបាច់រៀនពីច្បាប់ផ្លាស់ប្តូរស្ថានភាពបរិស្ថាន (State-transition models) ឡើយ។	មានភាពអភិរក្សខ្ពស់ពេក (Conservative) ក្នុងការរៀនសូត្រ និងច្រើនតែវាយតម្លៃលើស (Overestimate) ទៅលើសកម្មភាពដែលស្ថិតនៅក្រៅរបាយទិន្នន័យ (Out-of-Distribution / OOD)។	ជាវិធីសាស្ត្រដែលត្រូវបានស្រាវជ្រាវច្រើនជាងគេ (ប្រមាណ 48.4% ដល់ 35.5%) តែសមត្ថភាពមានដែនកំណត់ក្នុងទិន្នន័យសកម្មភាពទាបៗ (Suboptimal data)។
Model-based Offline RL (e.g., MOPO, MOReL, COMBO) ការរៀនពង្រឹងក្រៅបណ្តាញដោយផ្អែកលើគំរូ (Model-based Offline RL)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់ទិន្នន័យ (Sample efficiency) និងមានសមត្ថភាពធ្វើការប៉ាន់ស្មានទូទៅ (Generalization) បានល្អ ទោះស្ថិតក្នុងបរិស្ថានថ្មីក៏ដោយ។	ការទស្សន៍ទាយរបស់គំរូច្រើនតែមានកំហុសបូកស្ទួន (Compounding errors) ហើយទាមទារការពិន័យលើភាពមិនប្រាកដប្រជា (Uncertainty penalization) យ៉ាងស្មុគស្មាញ។	បង្ហាញពីដំណើរការល្អលើសលប់នៅក្នុងបរិស្ថានសាកល្បង D4RL ដូចជា ភារកិច្ច Gym-MuJoCo បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រ Model-free។
Transformer-based Offline RL (e.g., Decision Transformer, StARformer) ការរៀនពង្រឹងក្រៅបណ្តាញផ្អែកលើស្ថាបត្យកម្ម Transformer	ដោះស្រាយបញ្ហាសកម្មភាពអូសបន្លាយពេលយូរ (Long-horizon) និងបញ្ហារង្វាន់កម្រ (Sparse rewards) បានយ៉ាងមានប្រសិទ្ធភាពដោយចាត់ទុក RL ជាបញ្ហា Sequence modeling។	ទាមទារការកំណត់រចនាសម្ព័ន្ធកុំព្យូទ័រខ្ពស់ ស៊ីធនធានគណនាសម្បើម និងត្រូវការចំណាយពេលបង្ហាត់យូរជាងវិធីសាស្ត្រផ្សេងៗ។	សម្រេចបានលទ្ធផលគួរឱ្យកត់សម្គាល់ក្នុងកិច្ចការស្មុគស្មាញ (ឧ. Maze2D, Atari) និងដោះស្រាយបញ្ហា Distribution Shift បានស្ទើរតែទាំងស្រុង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបង្ហាត់គំរូ Offline RL ជាពិសេសវិធីសាស្ត្រ Model-based និង Transformer-based ទាមទារថាមពលគណនាធំធេង និងការប្រមូលសំណុំទិន្នន័យប្រវត្តិសកម្មភាពដែលមានទំហំធំសន្ធឹកសន្ធាប់។

Hardware: ត្រូវការ GPUs កម្រិតខ្ពស់ និងមានអង្គចងចាំធំ ដើម្បីដំណើរការស្ថាបត្យកម្ម Transformer និងធ្វើការ Simulation លើបរិយាកាសស្មុគស្មាញ។
Dataset: ទាមទារសំណុំទិន្នន័យឋិតិវន្តស្តង់ដារធំៗ ដូចជា D4RL, RL Unplugged ឫ NeoRL ដែលផ្ទុកទិន្នន័យសកម្មភាព និងរង្វាន់រាប់លាន។
Software: ការប្រើប្រាស់បណ្ណាល័យ Deep Learning ដូចជា PyTorch ឬ TensorFlow ព្រមទាំងកម្មវិធីក្លែងធ្វើបរិស្ថាន (Simulation engines) ដូចជា MuJoCo ឫ CARLA។
Expertise: ទាមទារចំណេះដឹងជ្រៅជ្រះផ្នែក Deep Learning, Reinforcement Learning ក៏ដូចជាការវាយតម្លៃភាពមិនប្រាកដប្រជា (Uncertainty estimation) ក្នុងគណិតវិទ្យា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះភាគច្រើនផ្អែកលើសំណុំទិន្នន័យពីបរិស្ថានក្លែងធ្វើ (Simulation environments) ដូចជាកន្លែងពិសោធន៍របស់ OpenAI ហ្គេម Atari និងប្រព័ន្ធបើកបរស្វ័យប្រវត្តិ CARLA។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកទាំងស្រុងលើទិន្នន័យក្លែងធ្វើទាំងនេះអាចបណ្តាលឱ្យមានគម្លាតពីពិភពពិត (Sim-to-real gap) ព្រោះហេដ្ឋារចនាសម្ព័ន្ធផ្លូវថ្នល់ និងអាកប្បកិរិយារបស់មនុស្សក្នុងស្រុកមានភាពខុសប្លែក និងស្មុគស្មាញជាងនៅក្នុង Simulation ឆ្ងាយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីត្បិតតែ Offline RL ជាបច្ចេកវិទ្យាទំនើបកម្រិតខ្ពស់ក៏ដោយ វានៅតែមានសក្តានុពលខ្ពស់ក្នុងការអនុវត្តនៅប្រទេសកម្ពុជា ពិសេសលើវិស័យដែលអាចប្រមូលទិន្នន័យបានច្រើន តែមិនអាចយកប្រព័ន្ធទៅសាកល្បងព្រាវៗ (Online interaction) បាន ដោយសារហានិភ័យ ឬតម្លៃថ្លៃ។

ប្រព័ន្ធណែនាំ (Recommendation Systems) សម្រាប់ E-commerce ក្នុងស្រុក: អាចប្រើប្រាស់ Offline RL ដើម្បីកែលម្អការណែនាំផលិតផលលើផ្លាតហ្វមទិញលក់ និងដឹកជញ្ជូន (ដូចជា Nham24 ឬ Foodpanda) ដោយរៀនពីទិន្នន័យប្រវត្តិអតិថិជនផ្ទាល់ ដោយមិនចាំបាច់សាកល្បង Algorithms ថ្មីដោយផ្ទាល់ដែលអាចប៉ះពាល់ដល់បទពិសោធន៍អ្នកប្រើប្រាស់។
ការគ្រប់គ្រងចរាចរណ៍នៅរាជធានីភ្នំពេញ (Smart Traffic Control): អាចយកទៅអភិវឌ្ឍប្រព័ន្ធបញ្ជាភ្លើងស្តុបឆ្លាតវៃ ដោយរៀនពីទិន្នន័យលំហូរចរាចរណ៍ប្រវត្តិសាស្ត្រ ដើម្បីកាត់បន្ថយការកកស្ទះ ដោយប្រើគោលគំនិតពីភារកិច្ច 'Flow' ក្នុងបរិស្ថាន D4RL ដែលបានរៀបរាប់ក្នុងឯកសារ។
ការគ្រប់គ្រងថាមពល និងបណ្តាញអគ្គិសនី (Smart Energy Management): អាចសហការជាមួយស្ថាប័នអគ្គិសនីកម្ពុជា (EDC) ដើម្បីធ្វើការបែងចែកថាមពលឆ្លាតវៃ ដោយរៀនពីទិន្នន័យប្រវត្តិសាស្ត្រនៃការប្រើប្រាស់ថាមពលតាមតំបន់នីមួយៗ (ស្រដៀងនឹងបរិស្ថាន NeoRL / CityLearn)។

សរុបមក ការអនុវត្តបច្ចេកវិទ្យា Offline RL នៅកម្ពុជាទាមទារការពង្រឹងការប្រមូល និងរក្សាទុកទិន្នន័យជាមុនសិន ប៉ុន្តែវាពិតជាអាចប្រែក្លាយទិន្នន័យទាំងនោះទៅជាម៉ាស៊ីនសម្រេចចិត្តដ៏មានឥទ្ធិពល ដែលអាចដោះស្រាយបញ្ហាធំៗដោយសុវត្ថិភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ RL និង Deep Learning: និស្សិតគួរចាប់ផ្តើមរៀនពីមូលដ្ឋាន Reinforcement Learning (MDP, Q-Learning, Policy Gradients) និង Deep Learning ដោយប្រើប្រាស់វគ្គសិក្សាអនឡាញឥតគិតថ្លៃដូចជា David Silver's RL Course (UCL) ឬវគ្គសិក្សារបស់ DeepLearning.AI។
អនុវត្តកូដជាមួយបណ្ណាល័យស្តង់ដារ (Standard Libraries): ចាប់ផ្តើមសរសេរកូដក្បួនដោះស្រាយ Offline RL សាមញ្ញៗ (ដូចជា BCQ ឬ CQL) ដោយប្រើប្រាស់បណ្ណាល័យ PyTorch ឬ TensorFlow និងសាកល្បងពួកវាជាមួយបរិស្ថាន OpenAI Gym។
ស្រាវជ្រាវ និងពិសោធន៍លើ Benchmark Datasets: ទាញយក និងពិសោធន៍ផ្ទាល់ជាមួយសំណុំទិន្នន័យស្តង់ដារ D4RL (Datasets for Deep Data-Driven Reinforcement Learning) ដើម្បីយល់ច្បាស់ពីបញ្ហា 'បម្រែបម្រួលរបាយ (Distribution Shift)' និងរបៀបដែលក្បួនដោះស្រាយផ្សេងៗដោះស្រាយវា។
ស្វែងយល់ពី Transformer-based RL: ដោយសារ Transformer កំពុងជាទីចាប់អារម្មណ៍ខ្លាំង និស្សិតគួរតែសិក្សាពីស្ថាបត្យកម្ម Decision Transformer ដោយអាចស្វែងរក និងសាកល្បងប្រើប្រាស់កូដគំរូពី Hugging Face។
កសាងគម្រោងជាក់ស្តែងខ្នាតតូច (Mini Real-World Project): ប្រមូលទិន្នន័យប្រវត្តិសាស្ត្រសាមញ្ញមួយពិតប្រាកដ (ឧ. ទិន្នន័យទិញទំនិញអនឡាញ ឬទិន្នន័យអាកាសធាតុ) រួចសាកល្បងប្រើឧបករណ៍បំពាក់ស្រាប់ដូចជា NeoRL ទីបណ្ណាល័យផ្សេងៗ ដើម្បីកសាងប្រព័ន្ធផ្តល់យោបល់ (Recommendation) ខ្នាតតូចមួយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning	ការរៀនពង្រឹងក្រៅបណ្តាញ គឺជាវិធីសាស្ត្រនៃបញ្ញាសិប្បនិម្មិតដែលអនុញ្ញាតឱ្យកុំព្យូទ័ររៀនធ្វើការសម្រេចចិត្តពីសំណុំទិន្នន័យប្រវត្តិសាស្ត្រដែលបានប្រមូលទុកជាមុន ដោយមិនចាំបាច់ធ្វើអន្តរកម្មសាកល្បងផ្ទាល់ជាមួយបរិស្ថានជាក់ស្តែងនោះទេ។ វាជួយកាត់បន្ថយហានិភ័យ និងចំណាយខ្ពស់ក្នុងការសាកល្បងលើប្រព័ន្ធពិត។	ដូចជាការរៀនជិះកង់ដោយអង្គុយមើលវីដេអូអ្នកដទៃជិះ ជាជាងការឡើងជិះសាកល្បងដួលដោយខ្លួនឯងលើថ្នល់ពិតប្រាកដ។
Distribution Shift	បម្រែបម្រួលរបាយទិន្នន័យ គឺជាបញ្ហាដែលកើតឡើងនៅពេលដែលស្ថានភាពទិន្នន័យដែលម៉ាស៊ីនជួបប្រទះពេលដំណើរការជាក់ស្តែង (Testing/Deployment) មានលក្ខណៈខុសប្លែកពីទិន្នន័យដែលវាធ្លាប់បានរៀន (Training data) ដែលធ្វើឱ្យប្រព័ន្ធបាត់បង់ភាពជាក់លាក់ និងសម្រេចចិត្តខុសឆ្គង។	ដូចជាសិស្សដែលរៀនតែលំហាត់ងាយៗ និងទន្ទេញមេរៀនក្នុងថ្នាក់ តែពេលប្រឡងចេញលំហាត់ពិបាកដែលមិនធ្លាប់ជួបសោះ ធ្វើឱ្យសិស្សនោះគិតមិនចេញ។
Out-of-Distribution (OOD) actions	សកម្មភាពក្រៅរបាយទិន្នន័យ សំដៅលើសកម្មភាព ឬស្ថានភាពទាំងឡាយណាដែលមិនមានវត្តមាននៅក្នុងសំណុំទិន្នន័យហ្វឹកហាត់។ នៅក្នុងម៉ូដែល Offline RL កម្មវិធីច្រើនតែវាយតម្លៃខ្ពស់ខុសការពិត (Overestimate) ទៅលើសកម្មភាពប្រភេទនេះ ដោយស្មានថាវាផ្តល់រង្វាន់ខ្ពស់ តែជាក់ស្តែងអាចបង្កគ្រោះថ្នាក់។	ដូចជាការដើរចូលទៅកាន់ផ្លូវងងឹតដែលយើងមិនធ្លាប់ស្គាល់ ឬធ្លាប់ដើរឆ្លងកាត់ ដោយស្មានថាវាមានសុវត្ថិភាព និងលឿនជាង តែតាមពិតវាមានគ្រោះថ្នាក់ខ្លាំង។
Model-based RL	ការរៀនពង្រឹងផ្អែកលើគំរូ គឺជាវិធីសាស្ត្រដែលម៉ាស៊ីនព្យាយាមបង្កើត "គំរូក្លែងធ្វើ" (Simulator) ឬច្បាប់ផ្លាស់ប្តូរនៃបរិស្ថាន ដើម្បីទស្សន៍ទាយថាតើសកម្មភាពណាមួយនឹងផ្តល់លទ្ធផលអ្វីនៅពេលអនាគត មុននឹងសម្រេចចិត្តជ្រើសរើសសកម្មភាពដ៏ល្អបំផុតនោះ។	ដូចជាការលេងអុក ដែលអ្នកលេងគិតស្រមៃទុកជាមុននូវចលនារបស់គូប្រកួតរាប់សិបជំហានក្នុងខួរក្បាល ដើម្បីរកផ្លូវឈ្នះ មុននឹងសម្រេចចិត្តដើរកូនអុកពិតប្រាកដ។
Extrapolation Error	កំហុសពន្លាត ឬកំហុសប៉ាន់ស្មានក្រៅដែនកំណត់ គឺជាកំហុសរបស់គំរូ AI នៅពេលដែលវាព្យាយាមប៉ាន់ស្មានតម្លៃឬលទ្ធផលសម្រាប់ទិន្នន័យថ្មីដែលនៅឆ្ងាយពីទិន្នន័យដើមដែលវាធ្លាប់រៀន ដែលបណ្តាលឱ្យការវាយតម្លៃរបស់វាលម្អៀង ឬខុសស្រឡះ។	ដូចជាការទស្សន៍ទាយស្ថានភាពអាកាសធាតុសម្រាប់ខែក្រោយ ដោយពឹងផ្អែកតែលើទិន្នន័យអាកាសធាតុនៃថ្ងៃនេះតែមួយថ្ងៃប៉ុណ្ណោះ។
Decision Transformer	ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតដែលយកទម្រង់ Transformer (ដូចប្រើក្នុង ChatGPT សម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់) មកដោះស្រាយបញ្ហាការរៀនពង្រឹង ដោយចាត់ទុកដំណើរការសម្រេចចិត្តដូចជាការទស្សន៍ទាយសកម្មភាពបន្ទាប់ដ៏ល្អបំផុត ផ្អែកលើលំដាប់លំដោយនៃស្ថានភាព សកម្មភាព និងរង្វាន់កន្លងមក។	ដូចជាមុខងារទស្សន៍ទាយពាក្យបន្ទាប់ (Auto-complete) នៅលើក្ដារចុចទូរសព្ទដៃ ដែលវាទស្សន៍ទាយសកម្មភាពបន្ទាប់ដ៏ត្រឹមត្រូវបំផុតដើម្បីឈានទៅរកគោលដៅ។
Behavior Policy	គោលនយោបាយឥរិយាបថ សំដៅលើច្បាប់ យុទ្ធសាស្ត្រ ឬប្រព័ន្ធចាស់ដែលត្រូវបានប្រើប្រាស់កន្លងមកដើម្បីប្រមូលសំណុំទិន្នន័យប្រវត្តិសាស្ត្រ (Offline Data) មុនពេលដែលយើងយកទិន្នន័យនោះមកបង្ហាត់គំរូ Offline RL ថ្មីឱ្យឆ្លាតជាងមុន។	ដូចជាកំណត់ត្រាបញ្ជីមុខម្ហូប និងក្បួនធ្វើម្ហូបដែលមេចុងភៅចាស់ធ្លាប់ធ្វើប្រចាំថ្ងៃ ដែលចុងភៅថ្មីយកមកអានដើម្បីរៀនសូត្រពីរបៀបចម្អិនឱ្យកាន់តែឆ្ងាញ់ជាងមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖