Original Title: 离线强化学习研究综述
Source: doi.org/10.11897/SP.J.1016.2025.00156
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពិនិត្យឡើងវិញលើការស្រាវជ្រាវអំពីការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning)

ចំណងជើងដើម៖ 离线强化学习研究综述

អ្នកនិពន្ធ៖ WU Lan (Soochow University), LIU Quan (Soochow University), HUANG Zhi-Gang (Soochow University), ZHANG Li-Hua (Soochow University)

ឆ្នាំបោះពុម្ព៖ 2025 Chinese Journal of Computers

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីបញ្ហាប្រឈមក្នុងការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning) ជាពិសេសបញ្ហា "បម្រែបម្រួលរបាយ (Distribution Shift)" ដែលបណ្តាលមកពីការរៀនពីសំណុំទិន្នន័យឋិតិវន្តដោយគ្មានការប្រាស្រ័យទាក់ទងជាមួយបរិស្ថានជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការពិនិត្យឡើងវិញ និងចាត់ថ្នាក់វិធីសាស្ត្រ Offline RL បរិយាកាសពិសោធន៍គោល និងកម្មវិធីអនុវត្តក្នុងពិភពពិតដែលមានស្រាប់នាពេលបច្ចុប្បន្ន។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Model-free Offline RL (e.g., BCQ, CQL, IQL)
ការរៀនពង្រឹងក្រៅបណ្តាញដោយមិនប្រើគំរូ (Model-free Offline RL)
ងាយស្រួលក្នុងការយល់ និងអនុវត្ត។ ស៊ីធនធានគណនាតិច និងមិនចាំបាច់រៀនពីច្បាប់ផ្លាស់ប្តូរស្ថានភាពបរិស្ថាន (State-transition models) ឡើយ។ មានភាពអភិរក្សខ្ពស់ពេក (Conservative) ក្នុងការរៀនសូត្រ និងច្រើនតែវាយតម្លៃលើស (Overestimate) ទៅលើសកម្មភាពដែលស្ថិតនៅក្រៅរបាយទិន្នន័យ (Out-of-Distribution / OOD)។ ជាវិធីសាស្ត្រដែលត្រូវបានស្រាវជ្រាវច្រើនជាងគេ (ប្រមាណ 48.4% ដល់ 35.5%) តែសមត្ថភាពមានដែនកំណត់ក្នុងទិន្នន័យសកម្មភាពទាបៗ (Suboptimal data)។
Model-based Offline RL (e.g., MOPO, MOReL, COMBO)
ការរៀនពង្រឹងក្រៅបណ្តាញដោយផ្អែកលើគំរូ (Model-based Offline RL)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់ទិន្នន័យ (Sample efficiency) និងមានសមត្ថភាពធ្វើការប៉ាន់ស្មានទូទៅ (Generalization) បានល្អ ទោះស្ថិតក្នុងបរិស្ថានថ្មីក៏ដោយ។ ការទស្សន៍ទាយរបស់គំរូច្រើនតែមានកំហុសបូកស្ទួន (Compounding errors) ហើយទាមទារការពិន័យលើភាពមិនប្រាកដប្រជា (Uncertainty penalization) យ៉ាងស្មុគស្មាញ។ បង្ហាញពីដំណើរការល្អលើសលប់នៅក្នុងបរិស្ថានសាកល្បង D4RL ដូចជា ភារកិច្ច Gym-MuJoCo បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រ Model-free។
Transformer-based Offline RL (e.g., Decision Transformer, StARformer)
ការរៀនពង្រឹងក្រៅបណ្តាញផ្អែកលើស្ថាបត្យកម្ម Transformer
ដោះស្រាយបញ្ហាសកម្មភាពអូសបន្លាយពេលយូរ (Long-horizon) និងបញ្ហារង្វាន់កម្រ (Sparse rewards) បានយ៉ាងមានប្រសិទ្ធភាពដោយចាត់ទុក RL ជាបញ្ហា Sequence modeling។ ទាមទារការកំណត់រចនាសម្ព័ន្ធកុំព្យូទ័រខ្ពស់ ស៊ីធនធានគណនាសម្បើម និងត្រូវការចំណាយពេលបង្ហាត់យូរជាងវិធីសាស្ត្រផ្សេងៗ។ សម្រេចបានលទ្ធផលគួរឱ្យកត់សម្គាល់ក្នុងកិច្ចការស្មុគស្មាញ (ឧ. Maze2D, Atari) និងដោះស្រាយបញ្ហា Distribution Shift បានស្ទើរតែទាំងស្រុង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបង្ហាត់គំរូ Offline RL ជាពិសេសវិធីសាស្ត្រ Model-based និង Transformer-based ទាមទារថាមពលគណនាធំធេង និងការប្រមូលសំណុំទិន្នន័យប្រវត្តិសកម្មភាពដែលមានទំហំធំសន្ធឹកសន្ធាប់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះភាគច្រើនផ្អែកលើសំណុំទិន្នន័យពីបរិស្ថានក្លែងធ្វើ (Simulation environments) ដូចជាកន្លែងពិសោធន៍របស់ OpenAI ហ្គេម Atari និងប្រព័ន្ធបើកបរស្វ័យប្រវត្តិ CARLA។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកទាំងស្រុងលើទិន្នន័យក្លែងធ្វើទាំងនេះអាចបណ្តាលឱ្យមានគម្លាតពីពិភពពិត (Sim-to-real gap) ព្រោះហេដ្ឋារចនាសម្ព័ន្ធផ្លូវថ្នល់ និងអាកប្បកិរិយារបស់មនុស្សក្នុងស្រុកមានភាពខុសប្លែក និងស្មុគស្មាញជាងនៅក្នុង Simulation ឆ្ងាយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីត្បិតតែ Offline RL ជាបច្ចេកវិទ្យាទំនើបកម្រិតខ្ពស់ក៏ដោយ វានៅតែមានសក្តានុពលខ្ពស់ក្នុងការអនុវត្តនៅប្រទេសកម្ពុជា ពិសេសលើវិស័យដែលអាចប្រមូលទិន្នន័យបានច្រើន តែមិនអាចយកប្រព័ន្ធទៅសាកល្បងព្រាវៗ (Online interaction) បាន ដោយសារហានិភ័យ ឬតម្លៃថ្លៃ។

សរុបមក ការអនុវត្តបច្ចេកវិទ្យា Offline RL នៅកម្ពុជាទាមទារការពង្រឹងការប្រមូល និងរក្សាទុកទិន្នន័យជាមុនសិន ប៉ុន្តែវាពិតជាអាចប្រែក្លាយទិន្នន័យទាំងនោះទៅជាម៉ាស៊ីនសម្រេចចិត្តដ៏មានឥទ្ធិពល ដែលអាចដោះស្រាយបញ្ហាធំៗដោយសុវត្ថិភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ RL និង Deep Learning: និស្សិតគួរចាប់ផ្តើមរៀនពីមូលដ្ឋាន Reinforcement Learning (MDP, Q-Learning, Policy Gradients) និង Deep Learning ដោយប្រើប្រាស់វគ្គសិក្សាអនឡាញឥតគិតថ្លៃដូចជា David Silver's RL Course (UCL) ឬវគ្គសិក្សារបស់ DeepLearning.AI
  2. អនុវត្តកូដជាមួយបណ្ណាល័យស្តង់ដារ (Standard Libraries): ចាប់ផ្តើមសរសេរកូដក្បួនដោះស្រាយ Offline RL សាមញ្ញៗ (ដូចជា BCQ ឬ CQL) ដោយប្រើប្រាស់បណ្ណាល័យ PyTorchTensorFlow និងសាកល្បងពួកវាជាមួយបរិស្ថាន OpenAI Gym
  3. ស្រាវជ្រាវ និងពិសោធន៍លើ Benchmark Datasets: ទាញយក និងពិសោធន៍ផ្ទាល់ជាមួយសំណុំទិន្នន័យស្តង់ដារ D4RL (Datasets for Deep Data-Driven Reinforcement Learning) ដើម្បីយល់ច្បាស់ពីបញ្ហា 'បម្រែបម្រួលរបាយ (Distribution Shift)' និងរបៀបដែលក្បួនដោះស្រាយផ្សេងៗដោះស្រាយវា។
  4. ស្វែងយល់ពី Transformer-based RL: ដោយសារ Transformer កំពុងជាទីចាប់អារម្មណ៍ខ្លាំង និស្សិតគួរតែសិក្សាពីស្ថាបត្យកម្ម Decision Transformer ដោយអាចស្វែងរក និងសាកល្បងប្រើប្រាស់កូដគំរូពី Hugging Face
  5. កសាងគម្រោងជាក់ស្តែងខ្នាតតូច (Mini Real-World Project): ប្រមូលទិន្នន័យប្រវត្តិសាស្ត្រសាមញ្ញមួយពិតប្រាកដ (ឧ. ទិន្នន័យទិញទំនិញអនឡាញ ឬទិន្នន័យអាកាសធាតុ) រួចសាកល្បងប្រើឧបករណ៍បំពាក់ស្រាប់ដូចជា NeoRL ទីបណ្ណាល័យផ្សេងៗ ដើម្បីកសាងប្រព័ន្ធផ្តល់យោបល់ (Recommendation) ខ្នាតតូចមួយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning ការរៀនពង្រឹងក្រៅបណ្តាញ គឺជាវិធីសាស្ត្រនៃបញ្ញាសិប្បនិម្មិតដែលអនុញ្ញាតឱ្យកុំព្យូទ័ររៀនធ្វើការសម្រេចចិត្តពីសំណុំទិន្នន័យប្រវត្តិសាស្ត្រដែលបានប្រមូលទុកជាមុន ដោយមិនចាំបាច់ធ្វើអន្តរកម្មសាកល្បងផ្ទាល់ជាមួយបរិស្ថានជាក់ស្តែងនោះទេ។ វាជួយកាត់បន្ថយហានិភ័យ និងចំណាយខ្ពស់ក្នុងការសាកល្បងលើប្រព័ន្ធពិត។ ដូចជាការរៀនជិះកង់ដោយអង្គុយមើលវីដេអូអ្នកដទៃជិះ ជាជាងការឡើងជិះសាកល្បងដួលដោយខ្លួនឯងលើថ្នល់ពិតប្រាកដ។
Distribution Shift បម្រែបម្រួលរបាយទិន្នន័យ គឺជាបញ្ហាដែលកើតឡើងនៅពេលដែលស្ថានភាពទិន្នន័យដែលម៉ាស៊ីនជួបប្រទះពេលដំណើរការជាក់ស្តែង (Testing/Deployment) មានលក្ខណៈខុសប្លែកពីទិន្នន័យដែលវាធ្លាប់បានរៀន (Training data) ដែលធ្វើឱ្យប្រព័ន្ធបាត់បង់ភាពជាក់លាក់ និងសម្រេចចិត្តខុសឆ្គង។ ដូចជាសិស្សដែលរៀនតែលំហាត់ងាយៗ និងទន្ទេញមេរៀនក្នុងថ្នាក់ តែពេលប្រឡងចេញលំហាត់ពិបាកដែលមិនធ្លាប់ជួបសោះ ធ្វើឱ្យសិស្សនោះគិតមិនចេញ។
Out-of-Distribution (OOD) actions សកម្មភាពក្រៅរបាយទិន្នន័យ សំដៅលើសកម្មភាព ឬស្ថានភាពទាំងឡាយណាដែលមិនមានវត្តមាននៅក្នុងសំណុំទិន្នន័យហ្វឹកហាត់។ នៅក្នុងម៉ូដែល Offline RL កម្មវិធីច្រើនតែវាយតម្លៃខ្ពស់ខុសការពិត (Overestimate) ទៅលើសកម្មភាពប្រភេទនេះ ដោយស្មានថាវាផ្តល់រង្វាន់ខ្ពស់ តែជាក់ស្តែងអាចបង្កគ្រោះថ្នាក់។ ដូចជាការដើរចូលទៅកាន់ផ្លូវងងឹតដែលយើងមិនធ្លាប់ស្គាល់ ឬធ្លាប់ដើរឆ្លងកាត់ ដោយស្មានថាវាមានសុវត្ថិភាព និងលឿនជាង តែតាមពិតវាមានគ្រោះថ្នាក់ខ្លាំង។
Model-based RL ការរៀនពង្រឹងផ្អែកលើគំរូ គឺជាវិធីសាស្ត្រដែលម៉ាស៊ីនព្យាយាមបង្កើត "គំរូក្លែងធ្វើ" (Simulator) ឬច្បាប់ផ្លាស់ប្តូរនៃបរិស្ថាន ដើម្បីទស្សន៍ទាយថាតើសកម្មភាពណាមួយនឹងផ្តល់លទ្ធផលអ្វីនៅពេលអនាគត មុននឹងសម្រេចចិត្តជ្រើសរើសសកម្មភាពដ៏ល្អបំផុតនោះ។ ដូចជាការលេងអុក ដែលអ្នកលេងគិតស្រមៃទុកជាមុននូវចលនារបស់គូប្រកួតរាប់សិបជំហានក្នុងខួរក្បាល ដើម្បីរកផ្លូវឈ្នះ មុននឹងសម្រេចចិត្តដើរកូនអុកពិតប្រាកដ។
Extrapolation Error កំហុសពន្លាត ឬកំហុសប៉ាន់ស្មានក្រៅដែនកំណត់ គឺជាកំហុសរបស់គំរូ AI នៅពេលដែលវាព្យាយាមប៉ាន់ស្មានតម្លៃឬលទ្ធផលសម្រាប់ទិន្នន័យថ្មីដែលនៅឆ្ងាយពីទិន្នន័យដើមដែលវាធ្លាប់រៀន ដែលបណ្តាលឱ្យការវាយតម្លៃរបស់វាលម្អៀង ឬខុសស្រឡះ។ ដូចជាការទស្សន៍ទាយស្ថានភាពអាកាសធាតុសម្រាប់ខែក្រោយ ដោយពឹងផ្អែកតែលើទិន្នន័យអាកាសធាតុនៃថ្ងៃនេះតែមួយថ្ងៃប៉ុណ្ណោះ។
Decision Transformer ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតដែលយកទម្រង់ Transformer (ដូចប្រើក្នុង ChatGPT សម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់) មកដោះស្រាយបញ្ហាការរៀនពង្រឹង ដោយចាត់ទុកដំណើរការសម្រេចចិត្តដូចជាការទស្សន៍ទាយសកម្មភាពបន្ទាប់ដ៏ល្អបំផុត ផ្អែកលើលំដាប់លំដោយនៃស្ថានភាព សកម្មភាព និងរង្វាន់កន្លងមក។ ដូចជាមុខងារទស្សន៍ទាយពាក្យបន្ទាប់ (Auto-complete) នៅលើក្ដារចុចទូរសព្ទដៃ ដែលវាទស្សន៍ទាយសកម្មភាពបន្ទាប់ដ៏ត្រឹមត្រូវបំផុតដើម្បីឈានទៅរកគោលដៅ។
Behavior Policy គោលនយោបាយឥរិយាបថ សំដៅលើច្បាប់ យុទ្ធសាស្ត្រ ឬប្រព័ន្ធចាស់ដែលត្រូវបានប្រើប្រាស់កន្លងមកដើម្បីប្រមូលសំណុំទិន្នន័យប្រវត្តិសាស្ត្រ (Offline Data) មុនពេលដែលយើងយកទិន្នន័យនោះមកបង្ហាត់គំរូ Offline RL ថ្មីឱ្យឆ្លាតជាងមុន។ ដូចជាកំណត់ត្រាបញ្ជីមុខម្ហូប និងក្បួនធ្វើម្ហូបដែលមេចុងភៅចាស់ធ្លាប់ធ្វើប្រចាំថ្ងៃ ដែលចុងភៅថ្មីយកមកអានដើម្បីរៀនសូត្រពីរបៀបចម្អិនឱ្យកាន់តែឆ្ងាញ់ជាងមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖