Original Title: 多模态环境中的多智能体强化学习：预训练大模型视角
Source: yingwen.io
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងភ្នាក់ងារច្រើននៅក្នុងបរិស្ថានពហុម៉ូឌែល៖ ទស្សនវិស័យនៃម៉ូដែលធំដែលបានបង្វឹកជាមុន

ចំណងជើងដើម៖ 多模态环境中的多智能体强化学习：预训练大模型视角

អ្នកនិពន្ធ៖ 温颖 (Ying Wen), 万梓煜 (Ziyu Wan), 张劭 (Shao Zhang), 张伟楠 (Weinan Zhang)

ឆ្នាំបោះពុម្ព៖ 2023 Preprint v0.2

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីបញ្ហាប្រឈមនៃប្រសិទ្ធភាពទិន្នន័យ ភាពទូទៅនៃគោលការណ៍ និងការតម្រឹមតម្លៃនៅក្នុងប្រព័ន្ធបញ្ញាសិប្បនិម្មិតនៅពេលធ្វើប្រតិបត្តិការក្នុងបរិស្ថានពហុម៉ូឌែលដែលមានភ្នាក់ងារច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការត្រួតពិនិត្យនិងស្នើឡើងនូវក្របខ័ណ្ឌដែលរួមបញ្ចូលការរៀនពង្រឹងភ្នាក់ងារច្រើន (Multi-Agent Reinforcement Learning) ជាមួយនឹងម៉ូដែលធំដែលបង្វឹកជាមុន (Pre-trained Large Models) ដើម្បីដោះស្រាយបរិស្ថានបើកចំហ។

ការយល់ដឹងពីបរិស្ថាននិងការបង្កើតសកម្មភាពជំរុញដោយម៉ូដែលបង្វឹកជាមុន (Pre-trained model-driven environment perception and action generation)
ការទំនាក់ទំនងរវាងភ្នាក់ងារច្រើនតាមរយៈភាសាធម្មជាតិ (Natural language emergent multi-agent communication)
ការតម្រឹមតម្លៃទ្វេទិសរវាងមនុស្សនិងបញ្ញាសិប្បនិម្មិត (Bidirectional Human-AI value alignment)
ការរៀនសូត្រផ្អែកលើចំនួនប្រជាជនសម្រាប់ហ្គេមប្រកួតប្រជែង (Population-based learning for competitive games)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលធំដែលបានបង្វឹកជាមុនអាចផ្តល់នូវចំណេះដឹងពិភពលោក (World Scope) ដ៏ធំទូលាយ ដែលជួយបង្កើនសមត្ថភាពទូទៅនិងប្រសិទ្ធភាពគំរូនៃការរៀនពង្រឹង (Reinforcement Learning) យ៉ាងខ្លាំង។
ការប្រើប្រាស់ភាសាធម្មជាតិអនុញ្ញាតឱ្យភ្នាក់ងារយល់ដឹងនិងបំប្លែងព័ត៌មានពហុម៉ូឌែលទៅជាសកម្មភាព ឬការណែនាំដែលអាចអនុវត្តបាននៅក្នុងពិភពពិត។
ដើម្បីសម្រេចបាននូវកិច្ចសហការកាន់តែប្រសើររវាងមនុស្សនិងបញ្ញាសិប្បនិម្មិត (Human-AI Collaboration) ប្រព័ន្ធត្រូវតែអនុវត្តការតម្រឹមតម្លៃទ្វេទិសដែលសម្របទៅតាមការប្រែប្រួលថាមវន្តនៃបរិស្ថានបើកចំហ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional / Single-Task Reinforcement Learning ការរៀនពង្រឹងបែបប្រពៃណី ឬសម្រាប់កិច្ចការទោល	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការបំពេញកិច្ចការជាក់លាក់ដែលមានច្បាប់ច្បាស់លាស់ (ឧទាហរណ៍ ហ្គេមអុក AlphaGo)។	ត្រូវការគោលដៅរង្វាន់ច្បាស់លាស់ មានប្រសិទ្ធភាពទិន្នន័យទាប និងខ្វះសមត្ថភាពទូទៅក្នុងការបត់បែនក្នុងបរិស្ថានបើកចំហ។	អាចយកឈ្នះជើងឯកពិភពលោកក្នុងហ្គេមជាក់លាក់ ប៉ុន្តែមិនអាចសម្របខ្លួនទៅនឹងភារកិច្ចថ្មីដោយស្វ័យប្រវត្តិ។
Self-Play Multi-Agent Reinforcement Learning (SP MARL) ការរៀនពង្រឹងភ្នាក់ងារច្រើនតាមរយៈការលេងប្រកួតជាមួយខ្លួនឯង	ជួយឱ្យភ្នាក់ងាររៀនយុទ្ធសាស្ត្រថ្មីៗដោយស្វ័យប្រវត្តិ និងមានប្រសិទ្ធភាពខ្លាំងក្នុងហ្គេមប្រកួតប្រជែង។	ជួបប្រទះបញ្ហាក្នុងបរិស្ថានកិច្ចសហការ ដោយសារភ្នាក់ងារងាយនឹងរៀនទន្ទេញតែលំនាំកិច្ចព្រមព្រៀងផ្ទាល់ខ្លួន ដែលធ្វើឱ្យពិបាកសហការជាមួយភ្នាក់ងារថ្មីឬមនុស្ស។	បង្កើតប្រព័ន្ធដូចជា AlphaStar និង OpenAI Five ដែលយកឈ្នះអ្នកលេងកម្រិតកំពូលក្នុងហ្គេម e-sports។
MARL combined with Pre-trained Large Language Models ការរៀនពង្រឹងភ្នាក់ងារច្រើនបូកបញ្ចូលជាមួយម៉ូដែលភាសាធំដែលបានបង្វឹកជាមុន	បង្កើនប្រសិទ្ធភាពគំរូទិន្នន័យ អាចយល់ដឹងពីបរិស្ថានពហុម៉ូឌែល និងបំប្លែងភាសាធម្មជាតិទៅជាសកម្មភាពជាក់ស្តែងប្រកបដោយភាពបត់បែនខ្ពស់។	ទាមទារថាមពលកុំព្យូទ័រនិងទិន្នន័យសម្រាប់បង្វឹកយ៉ាងច្រើនមហាសាល ហើយត្រូវការយន្តការតម្រឹមតម្លៃ (Value Alignment) ស្មុគស្មាញ។	អនុញ្ញាតឱ្យភ្នាក់ងារយល់ពីការណែនាំជាភាសាធម្មជាតិ និងធ្វើប្រតិបត្តិការក្នុងបរិស្ថានបើកចំហ (ឧ. MineDojo, SayCan) ប្រកបដោយប្រសិទ្ធភាព។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីតម្លៃពិតប្រាកដក៏ដោយ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រនិងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់ដោយសារការប្រើប្រាស់អត្ថប្រយោជន៍នៃម៉ូដែលធំ (Large Models) និងទិន្នន័យធំ (Big Data)។

Hardware: ត្រូវការថាមពលកុំព្យូទ័រ (Compute Power) កម្រិតខ្ពស់ខ្លាំង ដូចជាបណ្តុំ GPU (ឧទាហរណ៍ NVIDIA A100/H100) ដើម្បីដំណើរការនិងបង្វឹកម៉ូដែលភាសាខ្នាតធំ។
Dataset: ទិន្នន័យពហុម៉ូឌែលខ្នាតធំរួមមាន អត្ថបទ រូបភាព និងវីដេអូ ព្រមទាំងទិន្នន័យបរិស្ថានពីការលេងហ្គេមឬម៉ាស៊ីនពិសោធន៍ (Simulators) ដូចជា MineDojo ជាដើម។
Expertise: អ្នកជំនាញកម្រិតខ្ពស់ផ្នែករៀនពង្រឹង (Reinforcement Learning) ដំណើរការភាសាធម្មជាតិ (NLP) និងការយល់ដឹងពីការកសាងស្ថាបត្យកម្មប្រព័ន្ធកុំព្យូទ័រខ្នាតធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការស្រាវជ្រាវនិងរបកគំហើញក្នុងឯកសារនេះភាគច្រើនពឹងផ្អែកលើម៉ូដែលនិងទិន្នន័យខ្នាតធំពីក្រុមហ៊ុនបច្ចេកវិទ្យាលោកខាងលិច (ដូចជា DeepMind, OpenAI, Google) ដែលប្រមូលទិន្នន័យភាគច្រើនជាភាសាអង់គ្លេសនិងក្នុងបរិបទសង្គមលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមដ៏ធំដោយសារកង្វះខាតទិន្នន័យពហុម៉ូឌែលជាភាសាខ្មែរ ដែលអាចបណ្តាលឱ្យមានភាពលម្អៀងនិងធ្វើឱ្យការតម្រឹមតម្លៃ (Value Alignment) រវាងប្រព័ន្ធ AI និងផ្នត់គំនិត ឬវប្បធម៌របស់អ្នកប្រើប្រាស់ក្នុងស្រុកជួបការលំបាក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការរួមបញ្ចូលម៉ូដែលធំជាមួយនឹងការរៀនពង្រឹងភ្នាក់ងារច្រើននេះ មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិកម្មឆ្លាតវៃនៅកម្ពុជា ប្រសិនបើត្រូវបានកែសម្រួលឱ្យត្រូវនឹងបរិបទក្នុងស្រុក។

វិស័យកសិកម្មឆ្លាតវៃ (Smart Agriculture) ក្នុងខេត្តបាត់ដំបង: អាចប្រើប្រាស់ប្រព័ន្ធមនុស្សយន្តឬដ្រូនជាភ្នាក់ងារច្រើន (Multi-Agent) ធ្វើការរួមគ្នាដើម្បីតាមដាននិងប្រមូលផលដំណាំ ដោយប្រើប្រាស់ការយល់ដឹងពីរូបភាព និងការទទួលបញ្ជាជាភាសាធម្មជាតិពីកសិករដោយផ្ទាល់។
ការគ្រប់គ្រងចរាចរណ៍ទីក្រុងឆ្លាតវៃ (Smart City) នៅរាជធានីភ្នំពេញ: ប្រព័ន្ធភ្លើងស្តុបឆ្លាតវៃ និងកាមេរ៉ាសុវត្ថិភាពដែលអាចប្រាស្រ័យទាក់ទងគ្នាជាភ្នាក់ងារ (Agents) ដើម្បីសម្របខ្លួនទៅនឹងលំហូរចរាចរណ៍ដែលប្រែប្រួលជាប្រចាំ (Dynamic Environment) ប្រកបដោយប្រសិទ្ធភាព។
សេវាកម្មអតិថិជន និងរដ្ឋបាលសាធារណៈ (E-Government): ការប្រើប្រាស់ម៉ូដែលភាសាធំរួមជាមួយការពង្រឹងការរៀនសូត្រពីប្រតិកម្មរបស់មនុស្ស (RLHF) ដើម្បីបង្កើតជំនួយការនិម្មិតដែលអាចប្រាស្រ័យទាក់ទង ដោះស្រាយបញ្ហាសហការ និងយល់ពីតម្លៃរបស់ប្រជាពលរដ្ឋខ្មែរបានកាន់តែច្បាស់។

ការបន្សាំបច្ចេកវិទ្យាដ៏ទំនើបនេះចូលទៅក្នុងការប្រើប្រាស់ជាក់ស្តែងនៅកម្ពុជានឹងតម្រូវឱ្យមានការកសាងទិន្នន័យមូលដ្ឋានជាភាសាជាតិសិន ប៉ុន្តែវាពិតជាអាចផ្លាស់ប្តូររបៀបដែលមនុស្សនិងប្រព័ន្ធកុំព្យូទ័រធ្វើការរួមគ្នា (Human-AI Collaboration) ឱ្យកាន់តែរលូននាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃមុខវិជ្ជា Reinforcement Learning (RL): និស្សិតត្រូវចាប់ផ្តើមដោយការយល់ដឹងពីគោលការណ៍គ្រឹះនៃ RL ដោយប្រើប្រាស់បណ្ណាល័យ OpenAI Gym និង Stable Baselines3 នៅក្នុងភាសា Python ដើម្បីយល់ពីរបៀបដែលភ្នាក់ងារ (Agent) ធ្វើអន្តរកម្មជាមួយបរិស្ថាននិងទទួលបានរង្វាន់។
ជំហានទី២៖ អនុវត្តការរៀនពង្រឹងភ្នាក់ងារច្រើន (MARL): សាកល្បងបង្កើតគម្រោងហ្គេមសាមញ្ញដែលមានភ្នាក់ងារច្រើនចូលរួម ដោយប្រើប្រាស់ PettingZoo ឬ Ray RLlib ដើម្បីសិក្សាពីទ្រឹស្តីហ្គេម (Game Theory) ការប្រកួតប្រជែង និងការសហការគ្នារវាងភ្នាក់ងារកុំព្យូទ័រ។
ជំហានទី៣៖ រួមបញ្ចូលម៉ូடல்ភាសាធំ (LLMs) ជាភ្នាក់ងារបញ្ជា: ប្រើប្រាស់ API របស់ OpenAI GPT-4 ឬម៉ូដែលបើកទូលាយ (Open-source) ដូចជា LLaMA 3 តាមរយៈ Hugging Face ដើម្បីបំប្លែងពាក្យបញ្ជាជាភាសាធម្មជាតិ ទៅជាសកម្មភាពឬគោលដៅសម្រាប់ភ្នាក់ងារ RL ។
ជំហានទី៤៖ ធ្វើតេស្តក្នុងបរិស្ថានពហុម៉ូឌែល (Multimodal Environments): ប្រើប្រាស់ឧបករណ៍ពិសោធន៍កម្រិតខ្ពស់ដូចជា MineDojo (ផ្អែកលើហ្គេម Minecraft) ឬ AI Habitat (របស់ Meta) ដើម្បីហ្វឹកហាត់ភ្នាក់ងារឱ្យចេះប្រើប្រាស់ទាំងការយល់ដឹងពីរូបភាពកាមេរ៉ា និងការបញ្ជាជាអត្ថបទ។
ជំហានទី៥៖ ស្រាវជ្រាវលើការតម្រឹមតម្លៃ (Value Alignment) សម្រាប់បរិបទខ្មែរ: អនុវត្តបច្ចេកទេស RLHF (Reinforcement Learning from Human Feedback) ដោយប្រមូលទិន្នន័យពីការវាយតម្លៃរបស់អ្នកប្រើប្រាស់កម្ពុជា ដើម្បីបង្វឹកប្រព័ន្ធឱ្យយល់ពីក្រមសីលធម៌ និងអាកប្បកិរិយាដែលស្របនឹងវប្បធម៌សង្គមខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Natural Language Grounding	ដំណើរការដែលប្រព័ន្ធ AI ភ្ជាប់ពាក្យពេចន៍ ឬភាសាធម្មជាតិទៅនឹងទិន្នន័យជាក់ស្តែង (ដូចជារូបភាព ឬសកម្មភាពរូបវន្ត) នៅក្នុងពិភពពិត ឬពិភពនិម្មិត ដើម្បីឱ្យវាយល់ពីអត្ថន័យពិតប្រាកដនៃបញ្ជា ហើយអាចអនុវត្តសកម្មភាពបានត្រឹមត្រូវ។	ដូចជាការបង្រៀនក្មេងឱ្យស្គាល់ពាក្យ "ប៉ោម" ដោយមិនត្រឹមតែប្រាប់ឈ្មោះ តែឱ្យគេកាន់និងស្ទាបផ្លែប៉ោមពិតប្រាកដទើបគេយល់ច្បាស់។
Emergent Communication	បាតុភូតនៅក្នុងម៉ាស៊ីនរៀន (Machine Learning) ដែលភ្នាក់ងារ AI ជាច្រើនបង្កើតភាសា ឬកូដទំនាក់ទំនងផ្ទាល់ខ្លួនដោយស្វ័យប្រវត្តិ តាមរយៈការសាកល្បងនិងកំហុស (Trial and Error) ដើម្បីសហការគ្នាធ្វើកិច្ចការណាមួយឱ្យបានជោគជ័យ។	ដូចជាកូនភ្លោះពីរនាក់ដែលបង្កើតភាសាសម្ងាត់ផ្ទាល់ខ្លួនរបស់ពួកគេ ដើម្បីលេងហ្គេមសហការគ្នាដោយមិនឱ្យអ្នកដទៃយល់។
Population-based Learning	ក្បួនដោះស្រាយដែលមិនបង្វឹកភ្នាក់ងារ (Agent) តែមួយ ប៉ុន្តែបង្វឹកភ្នាក់ងារមួយក្រុមធំក្នុងពេលតែមួយដោយឱ្យពួកវាប្រកួតប្រជែង ឬសហការគ្នា ហើយចម្រាញ់យកយុទ្ធសាស្ត្រដែលល្អបំផុតទុកសម្រាប់ប្រើប្រាស់បន្ត។	ដូចជាការរៀបចំការប្រកួតកីឡាបាល់ទាត់រាប់រយប្រកួតក្នុងទម្រង់ផ្សេងៗគ្នា ដើម្បីជម្រុះរកកីឡាករនិងយុទ្ធសាស្ត្រដែលខ្លាំងជាងគេបំផុត។
Bidirectional Value Alignment	ដំណើរការកែតម្រូវថាមវន្ត ដែលប្រព័ន្ធ AI កែប្រែអាកប្បកិរិយារបស់ខ្លួនឱ្យស្របតាមគោលដៅនិងគុណតម្លៃរបស់មនុស្ស ហើយមនុស្សក៏យល់ពីសមត្ថភាពនិងដែនកំណត់របស់ AI វិញ ដើម្បីសម្រេចបាននូវកិច្ចសហការប្រកបដោយប្រសិទ្ធភាព។	ដូចជាការរាំគូ (Couple Dance) ដែលអ្នកទាំងពីរត្រូវស្វែងយល់ពីចលនារបស់គ្នាទៅវិញទៅមក ហើយបោះជំហានឱ្យស៊ីចង្វាក់គ្នា មិនមែនបង្ខំឱ្យតែម្ខាងធ្វើតាមម្ខាងទៀតនោះទេ។
Fictitious Co-Play (FCP)	វិធីសាស្ត្របង្វឹក AI សម្រាប់បរិស្ថានសហការ ដោយតម្រូវឱ្យភ្នាក់ងាររៀនលេងជាមួយដៃគូនិម្មិតជាច្រើនប្រភេទដែលមានកម្រិតសមត្ថភាពផ្សេងៗគ្នា ដើម្បីធានាថាវាអាចសហការបានយ៉ាងល្អជាមួយដៃគូថ្មី ឬមនុស្សពិតនៅពេលអនាគត (Zero-shot coordination)។	ដូចជាការហាត់លេងភ្លេងជាមួយអ្នកលេងឧបករណ៍តន្ត្រីច្រើនប្រភេទនិងច្រើនកម្រិត ដើម្បីត្រៀមខ្លួនឱ្យអាចលេងចូលចង្វាក់ជាមួយអ្នកណាក៏បាននៅថ្ងៃប្រគំតន្ត្រីពិតប្រាកដ។
Reinforcement Learning from Human Feedback (RLHF)	បច្ចេកទេសបង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិតខ្នាតធំ ដោយប្រើប្រាស់ការវាយតម្លៃ និងមតិកែលម្អពីមនុស្សផ្ទាល់ធ្វើជារង្វាន់ (Reward Signal) ដើម្បីដឹកនាំ AI ឱ្យផ្តល់ចម្លើយ ឬធ្វើសកម្មភាពដែលស្របតាមចំណង់ចំណូលចិត្តរបស់មនុស្ស។	ដូចជាការបង្ហាត់សត្វសុនខ ដោយរាល់ពេលវាធ្វើសកម្មភាពត្រឹមត្រូវតាមអ្វីដែលយើងចង់បាន យើងនឹងឱ្យចំណីវាជាការលើកទឹកចិត្ត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖