Original Title: Supplementary Material: Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning
Source: proceedings.mlr.press
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឯកសារបន្ថែម៖ ការធ្វើទូទៅកម្មកិច្ចការដោយគ្មានការហ្វឹកហាត់ជាមុន (Zero-Shot) ជាមួយនឹងការរៀនពង្រឹងស៊ីជម្រៅពហុកិច្ចការ

ចំណងជើងដើម៖ Supplementary Material: Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

អ្នកនិពន្ធ៖ Junhyuk Oh (University of Michigan), Satinder Singh (University of Michigan), Honglak Lee (University of Michigan, Google Brain), Pushmeet Kohli (Microsoft Research)

ឆ្នាំបោះពុម្ព៖ 2017, Proceedings of the 34th International Conference on Machine Learning, PMLR 70

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការធ្វើទូទៅកម្មកិច្ចការដោយមិនមានការហ្វឹកហាត់ជាមុន (Zero-Shot Task Generalization) នៅក្នុងភ្នាក់ងារបញ្ញាសិប្បនិម្មិត ដើម្បីឱ្យពួកវាអាចអនុវត្តការណែនាំថ្មីៗនិងស្មុគស្មាញដោយជោគជ័យតាមរយៈការរៀនពហុកិច្ចការ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតបរិស្ថានសាកល្បង 2D Grid-World ដោយប្រើប្រាស់បច្ចេកទេសរៀនពង្រឹងស៊ីជម្រៅរួមបញ្ចូលជាមួយនឹងស្ថាបត្យកម្មត្រួតពិនិត្យមេ (Meta Controller)។

ការធ្វើតេស្តក្នុងបរិស្ថាន 2D ដែលមានជម្រើសវត្ថុច្រើន (2D Grid-World Environment)
ការបង្រួមគោលនយោបាយ និងការវាយតម្លៃអត្ថប្រយោជន៍ទូទៅ (Policy Distillation and Generalized Advantage Estimation)
ការដាក់បញ្ចូលកម្មវិធីវត្ថុបំណងតាមបែបអាណាឡូក (Analogy-Making Objective)
ការពិន័យតាមរយៈការធ្វើបច្ចុប្បន្នភាពម៉ាទ្រីសនៃប្រព័ន្ធត្រួតពិនិត្យមេ (Meta Controller Architecture)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ភ្នាក់ងារដែលហ្វឹកហាត់ដោយប្រើវត្ថុបំណងអាណាឡូកអាចធ្វើទូទៅកម្មកិច្ចការដែលមិនធ្លាប់ជួបបានយ៉ាងជោគជ័យ ដោយទទួលបានអត្រាជោគជ័យ 99.6% សម្រាប់កិច្ចការឯករាជ្យ និង 99.5% សម្រាប់កិច្ចការអាស្រ័យលើវត្ថុ។
ស្ថាបត្យកម្ម Hierarchical-Dynamic ទទួលបានលទ្ធផលល្អជាងគេលើការអនុវត្តការណែនាំចំនួន ២០ ជំហាន ដោយមានអត្រាជោគជ័យ 95.5% (លើកិច្ចការធ្លាប់ជួប) និង 40.3% (លើកិច្ចការមិនធ្លាប់ជួប) ប្រៀបធៀបនឹងគំរូ Flat ដែលទទួលបានត្រឹមតែប្រមាណ 0%។
លទ្ធផលបង្ហាញថាការរៀនសូត្រក្នុងមាត្រដ្ឋានពេលវេលាធំ (Large-time Scale) មានសារៈសំខាន់បំផុតសម្រាប់ការដោះស្រាយរង្វាន់ដែលពន្យារពេល (Delayed Reward)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Flat Controller ឧបករណ៍ត្រួតពិនិត្យរាបស្មើ (Flat Controller)	ងាយស្រួលក្នុងការរចនា និងអនុវត្តសម្រាប់កិច្ចការខ្លីៗ និងសាមញ្ញ។	ដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលចំនួននៃការណែនាំកើនឡើង ដោយសារតែវាលុបចោលវត្ថុគោលដៅដោយមិនចាំបាច់នៅពេលមិនមានពាក្យ 'ទាំងអស់'។	ទទួលបានអត្រាជោគជ័យត្រឹមតែ 0.0% លើការអនុវត្តការណែនាំចំនួន ២០ ជំហានដែលមិនធ្លាប់ជួប។
Hierarchical-Short ស្ថាបត្យកម្មឋានានុក្រមខ្លី (Hierarchical-Short)	ដំណើរការបានល្អជាង Flat Controller តាមរយៈការបែងចែកការណែនាំជាកិច្ចការរង (subtasks) ធ្វើឱ្យមានភាពច្បាស់លាស់ជាងមុន។	ធ្វើបច្ចុប្បន្នភាពកិច្ចការរងនៅរាល់ជំហាននៃពេលវេលា (every time-step) ដែលធ្វើឱ្យវាពិបាកក្នុងការដោះស្រាយជាមួយរង្វាន់ដែលពន្យារពេល (delayed reward)។	ទទួលបានអត្រាជោគជ័យ 11.3% លើការអនុវត្តការណែនាំចំនួន ២០ ជំហានដែលមិនធ្លាប់ជួប។
Hierarchical-Dynamic (Proposed) ស្ថាបត្យកម្មឋានានុក្រមឌីណាមិក (Hierarchical-Dynamic)	រៀនដំណើរការក្នុងមាត្រដ្ឋានពេលវេលាធំ (Large-time scale) ដែលជួយឱ្យភ្នាក់ងាររៀនដោះស្រាយបញ្ហារង្វាន់ពន្យារពេលបានយ៉ាងមានប្រសិទ្ធភាព។	ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការបច្ចេកទេសបង្វឹកកម្រិតខ្ពស់ (Policy Distillation & Multi-Task RL)។	ទទួលបានអត្រាជោគជ័យខ្ពស់បំផុតរហូតដល់ 40.3% លើការអនុវត្តការណែនាំចំនួន ២០ ជំហានដែលមិនធ្លាប់ជួប។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់អំពីតម្លៃធនធានជាសាច់ប្រាក់ក៏ដោយ ក៏ការបណ្តុះបណ្តាលម៉ូដែល Multi-Task Deep Reinforcement Learning ទាមទារធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ការដំណើរការស្របគ្នា។

Hardware: ត្រូវការម៉ាស៊ីនដែលមាន CPU ច្រើន (ប្រើយ៉ាងហោចណាស់ 16 threads ជាមួយ batch size 8) និង GPU ខ្លាំងដើម្បីដំណើរការ 15,000 iterations។
Software Framework: បរិស្ថានសាកល្បង 2D ផ្អែកលើ MazeBase និងប្រព័ន្ធបណ្ដុះបណ្ដាល Deep Learning (ដូចជា TensorFlow ឬ PyTorch) សម្រាប់ Actor-Critic (GAE) និង RMSProp optimizer។
Expertise: ទាមទារអ្នកជំនាញកម្រិតខ្ពស់ផ្នែក Deep Reinforcement Learning, Multi-Task Learning, Policy Distillation និង NLP (សម្រាប់ការបង្កប់ពាក្យ)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការស្រាវជ្រាវនេះត្រូវបានធ្វើឡើង និងវាយតម្លៃទាំងស្រុងនៅក្នុងបរិស្ថានសិប្បនិម្មិត 2D Grid-World ដែលមិនមានទិន្នន័យពិភពពិត។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាវាគ្រាន់តែជាការបង្ហាញពីទ្រឹស្តី (Proof of Concept) ហើយការអនុវត្តជាក់ស្តែងតម្រូវឱ្យមានទិន្នន័យជាក់ស្តែងពីបរិស្ថានដែលមានភាពស្មុគស្មាញ និងភាពមិនច្បាស់លាស់ (Noise) ច្រើនជាងនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការបង្រៀន AI ឱ្យរៀនធ្វើកិច្ចការថ្មីដោយមិនបាច់ហ្វឹកហាត់សារជាថ្មី (Zero-Shot) នេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិកម្មឆ្លាតវៃនៅកម្ពុជា។

វិស័យកសិកម្មឆ្លាតវៃ (Smart Agriculture): អាចត្រូវបានយកទៅកែច្នៃប្រើប្រាស់សម្រាប់បញ្ជាដ្រូន ឬរ៉ូបូតកសិកម្មនៅតាមកសិដ្ឋានធំៗ (ឧទាហរណ៍នៅខេត្តបាត់ដំបង) ឱ្យយល់ពីការណែនាំថ្មីៗជារៀងរាល់ថ្ងៃ ដោយគ្រាន់តែផ្លាស់ប្តូរពាក្យបញ្ជាដោយមិនចាំបាច់សរសេរកម្មវិធីឡើងវិញ។
វិស័យភស្តុភារ និងឃ្លាំងទំនិញ (Logistics & Warehousing): ក្រុមហ៊ុនដឹកជញ្ជូន ឬឃ្លាំងទំនិញនៅតំបន់សេដ្ឋកិច្ចពិសេសក្រុងព្រះសីហនុ អាចប្រើប្រាស់ភ្នាក់ងារ AI ដើម្បីរៀបចំ ផ្លាស់ទី ឬស្វែងរកទំនិញដោយស្វ័យប្រវត្តិ ដោយប្រើការណែនាំជាភាសាធម្មជាតិ។

សរុបមក ទោះបីជាបច្ចុប្បន្នស្ថិតក្នុងដំណាក់កាលពិសោធន៍ក្តី ក៏ស្ថាបត្យកម្ម Meta Controller នេះជាគ្រឹះដ៏សំខាន់សម្រាប់បង្កើតរ៉ូបូត ឬប្រព័ន្ធ AI ដែលអាចបត់បែនបានទៅតាមស្ថានភាពជាក់ស្តែងនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Deep Reinforcement Learning: និស្សិតគួរចាប់ផ្តើមរៀនអំពីក្បួនដោះស្រាយ (Algorithms) ដូចជា Actor-Critic និង Generalized Advantage Estimation (GAE) ដោយអនុវត្តកូដសាកល្បងតាមរយៈ OpenAI Gym និង Stable Baselines3 នៅក្នុង Python។
អនុវត្តការរៀនពហុកិច្ចការ (Multi-Task Learning): ចាប់ផ្តើមអនុវត្តការបណ្តុះបណ្តាលភ្នាក់ងារ AI ឱ្យធ្វើកិច្ចការច្រើនក្នុងពេលតែមួយ និងអនុវត្តបច្ចេកទេស Policy Distillation ដោយប្រើប្រាស់ PyTorch ឬ TensorFlow ដើម្បីបង្រួមទំហំម៉ូដែល។
កសាងបរិស្ថានសាកល្បង 2D: ប្រើប្រាស់បណ្ណាល័យដូចជា Minigrid ឬកែច្នៃ MazeBase ដើម្បីបង្កើតបរិស្ថានសាកល្បង 2D ផ្ទាល់ខ្លួន ដែលមានលក្ខណៈស្រដៀងនឹងបញ្ហាជាក់ស្តែង (ឧទាហរណ៍៖ បរិស្ថានឃ្លាំងទំនិញ)។
អភិវឌ្ឍស្ថាបត្យកម្ម Hierarchical Controller: ស្រាវជ្រាវ និងសរសេរកូដសម្រាប់ Meta Controller ដែលអាចធ្វើបច្ចុប្បន្នភាពកិច្ចការរងដោយផ្អែកលើពេលវេលាជាក់លាក់ (dynamic time-scale) និងប្រើប្រាស់ Analogy-making ដើម្បីសាកល្បងសមត្ថភាព Zero-Shot Learning របស់ភ្នាក់ងារ AI។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Zero-Shot Task Generalization	សមត្ថភាពរបស់ភ្នាក់ងារបញ្ញាសិប្បនិម្មិត (AI) ក្នុងការអនុវត្តកិច្ចការថ្មីៗដែលវាមិនធ្លាប់បានហ្វឹកហាត់ពីមុនមក ដោយប្រើប្រាស់ចំណេះដឹងឬការចាប់យកគំរូទូទៅ ដែលវាធ្លាប់រៀនពីកិច្ចការផ្សេងៗ។	ដូចជាសិស្សដែលចេះក្បួនបូកនិងដកលេខ រួចអាចដោះស្រាយលំហាត់ថ្មីដែលមិនធ្លាប់ជួបក្នុងថ្នាក់បានដោយខ្លួនឯង ដោយមិនបាច់មានអ្នកប្រាប់មុន។
Multi-Task Deep Reinforcement Learning	ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតស៊ីជម្រៅ (Deep Neural Networks) ដើម្បីបង្រៀនភ្នាក់ងារ AI តាមរយៈប្រព័ន្ធរង្វាន់និងពិន័យ ឱ្យចេះធ្វើកិច្ចការច្រើនខុសៗគ្នាក្នុងពេលតែមួយដោយជោគជ័យ។	ដូចជាការបង្វឹកសត្វឆ្កែមួយក្បាលឱ្យចេះទាំងអង្គុយ ក្រោក និងចាប់បាល់ ដោយការផ្តល់ចំណីជារង្វាន់នៅពេលវាធ្វើត្រូវ។
Policy Distillation	បច្ចេកទេសផ្ទេរចំណេះដឹងពីម៉ូដែល AI គ្រូ (Teacher Policies) ជាច្រើនដែលជំនាញរៀងៗខ្លួន ទៅកាន់ម៉ូដែល AI សិស្ស (Student Policy) តែមួយ ដើម្បីឱ្យម៉ូដែលតែមួយនោះអាចធ្វើកិច្ចការទាំងអស់នោះបានយ៉ាងមានប្រសិទ្ធភាព។	ដូចជាការសង្ខេបមេរៀនពីសៀវភៅក្រាស់ៗជាច្រើនមុខវិជ្ជា បញ្ចូលទៅក្នុងសៀវភៅសង្ខេបតែមួយក្បាលដើម្បីងាយស្រួលយកតាមខ្លួន។
Actor-Critic	ក្បួនដោះស្រាយនៅក្នុងការរៀនពង្រឹង (Reinforcement Learning) ដែលបែងចែកប្រព័ន្ធជាពីរផ្នែក៖ 'Actor' ជាអ្នកសម្រេចចិត្តធ្វើសកម្មភាព និង 'Critic' ជាអ្នកវាយតម្លៃថាតើសកម្មភាពនោះល្អកម្រិតណាដើម្បីកែតម្រូវនៅពេលក្រោយ។	ដូចជាអ្នកលេងកីឡា (Actor) ដែលកំពុងប្រកួតលើទីលាន និងមានគ្រូបង្វឹក (Critic) ដែលឈរចាំវាយតម្លៃនិងប្រាប់ថាលេងបានល្អឬអត់។
Generalized Advantage Estimation (GAE)	វិធីសាស្ត្រគណនាប៉ាន់ស្មានពី 'អត្ថប្រយោជន៍' នៃសកម្មភាពនីមួយៗរបស់ AI ដើម្បីកាត់បន្ថយភាពមិនច្បាស់លាស់ (Variance) ក្នុងការរៀនសូត្រ ដែលជួយធ្វើឱ្យការបង្វឹក AI កាន់តែមានស្ថិរភាពនិងលឿនជាងមុន។	ដូចជាការគិតពិចារណាយ៉ាងហ្មត់ចត់ក្នុងការថ្លឹងថ្លែងពីផលចំណេញនិងហានិភ័យ មុននឹងសម្រេចចិត្តវិនិយោគលើគម្រោងអ្វីមួយ។
Meta Controller	ប្រព័ន្ធបញ្ជាកម្រិតខ្ពស់នៅក្នុងស្ថាបត្យកម្មឋានានុក្រម ដែលមានតួនាទីសម្រេចចិត្តថាតើកិច្ចការរង (subtask) មួយណាដែល AI គួរអនុវត្តបន្ត ដើម្បីឈានទៅសម្រេចគោលដៅធំនៅចុងបញ្ចប់។	ដូចជាអ្នកគ្រប់គ្រងគម្រោង (Project Manager) ដែលមិនមែនជាអ្នកធ្វើការងារផ្ទាល់ ប៉ុន្តែជាអ្នកបែងចែកការងារតូចៗឱ្យកូនចៅធ្វើជាជំហានៗដើម្បីបញ្ចប់គម្រោងធំមួយ។
Multiplicative Interaction	វិធីសាស្ត្រផ្សំបញ្ចូលទិន្នន័យអថេរលក្ខខណ្ឌទៅក្នុងបណ្ដាញសរសៃប្រសាទតាមរយៈការគុណម៉ាទ្រីស (Matrix multiplication) ជំនួសឱ្យការគ្រាន់តែតម្រៀបបន្តគ្នា (concatenating) ដែលជួយឱ្យ AI យល់ពីទំនាក់ទំនងស្មុគស្មាញរវាងលក្ខខណ្ឌនិងកិច្ចការបានល្អប្រសើរ។	ដូចជាការលាយពណ៌ទឹក ដែលការលាយពណ៌ក្រហមនិងលឿងបញ្ចូលគ្នា បង្កើតបានជាពណ៌ថ្មីមួយទៀត (ពណ៌ទឹកក្រូច) ជាជាងគ្រាន់តែដាក់វាទន្ទឹមគ្នា។
Curriculum Learning	យុទ្ធសាស្ត្របង្វឹកម៉ូដែល Machine Learning ដោយចាប់ផ្តើមពីការផ្តល់ទិន្នន័យឬកិច្ចការដែលងាយៗនិងសាមញ្ញ រួចទើបបង្កើនកម្រិតស្មុគស្មាញនិងទំហំលំបាកបន្តិចម្តងៗនៅពេលវាចាប់ផ្តើមរៀនចេះមូលដ្ឋានគ្រឹះ។	ដូចជាការបង្រៀនក្មេងឱ្យចេះវារ និងចេះដើរជាមុនសិន មុនពេលបង្រៀនឱ្យពួកគេចេះរត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖