បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការអនុវត្តស្ថាបត្យកម្មត្រង់ស្វ័រម័រ (Transformer models) សម្រាប់ដោះស្រាយបញ្ហាគ្រប់គ្រងមនុស្សយន្តដែលមានសកម្មភាពជាបន្តបន្ទាប់ (Continuous robotic control tasks) តាមរយៈការបំប្លែងការរៀនម៉ាស៊ីនបែបពង្រឹង (Reinforcement learning) ទៅជាការរៀនតាមលំដាប់លំដោយ (Sequence learning)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្រ្តនៃការធ្វើម៉ូដែលគន្លងសកម្មភាព (Generative trajectory modeling) ដោយយកទិន្នន័យក្រៅបណ្តាញ (Offline data) ពីបរិស្ថានក្លែងធ្វើមនុស្សយន្តមកបង្ហាត់ម៉ូដែល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Decision Transformer (Expert Data) ម៉ូដែល Decision Transformer (ហ្វឹកហាត់ដោយទិន្នន័យអ្នកជំនាញ) |
អាចចម្លងឥរិយាបថអ្នកជំនាញបានយ៉ាងល្អ និងទទួលបានអត្រាជោគជ័យខ្ពស់លើកិច្ចការស្មុគស្មាញ (Behavioral cloning)។ | ត្រូវការទិន្នន័យពីអ្នកជំនាញដែលពិបាកនិងចំណាយពេលក្នុងការប្រមូល ហើយនៅតែជួបការលំបាកខ្លាំងលើកិច្ចការ Slide។ | អត្រាជោគជ័យ ១០០% (Reach), ៩៦% (Pick & Place) និង ៧៣% (Push) ក្នុងរយៈកាល ១០០ ជំហាន។ |
| Decision Transformer (Random Data) ម៉ូដែល Decision Transformer (ហ្វឹកហាត់ដោយទិន្នន័យចៃដន្យទាំងស្រុង) |
មិនត្រូវការចំណាយពេលប្រមូលទិន្នន័យពីអ្នកជំនាញ ងាយស្រួលបង្កើតទិន្នន័យដោយស្វ័យប្រវត្តិសម្រាប់ការហ្វឹកហាត់ទ្រង់ទ្រាយធំ។ | អត្រាជោគជ័យទាបខ្លាំងលើកិច្ចការភាគច្រើន ព្រោះម៉ូដែលពិបាករៀនពីទិន្នន័យដែលគ្មានគោលដៅច្បាស់លាស់។ | អត្រាជោគជ័យ ១០០% សម្រាប់កិច្ចការងាយ (Reach) ប៉ុន្តែទទួលបានត្រឹម ៧% (Pick & Place) និង ២% (Slide)។ |
| Decision Transformer (90/10 Split Data) ម៉ូដែល Decision Transformer (ទិន្នន័យចៃដន្យ ៩០% និងអ្នកជំនាញ ១០%) |
មានតុល្យភាពរវាងទំហំទិន្នន័យ និងគុណភាព ដោយធ្វើឲ្យអត្រាជោគជ័យកើនឡើងគួរឲ្យកត់សម្គាល់ធៀបនឹងការប្រើទិន្នន័យចៃដន្យសុទ្ធ។ | ទោះបីជាលទ្ធផលមានភាពប្រសើរឡើង តែក៏មិនទាន់អាចប្រកួតប្រជែងជាមួយម៉ូដែលដែលប្រើទិន្នន័យអ្នកជំនាញទាំងស្រុងបាននៅឡើយ។ | អត្រាជោគជ័យកើនដល់ ៥០% (Pick & Place) និង ២៤% (Push) ក្នុងរយៈកាល ១០០ ជំហាន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យគួរសម ពិសេសសម្រាប់ការធ្វើត្រាប់តាមបរិស្ថានក្លែងធ្វើមនុស្សយន្ត និងការហ្វឹកហាត់ម៉ូដែលស្ថាបត្យកម្ម Transformer។
ការសិក្សានេះត្រូវបានធ្វើឡើងទាំងស្រុងនៅក្នុងបរិស្ថានក្លែងធ្វើ (Simulation) តាមរយៈកុំព្យូទ័រ ដោយមិនមានការសាកល្បងលើមនុស្សយន្តពិតប្រាកដ (Physical robots) នោះទេ។ នេះមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះការរៀននៅក្នុងការក្លែងធ្វើជួយសន្សំសំចៃថវិកា ប៉ុន្តែនៅពេលយកទៅអនុវត្តផ្ទាល់នៅក្នុងរោងចក្រ អាចនឹងជួបប្រទះបញ្ហាគម្លាតរវាងការក្លែងធ្វើនិងការពិត (Sim-to-Real gap) ក៏ដូចជាកត្តារូបវិទ្យានៅក្នុងពិភពពិត។
វិធីសាស្រ្តនៃការប្រើប្រាស់ Decision Transformers ក្នុងការបញ្ជាមនុស្សយន្តតាមរយៈទិន្នន័យក្រៅបណ្តាញ (Offline RL) មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍវិស័យស្វ័យប្រវត្តិកម្មនៅកម្ពុជា។
សរុបមក ការអនុវត្ត Offline RL ជួយបើកផ្លូវឲ្យស្ថាប័នអប់រំ និងឧស្សាហកម្មនៅកម្ពុជាអាចចាប់ផ្តើមស្រាវជ្រាវបញ្ញាសិប្បនិម្មិតនិងមនុស្សយន្តដោយចំណាយធនធានតិចតួច។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Decision Transformer | ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតដែលជាទូទៅប្រើប្រាស់សម្រាប់ការបកប្រែឬវិភាគភាសា ប៉ុន្តែនៅក្នុងឯកសារនេះត្រូវបានយកមកប្រើដើម្បីទស្សន៍ទាយនិងកំណត់សកម្មភាពបន្ទាប់របស់មនុស្សយន្ត ដោយផ្អែកលើប្រវត្តិសកម្មភាព ស្ថានភាពបច្ចុប្បន្ន និងរង្វាន់ដែលចង់បាន។ | ដូចជាសិស្សដែលអានសៀវភៅប្រវត្តិសាស្ត្រ រួចទាយថាតើព្រឹត្តិការណ៍អ្វីនឹងកើតឡើងបន្ទាប់ដោយផ្អែកលើលំដាប់លំដោយនៃសាច់រឿងដែលបានកើតឡើងរួចមកហើយ។ |
| Offline Reinforcement Learning | ជាបច្ចេកទេសបង្រៀនម៉ូដែលបញ្ញាសិប្បនិម្មិតឲ្យចេះធ្វើការសម្រេចចិត្ត ដោយរៀនពីសំណុំទិន្នន័យចាស់ៗដែលបានប្រមូលទុកជាមុន (កំណត់ត្រាសកម្មភាព) ដោយមិនចាំបាច់ឲ្យម៉ូដែលនោះទៅសាកល្បងខុសត្រូវដោយផ្ទាល់នៅក្នុងបរិស្ថានជាក់ស្តែងនោះទេ។ | ដូចជាការរៀនបើកបរដោយត្រឹមតែមើលវីដេអូកំណត់ត្រារបស់អ្នកដទៃបើកបរ ជាជាងការទៅអង្គុយសាកល្បងបើកបរផ្ទាល់នៅលើដងផ្លូវ។ |
| Return To Go (RTG) | ជាការគណនានិងបូកសរុបនូវរង្វាន់ ឬលទ្ធផលរំពឹងទុកដែលម៉ូដែលនឹងទទួលបាននាពេលអនាគត ចាប់ពីចំណុចបច្ចុប្បន្នរហូតដល់ចប់កិច្ចការ ដើម្បីជាត្រីវិស័យជួយឲ្យម៉ូដែលដឹងថាត្រូវធ្វើសកម្មភាពអ្វីបន្ទាប់ទើបទទួលបានផលចំណេញខ្ពស់បំផុត។ | ដូចជាការសម្លឹងមើលចំនួនគីឡូម៉ែត្រដែលនៅសល់រហូតដល់គោលដៅចុងក្រោយ ដើម្បីគណនាថាតើត្រូវប្រឹងជាន់ហ្គែរប៉ុណ្ណាទៀតទើបទៅដល់ទាន់ពេលវេលា។ |
| Hindsight Experience Replay (HER) | ជាបច្ចេកទេសបង្រៀនម៉ូដែលឲ្យរៀនពីកំហុស ដោយយកលទ្ធផលចុងក្រោយដែលខុសពីគោលដៅដើម មកបន្លំចាត់ទុកថាជា "គោលដៅថ្មី" ដើម្បីឲ្យម៉ូដែលនៅតែមានឱកាសរៀនពីរបៀបធ្វើដំណើរទៅកាន់ចំណុចនោះ ទោះបីជាវាជាបរាជ័យក៏ដោយ។ | ដូចជាអ្នកបាញ់ធ្នូខុសគោលដៅចូលទៅចំដើមឈើ រួចប្រាប់ខ្លួនឯងថា "ការពិតខ្ញុំមានបំណងបាញ់ដើមឈើនេះតើ" ដើម្បីរៀនពីរបៀបបាញ់ឲ្យចំដើមឈើនោះនៅពេលក្រោយ។ |
| Behavioral cloning | ដំណើរការដែលម៉ូដែលបញ្ញាសិប្បនិម្មិតព្យាយាមចម្លង និងធ្វើតាមរាល់សកម្មភាពរបស់អ្នកជំនាញបេះបិទ ដោយយកទិន្នន័យគន្លងសកម្មភាពល្អៗរបស់អ្នកជំនាញមកធ្វើជាគំរូដើមសម្រាប់រៀនសូត្រ។ | ដូចជាកូនក្មេងដែលរៀនចងខ្សែស្បែកជើងដោយការសម្លឹងមើល និងធ្វើតាមចលនាដៃរបស់ឪពុកម្តាយគ្រប់ៗជំហាន។ |
| Sparse binary reward | ប្រព័ន្ធផ្តល់រង្វាន់ដែលម៉ូដែលនឹងទទួលបានសញ្ញាវិជ្ជមាន (ឧ. លេខ ០) តែនៅពេលដែលវាសម្រេចគោលដៅចុងក្រោយប៉ុណ្ណោះ ហើយវានឹងមិនទទួលបានការលើកទឹកចិត្តឬតម្រុយអ្វីទាំងអស់ (ឧ. លេខ -១) នៅចន្លោះពេលកំពុងពុះពារធ្វើកិច្ចការនោះ។ | ដូចជាការប្រលងដែលគ្រូដាក់ពិន្ទុត្រឹមតែ "ជាប់" ឬ "ធ្លាក់" ដោយមិនមានការឲ្យពិន្ទុបណ្តើរៗលើចំណុចនីមួយៗដែលសិស្សបានធ្វើត្រូវឡើយ។ |
| Autoregressive action generation | ជាដំណើរការដែលម៉ូដែលព្យាករណ៍ និងបង្កើតទិន្នន័យ ឬសកម្មភាពបន្ទាប់ ម្តងមួយៗតាមលំដាប់លំដោយយ៉ាងតឹងរ៉ឹង ដោយផ្អែកលើសកម្មភាពដែលវាទើបតែបានសម្រេចចិត្តកាលពីជំហានមុន។ | ដូចជាការសរសេរប្រយោគមួយ ដែលពាក្យនីមួយៗត្រូវបានជ្រើសរើសដោយពឹងផ្អែកទាំងស្រុងទៅលើពាក្យដែលយើងទើបតែបានសរសេររួចពីមុន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖