Original Title: A Federated Learning and Deep Reinforcement Learning-Based Method with Two Types of Agents for Computation Offload
Source: doi.org/10.3390/s23042243
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រផ្អែកលើការរៀនសហព័ន្ធ និងការរៀនពង្រឹងស៊ីជម្រៅ ជាមួយភ្នាក់ងារពីរប្រភេទសម្រាប់ការផ្ទេរការគណនា

ចំណងជើងដើម៖ A Federated Learning and Deep Reinforcement Learning-Based Method with Two Types of Agents for Computation Offload

អ្នកនិពន្ធ៖ Song Liu (School of Computer Science and Technology, Xi’an Jiaotong University), Shiyuan Yang, Hanze Zhang, Weiguo Wu

ឆ្នាំបោះពុម្ព៖ 2023, Sensors

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កម្មវិធីដែលទាមទារភាពយឺតយ៉ាវទាបនៅក្នុងបរិស្ថាន Mobile Edge Computing (MEC) ជួបប្រទះនឹងបញ្ហាប្រឈមដោយសារភាពមិនច្បាស់លាស់នៃកិច្ចការ និងបណ្តាញឥតខ្សែដែលប្រែប្រួលតាមពេលវេលា ដែលធ្វើឱ្យឧបករណ៍ចល័តពិបាកក្នុងការសម្រេចចិត្តផ្ទេរការគណនាឱ្យបានល្អប្រសើរ ព្រមទាំងប្រឈមនឹងការលេចធ្លាយឯកជនភាពទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រ FDRT ដែលរួមបញ្ចូលគ្នានូវការរៀនសហព័ន្ធ (Federated Learning) និងការរៀនពង្រឹងស៊ីជម្រៅ (Deep Reinforcement Learning) ដោយប្រើប្រាស់ភ្នាក់ងារពីរប្រភេទដើម្បីធ្វើឱ្យប្រសើរឡើងនូវការផ្ទេរការគណនា និងការពារឯកជនភាពទិន្នន័យ។

ភ្នាក់ងារ DDQN សម្រាប់ឧបករណ៍ចល័ត (DDQN-based Mobile Device Agent) ដើម្បីសម្រេចចិត្តថាតើត្រូវគណនាកិច្ចការនៅនឹងកន្លែង ឬផ្ទេរចេញទៅក្រៅ។
ភ្នាក់ងារ D3QN សម្រាប់ម៉ាស៊ីនមេ (D3QN-based MEC Server Agent) ដើម្បីពិចារណាលើលក្ខខណ្ឌនៃម៉ាស៊ីនមេ MEC ទាំងអស់សម្រាប់ការសម្រេចចិត្តផ្ទេរបន្ត។
ការបង្រួបបង្រួមទិន្នន័យពាក់កណ្តាលសកលតាមរយៈការរៀនសហព័ន្ធ (Semi-global Aggregation via Federated Learning) ដើម្បីកាត់បន្ថយបន្ទុកបណ្តាញទំនាក់ទំនង និងការពារឯកជនភាពអ្នកប្រើប្រាស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

យុទ្ធសាស្ត្រ DRT បានកាត់បន្ថយការពន្យារពេលក្នុងការអនុវត្តកិច្ចការជាមធ្យមរហូតដល់ទៅ ៥០% (50%) បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រគោលនិងវិធីសាស្ត្រទំនើបមួយចំនួនទៀត។
វិធីសាស្ត្រ FDRT បានពន្លឿនអត្រានៃការបញ្ចូលគ្នាក្នុងការបណ្តុះបណ្តាល (Convergence rate) និងកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលភ្នាក់ងាររបស់ DRT បានរហូតដល់ ៦១.៧% (61.7%)។
ការអនុវត្ត FDRT ក៏បានជួយកាត់បន្ថយការពន្យារពេលក្នុងការអនុវត្តកិច្ចការបន្ថែមទៀតចំនួន ២.៨% (2.8%) ព្រមទាំងកាត់បន្ថយបន្ទុកនៃការបញ្ជូនទិន្នន័យនៅក្នុងបណ្តាញប្រកបដោយប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
FDRT (Proposed) ការបណ្តុះបណ្តាលដោយប្រើការរៀនសហព័ន្ធ (Federated Learning) លើភ្នាក់ងារពីរប្រភេទ	ការពារឯកជនភាពទិន្នន័យ កាត់បន្ថយបន្ទុកបញ្ជូនទិន្នន័យក្នុងបណ្តាញ និងមានល្បឿននៃការបញ្ចូលគ្នាក្នុងការបណ្តុះបណ្តាល (Convergence) លឿន។	ទាមទារឱ្យមានការរៀបចំរចនាសម្ព័ន្ធបណ្តាញ MEC ស្មុគស្មាញ និងការធ្វើសមកាលកម្មរវាងម៉ាស៊ីនមេ។	កាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលបាន ៦១.៧% (61.7%) និងកាត់បន្ថយការពន្យារពេលការអនុវត្តកិច្ចការបន្ថែម ២.៨% បើធៀបនឹង DRT។
DRT (Proposed DRL) ការរៀនពង្រឹងស៊ីជម្រៅ (DRL) ដោយប្រើភ្នាក់ងារពីរប្រភេទ (DDQN និង D3QN)	ស្វែងរកការសម្រេចចិត្តបានល្អបំផុតដោយពិចារណាលើធនធានម៉ាស៊ីនមេ MEC ទាំងអស់ ដែលជួយកាត់បន្ថយភាពយឺតយ៉ាវយ៉ាងមានប្រសិទ្ធភាព។	ត្រូវការបញ្ជូនទិន្នន័យច្រើនសម្រាប់ការបណ្តុះបណ្តាល ដែលអាចបង្កឱ្យមានការយឺតយ៉ាវក្នុងការសម្រេចចិត្ត ប្រសិនបើមិនមានប្រើ FL។	កាត់បន្ថយការពន្យារពេលការអនុវត្តកិច្ចការជាមធ្យមបានរហូតដល់ជាង ៥០% (50%) បើប្រៀបធៀបជាមួយវិធីសាស្ត្រទំនើបៗផ្សេងទៀត។
SMDA / OMSA វិធីសាស្ត្រប្រើភ្នាក់ងារតែមួយ (Single Agent DRL) សម្រាប់ឧបករណ៍ចល័ត ឬម៉ាស៊ីនមេ MEC	មានភាពសាមញ្ញជាងក្នុងការរៀបចំភ្នាក់ងារតែមួយនៅកន្លែងណាមួយជាក់លាក់។	មិនអាចទាញយកអត្ថប្រយោជន៍ពេញលេញពីធនធានទាំងអស់នៅក្នុងប្រព័ន្ធ MEC ទាំងមូលបានទេ និងមានទំហំសកម្មភាព (Action space) ធំពេក។	មានការពន្យារពេលយូរជាង DRT ចំនួន ៨.០% (សម្រាប់ SMDA) និង ៥០.៣% (សម្រាប់ OMSA)។
MDL (Baseline) ការគណនានៅលើឧបករណ៍ចល័តផ្ទាល់ (Local Computing Only)	មិនត្រូវការបញ្ជូនទិន្នន័យតាមបណ្តាញឥតខ្សែ ជៀសវាងការពន្យារពេលបញ្ជូន និងគ្មានហានិភ័យឯកជនភាព។	ឧបករណ៍ចល័តមានកម្លាំងគណនាខ្សោយ ដែលធ្វើឱ្យការអនុវត្តកិច្ចការមានភាពយឺតយ៉ាវខ្លាំង។	ទទួលបានលទ្ធផលអាក្រក់បំផុតដោយមានការពន្យារពេលការអនុវត្តកិច្ចការជាមធ្យម ៨.៤៤៥ មីលីវិនាទី (ms)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ការក្លែងធ្វើ (Simulation) តាមរយៈកុំព្យូទ័រម៉ាស៊ីនមេ (Server) ដែលមានសមត្ថភាពខ្ពស់ ដើម្បីដំណើរការម៉ូដែលបណ្តាញសរសៃប្រសាទ (Neural Networks) សម្រាប់ការរៀនពង្រឹងស៊ីជម្រៅ។

Hardware: ម៉ាស៊ីនមេ (Server) ដែលបំពាក់ដោយស៊ីភីយូ Inter(R) Xeon(R) Gold 6248 processors (2.50 GHz) ចំនួនពីរគ្រាប់។
Software & Libraries: ភាសាប្រូក្រាម Python កំណែ 3.6.8 និងបណ្ណាល័យ PyTorch កំណែ 1.8.2 សម្រាប់ការកសាងម៉ូដែល DRL (DDQN និង D3QN)។
Environment Simulation: ទិន្នន័យក្លែងធ្វើបណ្តាញ 5G ដោយផ្អែកលើប៉ារ៉ាម៉ែត្ររបស់ឧបករណ៍ Huawei AAU5619 និងចលនារបស់អ្នកប្រើប្រាស់ក្នុងល្បឿនពី 29.6 ដល់ 30.4 ម៉ែត្រ/វិនាទី។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើបរិស្ថានក្លែងធ្វើ (Simulated Environment) ដោយប្រើប៉ារ៉ាម៉ែត្របណ្តាញ 5G និងគំរូចលនាអ្នកប្រើប្រាស់តាមទ្រឹស្តីនៅក្នុងតំបន់ទីក្រុងមានអគារច្រើន។ សម្រាប់ប្រទេសកម្ពុជា ការក្លែងធ្វើយ៉ាងល្អឥតខ្ចោះនេះអាចនឹងខុសពីការពិត ដោយសារហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញ 5G មិនទាន់មានភាពទូលំទូលាយ និងល្បឿនអ៊ីនធឺណិតមានការប្រែប្រួលខ្លាំងរវាងតំបន់ទីក្រុងនិងជនបទ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាផ្អែកលើការក្លែងធ្វើក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់គម្រោងអភិវឌ្ឍន៍ទីក្រុងឆ្លាតវៃ (Smart City) និងប្រព័ន្ធទូរគមនាគមន៍ជំនាន់ថ្មីនៅកម្ពុជា។

ប្រតិបត្តិករទូរគមនាគមន៍ (Telecom Operators): ក្រុមហ៊ុនដូចជា Cellcard ឬ Smart អាចអនុវត្តបច្ចេកវិទ្យា MEC នេះនៅតាមស្ថានីយ៍ផ្សាយសេវា (Base Stations) ក្នុងរាជធានីភ្នំពេញ ដើម្បីផ្តល់សេវាកម្មដែលមានភាពយឺតយ៉ាវទាប (Low-latency) ដូចជាការលេងហ្គេមអនឡាញ ឬការស្ទ្រីមវីដេអូកម្រិតខ្ពស់។
ទីក្រុងឆ្លាតវៃ និងកាមេរ៉ាសុវត្ថិភាព (Smart Cities & Traffic Monitoring): ការប្រើប្រាស់ FL និង MEC អាចជួយឱ្យប្រព័ន្ធកាមេរ៉ាសុវត្ថិភាពឆ្លាតវៃនៅតាមដងផ្លូវវិភាគទិន្នន័យរូបភាពបានរហ័សនៅនឹងកន្លែង ដោយមិនចាំបាច់បញ្ជូនទិន្នន័យឯកជនទាំងអស់ទៅកាន់ម៉ាស៊ីនមេកណ្តាល (Cloud) នោះទេ។
វិស័យសុខាភិបាលឌីជីថល (Digital Healthcare): វិធីសាស្ត្រការពារឯកជនភាពតាមរយៈ Federated Learning គឺស័ក្តិសមបំផុតសម្រាប់មន្ទីរពេទ្យក្នុងការវិភាគទិន្នន័យអ្នកជំងឺរួមគ្នា ដោយមិនចាំបាច់ចែករំលែកទិន្នន័យឆៅចេញក្រៅ។

ការទាញយកអត្ថប្រយោជន៍ពីក្របខ័ណ្ឌនេះនៅកម្ពុជាទាមទារឱ្យមានការវិនិយោគជាមុនលើហេដ្ឋារចនាសម្ព័ន្ធ 5G និងម៉ាស៊ីនមេ MEC ប៉ុន្តែវានឹងផ្តល់ផលចំណេញយ៉ាងធំធេងដល់គុណភាពសេវាកម្មឌីជីថល និងសុវត្ថិភាពទិន្នន័យក្នុងរយៈពេលវែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនពង្រឹងស៊ីជម្រៅ (DRL): និស្សិតគប្បីចាប់ផ្តើមរៀនពីគោលការណ៍ក្បួន Deep Q-Network (DQN), Double DQN (DDQN), និង Dueling DQN (D3QN) ដោយប្រើប្រាស់បណ្ណាល័យ PyTorch និងអនុវត្តសាកល្បងជាមួយបរិស្ថាន OpenAI Gym។
យល់ដឹងពីស្ថាបត្យកម្ម Mobile Edge Computing (MEC): ស្រាវជ្រាវពីរបៀបដែលបណ្តាញ 5G និង MEC ដំណើរការរួមគ្នា។ សិក្សាពីគំរូគណនាការពន្យារពេល (Latency) និងការប្រើប្រាស់ថាមពល (Energy consumption) នៅក្នុងប្រព័ន្ធទូរគមនាគមន៍។
កសាងបរិស្ថានក្លែងធ្វើ (Simulation Environment): ប្រើប្រាស់ភាសា Python ដើម្បីសរសេរកូដក្លែងធ្វើបរិស្ថានបណ្តាញឥតខ្សែ (Wireless Channel Fading), គំរូនៃកិច្ចការ (Task queues), និងការផ្លាស់ទីរបស់ឧបករណ៍ (Mobility models) ដូចដែលបានរៀបរាប់ក្នុងឯកសារ។
អនុវត្តការរៀនសហព័ន្ធ (Federated Learning): សាកល្បងបញ្ចូលក្បួន Federated Averaging (FedAvg) ទៅក្នុងម៉ូដែល DRL ដើម្បីយល់ពីរបៀបដែលការធ្វើបច្ចុប្បន្នភាពប៉ារ៉ាម៉ែត្រ (Parameter aggregation) ត្រូវបានបញ្ជូនរវាងភ្នាក់ងារឧបករណ៍និងម៉ាស៊ីនមេ។
ស្រាវជ្រាវបន្ថែមលើការសន្សំសំចៃថាមពល (Energy Optimization): ដោយសារឯកសារនេះផ្តោតតែលើការពន្យារពេល (Latency) និស្សិតអាចពង្រីកការស្រាវជ្រាវនេះដោយបញ្ចូលកត្តាស៊ីភ្លើង (Energy Consumption) ដើម្បីបង្កើតជាការធ្វើឱ្យប្រសើរពហុគោលបំណង (Multi-objective optimization)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Mobile Edge Computing (MEC)	បច្ចេកវិទ្យានេះនាំយកសមត្ថភាពគណនា និងការស្តុកទិន្នន័យមកដាក់នៅក្បែរអ្នកប្រើប្រាស់ (ឧទាហរណ៍ នៅតាមស្ថានីយ៍បង្គោលអង់តែន) ជំនួសឱ្យការបញ្ជូនទិន្នន័យទាំងអស់ទៅកាន់ម៉ាស៊ីនមេកណ្តាលដ៏ឆ្ងាយ ដើម្បីកាត់បន្ថយការពន្យារពេល និងការកកស្ទះបណ្តាញ។	ដូចជាការបើកសាខាផ្សារទំនើបនៅជិតផ្ទះរបស់អ្នក ដើម្បីឱ្យអ្នកអាចទិញទំនិញបានលឿន ដោយមិនបាច់ធ្វើដំណើរទៅកាន់ទីស្នាក់ការកណ្តាលដ៏ឆ្ងាយ។
Computation Offloading	គឺជាដំណើរការនៃការបញ្ជូនកិច្ចការគណនាធំៗ ឬស្មុគស្មាញពីឧបករណ៍ចល័តដែលមានកម្លាំងខ្សោយ ទៅឱ្យម៉ាស៊ីនមេក្បែរនោះ ឬម៉ាស៊ីនមេលើក្លោដ (Cloud) ជាអ្នកគណនាជំនួស ដើម្បីសន្សំសំចៃថ្មទូរស័ព្ទ និងបង្កើនល្បឿនដំណើរការ។	ដូចជាការជួលជាងជំនាញឱ្យជួសជុលរថយន្តរបស់អ្នក ជំនួសឱ្យការចំណាយពេលនិងកម្លាំងជួសជុលវាដោយខ្លួនឯងដែលមិនមានឧបករណ៍គ្រប់គ្រាន់។
Federated Learning (FL)	វិធីសាស្ត្របណ្តុះបណ្តាលបញ្ញាសិប្បនិម្មិត (AI) ដោយអនុញ្ញាតឱ្យឧបករណ៍នីមួយៗរៀនពីទិន្នន័យផ្ទាល់ខ្លួន រួចបញ្ជូនតែលទ្ធផលនៃការរៀន (ប៉ារ៉ាម៉ែត្រម៉ូដែល) ទៅកាន់ម៉ាស៊ីនមេ ដើម្បីបូកបញ្ចូលគ្នា ដោយមិនចាំបាច់បញ្ជូនទិន្នន័យឯកជនឆៅចេញក្រៅឡើយ។	ដូចជាសិស្សម្នាក់ៗធ្វើលំហាត់រៀងៗខ្លួននៅផ្ទះ ហើយប្រាប់តែចម្លើយសរុបទៅគ្រូ ដោយមិនបាច់ប្រគល់ក្រដាសព្រាងរបស់ពួកគេឡើយ ដើម្បីការពារការលួចមើល។
Deep Reinforcement Learning (DRL)	ការបំពាក់ប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតទៅក្នុងភ្នាក់ងារ AI ដើម្បីឱ្យវាចេះរៀនសម្រេចចិត្តតាមរយៈការសាកល្បង (ខុសនិងត្រូវ) ព្រមទាំងទទួលបានរង្វាន់នៅពេលធ្វើត្រូវ ដែលជួយឱ្យវាដោះស្រាយបញ្ហាប្រែប្រួលស្មុគស្មាញបានយ៉ាងល្អ។	ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះចាប់បាល់ ដោយផ្តល់នំចំណីជារង្វាន់ដល់វារាល់ពេលដែលវាធ្វើបានល្អ។
Double Deep Q-Network (DDQN)	ជាក្បួនរៀនពង្រឹងស៊ីជម្រៅ (DRL) ដែលប្រើប្រាស់បណ្តាញសរសៃប្រសាទពីរផ្សេងគ្នា (មួយសម្រាប់ជ្រើសរើសសកម្មភាព និងមួយទៀតសម្រាប់វាយតម្លៃ) ដើម្បីការពារកុំឱ្យភ្នាក់ងារធ្វើការវាយតម្លៃតម្លៃនៃសកម្មភាពណាមួយខ្ពស់ហួសពីការពិត។	ដូចជាការមានទីប្រឹក្សាពីរនាក់គឺ ម្នាក់ជាអ្នកស្នើគម្រោង និងម្នាក់ទៀតជាអ្នកវាយតម្លៃគម្រោងនោះ ដើម្បីធានាថាមិនមានការយល់ច្រឡំ ឬវាយតម្លៃលើសពីការពិត។
Dueling DDQN (D3QN)	ជាទម្រង់អភិវឌ្ឍន៍បន្តពី DDQN ដែលបំបែកការគណនាតម្លៃនៃស្ថានភាពបច្ចុប្បន្ន និងអត្ថប្រយោជន៍នៃសកម្មភាពនីមួយៗដាច់ពីគ្នា ដែលស័ក្តិសមបំផុតសម្រាប់ប្រព័ន្ធដែលមានជម្រើសសកម្មភាពច្រើនសន្ធឹកសន្ធាប់។	ដូចជាការបែងចែកការគិតជាពីរផ្នែកគឺ មើលថាស្ថានភាពសេដ្ឋកិច្ចបច្ចុប្បន្នល្អកម្រិតណា ហើយការសម្រេចចិត្តវិនិយោគនីមួយៗនឹងផ្តល់ប្រាក់ចំណេញបន្ថែមប៉ុន្មាន។
Markov Decision Process (MDP)	ជាក្របខ័ណ្ឌគណិតវិទ្យាដែលប្រើសម្រាប់រៀបចំទម្រង់នៃបញ្ហា ដើម្បីឱ្យភ្នាក់ងារ AI អាចរៀនសម្រេចចិត្តជាជំហានៗ អាស្រ័យលើស្ថានភាពបច្ចុប្បន្ន សកម្មភាព និងរង្វាន់ដែលទទួលបាន ដោយពុំចាំបាច់ពឹងផ្អែកលើប្រវត្តិអតីតកាល។	ដូចជាការលេងអុក ដែលការដើរកូននីមួយៗពឹងផ្អែកតែលើទីតាំងកូនអុកបច្ចុប្បន្ននៅលើក្តារប៉ុណ្ណោះ មិនមែនពឹងផ្អែកលើទម្រង់ដើរពី១០វគ្គមុននោះទេ។
Orthogonal Frequency Division Multiplexing (OFDM)	ជាបច្ចេកទេសបំបែករលកសញ្ញាបញ្ជូនទិន្នន័យជាប្រេកង់តូចៗដាច់ដោយឡែកពីគ្នា ដើម្បីចាត់តាំងឱ្យឧបករណ៍ផ្សេងៗគ្នាប្រើប្រាស់ ដែលជួយកាត់បន្ថយការជ្រៀតជ្រែករលកសញ្ញាគ្នាទៅវិញទៅមកក្នុងបណ្តាញឥតខ្សែ (ដូចជា 5G)។	ដូចជាការគូសគំនូសបែងចែកគន្លងផ្លូវ (Lanes) នៅលើមហាវិថីដ៏ធំមួយ ដើម្បីឱ្យរថយន្តជាច្រើនបើកបរស្របគ្នាដោយមិនប៉ះទង្គិចគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖