Original Title: Decentralized Deep Reinforcement Learning Approach for Channel Access Optimization
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

អភិក្រមរៀនពង្រឹងស៊ីជម្រៅបែបវិមជ្ឈការសម្រាប់ការធ្វើឱ្យប្រសើរឡើងនូវការចូលប្រើប្រាស់ឆានែល

ចំណងជើងដើម៖ Decentralized Deep Reinforcement Learning Approach for Channel Access Optimization

អ្នកនិពន្ធ៖ Sheila C. da S. J. Cruz, Felipe A. P. de Figueiredo, Rausley A. A. de Souza

ឆ្នាំបោះពុម្ព៖ 2024 XLII BRAZILIAN SYMPOSIUM ON TELECOMMUNICATIONS AND SIGNAL PROCESSING (SBrT)

វិស័យសិក្សា៖ Telecommunications and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បណ្តាញឥតខ្សែ (Wi-Fi) ប្រើប្រាស់ក្បួនដោះស្រាយ BEB ប្រពៃណីសម្រាប់ការជៀសវាងការប៉ះទង្គិចគ្នា (Collision avoidance) ដែលមិនមានប្រសិទ្ធភាពខ្ពស់ និងធ្វើឱ្យខ្ជះខ្ជាយកម្រិតបញ្ជូននៅក្នុងបណ្តាញដែលមានស្ថានីយភ្ជាប់ច្រើននិងប្រែប្រួល។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះស្នើឡើងនូវដំណោះស្រាយបែបវិមជ្ឈការដោយប្រើប្រាស់ក្បួនដោះស្រាយការរៀនពង្រឹងស៊ីជម្រៅ (DRL) ដើម្បីធ្វើឱ្យប្រសើរឡើងនូវតម្លៃនៃផ្ទាំងការប្រកួតប្រជែង (Contention Window) ដោយស្វ័យប្រវត្តិសម្រាប់ស្ថានីយនីមួយៗ។

ការប្រើប្រាស់ក្បួនដោះស្រាយ Deep Q-Network (DQN) និង Deep Deterministic Policy Gradient (DDPG) ភ្នាក់ងារនីមួយៗ (Agents)
ការបង្កើតគំរូជាដំណើរការសម្រេចចិត្តម៉ាកូវដែលអាចសង្កេតបានដោយផ្នែក (POMDP)
ការធ្វើក្លែងបន្លំបណ្តាញ និងការហ្វឹកហាត់ (Network Simulation and Training) ដោយប្រើកម្មវិធី NS-3 និង NS3-gym

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយ DRL ទាំង DQN និង DDPG បានបង្កើនលំហូរទិន្នន័យបណ្តាញរហូតដល់ 37.16% សម្រាប់ស្ថានីយចំនួន 50 បើធៀបនឹងក្បួនដោះស្រាយ BEB ប្រពៃណី។
វិធីសាស្ត្រនេះធានាបាននូវដំណើរការលំហូរទិន្នន័យថេរ និងរឹងមាំ សូម្បីតែនៅពេលដែលចំនួនស្ថានីយមានការកើនឡើងជាបន្តបន្ទាប់ក៏ដោយ (Dynamic scenarios)។
ដំណោះស្រាយវិមជ្ឈការនេះបង្ហាញពីភាពបត់បែន និងសមត្ថភាពក្នុងការសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរនៃលក្ខខណ្ឌបណ្តាញ បានល្អប្រសើរជាងការប្រើប្រាស់វិធីសាស្ត្រកំណត់ដោយកណ្តាល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
BEB (Binary Exponential Back-off) ក្បួនដោះស្រាយ BEB ប្រពៃណី	ងាយស្រួលអនុវត្ត និងជាស្តង់ដារដែលមានស្រាប់នៅក្នុងឧបករណ៍ Wi-Fi ទូទៅជាច្រើន។	មិនមានប្រសិទ្ធភាពខ្ពស់ក្នុងការគ្រប់គ្រងការប៉ះទង្គិចគ្នា ខ្ជះខ្ជាយកម្រិតបញ្ជូន និងមិនអាចសម្របខ្លួនបានល្អក្នុងបណ្តាញដែលមានស្ថានីយច្រើន។	លំហូរទិន្នន័យ (Throughput) ធ្លាក់ចុះមកនៅត្រឹមប្រហែល 26 Mbps នៅពេលមានស្ថានីយភ្ជាប់ដល់ចំនួន 50។
Decentralized DQN អភិក្រម DRL បែបវិមជ្ឈការដោយប្រើប្រាស់ DQN	បង្កើនលំហូរទិន្នន័យបានយ៉ាងល្អ និងមានលទ្ធភាពសម្របខ្លួនទៅនឹងការផ្លាស់ប្តូរនៃបណ្តាញតាមពេលវេលាជាក់ស្តែង។	ជម្រើសសកម្មភាព (Action space) មានលក្ខណៈដាច់ៗ (Discrete) ដែលធ្វើឱ្យមានភាពបត់បែនតិចតួចបើប្រៀបធៀបទៅនឹង DDPG ហើយមានបម្រែបម្រួលខ្ពស់នៅដំណាក់កាលហ្វឹកហាត់ដំបូង។	បង្កើនលំហូរទិន្នន័យរហូតដល់ 27.10% ធៀបនឹង BEB សម្រាប់សេណារីយ៉ូថេរដែលមានស្ថានីយចំនួន 50។
Decentralized DDPG អភិក្រម DRL បែបវិមជ្ឈការដោយប្រើប្រាស់ DDPG	អាចជ្រើសរើសតម្លៃ CW ជាក់ស្តែងណាមួយ (Continuous) ដែលជួយឱ្យការតាមដានសក្ដានុពលបណ្តាញមានភាពប្រសើរជាងមុន និងរក្សាស្ថិរភាពបានល្អ។	មានស្ថាបត្យកម្ម Actor-Critic ដែលមានភាពស្មុគស្មាញខ្ពស់ និងទាមទារការពិន័យ ឬការគណនាច្រើនជាង DQN បន្តិច។	បង្កើនលំហូរទិន្នន័យរហូតដល់ 27.78% (ក្នុងសេណារីយ៉ូថេរ) និងចូលរួមចំណែកធ្វើឱ្យប្រសើរឡើងសរុបរហូតដល់ 37.16% ក្នុងបណ្តាញ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីធនធានផ្នែករឹងនិងផ្នែកទន់ដែលត្រូវបានប្រើប្រាស់សម្រាប់ការធ្វើក្លែងបន្លំ និងការហ្វឹកហាត់ក្បួនដោះស្រាយម៉ាស៊ីន។

Hardware: កុំព្យូទ័រលើតុដែលមានអង្គគណនា Intel Xeon E5-1620 v3 processor និងអង្គចងចាំ 32 GB RAM។
Software & OS: ប្រព័ន្ធប្រតិបត្តិការ Ubuntu 20.04 ដោយប្រើប្រាស់កម្មវិធី NS-3 (ជំនាន់ 3.29) និង NS3-gym សម្រាប់ការធ្វើក្លែងបន្លំបណ្តាញ។
Deep Learning Libraries: ប្រើប្រាស់បណ្ណាល័យ TensorFlow (ជំនាន់ 1.14.0) និង PyTorch (ជំនាន់ 0.4.1) សម្រាប់ការហ្វឹកហាត់ក្បួនដោះស្រាយ DRL។
Training Time / Episodes: ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្របណ្តាញយ៉ាងលម្អិត និងដំណើរការហ្វឹកហាត់ជាច្រើនវគ្គ (Episodes) ជាមួយនឹងចន្លោះពេលអន្តរកម្ម (Interaction interval) ចំនួន 10ms។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យក្លែងបន្លំ (Simulation) ដែលបង្កើតឡើងដោយកម្មវិធី NS-3 ក្រោមបរិយាកាសដ៏ល្អឥតខ្ចោះនៃស្តង់ដារ IEEE 802.11ax ជាមួយនឹងការតំរូវគំរូផ្សាយសញ្ញាស្តង់ដារ (ConstantSpeedPropagationDelayModel)។ កត្តានេះមានសារៈសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ពីព្រោះនៅក្នុងស្ថានភាពជាក់ស្តែង បណ្តាញ Wi-Fi ក្នុងស្រុកតែងតែប្រឈមមុខនឹងឧបសគ្គរូបវន្ត (ជញ្ជាំង ការរចនាអគារ) ការជ្រៀតជ្រែករលកសញ្ញាឥតសណ្តាប់ធ្នាប់ និងការប្រើប្រាស់ឧបករណ៍ជំនាន់ចាស់ ដែលអាចធ្វើឱ្យលទ្ធផលនៃការអនុវត្តជាក់ស្តែងខុសពីការធ្វើក្លែងបន្លំ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាផ្អែកលើការធ្វើក្លែងបន្លំក៏ដោយ ក៏អភិក្រមវិមជ្ឈការនេះមានសក្តានុពលខ្ពស់ក្នុងការដោះស្រាយបញ្ហាកកស្ទះបណ្តាញ Wi-Fi នៅតាមទីតាំងជាក់លាក់ក្នុងប្រទេសកម្ពុជា។

សាកលវិទ្យាល័យ និងគ្រឹះស្ថានអប់រំ (ឧ. វិទ្យាស្ថានបច្ចេកវិទ្យាកម្ពុជា-ITC, សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ-RUPP): ជួយគ្រប់គ្រងលំហូរទិន្នន័យ និងកាត់បន្ថយការធ្លាក់ចុះគុណភាពសេវាកម្ម នៅពេលដែលនិស្សិតរាប់ពាន់នាក់ចូលប្រើប្រាស់ Wi-Fi សាលាក្នុងពេលតែមួយ ជាពិសេសនៅតំបន់បណ្ណាល័យ ឬសាលប្រជុំ។
ផ្សារទំនើប និងទីសាធារណៈដែលមានមនុស្សអ៊ូអរ (ឧ. ផ្សារទំនើប Aeon Mall): អាចប្រើប្រាស់ដើម្បីដោះស្រាយបញ្ហានៃការផ្លាស់ប្តូរចំនួនអ្នកប្រើប្រាស់ជាបន្តបន្ទាប់ (Dynamic network scenarios) ដោយជួយរក្សាស្ថិរភាពអ៊ិនធឺណិតសម្រាប់អតិថិជនបានយ៉ាងល្អ។
ក្រុមហ៊ុនផ្តល់សេវាអ៊ីនធឺណិត (ISPs) នៅកម្ពុជា: អាចធ្វើសមាហរណកម្មក្បួនដោះស្រាយនេះទៅក្នុង Firmware នៃឧបករណ៍រ៉ោតទ័រ (Routers) ជំនាន់ថ្មី ដើម្បីផ្តល់សេវាកម្ម Wi-Fi កាន់តែឆ្លាតវៃដល់អតិថិជនតាមផ្ទះ និងអាជីវកម្ម។

សរុបមក ការអនុវត្តក្បួនដោះស្រាយប្រភេទនេះនឹងផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំសម្រាប់ពង្រឹងគុណភាពសេវាអ៊ីនធឺណិតឥតខ្សែនៅតាមទីតាំងដែលមានដង់ស៊ីតេមនុស្សច្រើន ស្របតាមការរីកចម្រើននៃទីក្រុងឆ្លាតវៃនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការរៀនពង្រឹង (Reinforcement Learning): ចាប់ផ្តើមស្វែងយល់ពីគំនិតជាមូលដ្ឋាននៃ RL និង Multi-Agent RL តាមរយៈការអនុវត្តផ្ទាល់ជាមួយនឹងបណ្ណាល័យ OpenAI Gym និងភាសា Python។
ស្វែងយល់ពីការធ្វើក្លែងបន្លំបណ្តាញ (Network Simulation): រៀនពីរបៀបប្រើប្រាស់កម្មវិធីកម្រិតខ្ពស់ NS-3 ជាមួយភាសា C++ ដើម្បីរៀបចំ និងវិភាគសេណារីយ៉ូបណ្តាញ Wi-Fi ផ្សេងៗ (បង្កើត APs, ស្ថានីយ និងចរាចរណ៍ទិន្នន័យ)។
ធ្វើសមាហរណកម្មបញ្ញាសិប្បនិម្មិតជាមួយបណ្តាញក្លែងបន្លំ: សិក្សាពីរបៀបភ្ជាប់កម្មវិធីបណ្តាញទៅកាន់បរិស្ថាន Machine Learning ដោយប្រើប្រាស់ NS3-gym framework ដែលអនុញ្ញាតឱ្យភ្នាក់ងារ RL អាចទាញយកទិន្នន័យ និងបញ្ជូនសកម្មភាពទៅបណ្តាញវិញ។
អភិវឌ្ឍក្បួនដោះស្រាយ DRL វិមជ្ឈការ: សរសេរកូដដើម្បីបង្កើតភ្នាក់ងារដោយផ្ទាល់តាមរយៈ DQN និង DDPG ដោយប្រើប្រាស់បណ្ណាល័យ PyTorch ឬ TensorFlow ដើម្បីរៀនកំណត់តម្លៃផ្ទាំងការប្រកួតប្រជែង (CW)។
សាកល្បងនិងវាយតម្លៃក្នុងបរិស្ថានស្រដៀងជាក់ស្តែង: យកគំរូដែលបានហ្វឹកហាត់រួច ទៅសាកល្បងក្នុងបរិស្ថាន Network ដែលមានចរាចរណ៍កកស្ទះ និងមានអ្នកប្រើប្រាស់ផ្លាស់ទីចុះឡើង ដោយតាមដានការកើនឡើងនៃលំហូរទិន្នន័យ (Throughput)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deep Reinforcement Learning (DRL)	ជាក្បួនដោះស្រាយដែលរួមបញ្ចូលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ជាមួយការរៀនតាមរយៈប្រព័ន្ធរង្វាន់និងការពិន័យ (Reinforcement Learning) ដើម្បីឱ្យកម្មវិធីកុំព្យូទ័រអាចរៀននិងធ្វើការសម្រេចចិត្តដ៏ស្មុគស្មាញដោយស្វ័យប្រវត្តិក្នុងបរិស្ថានដែលផ្លាស់ប្តូរ។	ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនឱ្យនៅពេលវាធ្វើខុស រហូតដល់វាចេះគិតនិងធ្វើដោយខ្លួនឯង។
Contention Window (CW)	ជាចន្លោះពេលរង់ចាំដោយចៃដន្យដែលឧបករណ៍នីមួយៗ (ដូចជាទូរស័ព្ទ ឬកុំព្យូទ័រ) ត្រូវរង់ចាំមុនពេលបញ្ជូនទិន្នន័យទៅកាន់បណ្តាញ Wi-Fi គោលបំណងគឺដើម្បីជៀសវាងការបញ្ជូនទិន្នន័យព្រមគ្នាដែលបណ្តាលឱ្យមានការប៉ះទង្គិច។	ដូចជាការចាប់ឆ្នោតយករៀងដើម្បីនិយាយក្នុងចំណោមមនុស្សច្រើននាក់ ដើម្បីកុំឱ្យមានការនិយាយកាត់គ្នា។
Binary Exponential Back-off (BEB)	ជាយន្តការស្តង់ដារមួយនៅក្នុងបណ្តាញ Wi-Fi ដែលបង្កើនពេលវេលារង់ចាំ (CW) ទ្វេដងដោយស្វ័យប្រវត្តិ រាល់ពេលដែលមានការប៉ះទង្គិចទិន្នន័យកើតឡើង ដើម្បីបន្ថយការកកស្ទះ។	ដូចជាពេលយើងហៅទូរស័ព្ទទៅនរណាម្នាក់ហើយរវល់ យើងរង់ចាំ ១នាទីសិនទើបហៅម្តងទៀត បើនៅតែរវល់ យើងរង់ចាំ ២នាទី ៤នាទី ទ្វេដងរហូតទាល់តែចូល។
Deep Q-Network (DQN)	ជាក្បួនដោះស្រាយ DRL មួយប្រភេទដែលរៀនវាយតម្លៃនិងជ្រើសរើសសកម្មភាពល្អបំផុតពីជម្រើសដែលមានចំនួនកំណត់ (Discrete action spaces) ដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត។	ដូចជាអ្នកលេងហ្គេមដែលរៀនពីបទពិសោធន៍ថាត្រូវចុចប៊ូតុងមួយណា (ឆ្វេង ស្ដាំ លើ ក្រោម) នៅពេលណា ទើបទទួលបានពិន្ទុខ្ពស់បំផុត។
Deep Deterministic Policy Gradient (DDPG)	ជាក្បួនដោះស្រាយ DRL មួយទៀតដែលស្រដៀងនឹង DQN ដែរ ប៉ុន្តែវាអាចដោះស្រាយជាមួយជម្រើសសកម្មភាពដែលជាលេខជាក់ស្តែងណាមួយបន្តបន្ទាប់គ្នា (Continuous action spaces) ធ្វើឱ្យវាមានភាពបត់បែនខ្ពស់សម្រាប់ការគ្រប់គ្រងបញ្ហាដែលមានភាពល្អិតល្អន់។	បើប្រៀបធៀបនឹងការបើកបរ DQN គ្រាន់តែអាចប្រាប់ឱ្យបត់ឆ្វេងឬស្តាំ តែ DDPG អាចប្រាប់បានយ៉ាងលម្អិតថាត្រូវបត់ចង្កូតប៉ុន្មានដឺក្រេ។
CSMA/CA	តំណាងឲ្យ Carrier Sense Multiple Access with Collision Avoidance ដែលជាប្រូតូកូលតម្រូវឱ្យឧបករណ៍ពិនិត្យមើលថាតើមានរលកសញ្ញាផ្សេងកំពុងបញ្ជូនឬទេ មុននឹងចាប់ផ្តើមបញ្ជូនទិន្នន័យរបស់ខ្លួន ដើម្បីជៀសវាងការប៉ះទង្គិច។	ដូចជាការមើលឆ្វេងស្តាំមុនពេលឆ្លងថ្នល់ បើឃើញមានឡានមក យើងឈប់រង់ចាំសិន ទើបអាចដើរឆ្លងបានដោយសុវត្ថិភាព។
Partially Observable Markov Decision Process (POMDP)	ជាគំរូគណិតវិទ្យាសម្រាប់ដំណើរការសម្រេចចិត្ត ដែលភ្នាក់ងារ (Agent) មិនអាចដឹងពីស្ថានភាពទាំងស្រុងនៃបណ្តាញរួមនោះទេ វាត្រូវធ្វើការសម្រេចចិត្តផ្អែកលើព័ត៌មានដែលវាអាចសង្កេតបានត្រឹមមួយផ្នែកប៉ុណ្ណោះ។	ដូចជាការលេងបិទពួនដែលយើងត្រូវរាវរកមនុស្សដោយពឹងផ្អែកតែលើសំឡេងជើង ឬការស្ទាប ព្រោះយើងមិនអាចមើលឃើញអ្វីទាំងអស់នៅជុំវិញខ្លួន។
Throughput	បរិមាណទិន្នន័យសរុបដែលត្រូវបានបញ្ជូនដោយជោគជ័យពីឧបករណ៍មួយទៅឧបករណ៍មួយទៀតក្នុងរយៈពេលជាក់លាក់ណាមួយ (ជាទូទៅគិតជា Mbps) នៅក្នុងបណ្តាញទំនាក់ទំនង។	ដូចជាបរិមាណទឹកដែលអាចហូរឆ្លងកាត់បំពង់មួយក្នុងរយៈពេលមួយនាទី បើបំពង់ធំហើយគ្មានការកកស្ទះ ទឹកក៏ហូរបានច្រើន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖