Original Title: DEVELOPMENT OF DEEP REINFORCEMENT LEARNING BASED RESOURCE ALLOCATION TECHNIQUES IN CLOUD RADIO ACCESS NETWORK
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអភិវឌ្ឍបច្ចេកទេសបែងចែកធនធានផ្អែកលើការរៀនពង្រឹងស៊ីជម្រៅនៅក្នុងបណ្តាញចូលប្រើវិទ្យុតាមប្រព័ន្ធក្លោដ (Cloud Radio Access Network)

ចំណងជើងដើម៖ DEVELOPMENT OF DEEP REINFORCEMENT LEARNING BASED RESOURCE ALLOCATION TECHNIQUES IN CLOUD RADIO ACCESS NETWORK

អ្នកនិពន្ធ៖ Amjad Iqbal (Universiti Tunku Abdul Rahman)

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Telecommunications Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមនៃការបែងចែកធនធានដែលមានលក្ខណៈស្មុគស្មាញនិងប្រែប្រួល (ជាពិសេសការកាត់បន្ថយថាមពល និងតុល្យភាពប្រសិទ្ធភាពថាមពល) នៅក្នុងបណ្តាញចូលប្រើវិទ្យុតាមប្រព័ន្ធក្លោដ (CRAN) សម្រាប់បច្ចេកវិទ្យា 5G ដែលវិធីសាស្ត្របែបប្រពៃណីមិនអាចដោះស្រាយបានល្អ។

វិធីសាស្ត្រ (The Methodology)៖ និក្ខេបបទនេះស្នើឡើងនូវវិធីសាស្ត្រដែលមិនពឹងផ្អែកលើគំរូ (Model-free approach) ដោយប្រើប្រាស់ក្បួនដោះស្រាយការរៀនពង្រឹងស៊ីជម្រៅ (Deep Reinforcement Learning - DRL) ចំនួនបីផ្សេងគ្នា ដើម្បីគ្រប់គ្រងក្បាលវិទ្យុពីចម្ងាយ (RRHs) និងការបែងចែកថាមពល។

Double Deep Q-Network (Double DQN) សម្រាប់ការកាត់បន្ថយការប្រើប្រាស់ថាមពលសរុប
Dueling DQN with Anchor Graph Hashing (ការប្រើប្រាស់ AGH ដើម្បីកំណត់លក្ខណៈទិន្នន័យឆានែល)
Convolutional Neural Network (CNN-DQN) សម្រាប់ការទាញយកលក្ខណៈពិសេសនៃស្ថានភាពបណ្តាញ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្របែងចែកធនធានផ្អែកលើ Double DQN ដែលបានស្នើឡើង អាចសន្សំសំចៃថាមពលបានច្រើនជាង ២២% បើធៀបនឹងវិធីសាស្ត្រសាមញ្ញ និងបង្កើនប្រសិទ្ធភាពថាមពលបាន ២០%។
ការប្រើប្រាស់ Dueling DQN រួមជាមួយបច្ចេកទេស AGH ជួយបង្កើនប្រសិទ្ធភាពថាមពល (EE) និងប្រសិទ្ធភាពវិសាលគម (SE) រួមគ្នាបានយ៉ាងល្អប្រសើរក្នុងបរិយាកាសដែលមានការប្រែប្រួលខ្ពស់។
វិធីសាស្ត្រ CNN-based DQN សម្រេចបាននូវការអនុវត្តល្អប្រសើរជាងមុនពី ៥% ទៅ ១២% ក្នុងការបង្កើនប្រសិទ្ធភាពថាមពល បើធៀបនឹងក្បួនដោះស្រាយផ្សេងទៀត ព្រមទាំងមានល្បឿននៃការរៀន (Convergence) លឿនជាង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Conventional Approaches (Full Coordinate Association - FA / Q-Learning) វិធីសាស្ត្របែបប្រពៃណី (FA) និង Q-Learning ស្តង់ដារ	មានភាពសាមញ្ញក្នុងការអនុវត្ត និងសមស្របសម្រាប់ប្រព័ន្ធដែលមានទំហំតូច ឬស្ថានភាពមិនសូវស្មុគស្មាញ។	មិនអាចដោះស្រាយបញ្ហាដែលមានទំហំទិន្នន័យធំ (Large state space) បានល្អ និងមានល្បឿនរៀនយឺត ដែលធ្វើឱ្យការសម្រេចចិត្តមិនសូវមានប្រសិទ្ធភាពក្នុងស្ថានភាពជាក់ស្តែង។	ប្រើប្រាស់ជាមូលដ្ឋានប្រៀបធៀប (Baseline) ប៉ុន្តែមិនអាចបំពេញតម្រូវការសន្សំសំចៃថាមពលបានល្អដូចវិធីសាស្ត្រ Deep Learning ឡើយ។
Double Deep Q-Network (Double DQN) បណ្តាញ Q ជ្រៅទ្វេ (Double DQN)	ដោះស្រាយបញ្ហានៃការវាយតម្លៃតម្លៃ Q ខ្ពស់ពេក (Overestimation) ដែលកើតឡើងនៅក្នុង DQN ធម្មតា ធ្វើឱ្យការរៀនមានស្ថេរភាពជាងមុន។	មានភាពស្មុគស្មាញក្នុងការគណនាជាង Q-Learning បន្តិច។	សន្សំសំចៃថាមពលបាន ២២% និងបង្កើនប្រសិទ្ធភាពថាមពល (EE) បាន ២០% បើធៀបនឹងវិធីសាស្ត្រប្រពៃណី។
Dueling DQN with Anchor Graph Hashing (AGH) Dueling DQN រួមជាមួយបច្ចេកទេស AGH	មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយជាមួយទិន្នន័យស្ថានភាពឆានែល (CSI) ដែលមានទំហំធំ ដោយកាត់បន្ថយទំហំទិន្នន័យតាមរយៈ AGH។	តម្រូវឱ្យមានការកំណត់ប៉ារ៉ាម៉ែត្របន្ថែមសម្រាប់ការធ្វើ Hashing និង Clustering។	ធ្វើឱ្យប្រសើរឡើងនូវតុល្យភាពរវាងប្រសិទ្ធភាពថាមពល និងប្រសិទ្ធភាពវិសាលគម (Joint EE-SE) ដោយទទួលបានលទ្ធផលល្អជាង Q-Learning និង Myopic approach។
Convolutional Neural Network-based DQN (CNN-DQN) DQN ផ្អែកលើបណ្តាញសរសៃប្រសាទ Convolutional (CNN-DQN)	មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីទំនាក់ទំនងរវាងអ្នកប្រើប្រាស់និងអង់តែន (RRHs) បានយ៉ាងល្អ។	ទាមទារធនធានគណនាខ្ពស់ក្នុងការបណ្តុះបណ្តាលម៉ូដែលដោយសារស្រទាប់ Convolutional។	បង្កើនប្រសិទ្ធភាពថាមពល (EE) បានពី ៥% ទៅ ១២% ខ្ពស់ជាងវិធីសាស្ត្រផ្សេងទៀត និងមានល្បឿន Convergence លឿនជាង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នៅក្នុងឯកសារនេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យម ដែលបង្ហាញថាវិធីសាស្ត្រនេះអាចអនុវត្តបានដោយមិនចាំបាច់មានកំព្យូទ័រមេ (Supercomputer) ខ្លាំងពេកនោះទេ។

Hardware: កុំព្យូទ័រដែលមានអង្គចងចាំ (RAM) 16 GB និងស៊ីភីយូ Intel Core i3-7100 (3.90GHz) ត្រូវបានប្រើប្រាស់ក្នុងការពិសោធន៍។
Software: ប្រើប្រាស់ភាសា Python (3.7.5) និងបណ្ណាល័យ TensorFlow (1.14.0) សម្រាប់ការអភិវឌ្ឍម៉ូដែល Deep Learning។
Data: ទិន្នន័យត្រូវបានបង្កើតឡើងតាមរយៈការធ្វើត្រាប់តាម (Simulation) ដោយប្រើម៉ូដែលឆានែល Rayleigh Fading និងការបែងចែកអ្នកប្រើប្រាស់ដោយចៃដន្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យដែលបានពីការធ្វើត្រាប់តាម (Simulation) នៅក្នុងកុំព្យូទ័រ ដោយផ្អែកលើគំរូគណិតវិទ្យា (Math models) ដូចជា Rayleigh Fading។ វាមិនបានប្រើប្រាស់ទិន្នន័យជាក់ស្តែងពីបណ្តាញទូរស័ព្ទក្នុងប្រទេសណាមួយឡើយ ដែលនេះជាចំណុចកម្រិតមួយនៅពេលយកទៅអនុវត្តផ្ទាល់នៅក្នុងបរិបទជាក់ស្តែងនៃប្រទេសកម្ពុជាដែលមានស្ថានភាពភូមិសាស្ត្រចម្រុះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលបានស្នើឡើងមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យទូរគមនាគមន៍នៅកម្ពុជា ជាពិសេសក្នុងការត្រៀមខ្លួនសម្រាប់បច្ចេកវិទ្យា 5G ដែលប្រើប្រាស់ថាមពលខ្លាំង។

ប្រតិបត្តិករទូរស័ព្ទ (ISPs ដូចជា Smart, Cellcard): អាចប្រើប្រាស់ក្បួនដោះស្រាយនេះដើម្បីកាត់បន្ថយចំណាយលើអគ្គិសនី (OPEX) ដោយបិទអង់តែន (RRHs) ដោយស្វ័យប្រវត្តិនៅពេលមានចរាចរណ៍ទិន្នន័យទាប។
តំបន់ទីក្រុងភ្នំពេញ (Phnom Penh): បច្ចេកវិទ្យា CRAN និង CNN-DQN សមស្របសម្រាប់តំបន់ដែលមានដង់ស៊ីតេអ្នកប្រើប្រាស់ខ្ពស់ ដើម្បីគ្រប់គ្រងការបែងចែកធនធានឱ្យមានប្រសិទ្ធភាព។

ការអនុវត្តវិធីសាស្ត្រសន្សំសំចៃថាមពលនេះអាចជួយកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការយ៉ាងច្រើនសម្រាប់ក្រុមហ៊ុនទូរគមនាគមន៍នៅកម្ពុជា ដែលតម្លៃអគ្គិសនីនៅមានកម្រិតខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ CRAN និង DRL: និស្សិតគួរចាប់ផ្តើមដោយការយល់ដឹងពីស្ថាបត្យកម្ម Cloud Radio Access Network (CRAN) និងគោលការណ៍នៃ Reinforcement Learning (RL) ដោយប្រើប្រាស់ឯកសារដូចជាសៀវភៅរបស់ Sutton និង Barto។
រៀនប្រើប្រាស់ឧបករណ៍ Python និង TensorFlow: ដំឡើងបរិស្ថានពិសោធន៍ដោយប្រើ (Python) និង (TensorFlow)។ សាកល្បងបង្កើតគម្រោងតូចមួយដើម្បីអនុវត្ត Q-Learning លើបញ្ហាសាមញ្ញ។
បង្កើតបរិស្ថានធ្វើត្រាប់តាម (Simulation Environment): សរសេរកូដដើម្បីបង្កើតបរិស្ថាន CRAN ដោយកំណត់ចំនួន RRHs, UEs និងម៉ូដែលឆានែល (Channel Model) ដូចបានរៀបរាប់ក្នុងផ្នែក System Model នៃឯកសារ។
អនុវត្តក្បួនដោះស្រាយ DQN និង Double DQN: ចាប់ផ្តើមសរសេរកូដសម្រាប់ម៉ូដែល DQN និង Double DQN ដើម្បីគ្រប់គ្រងការបិទ/បើក RRHs និងប្រៀបធៀបលទ្ធផលជាមួយវិធីសាស្ត្រ Baseline។
ការអភិវឌ្ឍទៅជា CNN-DQN: នៅពេលស្ទាត់ជំនាញ សូមព្យាយាមបញ្ចូលបណ្តាញ (Convolutional Neural Network) ដើម្បីទាញយកលក្ខណៈពិសេសពីទិន្នន័យឆានែល និងបង្កើនប្រសិទ្ធភាពដូចការពិសោធន៍ក្នុងជំពូកទី ៥។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Cloud Radio Access Network (CRAN)	ជាស្ថាបត្យកម្មបណ្តាញទូរស័ព្ទជំនាន់ថ្មី ដែលបំបែកផ្នែកកែច្នៃសញ្ញា (Baseband Unit) ទៅដាក់នៅកន្លែងកណ្តាល (Cloud) រួមគ្នា និងទុកតែផ្នែកអង់តែន (Remote Radio Head) នៅតាមបង្គោល ដើម្បីងាយស្រួលគ្រប់គ្រង និងសន្សំសំចៃថាមពល។	ដូចជាការមានកុំព្យូទ័រមេដ៏ខ្លាំងមួយនៅការិយាល័យកណ្តាល ហើយបុគ្គលិកគ្រាន់តែប្រើអេក្រង់និងក្តារចុចនៅតាមតុរៀងៗខ្លួនដើម្បីធ្វើការ។
Deep Reinforcement Learning (DRL)	ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដែលរៀនតាមរយៈការសាកល្បងនិងកំហុស (Trial and Error) ដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទ (Neural Networks) ដើម្បីធ្វើការសម្រេចចិត្តដ៏ស្មុគស្មាញ ដើម្បីទទួលបានរង្វាន់ (Reward) ខ្ពស់បំផុត។	ប្រៀបដូចជាការបង្រៀនសត្វចិញ្ចឹមឱ្យចេះធ្វើកាយវិការ ដោយឱ្យចំណីនៅពេលវាធ្វើត្រូវ និងមិនឱ្យនៅពេលវាធ្វើខុស រហូតដល់វាចាំស្ទាត់។
Remote Radio Head (RRH)	ជាឧបករណ៍វិទ្យុដែលដំឡើងនៅឆ្ងាយពីមជ្ឈមណ្ឌលគ្រប់គ្រង (ជាធម្មតានៅលើបង្គោលអង់តែន) មានតួនាទីបំប្លែងសញ្ញាឌីជីថលទៅជាសញ្ញាវិទ្យុដើម្បីផ្សាយទៅកាន់ទូរស័ព្ទដៃ និងទទួលសញ្ញាត្រឡប់មកវិញ។	វាគឺដូចជា "មាត់និងត្រចៀក" របស់បណ្តាញទូរស័ព្ទ ដែលនៅជាប់នឹងអ្នកប្រើប្រាស់ ខណៈដែល "ខួរក្បាល" (BBU) នៅកន្លែងផ្សេង។
Double Deep Q-Network (Double DQN)	ជាក្បួនដោះស្រាយ DRL កម្រិតខ្ពស់ដែលប្រើប្រាស់បណ្តាញសរសៃប្រសាទពីរដាច់ដោយឡែកពីគ្នា (មួយសម្រាប់ជ្រើសរើសសកម្មភាព និងមួយសម្រាប់វាយតម្លៃ) ដើម្បីកាត់បន្ថយកំហុសនៃការវាយតម្លៃតម្លៃរង្វាន់ខ្ពស់ពេក (Overestimation)។	ដូចជាការឱ្យមនុស្សពីរនាក់ត្រួតពិនិត្យការងារគ្នាទៅវិញទៅមក ដើម្បីកុំឱ្យមនុស្សម្នាក់វាយតម្លៃសមត្ថភាពខ្លួនឯងខ្ពស់ហួសហេតុពេក។
Channel State Information (CSI)	ជាទិន្នន័យបច្ចេកទេសដែលពិពណ៌នាអំពីស្ថានភាពនៃផ្លូវបញ្ជូនសញ្ញាវិទ្យុរវាងអង់តែននិងទូរស័ព្ទ ដូចជាការថមថយថាមពល ការបែកខ្ចាត់ខ្ចាយ ឬការរំខានផ្សេងៗ។	ប្រៀបដូចជា "របាយការណ៍ចរាចរណ៍" ដែលប្រាប់អ្នកបើកបរថាតើផ្លូវខាងមុខរលូន ឬមានការកកស្ទះ ដើម្បីឱ្យពួកគេសម្រួលល្បឿនបានត្រឹមត្រូវ។
Anchor Graph Hashing (AGH)	ជាបច្ចេកទេសក្នុងការបង្រួមទិន្នន័យដ៏ច្រើននិងស្មុគស្មាញ (ដូចជាទិន្នន័យ CSI) ឱ្យទៅជាកូដខ្លីៗ (Hash codes) ដោយប្រើចំណុចយុថ្កា (Anchors) ដើម្បីធ្វើឱ្យប្រព័ន្ធ AI អាចរៀនបានលឿនជាងមុន។	ដូចជាការប្រើប្រាស់ "លេខកូដប្រៃសណីយ៍" ដើម្បីតំណាងឱ្យតំបន់ទាំងមូល ជំនួសឱ្យការសរសេរអាសយដ្ឋានលម្អិតរាល់ដង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖