Original Title: Cooperatively Improving Data Center Energy Efficiency Based on Multi-Agent Deep Reinforcement Learning
Source: doi.org/10.3390/en14082071
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកែលម្អប្រសិទ្ធភាពថាមពលមជ្ឈមណ្ឌលទិន្នន័យដោយសហការគ្នា ផ្អែកលើការរៀនបែបពង្រឹងស៊ីជម្រៅដែលមានភ្នាក់ងារច្រើន

ចំណងជើងដើម៖ Cooperatively Improving Data Center Energy Efficiency Based on Multi-Agent Deep Reinforcement Learning

អ្នកនិពន្ធ៖ Ce Chi (High Performance Computer Research Center, Institute of Computing Technology, Chinese Academy of Sciences), Kaixuan Ji, Penglei Song, Avinab Marahatta, Shikui Zhang, Fa Zhang, Dehui Qiu, Zhiyong Liu

ឆ្នាំបោះពុម្ព៖ Energies 2021, MDPI

វិស័យសិក្សា៖ Computer Science and Energy Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់ថាមពលខ្ពស់នៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ (Data Centers) ដោយស្វែងរកការធ្វើឱ្យប្រសើរឡើងនូវប្រសិទ្ធភាពថាមពលនៃប្រព័ន្ធព័ត៌មានវិទ្យា (IT systems) និងប្រព័ន្ធបញ្ចុះកម្ដៅ (Cooling systems) ដោយសហការគ្នា។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវក្របខ័ណ្ឌរៀនបែបពង្រឹងស៊ីជម្រៅដែលមានភ្នាក់ងារច្រើន (Multi-Agent DRL) ដែលមានឈ្មោះថា MAD3C សម្រាប់ការធ្វើឱ្យប្រសើរឡើងរួមគ្នានូវការសន្សំសំចៃថាមពល។

ក្របខ័ណ្ឌកូនកាត់ AC-DDPG (Hybrid AC-DDPG Framework) សម្រាប់ការសម្របសម្រួលសកម្មភាពរួមបញ្ចូលគ្នា។
វិធីសាស្រ្តប្រៀបធៀបខ្សែបន្ទាត់គោលនៃការកំណត់កាលវិភាគ (Scheduling Baseline Comparison Method) ដើម្បីបង្កើនស្ថិរភាពនៃការបណ្តុះបណ្តាលម៉ូដែល។
ការរចនាពិន្ទុសម្របខ្លួន (Adaptive Score Design) សម្រាប់ការបែងចែកធនធានពហុវិមាត្រឲ្យកាន់តែមានប្រសិទ្ធភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្រ្ត MAD3C ដែលបានស្នើឡើងអាចកាត់បន្ថយការប្រើប្រាស់ថាមពលសរុបរបស់មជ្ឈមណ្ឌលទិន្នន័យបានយ៉ាងមានប្រសិទ្ធភាពរហូតដល់ ១៦,៤២% បើប្រៀបធៀបទៅនឹងវិធីសាស្រ្តគោល (Baseline methods)។
វិធីសាស្រ្តនេះជួយធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវការប្រើប្រាស់ធនធាន (Resource utilization) ខណៈពេលដែលរក្សាបាននូវគុណភាពសេវាកម្ម (QoS) ដោយមិនបណ្តាលឱ្យម៉ាស៊ីនមេឡើងកម្តៅខ្លាំងពេកឡើយ។
ការធ្វើឱ្យប្រសើរឡើងដោយសហការគ្នារវាងប្រព័ន្ធ IT និងប្រព័ន្ធបញ្ចុះកម្ដៅ ផ្តល់លទ្ធផលល្អប្រសើរជាងឧបករណ៍បញ្ជា DRL ឯករាជ្យ ទាំងទៅលើស្ថិរភាព និងសមត្ថភាពសន្សំសំចៃថាមពល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
MAD3C (Proposed) ការកែលម្អថាមពលដោយសហការគ្នាផ្អែកលើ MAD3C (វិធីសាស្ត្រស្នើឡើង)	មានសមត្ថភាពសហការគ្នារវាងប្រព័ន្ធ IT និងប្រព័ន្ធបញ្ចុះកម្ដៅបានយ៉ាងល្អ ជួយសន្សំសំចៃថាមពលខ្ពស់បំផុត និងប្រើប្រាស់ធនធានម៉ាស៊ីនមេ (CPU/RAM) បានយ៉ាងមានប្រសិទ្ធភាព។	ទាមទារពេលវេលាហ្វឹកហាត់ម៉ូដែលយូរនៅដំណាក់កាលដំបូង និងត្រូវការចំណាយធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ការគណនាក្នុងការស្វែងរកចំណុចប្រសើរឥតខ្ចោះ។	កាត់បន្ថយការប្រើប្រាស់ថាមពលសរុបបាន ១៦,៤២% ធៀបនឹងស្ថានភាពដើម និងសន្សំថាមពលបាន ៤២,៨២% ធៀបនឹង DeepEE ។
DeepEE វិធីសាស្ត្ររួមបញ្ចូលគ្នាដោយប្រើ DRL (DeepEE)	ប្រើប្រាស់ការរៀនបែបពង្រឹងស៊ីជម្រៅ (DRL) ក្នុងការស្វែងរកជម្រើសសន្សំថាមពលបានល្អជាងវិធីសាស្ត្រធម្មតា (Random)។	ខ្វះការសហការគ្នាពិតប្រាកដ (គិតគូរពីប្រព័ន្ធបញ្ចុះកម្ដៅមុន ទើបគិតពីការបែងចែកការងារ) ដែលបណ្តាលឱ្យមានបញ្ហាប្រើប្រាស់ធនធានម៉ាស៊ីនលើសកម្រិត (Overloading) ជាញឹកញាប់។	ប្រើប្រាស់ថាមពលច្រើនជាង MAD3C ដល់ទៅ ៤២,៨២% និងមានអត្រាផ្ទុកការងារលើសកម្រិតខ្ពស់ជាង។
PowerTrade វិធីសាស្ត្រចាត់ចែងផ្អែកលើកម្តៅ និងថាមពល (PowerTrade)	កាត់បន្ថយការប្រមូលផ្តុំកម្តៅ (Hot spots) ដោយបែងចែកការងារទៅទីតាំងដែលត្រជាក់ជាងដោយស្វ័យប្រវត្តិ។	ការកំណត់ច្បាប់បែងចែក (Heuristic) មានកម្រិត និងមិនអាចរៀនបន្សាំទៅនឹងបម្រែបម្រួលបរិស្ថាននៃទិន្នន័យជាក់ស្តែងបានល្អដូច DRL ឡើយ។	ប្រើប្រាស់ថាមពលច្រើនជាង MAD3C ចំនួន ១៨,៩៥% ។
RR (Round Robin) វិធីសាស្ត្របែងចែកតាមលំដាប់ (Round Robin)	ងាយស្រួលក្នុងការអនុវត្ត ចែកចាយការងារបានស្មើៗគ្នា និងមិនមានបញ្ហាផ្ទុកការងារលើសកម្រិតធ្ងន់ធ្ងរ។	មិនបានគិតគូរពីប្រសិទ្ធភាពថាមពលទាល់តែសោះ ដោយម៉ាស៊ីនមេភាគច្រើនត្រូវបើកដំណើរការទោះបីជាមិនមានបន្ទុកការងារក៏ដោយ។	ស៊ីថាមពលច្រើនបំផុត (ប្រហាក់ប្រហែលនឹងការបែងចែកចៃដន្យ Random) និងមិនមានប្រសិទ្ធភាពក្នុងការកាត់បន្ថយការចំណាយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានផ្នែករឹង (Hardware) ដែលមានកម្លាំងខ្លាំងសម្រាប់ការក្លែងធ្វើ និងទិន្នន័យជាក់ស្តែងច្រើនពីមជ្ឈមណ្ឌលទិន្នន័យសម្រាប់ការហ្វឹកហាត់ម៉ូដែល DRL ។

Hardware: ត្រូវការកុំព្យូទ័រយួរដៃ ឬម៉ាស៊ីនមេដែលមានអង្គគណនាខ្លាំង (ឧទាហរណ៍៖ Intel Xeon E5-2620 v2), ទំហំ RAM ធំ (125 GB) និងក្រាហ្វិកកាត (GPU) ដូចជា 2 Tesla K20c GPUs។
Hardware (Sensors): ត្រូវការឧបករណ៍វាស់ស្ទង់កម្តៅ (ឧ. SynapSense) និងឧបករណ៍វាស់ស្ទង់ថាមពល (ឧ. Power Logic PM700) ដាក់នៅតាមទូរសេវើ (Racks)។
Software: ភាសាអភិវឌ្ឍន៍ Python, បណ្ណាល័យ TensorFlow សម្រាប់បង្កើត NNs, OpenAI gym សម្រាប់ការក្លែងធ្វើបរិស្ថាន និង Numpy សម្រាប់ការគណនាម៉ាទ្រីស។
Dataset: ទិន្នន័យប្រវត្តិប្រើប្រាស់ពីកម្រងសេវើធំៗ (ឧ. ទិន្នន័យ Google cluster-usage traces ដែលរួមមានកញ្ចប់ការងារចំនួនជិត ២៦០០០ សម្រាប់ Train, Validation និង Test)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យប្រវត្តិការងារពី Google cluster-usage traces និងប្រើប្រាស់ការក្លែងធ្វើ (Simulation) ដោយផ្អែកលើម៉ូដែលកម្តៅ CRAC ជាជាងការសាកល្បងក្នុងបរិស្ថានរូបវន្តពិតប្រាកដ។ នេះជារឿងដែលត្រូវប្រុងប្រយ័ត្នសម្រាប់កម្ពុជា ដោយសារមជ្ឈមណ្ឌលទិន្នន័យក្នុងស្រុកមានហេដ្ឋារចនាសម្ព័ន្ធ ប្រព័ន្ធត្រជាក់ និងសីតុណ្ហភាពខាងក្រៅខុសពីស្តង់ដាររបស់ Google ដែលទាមទារការកែតម្រូវម៉ូដែលបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ និងឆ្លើយតបយ៉ាងល្អទៅនឹងបញ្ហាប្រឈមនៃថ្លៃអគ្គិសនី និងអាកាសធាតុក្តៅនៅក្នុងប្រទេសកម្ពុជា។

Telecommunications & ISPs (វិស័យទូរគមនាគមន៍): ក្រុមហ៊ុនដូចជា Ezecom, SINET, Metfone ដែលមានមជ្ឈមណ្ឌលទិន្នន័យផ្ទាល់ខ្លួន អាចប្រើប្រាស់វាដើម្បីកាត់បន្ថយថ្លៃភ្លើងប្រចាំខែយ៉ាងច្រើន តាមរយៈការធ្វើឱ្យម៉ាស៊ីនត្រជាក់ និងម៉ាស៊ីនមេដំណើរការស៊ីសង្វាក់គ្នា។
Government Data Centers (មជ្ឈមណ្ឌលទិន្នន័យរដ្ឋ): សម្រាប់ការរៀបចំ National Data Center របស់ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ (MPTC) បច្ចេកវិទ្យានេះអាចត្រូវបានបញ្ចូលដើម្បីធានាបាននូវនិរន្តរភាពបរិស្ថាន (Green IT) ក្នុងគម្រោងរដ្ឋាភិបាលឌីជីថល។
Banking and Finance (វិស័យធនាគារ): ធនាគារពាណិជ្ជធំៗ (ឧ. ធនាគារ ABA, ធនាគារអេស៊ីលីដា) អាចប្រើម៉ូដែលនេះដើម្បីបែងចែកធនធាន (Resource Utilization) បានល្អបំផុតសម្រាប់ការងារទូទាត់ប្រាក់ ស្របពេលដែលរក្សាបាននូវគុណភាពសេវាកម្ម (QoS) មិនឲ្យរអាក់រអួលដោយសារម៉ាស៊ីនឡើងកម្តៅ។

សរុបមក ការអនុវត្ត DRL សម្រាប់ការចាត់ចែងមជ្ឈមណ្ឌលទិន្នន័យ នឹងក្លាយជាដំណោះស្រាយដ៏វៃឆ្លាតមួយជួយជំរុញឧស្សាហកម្មឌីជីថលកម្ពុជាឲ្យមានប្រសិទ្ធភាពចំណាយ និងកាត់បន្ថយផលប៉ះពាល់បរិស្ថាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ DRL និងឧបករណ៍អភិវឌ្ឍន៍: និស្សិតត្រូវចាប់ផ្តើមពង្រឹងចំណេះដឹងលើភាសា Python និងរៀនប្រើប្រាស់បណ្ណាល័យ Machine Learning ដូចជា TensorFlow ឬ PyTorch ព្រមទាំងយល់ដឹងពីគោលការណ៍ក្បួន Deep Deterministic Policy Gradient (DDPG) និង Actor-Critic (AC)។
រៀបចំបរិស្ថានក្លែងធ្វើ (Simulation Environment): ទាញយកនិងប្រើប្រាស់ OpenAI Gym ដើម្បីរៀបចំជាបរិស្ថានមជ្ឈមណ្ឌលទិន្នន័យនិម្មិត ដោយសរសេរកូដបញ្ចូលនូវក្បួនគណនាថាមពលកម្ដៅ (CRAC cooling model) និងប្រព័ន្ធស៊ីភ្លើងរបស់សេវើ (IT power model)។
ប្រមូល និងរៀបចំទិន្នន័យ (Data Preparation): ទាញយកទិន្នន័យបើកទូលាយ (Open Dataset) ដូចជា Google Cluster-Usage Traces បន្ទាប់មកកែច្នៃទិន្នន័យទាំងនោះដើម្បីយកមកប្រើជាបន្ទុកការងារ (Workloads/Tasks) សម្រាប់ឱ្យភ្នាក់ងារសិប្បនិម្មិតអនុវត្តបែងចែក។
អភិវឌ្ឍម៉ូដែលភ្នាក់ងារច្រើន (Multi-Agent Architecture): សរសេរកូដបង្កើតភ្នាក់ងារពីរផ្សេងគ្នា៖ មួយសម្រាប់បែងចែកការងារ (Scheduling Agent) និងមួយទៀតសម្រាប់បញ្ជាកម្ដៅម៉ាស៊ីនត្រជាក់ (Cooling Agent) ហើយកំណត់ Reward Function ដែលផ្តោតលើការសន្សំថាមពលរួមគ្នា (PUE និងកម្តៅសរុប)។
តេស្តផ្ទឹម និងកែតម្រូវ (Testing & Tuning): ដំណើរការការហ្វឹកហាត់ (Training) និងប្រៀបធៀបលទ្ធផលនៃការសន្សំថាមពលជាមួយវិធីសាស្ត្រធម្មតាដូចជា Round Robin។ ធ្វើការកែតម្រូវកម្រិត Hyperparameters និងសាកល្បងបញ្ចូលចំណុចពិន្ទុ Adaptive Score ដើម្បីបង្កើនការប្រើប្រាស់ធនធាន (Resource Utilization) ឱ្យកាន់តែប្រសើរឡើង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deep Reinforcement Learning (DRL)	ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលបង្រៀនកុំព្យូទ័រឱ្យចេះធ្វើសេចក្តីសម្រេចចិត្ត តាមរយៈការសាកល្បងខុសត្រូវដោយខ្លួនឯង រួចយកពិន្ទុ (រង្វាន់ ឬ ការផាកពិន័យ) ពីបរិស្ថានជុំវិញ ដើម្បីកែលម្អសកម្មភាពរបស់ខ្លួនឱ្យកាន់តែល្អឥតខ្ចោះនៅពេលក្រោយ។	ដូចជាការបង្ហាត់សត្វកូនឆ្កែឱ្យចេះចាប់បាល់ ដោយផ្តល់ចំណីពេលវាធ្វើត្រូវ និងស្តីបន្ទោសតិចៗពេលវាធ្វើខុស រហូតដល់វាចេះចាប់បាល់បានយ៉ាងស្ទាត់ជំនាញ។
Multi-Agent System	ជាប្រព័ន្ធដែលផ្សំឡើងពីកម្មវិធីឆ្លាតវៃ (ភ្នាក់ងារ AI) ចាប់ពីពីរឡើងទៅ ដែលធ្វើការរួមគ្នា ឬប្រកួតប្រជែងគ្នាក្នុងបរិស្ថានតែមួយ។ ក្នុងឯកសារនេះ គឺភ្នាក់ងារបែងចែកការងារសេវើ និងភ្នាក់ងារបញ្ជាម៉ាស៊ីនត្រជាក់ ដែលត្រូវសហការគ្នាដើម្បីសន្សំសំចៃភ្លើងសរុប។	ដូចជាក្រុមកីឡាករបាល់ទាត់ ដែលម្នាក់ៗមានតួនាទីផ្សេងៗគ្នានៅលើទីលាន ប៉ុន្តែត្រូវសហការគ្នាយ៉ាងស្អិតរមួតដើម្បីយកឈ្នះការប្រកួតតែមួយ។
Actor-Critic (AC)	ជារចនាសម្ព័ន្ធនៃ AI ដែលមានផ្នែកពីរសំខាន់៖ "អ្នកធ្វើសកម្មភាព" (Actor) ដែលជាអ្នកសម្រេចចិត្តថានឹងត្រូវធ្វើអ្វីបន្ត និង "អ្នកវាយតម្លៃ" (Critic) ដែលជាអ្នកវិនិច្ឆ័យថាតើសកម្មភាពនោះល្អ ឬអាក្រក់ប៉ុណ្ណា ដើម្បីប្រាប់ត្រលប់ទៅ Actor ឱ្យកែតម្រូវសកម្មភាពបន្ទាប់របស់ខ្លួន។	ដូចជាសិស្សកំពុងរៀនគូរគំនូរ (Actor) និងគ្រូដែលឈរមើលពីក្រោយហើយចាំប្រាប់ចំណុចខ្វះខាត (Critic) ដើម្បីឱ្យសិស្សគូរគំនូរបន្ទាប់បានកាន់តែស្អាត។
Computer Room Air Conditioner (CRAC)	ជាប្រព័ន្ធម៉ាស៊ីនបញ្ចុះកម្ដៅខ្នាតធំដែលរចនាឡើងពិសេសសម្រាប់ប្រើក្នុងមជ្ឈមណ្ឌលទិន្នន័យ (Data Centers) ដើម្បីគ្រប់គ្រងសីតុណ្ហភាព លំហូរខ្យល់ និងសំណើម ក្នុងគោលបំណងការពារកុំឱ្យម៉ាស៊ីនមេ (Servers) ឡើងកម្ដៅខ្លាំងរហូតដល់គាំង ឬខូចខាត។	ដូចជាទូទឹកកកដ៏ធំមួយដែលផ្លុំខ្យល់ត្រជាក់ពីក្រោមបាតកម្រាល ចូលទៅបញ្ចុះកម្ដៅឱ្យម៉ាស៊ីនកុំព្យូទ័ររាប់ពាន់គ្រឿងកុំឱ្យឆេះពេលកំពុងធ្វើការខ្លាំង។
Power Usage Effectiveness (PUE)	ជារង្វាស់ស្តង់ដារដែលគេប្រើដើម្បីវាស់ពីប្រសិទ្ធភាពនៃការប្រើប្រាស់ថាមពលរបស់មជ្ឈមណ្ឌលទិន្នន័យ ដែលគណនាដោយយកថាមពលសរុប (រួមទាំងម៉ាស៊ីនត្រជាក់ ភ្លើងបំភ្លឺ) ចែកនឹងថាមពលដែលប្រើដោយកុំព្យូទ័រផ្ទាល់។ បើ PUE កាន់តែខិតជិតលេខ ១ មានន័យថាចំណាយភ្លើងកាត់តែមានប្រសិទ្ធភាព។	ដូចជាការគិតលុយចំណាយលើមុខជំនួញ ដោយវាយតម្លៃថា តើប្រាក់ប៉ុន្មានភាគរយត្រូវបានចាយលើគោលដៅពិតប្រាកដ និងប៉ុន្មានភាគរយត្រូវបានខាតបង់លើការចំណាយបន្ទាប់បន្សំ។
Quality of Service (QoS)	ជាកម្រិតស្តង់ដារនៃការផ្តល់សេវាកម្មកុំព្យូទ័រទៅដល់អ្នកប្រើប្រាស់ ដោយផ្តោតលើល្បឿននៃការដំណើរការទិន្នន័យ ការកាត់បន្ថយពេលវេលារង់ចាំ (Waiting time) និងការធានាមិនឱ្យប្រព័ន្ធគាំង ឬរអាក់រអួលដោយសារខ្វះធនធាន។	ដូចជាការទៅញ៉ាំអាហារនៅភោជនីយដ្ឋាន បើម្ហូបចេញមកលឿន ឆ្ងាញ់ និងគ្មានការរអ៊ូរទាំពីភ្ញៀវ នោះគេហៅថាហាងនោះមានសេវាកម្មល្អឥតខ្ចោះ។
Adaptive Score (AS)	ជាប្រព័ន្ធដាក់ពិន្ទុដែលក្រុមអ្នកស្រាវជ្រាវបង្កើតឡើង ដើម្បីវាស់ស្ទង់ថាតើម៉ាស៊ីនមេមួយមានទំហំធនធាន (CPU/RAM) ស័ក្តិសមប៉ុណ្ណាទៅនឹងទំហំការងារដែលវាត្រូវធ្វើ ដើម្បីផ្តល់ជាតម្រុយ (Human knowledge) ដល់ AI ឱ្យបែងចែកធនធានបានត្រឹមត្រូវ និងមិនខ្ជះខ្ជាយ។	ដូចជាការវាស់ទំហំស្បែកជើងឱ្យត្រូវនឹងជើងអ្នកពាក់ បើស្បែកជើងធំពេកក៏ពិបាកដើរ បើតូចពេកក៏ពាក់មិនចូល គឺត្រូវជ្រើសរើសស្បែកជើងណាដែលល្មមជើងមែនទែនទើបល្អ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖