Original Title: Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning
Source: arxiv.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការផ្លាស់ប្តូរការបង្កើនប្រសិទ្ធភាពប្រព័ន្ធត្រជាក់សម្រាប់មជ្ឈមណ្ឌលទិន្នន័យបៃតង តាមរយៈការរៀនសូត្របែបពង្រឹងកម្លាំងយ៉ាងស៊ីជម្រៅ (Deep Reinforcement Learning)

ចំណងជើងដើម៖ Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning

អ្នកនិពន្ធ៖ Yuanlong Li (Nanyang Technological University), Yonggang Wen (Nanyang Technological University), Kyle Guan (Bell Labs, Nokia), Dacheng Tao (University of Technology, Sydney)

ឆ្នាំបោះពុម្ព៖ 2018 (arXiv)

វិស័យសិក្សា៖ Computer Science / Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ មជ្ឈមណ្ឌលទិន្នន័យប្រើប្រាស់ថាមពលអគ្គិសនីយ៉ាងច្រើនសម្បើមសម្រាប់ប្រព័ន្ធត្រជាក់ (Cooling System) ហើយវិធីសាស្ត្រគ្រប់គ្រងបច្ចុប្បន្នដែលផ្អែកលើគំរូរូបវន្ត មានភាពស្មុគស្មាញក្នុងការរចនា និងជារឿយៗមិនមានប្រសិទ្ធភាពខ្ពស់នោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវក្បួនដោះស្រាយការគ្រប់គ្រងភាពត្រជាក់ (CCA) ដោយប្រើប្រាស់បច្ចេកវិទ្យា Deep Reinforcement Learning ដើម្បីរៀនពីទិន្នន័យតាមដាន និងបង្កើនប្រសិទ្ធភាពនៃការគ្រប់គ្រងដោយស្វ័យប្រវត្តិ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
DefaultE+ (Baseline Control)
ការគ្រប់គ្រងតាមលំនាំដើមដែលមានស្រាប់នៅក្នុងកម្មវិធី EnergyPlus
មានស្ថេរភាព និងត្រូវបានប្រើប្រាស់ជាស្តង់ដារសម្រាប់ការប្រៀបធៀបនៅក្នុងការធ្វើត្រាប់តាម (Simulation)។ ពឹងផ្អែកលើការកំណត់ចំណុចគោលដៅ (Set-points) ដែលមានភាពរឹង និងមិនអាចបត់បែនតាមបម្រែបម្រួលបរិយាកាសបានល្អឥតខ្ចោះ។ PUE ជាមធ្យមគឺ ១.៣៧៦ (ចំណាយថាមពលខ្ពស់ជាងគេក្នុងការពិសោធន៍)។
Two-Stage (TS) Approach
វិធីសាស្ត្រពីរដំណាក់កាល (ការបង្កើតគំរូ និងការដោះស្រាយបញ្ហា)
ប្រើប្រាស់ក្បួនដោះស្រាយបរមាភិបាល (Optimization) ដូចជា Differential Evolution ដើម្បីស្វែងរកដំណោះស្រាយ។ ទាមទារការគណនាច្រើននៅពេលប្រតិបត្តិការជាក់ស្តែង និងបង្ហាញលទ្ធផលមិនមានស្ថេរភាពនៅក្នុងការធ្វើតេស្ត។ មិនមានប្រសិទ្ធភាពជាងវិធីសាស្ត្រមូលដ្ឋានប៉ុន្មានទេ ហើយមានអស្ថេរភាពក្នុងការគ្រប់គ្រងសីតុណ្ហភាព។
CCA (Proposed - DDPG Based)
ក្បួនដោះស្រាយការគ្រប់គ្រងភាពត្រជាក់ដោយប្រើ Deep Reinforcement Learning
អាចរៀនពីទិន្នន័យដែលមានស្រាប់ (Offline training) និងធ្វើការសម្រេចចិត្តដោយស្វ័យប្រវត្តិសម្រាប់ប្រព័ន្ធដែលមានភាពស្មុគស្មាញខ្ពស់។ ទាមទារទិន្នន័យប្រវត្តិសាស្ត្រច្រើនសម្រាប់បណ្តុះបណ្តាល និងត្រូវការការកំណត់ Hyper-parameter យ៉ាងប្រុងប្រយ័ត្ន។ សន្សំសំចៃថាមពលត្រជាក់បាន ១១% ក្នុងការធ្វើត្រាប់តាម និងរហូតដល់ ១៥% លើទិន្នន័យជាក់ស្តែង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការបណ្តុះបណ្តាល និងប្រព័ន្ធប្រមូលទិន្នន័យដែលមានគុណភាព។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យអាកាសធាតុនៃប្រទេសសិង្ហបុរី និងទិន្នន័យប្រតិបត្តិការពីមជ្ឈមណ្ឌលកំពូលកុំព្យូទ័រជាតិសិង្ហបុរី (NSCC)។ នេះគឺជាចំណុចវិជ្ជមានយ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដោយសារយើងមានអាកាសធាតុតំបន់ត្រូពិក (ក្តៅ និងសើម) ដូចគ្នា ដែលធ្វើឱ្យលទ្ធផលនៃការសិក្សានេះអាចយកមកអនុវត្តបានដោយផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ដែលជាប្រទេសមានថ្លៃដើមអគ្គិសនីខ្ពស់ និងត្រូវការប្រព័ន្ធត្រជាក់ខ្លាំងសម្រាប់មជ្ឈមណ្ឌលទិន្នន័យ។

ដោយសារអាកាសធាតុកម្ពុជាក្តៅពេញមួយឆ្នាំ ការបង្កើនប្រសិទ្ធភាពប្រព័ន្ធត្រជាក់គឺជាអាទិភាពខ្ពស់ ហើយបច្ចេកវិទ្យានេះផ្តល់នូវដំណោះស្រាយដែលមានប្រសិទ្ធភាពដោយមិនចាំបាច់ផ្លាស់ប្តូរគ្រឿងម៉ាស៊ីន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ ការសិក្សាមូលដ្ឋានគ្រឹះ: និស្សិតត្រូវសិក្សាអំពី Python programming និងមូលដ្ឋានគ្រឹះនៃ Reinforcement Learning ជាពិសេសស្វែងយល់ពីក្បួនដោះស្រាយ Actor-Critic និង DDPG។
  2. ជំហានទី ២៖ ការរៀបចំប្រព័ន្ធពិសោធន៍: ដំឡើងកម្មវិធី EnergyPlus និងរៀនពីរបៀបបង្កើតគំរូអគារ (Building Model) នៅក្នុងបរិបទអាកាសធាតុកម្ពុជា (អាចទាញយកឯកសារអាកាសធាតុភ្នំពេញ)។
  3. ជំហានទី ៣៖ ការប្រមូលទិន្នន័យ: សហការជាមួយផ្នែក IT របស់សាកលវិទ្យាល័យ ឬក្រុមហ៊ុនដៃគូ ដើម្បីបំពាក់ឧបករណ៍ចាប់សញ្ញា (IoT Sensors) ក្នុងបន្ទប់ Server ដើម្បីប្រមូលទិន្នន័យសីតុណ្ហភាព និងថាមពល។
  4. ជំហានទី ៤៖ ការអនុវត្តក្បួនដោះស្រាយ: សរសេរកូដ DDPG ដោយប្រើ TensorFlow ឬ PyTorch ហើយធ្វើការបណ្តុះបណ្តាល (Train) ជាមួយទិន្នន័យដែលប្រមូលបាន ឬទិន្នន័យបើកចំហ (Open Data sets)។
  5. ជំហានទី ៥៖ ការវាយតម្លៃសុវត្ថិភាព: អនុវត្តយន្តការ De-Underestimation (DUE) ដូចក្នុងឯកសារ ដើម្បីធានាថា AI មិនព្យាករណ៍សីតុណ្ហភាពទាបជាងការពិត ដែលអាចបណ្តាលឱ្យម៉ាស៊ីនឡើងកម្តៅ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Power Usage Effectiveness (PUE) ជាស្តង់ដាររង្វាស់ប្រសិទ្ធភាពថាមពលនៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ។ វាគណនាដោយយកថាមពលសរុបរបស់អគារ (រួមទាំងប្រព័ន្ធត្រជាក់ និងភ្លើងបំភ្លឺ) ចែកនឹងថាមពលដែលប្រើដោយឧបករណ៍កុំព្យូទ័រ (IT Equipment) តែប៉ុណ្ណោះ។ តម្លៃកាន់តែកៀកនឹងលេខ ១.០ គឺកាន់តែល្អ។ ដូចជាការវាស់ថាតើលុយប៉ុន្មានដែលយើងចំណាយលើថ្លៃដឹកជញ្ជូន ធៀបនឹងតម្លៃទំនិញដែលយើងទិញ។
Deep Reinforcement Learning (DRL) ជាវិធីសាស្ត្របង្រៀនបញ្ញាសិប្បនិម្មិត (AI) ដោយឱ្យវាធ្វើការសាកល្បងខុស និងត្រូវ (Trial and Error) នៅក្នុងបរិស្ថានជាក់លាក់មួយ។ AI នឹងទទួលបាន "រង្វាន់" នៅពេលវាធ្វើបានល្អ (សន្សំសំចៃភ្លើង) និង "ពិន័យ" នៅពេលវាធ្វើមិនល្អ (ម៉ាស៊ីនឡើងកម្តៅ)។ ដូចជាការបង្រៀនក្មេងឱ្យជិះកង់ ដោយពួកគេរៀនពីការដួល និងការរក្សាលំនឹងដោយខ្លួនឯង។
Deep Deterministic Policy Gradient (DDPG) ជាក្បួនដោះស្រាយដ៏មានឥទ្ធិពលមួយនៅក្នុង DRL ដែលត្រូវបានរចនាឡើងសម្រាប់ប្រព័ន្ធដែលត្រូវការការគ្រប់គ្រងជាប់លាប់ (Continuous Control) ដូចជាការកែតម្រូវសីតុណ្ហភាព ឬល្បឿនកង្ហារ ដែលមិនមែនគ្រាន់តែជាជម្រើស បិទ/បើក ធម្មតានោះទេ។ ដូចជាការបង្វិលចង្កូតរថយន្តយ៉ាងរលូនដើម្បីបត់ផ្លូវ ជំនួសឱ្យការបត់ឆ្វេង ឬស្តាំភ្លាមៗ។
Actor-Critic Architecture ជារចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលមានពីរផ្នែកធ្វើការរួមគ្នា៖ ផ្នែកមួយឈ្មោះ "Actor" សម្រេចចិត្តថាត្រូវធ្វើសកម្មភាពអ្វី ហើយផ្នែកមួយទៀតឈ្មោះ "Critic" វាយតម្លៃថា តើសកម្មភាពនោះល្អ ឬអាក្រក់ប៉ុណ្ណា ដើម្បីផ្តល់មតិកែលម្អ។ ប្រៀបដូចជាសិស្ស (Actor) កំពុងធ្វើលំហាត់ ហើយមានគ្រូ (Critic) នៅក្បែរចាំផ្តល់ពិន្ទុភ្លាមៗដើម្បីឱ្យសិស្សកែតម្រូវ។
Set-points គឺជាតម្លៃគោលដៅដែលកំណត់ដោយអ្នកគ្រប់គ្រង ឬ AI ដើម្បីឱ្យប្រព័ន្ធដំណើរការទៅដល់ចំណុចនោះ។ នៅក្នុងប្រព័ន្ធត្រជាក់ វាសំដៅលើសីតុណ្ហភាពដែលយើងចង់បាននៅចំណុចចេញខ្យល់ ឬទឹកត្រជាក់។ ដូចជាការកំណត់លេខសីតុណ្ហភាព ២៥អង្សារ នៅលើតេឡេបញ្ជាម៉ាស៊ីនត្រជាក់។
De-underestimation (DUE) ជាបច្ចេកទេសសុវត្ថិភាពមួយដែលអ្នកនិពន្ធបង្កើតឡើង ដើម្បីការពារកុំឱ្យ AI ព្យាករណ៍សីតុណ្ហភាពទាបជាងការពិត។ ប្រសិនបើ AI គិតថាម៉ាស៊ីនត្រជាក់ជាងជាក់ស្តែង វាអាចនឹងបន្ថយថាមពលត្រជាក់ ដែលបណ្តាលឱ្យម៉ាស៊ីនឡើងកម្តៅ។ ដូចជាការត្រៀមលុយថ្លៃអាហារឱ្យលើសពីការរំពឹងទុក ដើម្បីធានាថាមិនខ្វះលុយចាយ។
Direct Expansion (DX) Cooling System ជាប្រព័ន្ធត្រជាក់ដែលប្រើសារធាតុត្រជាក់ (Refrigerant) ដើម្បីស្រូបយកកម្តៅពីខ្យល់ដោយផ្ទាល់តាមរយៈបំពង់រ៉ាដ្យាទ័រ (Coils) ដោយមិនប្រើទឹកជាមធ្យោបាយចម្លងកម្តៅ។ គឺដូចជាម៉ាស៊ីនត្រជាក់ដែលយើងប្រើនៅតាមផ្ទះទូទៅ ដែលមានកុំប្រេសឺរ និងកង្ហារផ្លុំខ្យល់ត្រជាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖