Original Title: Data Center Cooling System Optimization Using Offline Reinforcement Learning
Source: arxiv:2501.15085v2
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើនប្រសិទ្ធភាពប្រព័ន្ធត្រជាក់មជ្ឈមណ្ឌលទិន្នន័យ ដោយប្រើបច្ចេកទេស Offline Reinforcement Learning

ចំណងជើងដើម៖ Data Center Cooling System Optimization Using Offline Reinforcement Learning

អ្នកនិពន្ធ៖ Xianyuan Zhan (Institute for AI Industry Research, Tsinghua University), Xiangyu Zhu (Institute for AI Industry Research, Tsinghua University), Feng Zhao (Institute for AI Industry Research, Tsinghua University)

ឆ្នាំបោះពុម្ព៖ 2025 (ICLR Conference Paper)

វិស័យសិក្សា៖ Artificial Intelligence / Industrial Control Systems

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាការប្រើប្រាស់ថាមពលខ្ពស់ហួសហេតុនៃប្រព័ន្ធត្រជាក់នៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ (Data Centers) ដែលមានប្រមាណ ៣០-៤០% នៃថាមពលសរុប និងកង្វះខាតនៃវិធីសាស្ត្រគ្រប់គ្រងបែបប្រពៃណីដែលមិនសូវមានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតក្របខ័ណ្ឌនៃការរៀនបំប៉នក្រៅបណ្តាញ (Offline Reinforcement Learning) ដែលផ្អែកលើគោលការណ៍រូបវិទ្យា ដើម្បីរៀនពីទិន្នន័យប្រតិបត្តិការដែលមានស្រាប់ ដោយមិនពឹងផ្អែកលើការបង្កើតគំរូសាកល្បងដែលមានតម្លៃថ្លៃ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Physics-informed Offline RL (Proposed Method)
ការរៀនបំប៉នក្រៅបណ្តាញដែលផ្អែកលើរូបវិទ្យា (វិធីសាស្ត្រស្នើឡើង)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការសន្សំសំចៃថាមពល និងធានាសុវត្ថិភាពកម្ដៅដោយប្រើគោលការណ៍ T-symmetry ដើម្បីកាត់បន្ថយការពឹងផ្អែកលើទិន្នន័យច្រើន។ ទាមទារទិន្នន័យប្រវត្តិប្រតិបត្តិការដែលមានគុណភាព និងការបង្កើតគំរូឌីណាមិកដ៏ស្មុគស្មាញជាងវិធីសាស្ត្របុរាណ។ សន្សំសំចៃថាមពលបាន ១៤-២១% នៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យពាណិជ្ជកម្មជាក់ស្តែង ដោយគ្មានការរំលោភបំពានសុវត្ថិភាព។
PID Control
ការគ្រប់គ្រងបែប PID (ស្តង់ដារឧស្សាហកម្ម)
មានលក្ខណៈសាមញ្ញ ងាយស្រួលអនុវត្ត និងមានស្ថេរភាពក្នុងការគ្រប់គ្រងមូលដ្ឋាន។ ដំណើរការដោយប្រុងប្រយ័ត្នពេក (Conservative) នាំឱ្យខ្ជះខ្ជាយថាមពល និងមិនអាចសម្របខ្លួនបានល្អទៅនឹងបម្រែបម្រួលបន្ទុកការងារ (Server Load) យ៉ាងឆាប់រហ័ស។ ប្រើប្រាស់ថាមពលខ្ពស់ជាងវិធីសាស្ត្រស្នើឡើង (Baseline for comparison)។
Data-driven MPC
ការគ្រប់គ្រងព្យាករណ៍គំរូផ្អែកលើទិន្នន័យ (Model Predictive Control)
អាចធ្វើការបង្កើនប្រសិទ្ធភាព (Optimization) លើសពីមួយជំហានទៅមុខ ដោយផ្អែកលើគំរូដែលបានរៀន។ ទាមទារការគណនាខ្ពស់ និងពឹងផ្អែកខ្លាំងលើភាពត្រឹមត្រូវនៃគំរូ ലീនេអ៊ែរ (Linear model) ដែលអាចមិនឆ្លុះបញ្ចាំងពីសភាពស្មុគស្មាញនៃកម្ដៅជាក់ស្តែង។ មានប្រសិទ្ធភាពទាបជាងវិធីសាស្ត្រ Offline RL នៅក្នុងការពិសោធន៍លើ Testbed។
Standard Offline RL (CQL, IQL, FISOR)
ការរៀនបំប៉នក្រៅបណ្តាញទូទៅ (វិធីសាស្ត្រប្រៀបធៀប)
អាចរៀនពីទិន្នន័យដែលមានស្រាប់ដោយមិនចាំបាច់មានបរិស្ថានពិសោធន៍ (Simulator)។ ប្រឈមនឹងបញ្ហា Out-of-Distribution (OOD) និងមិនមានការធានាសុវត្ថិភាពរឹងមាំដូចវិធីសាស្ត្រដែលបញ្ចូលចំណេះដឹងរូបវិទ្យា។ បរាជ័យក្នុងការរក្សាសុវត្ថិភាពកម្ដៅ ឬមានប្រសិទ្ធភាពថាមពលទាបជាងវិធីសាស្ត្រស្នើឡើង។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រសម្រាប់ការបង្វឹកគំរូ និងប្រព័ន្ធគ្រប់គ្រងទិន្នន័យដែលមានស្រាប់នៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងមជ្ឈមណ្ឌលទិន្នន័យពាណិជ្ជកម្មខ្នាតធំនៅក្នុងប្រទេសចិន ដែលមានលក្ខខណ្ឌអាកាសធាតុ និងហេដ្ឋារចនាសម្ព័ន្ធជាក់លាក់។ សម្រាប់កម្ពុជាដែលជាប្រទេសតំបន់ត្រូពិកក្តៅខ្លាំង ការគ្រប់គ្រងប្រព័ន្ធត្រជាក់អាចនឹងមានតម្រូវការថាមពលខ្ពស់ជាងនេះ និងប្រឈមនឹងបញ្ហាកម្ដៅធ្ងន់ធ្ងរជាង ដែលតម្រូវឱ្យមានការកែតម្រូវប៉ារ៉ាម៉ែត្រគំរូ (Hyperparameters) ឱ្យសមស្រប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដោយសារតម្លៃអគ្គិសនីខ្ពស់ និងតម្រូវការកើនឡើងនៃមជ្ឈមណ្ឌលទិន្នន័យ។

ការអនុវត្តបច្ចេកវិទ្យានេះអាចជួយកម្ពុជាកាត់បន្ថយការនាំចូលថាមពល និងលើកកម្ពស់និរន្តរភាពក្នុងវិស័យបច្ចេកវិទ្យាឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ ការប្រមូលទិន្នន័យមូលដ្ឋាន: ចាប់ផ្តើមប្រមូលទិន្នន័យពីឧបករណ៍ចាប់សញ្ញា (IoT Sensors) នៅក្នុងបន្ទប់ Server របស់សាកលវិទ្យាល័យ ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Raspberry Pi និងរក្សាទុកក្នុង InfluxDB ដើម្បីបង្កើត Dataset សម្រាប់ការវិភាគ។
  2. ជំហានទី ២៖ ការសិក្សាពី Offline RL: សិក្សាអំពីមូលដ្ឋានគ្រឹះនៃ Offline Reinforcement Learning ដោយប្រើបណ្ណាល័យបើកចំហ (Open Source Libraries) ដូចជា d3rlpy ឬ Stable Baselines3 ដើម្បីយល់ពីរបៀបរៀនពីទិន្នន័យដែលមានស្រាប់។
  3. ជំហានទី ៣៖ ការបង្កើតគំរូសាកល្បង (Simulation): បង្កើតបរិស្ថានសាកល្បង (Digital Twin) នៃប្រព័ន្ធត្រជាក់សាមញ្ញមួយ ដោយប្រើប្រាស់ Python ដើម្បីពិសោធន៍ក្បួនដោះស្រាយការគ្រប់គ្រងមុននឹងអនុវត្តជាក់ស្តែង។
  4. ជំហានទី ៤៖ ការអនុវត្តសាកល្បងខ្នាតតូច: សហការជាមួយផ្នែក IT ដើម្បីសាកល្បងគ្រប់គ្រងម៉ាស៊ីនត្រជាក់តែមួយ (AC Unit) នៅក្នុងបន្ទប់ដែលមិនសូវសំខាន់ ដោយប្រើប្រាស់ក្បួនដោះស្រាយដែលបានអភិវឌ្ឍ ដោយមានយន្តការសុវត្ថិភាព (Safety override) ដូចដែលបានណែនាំក្នុងឯកសារ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning (Offline RL) ជាវិធីសាស្ត្រនៃការបង្រៀនកុំព្យូទ័រ (AI) ឱ្យចេះធ្វើការសម្រេចចិត្តដោយរៀនពីទិន្នន័យចាស់ៗដែលមានស្រាប់ (Static Dataset) ដោយមិនចាំបាច់ឱ្យ AI នោះទៅសាកល្បងខុសឬត្រូវនៅក្នុងបរិស្ថានជាក់ស្តែង ឬក្នុងកម្មវិធីពិសោធន៍ (Simulator) ឡើយ។ ប្រៀបដូចជាការរៀនលេងបាល់ទាត់ដោយគ្រាន់តែមើលវីដេអូនៃការប្រកួតចាស់ៗ ដោយមិនចាំបាច់ចុះទៅលេងផ្ទាល់នៅលើតារាង។
T-symmetry (Time-reversal symmetry) ជាគោលការណ៍រូបវិទ្យាដែលចែងថា ច្បាប់នៃចលនា ឬឌីណាមិកនៃប្រព័ន្ធមួយ គួរតែនៅតែមានសុពលភាពដដែល ទោះបីជាពេលវេលាត្រូវបានត្រឡប់ថយក្រោយក៏ដោយ។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីធានាថា AI យល់ពីច្បាប់រូបវិទ្យានៃការផ្លាស់ប្តូរកម្ដៅបានត្រឹមត្រូវ។ ប្រៀបដូចជាការចាក់វីដេអូថយក្រោយ (Rewind) នៃបាល់ដែលលោត; បើទោះជាវីដេអូដើរថយក្រោយ ក៏យើងនៅតែអាចយល់ពីច្បាប់ទំនាញផែនដីដែលធ្វើឱ្យបាល់នោះលោតបានដែរ។
Graph Neural Network (GNN) ជាប្រភេទនៃបណ្តាញប្រសាទសិប្បនិម្មិត (Neural Network) ដែលត្រូវបានរចនាឡើងដើម្បីវិភាគទិន្នន័យដែលមានទំនាក់ទំនងគ្នាជាបណ្តាញ (Nodes and Edges)។ ក្នុងករណីនេះ វាប្រើដើម្បីយល់ពីទំនាក់ទំនងរវាងទីតាំងម៉ាស៊ីនត្រជាក់ និងឧបករណ៍ចាប់សញ្ញា (Sensors) ផ្សេងៗក្នុងបន្ទប់។ ប្រៀបដូចជាការមើលផែនទីបណ្តាញមិត្តភក្តិក្នុង Facebook ដើម្បីយល់ថាអ្នកណាមានឥទ្ធិពលលើអ្នកណា ជំនួសឱ្យការមើលមនុស្សម្នាក់ៗដាច់ដោយឡែក។
Model Predictive Control (MPC) ជាបច្ចេកទេសគ្រប់គ្រងកម្រិតខ្ពស់ដែលប្រើគំរូគណិតវិទ្យាដើម្បីព្យាករណ៍ពីអាកប្បកិរិយារបស់ប្រព័ន្ធនាពេលអនាគត ហើយគណនាការកែតម្រូវដែលល្អបំផុតនៅពេលបច្ចុប្បន្ន ដើម្បីសម្រេចគោលដៅ។ ប្រៀបដូចជាអ្នកបើកបររថយន្តដែលសម្លឹងមើលផ្លូវខាងមុខឆ្ងាយ ដើម្បីគណនាថាគួរកាច់ចង្កូត ឬជាន់ហ្វ្រាំងនៅពេលនេះ ដើម្បីកុំឱ្យជួបគ្រោះថ្នាក់នៅ ១០ ម៉ែត្រខាងមុខ។
Out-of-Distribution (OOD) សំដៅលើទិន្នន័យ ឬស្ថានភាពដែល AI ជួបប្រទះ ដែលមានលក្ខណៈខុសប្លែកពីទិន្នន័យដែលវាធ្លាប់បានរៀនកាលពីមុន។ នៅក្នុង Offline RL នេះគឺជាបញ្ហាប្រឈមធំមួយ ព្រោះ AI អាចធ្វើការសម្រេចចិត្តខុសនៅពេលជួបស្ថានភាពថ្មី។ ប្រៀបដូចជាសិស្សដែលរៀនតែលំហាត់គណិតវិទ្យា តែពេលប្រឡងបែរជាចេញវិញ្ញាសារូបវិទ្យាដែលមិនធ្លាប់រៀន។
Latent Space ជាទម្រង់ទិន្នន័យដែលត្រូវបានបង្រួម (Compressed Representation) ដោយ AI ដើម្បីចាប់យកតែលក្ខណៈសំខាន់ៗបំផុត និងកាត់បន្ថយភាពស្មុគស្មាញដែលមិនចាំបាច់។ ការសម្រេចចិត្តរបស់ AI ត្រូវបានធ្វើឡើងនៅក្នុងលំហនេះ។ ប្រៀបដូចជាការសង្ខេបសៀវភៅមួយក្បាលឱ្យនៅសល់តែខ្លឹមសារសំខាន់ៗ ១ ទំព័រ ដើម្បីងាយស្រួលយល់ និងចងចាំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖