Original Title: Survey of Hybrid Cloud Workflow Scheduling
Source: doi.org/10.11896/jsjkx.210300303
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាស្រាវជ្រាវអំពីការកំណត់កាលវិភាគលំហូរការងារលើប្រព័ន្ធក្លោដចម្រុះ (Hybrid Cloud)

ចំណងជើងដើម៖ Survey of Hybrid Cloud Workflow Scheduling

អ្នកនិពន្ធ៖ LIU Peng (South China Normal University), LIU Bo (South China Normal University), ZHOU Na-qin (Guangzhou University), PENG Xin-yi (South China Normal University), LIN Wei-wei (South China University of Technology)

ឆ្នាំបោះពុម្ព៖ 2022 (Computer Science Journal)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគណនាក្លោដបែបប្រពៃណីប្រឈមមុខនឹងបញ្ហាធនធានមិនគ្រប់គ្រាន់និងការចំណាយខ្ពស់ ខណៈដែលទំហំទិន្នន័យសម្រាប់លំហូរការងារវិទ្យាសាស្ត្រមានការកើនឡើង ដែលទាមទារឱ្យមានការកំណត់កាលវិភាគដ៏មានប្រសិទ្ធភាពលើប្រព័ន្ធក្លោដចម្រុះ (Hybrid Cloud)។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះធ្វើការអង្កេតនិងវិភាគស៊ីជម្រៅទៅលើបច្ចេកវិទ្យាកំណត់កាលវិភាគលំហូរការងារដែលមានស្រាប់នៅក្នុងបរិស្ថានក្លោដចម្រុះ ដោយចាត់ថ្នាក់ពួកវាផ្អែកលើគោលដៅនៃការបង្កើនប្រសិទ្ធភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
HCOC (Hybrid Cloud Optimized Cost)
ក្បួនដោះស្រាយចំណាយមានប្រសិទ្ធភាពសម្រាប់ក្លោដចម្រុះ
មានសមត្ថភាពក្នុងការកាត់បន្ថយការចំណាយប្រតិបត្តិការ ដោយធ្វើការជ្រើសរើសធនធានពីក្លោដសាធារណៈ (Public Cloud) និងឯកជន (Private Cloud) ដោយស្វ័យប្រវត្តិ។ ក្បួនដោះស្រាយនេះសន្មតថាពេលវេលាទំនាក់ទំនងរវាងកិច្ចការនៅលើម៉ាស៊ីនតែមួយគឺស្មើសូន្យ ដែលប្រហែលជាមិនឆ្លុះបញ្ចាំងពីការពិតទាំងស្រុង។ អាចកាត់បន្ថយការចំណាយ និងបញ្ចប់ការងារមុនកាលបរិច្ឆេទកំណត់ (Deadline) បានយ៉ាងមានប្រសិទ្ធភាព។
APSOGA (Adaptive PSO Genetic Algorithm)
ក្បួនដោះស្រាយបន្សំរវាងហ្សែន (Genetic) និងចលនាកូនភាគល្អិត (PSO)
ដោះស្រាយបញ្ហាការបញ្ចូលគ្នាលឿនពេក (Premature convergence) នៃក្បួនដោះស្រាយ PSO និងបង្កើនប្រសិទ្ធភាពនៃការផ្លាស់ទីទិន្នន័យ។ មានភាពស្មុគស្មាញក្នុងការគណនាជាងក្បួនដោះស្រាយធម្មតា ដោយសារការរួមបញ្ចូលគ្នានៃវិធីសាស្ត្រពីរ។ កាត់បន្ថយបរិមាណបញ្ជូនទិន្នន័យ និងចំនួនដងនៃការផ្លាស់ទីទិន្នន័យបានប្រហែល ៦០%។
Skeulix (Serverless Scheduling Framework)
ក្របខ័ណ្ឌកំណត់កាលវិភាគលើបច្ចេកវិទ្យា Serverless
កាត់បន្ថយការចំណាយលើការគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធ និងអនុញ្ញាតឱ្យមានការពង្រីកធនធាន (Scalability) បានយ៉ាងងាយស្រួល។ អាចប្រឈមនឹងបញ្ហាពេលវេលាឆ្លើយតបដំបូង (Cold start) នៃមុខងារ Serverless លើក្លោដសាធារណៈ។ សន្សំសំចៃការចំណាយយ៉ាងច្រើនដោយប្រើប្រាស់សេវាកម្មដូចជា AWS Lambda និង OpenFaaS សម្រាប់ដំណើរការការងារ។
AES (Adaptive Energy-Efficient Scheduling)
ការកំណត់កាលវិភាគសន្សំសំចៃថាមពលសម្របតាមស្ថានការណ៍
ប្រើប្រាស់បច្ចេកទេស DVFS ដើម្បីកែតម្រូវវ៉ុលនិងប្រេកង់របស់ CPU ដោយស្វ័យប្រវត្តិ ដែលជួយកាត់បន្ថយការប្រើប្រាស់អគ្គិសនី។ អាចប៉ះពាល់ដល់ល្បឿននៃការអនុវត្តការងារបន្តិចបន្តួច ប្រសិនបើការកែតម្រូវមិនត្រូវបានធ្វើឡើងយ៉ាងជាក់លាក់។ រក្សាតុល្យភាពរវាងថាមពល និងប្រសិទ្ធភាពការងារ ដោយកាត់បន្ថយការប្រើប្រាស់ថាមពលក្នុងអំឡុងពេលទំនេរ (Idle time)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តការស្រាវជ្រាវនេះមិនទាមទារឧបករណ៍រូបវន្តដែលមានតម្លៃថ្លៃទេ ប៉ុន្តែទាមទារចំណេះដឹងខ្ពស់ផ្នែកទន់ និងការប្រើប្រាស់កម្មវិធីត្រាប់តាម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើលំហូរការងារវិទ្យាសាស្ត្រលោកខាងលិច (ដូចជាទិន្នន័យតារាសាស្ត្រ LIGO ឬរញ្ជួយដី CyberShake)។ សម្រាប់បរិបទកម្ពុជា ប្រភេទនៃការងារអាចខុសគ្នា ដោយផ្តោតលើការគ្រប់គ្រងទិន្នន័យធនាគារ ឬទិន្នន័យកសិកម្ម ដែលមានលក្ខណៈបច្ចេកទេសផ្សេងពីទិន្នន័យវិទ្យាសាស្ត្រសុទ្ធសាធ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់ស្ថាប័ននៅកម្ពុជាដែលចង់ប្រើប្រាស់បច្ចេកវិទ្យាក្លោដ ប៉ុន្តែមានថវិកាមានកម្រិត និងចង់ប្រើប្រាស់ធនធានដែលមានស្រាប់ (On-premise) ឱ្យអស់លទ្ធភាព។

ការស្រាវជ្រាវនេះផ្តល់នូវផែនទីបង្ហាញផ្លូវដ៏សំខាន់សម្រាប់ការកសាងប្រព័ន្ធ IT ដែលមានប្រសិទ្ធភាពចំណាយ និងថាមពល ដែលសាកសមនឹងប្រទេសកំពុងអភិវឌ្ឍន៍ដូចជាកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃក្លោដ និងលំហូរការងារ: និស្សិតគួរចាប់ផ្តើមដោយការស្វែងយល់ពីគំរូ Hybrid Cloud និងរចនាសម្ព័ន្ធលំហូរការងារបែប DAG (Directed Acyclic Graph) ដោយប្រើប្រាស់ឯកសារបង្រៀនពី Coursera ឬ edX។
  2. រៀនប្រើប្រាស់ឧបករណ៍ត្រាប់តាម (Simulation Tools): ដំឡើងនិងរៀនប្រើប្រាស់កម្មវិធី CloudSim ឬ WorkflowSim (សរសេរដោយភាសា Java) ដើម្បីបង្កើតបរិស្ថានក្លោដនិម្មិតសម្រាប់ការពិសោធន៍។
  3. ស្វែងយល់ពីក្បួនដោះស្រាយ Optimization: សិក្សាពីរបៀបដំណើរការនៃក្បួនដោះស្រាយដូចជា Particle Swarm Optimization (PSO) និង Genetic Algorithm (GA) ដែលជាមូលដ្ឋាននៃអត្ថបទនេះ។
  4. អនុវត្តជាមួយបច្ចេកវិទ្យា Container និង Orchestration: សាកល្បងប្រើប្រាស់ Docker សម្រាប់ការបង្កើត Container និង Kubernetes ឬ Argo Workflows ដើម្បីគ្រប់គ្រងលំហូរការងារក្នុងបរិស្ថានជាក់ស្តែង។
  5. ស្រាវជ្រាវលើប្រធានបទថ្មីៗ: ចាប់ផ្តើមអានឯកសារបន្ថែមអំពី Serverless Computing និង Edge Computing ដែលជាទិសដៅអនាគតដែលត្រូវបានណែនាំនៅក្នុងអត្ថបទនេះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hybrid Cloud គឺជាបរិស្ថានកុំព្យូទ័រដែលរួមបញ្ចូលគ្នារវាងក្លោដឯកជន (Private Cloud - ហេដ្ឋារចនាសម្ព័ន្ធក្នុងស្ថាប័ន) និងក្លោដសាធារណៈ (Public Cloud - សេវាកម្មជួលពីក្រុមហ៊ុនដូចជា AWS ឬ Google) ដោយអនុញ្ញាតឱ្យទិន្នន័យនិងកម្មវិធីអាចចែករំលែកនិងផ្លាស់ទីរវាងគ្នាបាន។ ដូចជាការមានម៉ាស៊ីនភ្លើងផ្ទាល់ខ្លួននៅផ្ទះ ប៉ុន្តែនៅតែតភ្ជាប់ជាមួយបណ្តាញអគ្គិសនីរដ្ឋ ដើម្បីប្រើប្រាស់នៅពេលភ្លើងដាច់ ឬត្រូវការថាមពលបន្ថែម។
Workflow Scheduling គឺជាដំណើរការនៃការចាត់ចែងនិងរៀបចំលំដាប់លំដោយនៃកិច្ចការ (Tasks) នៅក្នុងគម្រោងមួយទៅឱ្យធនធានកុំព្យូទ័រ (Resources) ជាក់លាក់ណាមួយដើម្បីដំណើរការ ដោយគិតគូរពីលក្ខខណ្ឌកំណត់ដូចជា ពេលវេលា ការចំណាយ និងថាមពល។ ដូចជាអ្នកគ្រប់គ្រងការដ្ឋានសំណង់ម្នាក់ ដែលត្រូវចាត់ចែងថា កម្មករណាត្រូវធ្វើការងារអ្វី នៅពេលណា ដើម្បីឱ្យផ្ទះសាងសង់រួចរាល់ទាន់ពេល។
DAG (Directed Acyclic Graph) គឺជាគំរូគណិតវិទ្យាដែលប្រើដើម្បីតំណាងឱ្យរចនាសម្ព័ន្ធនៃលំហូរការងារ ដែលកិច្ចការនីមួយៗ (Node) មានទំនាក់ទំនងតគ្នាទៅមុខជានិច្ច (Directed) និងមិនអាចវិលត្រឡប់ក្រោយជាវង្វង់បានទេ (Acyclic)។ ដូចជាការចំអិនម្ហូប ដែលអ្នកត្រូវលាងបន្លែ និងកាត់សាច់ជាមុនសិន ទើបអាចយកទៅឆាបាន អ្នកមិនអាចឆាហើយទើបមកលាងបន្លែតាមក្រោយបានទេ។
Meta-heuristic Algorithms គឺជាបច្ចេកទេសដោះស្រាយបញ្ហាថ្នាក់ខ្ពស់ដែលជារឿយៗយកគំរូតាមធម្មជាតិ (ដូចជា ហ្សែន Genetic Algorithm ឬ ហ្វូងសត្វ Particle Swarm Optimization) ដើម្បីស្វែងរកដំណោះស្រាយដែល "ល្អបំផុតដែលអាចទទួលយកបាន" សម្រាប់បញ្ហាស្មុគស្មាញ ដែលកុំព្យូទ័រមិនអាចគណនាគ្រប់លទ្ធភាពទាំងអស់បាន។ ដូចជាការរកផ្លូវកាត់ក្នុងព្រៃ ដោយមិនចាំបាច់ដើរគ្រប់ផ្លូវទាំងអស់ ប៉ុន្តែប្រើប្រាស់សភាវគតិ ឬការសង្កេតមើលដានសត្វដើម្បីរកផ្លូវដែលលឿនបំផុត។
Serverless Computing គឺជាគំរូនៃការផ្តល់សេវាកម្មក្លោដដែលអ្នកអភិវឌ្ឍន៍គ្រាន់តែសរសេរកូដ ហើយក្រុមហ៊ុនផ្តល់សេវាកម្មជាអ្នកគ្រប់គ្រងម៉ាស៊ីនមេ (Server) និងធនធានដោយស្វ័យប្រវត្តិ។ អ្នកប្រើប្រាស់បង់ប្រាក់តែពេលកូដកំពុងដំណើរការប៉ុណ្ណោះ។ ដូចជាការប្រើប្រាស់ទឹកម៉ាស៊ីន អ្នកគ្រាន់តែបើកក្បាលរ៉ូមីណេហើយបង់ថ្លៃទឹកដែលបានប្រើ ដោយមិនចាំបាច់ខ្វល់ពីការជីកអណ្តូង ឬដំណើរការម៉ាស៊ីនបូមទឹកឡើយ។
DVFS (Dynamic Voltage and Frequency Scaling) គឺជាបច្ចេកទេសសន្សំសំចៃថាមពលដែលអនុញ្ញាតឱ្យកុំព្យូទ័រកាត់បន្ថយវ៉ុល (Voltage) និងប្រេកង់ (Frequency) នៃ CPU ដោយស្វ័យប្រវត្តិនៅពេលដែលការងារមិនសូវធ្ងន់ធ្ងរ ដើម្បីកាត់បន្ថយការប្រើប្រាស់អគ្គិសនី។ ដូចជាការជិះកង់ ដែលអ្នកធាក់ខ្លាំងពេលឡើងទួល ប៉ុន្តែបន្ថយកម្លាំងធាក់ ឬឈប់ធាក់នៅពេលចុះចំណោទដើម្បីសន្សំកម្លាំង។
QoS (Quality of Service) នៅក្នុងបរិបទនេះ វាសំដៅលើសំណុំនៃលក្ខខណ្ឌតម្រូវដែលអ្នកប្រើប្រាស់ចង់បានពីប្រព័ន្ធក្លោដ ដូចជា កាលបរិច្ឆេទបញ្ចប់ (Deadline) ថវិកា (Budget) និងកម្រិតដែលអាចទុកចិត្តបាន ដើម្បីធានាប្រសិទ្ធភាពការងារ។ ដូចជាកិច្ចសន្យាជួលសេវាកម្មមួយ ដែលចែងច្បាស់ថាការងារត្រូវចប់នៅថ្ងៃណា និងត្រូវចំណាយអស់ប៉ុន្មាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖