Original Title: Energy-Aware Scheduling in Smart Factories Using Reinforcement Learning
Source: orcid.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀបចំកាលវិភាគដោយផ្អែកលើការយល់ដឹងពីថាមពលនៅក្នុងរោងចក្រឆ្លាតវៃដោយប្រើប្រាស់ការរៀនពង្រឹង (Reinforcement Learning)

ចំណងជើងដើម៖ Energy-Aware Scheduling in Smart Factories Using Reinforcement Learning

អ្នកនិពន្ធ៖ Md. Faisal Bin Shaikat, IndusEdge Solutions

ឆ្នាំបោះពុម្ព៖ IndusEdge Solutions

វិស័យសិក្សា៖ Industrial Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ រោងចក្រផលិតកម្មខ្នាតតូចនិងមធ្យម (SMMs) ជួបប្រទះបញ្ហាប្រឈមក្នុងការកាត់បន្ថយការចំណាយលើអគ្គិសនី ដោយសារកង្វះប្រព័ន្ធរៀបចំកាលវិភាគដែលសកម្មនិងអាចបត់បែនតាមការប្រែប្រួលនៃតម្លៃអគ្គិសនីជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានអភិវឌ្ឍភ្នាក់ងាររៀបចំកាលវិភាគដោយប្រើប្រាស់បច្ចេកទេសរៀនពង្រឹង ដើម្បីចាត់ចែងការងារដោយស្វ័យប្រវត្តិដោយផ្អែកលើទិន្នន័យតម្លៃថាមពល។

ការប្រើប្រាស់ក្បួនដោះស្រាយបណ្ដាញ (Double Deep Q-Network - DDQN) ដើម្បីរៀនពីលំនាំតម្លៃអគ្គិសនី និងចាត់ចែងម៉ាស៊ីន។
ការធ្វើគំរូដំណើរការសម្រេចចិត្តម៉ាកូវ (Markov Decision Process - MDP) ដោយរួមបញ្ចូលស្ថានភាពម៉ាស៊ីន ជួរការងារ និងតម្លៃថាមពលជាក់ស្តែង។
ការធ្វើត្រាប់តាមព្រឹត្តិការណ៍ដាច់ដោយឡែក (Discrete-event simulation) នៅក្នុងបរិស្ថានរោងចក្រ ដើម្បីប្រៀបធៀបជាមួយប្រព័ន្ធកាលវិភាគធម្មតា (FCFS)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ភ្នាក់ងារ RL នេះសម្រេចបានការកាត់បន្ថយការចំណាយថាមពលជាមធ្យម ២២,៤% បើធៀបនឹងប្រព័ន្ធរៀបចំកាលវិភាគមុនមកមុនបាន (FCFS) និង ១១,៤% បើធៀបនឹងប្រព័ន្ធ Heuristic។
បន្ទុកអគ្គិសនីក្នុងម៉ោងខ្ពស់បំផុត (Peak load) ត្រូវបានកាត់បន្ថយចំនួន ១៥,៦% ដែលរួមចំណែកដល់ការគ្រប់គ្រងថាមពលប្រកបដោយប្រសិទ្ធភាព។
ទោះបីជាមានការពន្យារពេលការងារខ្លះដើម្បីសន្សំថាមពលក៏ដោយ ក៏អត្រាបញ្ចប់ការងារទាន់ពេលវេលា (On-time completion rate) ត្រូវបានកើនឡើងដល់ ៩១,៧% ហើយពេលវេលាទុកម៉ាស៊ីនចោលបានថយចុះមកត្រឹម ១៤,២ នាទីក្នុងមួយម៉ោង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
FCFS (First-Come-First-Serve) ការរៀបចំកាលវិភាគតាមអ្នកមកមុនបានមុន	ជាវិធីសាស្ត្រសាមញ្ញ ងាយស្រួលអនុវត្តភ្លាមៗនៅក្នុងរោងចក្រ និងមិនទាមទារប្រព័ន្ធកុំព្យូទ័រស្មុគស្មាញដើម្បីគណនា។	មិនខ្វល់ពីតម្លៃថាមពលអគ្គិសនីដែលប្រែប្រួលតាមពេលវេលា និងបណ្តាលឱ្យមានអត្រាទុកម៉ាស៊ីនចោលមិនដំណើរការ (Idle time) ខ្ពស់បំផុត។	ចំណាយថាមពលអគ្គិសនីជាមធ្យម $147.20 ក្នុងមួយជុំកាលវិភាគ និងមានអត្រាបញ្ចប់ការងារទាន់ពេលត្រឹម 84.5%។
Rule-based Energy-Aware Heuristic ការប្រើប្រាស់វិធានកំណត់ទុកជាមុនដើម្បីសន្សំថាមពល	ជួយកាត់បន្ថយចំណាយថាមពលបានមួយកម្រិត និងមានស្ថិរភាពដោយផ្អែកលើច្បាប់ដែលគេបានកំណត់ទម្លាប់ច្បាស់លាស់។	ខ្វះភាពបត់បែននៅពេលមានការប្រែប្រួលតម្លៃអគ្គិសនីខុសប្រក្រតី ឬនៅពេលរោងចក្រមានបន្ទុកការងារផ្លាស់ប្តូរភ្លាមៗ។	ចំណាយថាមពលអគ្គិសនីជាមធ្យម $129.00 និងអាចកាត់បន្ថយបន្ទុកអគ្គិសនីខ្ពស់បំផុត (Peak Load Reduction) បានត្រឹម 8.4%។
RL Scheduler (DDQN) ការរៀបចំកាលវិភាគដោយការរៀនពង្រឹង (Reinforcement Learning)	មានសមត្ថភាពរៀន និងបត់បែនដោយស្វ័យប្រវត្តិតាមតម្លៃអគ្គិសនីជាក់ស្តែង ជួយសន្សំសំចៃខ្ពស់ និងរក្សាបាននូវផលិតភាពល្អបំផុត។	ទាមទារការបណ្តុះបណ្តាលម៉ូដែល (Training) រយៈពេលយូរ និងតម្រូវឱ្យមានការបំពាក់ប្រព័ន្ធសេនស័រ (IIoT) នៅក្នុងរោងចក្រ។	ចំណាយថាមពលអគ្គិសនីទាបបំផុតត្រឹម $114.25 (កាត់បន្ថយបាន 22.4%) អត្រាបញ្ចប់ការងារទាន់ពេលកើនដល់ 91.7% និងកាត់បន្ថយ Peak Load បាន 15.6%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធរៀបចំកាលវិភាគនេះទាមទារការវិនិយោគជាមូលដ្ឋានលើហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាឧស្សាហកម្ម (IIoT) ឧបករណ៍សេនស័រ និងសមត្ថភាពគណនាទិន្នន័យកម្រិតមធ្យមទៅខ្ពស់។

Software: កម្មវិធី TensorFlow Lite សម្រាប់ការគណនាលើឧបករណ៍ (Edge inference), ប្រព័ន្ធ MES (Manufacturing Execution System) និង API សម្រាប់ទាញយកទិន្នន័យតម្លៃអគ្គិសនី។
Hardware: ឧបករណ៍សេនស័រ IIoT សម្រាប់តាមដានស្ថានភាពម៉ាស៊ីន (Machine status tracking) និងឧបករណ៍ Edge Computing សម្រាប់ដំណើរការ AI ក្បែរម៉ាស៊ីន។
Dataset: ទិន្នន័យលំនាំតម្លៃអគ្គិសនីប្រែប្រួលតាមពេលវេលា (Time-of-use tariffs) និងកំណត់ហេតុព័ត៌មានជួរការងាររោងចក្រ (Job queues metadata)។
Expertise: អ្នកជំនាញផ្នែក Reinforcement Learning, ការគ្រប់គ្រងទិន្នន័យស្ថាបត្យកម្ម Data Engineering និងប្រព័ន្ធស្វ័យប្រវត្តិកម្មរោងចក្រឆ្លាតវៃ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យក្លែងធ្វើ (Synthetic data) ដែលយកគំរូតាមរោងចក្រវាយនភណ្ឌខ្នាតមធ្យម និងតម្លៃអគ្គិសនីនៅតំបន់ Midwest សហរដ្ឋអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា ដែលអគ្គិសនីកម្ពុជា (EDC) មានរចនាសម្ព័ន្ធតម្លៃថាមពលខុសគ្នា (ឧទាហរណ៍ តម្លៃផ្អែកលើកម្រិតតង់ស្យុង) និងបញ្ហាដាច់ភ្លើងនៅតំបន់ខ្លះ ទិន្នន័យនេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ ហើយទាមទារការកែសម្រួលដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នានៃហេដ្ឋារចនាសម្ព័ន្ធក៏ដោយ ក៏វិធីសាស្ត្រគ្រប់គ្រងការងារផ្អែកលើការយល់ដឹងពីថាមពលនេះ មានសក្តានុពលខ្ពស់សម្រាប់រោងចក្រឧស្សាហកម្មនៅកម្ពុជាក្នុងការសន្សំសំចៃចំណាយ។

រោងចក្រកាត់ដេរ និងវាយនភណ្ឌ (តំបន់សេដ្ឋកិច្ចពិសេសភ្នំពេញ និងបាវិត): រោងចក្រទាំងនេះមានម៉ាស៊ីនដែលប្រើថាមពលច្រើន ការអនុវត្តប្រព័ន្ធនេះអាចជួយចាត់ចែងម៉ាស៊ីនកាត់ឬអ៊ុតក្រណាត់ ទៅប្រតិបត្តិការនៅម៉ោងដែលមានតម្លៃអគ្គិសនីទាប ឬជៀសវាងការប្រើប្រាស់ភ្លើងព្រមគ្នាដែលបណ្តាលឱ្យដាច់សៀគ្វី។
រោងចក្រកែច្នៃកសិផល (ខេត្តបាត់ដំបង និងកំពង់ធំ): រោងចក្រកិនស្រូវ ឬកែច្នៃគ្រាប់ស្វាយចន្ទី អាចប្រើប្រាស់ AI នេះដើម្បីរៀបចំកាលវិភាគម៉ាស៊ីនសម្ងួត និងកិនដោយស្វ័យប្រវត្តិ ធានាបាននូវការប្រើប្រាស់ថាមពលប្រកបដោយប្រសិទ្ធភាពក្នុងរដូវប្រមូលផល។

ការចាប់ផ្តើមសាកល្បងបច្ចេកវិទ្យា RL នេះ នឹងក្លាយជាជំហានដ៏សំខាន់មួយក្នុងការប្រែក្លាយវិស័យផលិតកម្មកម្ពុជាទៅជា 'រោងចក្រឆ្លាតវៃ' (Smart Factories) ដែលជួយបង្កើនភាពប្រកួតប្រជែងតាមរយៈការកាត់បន្ថយថ្លៃដើមផលិត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលរៀនពង្រឹង (Reinforcement Learning): និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តី Markov Decision Process (MDP) និងក្បួនដោះស្រាយ Double Deep Q-Network (DDQN) ដោយការអនុវត្តសរសេរកូដជាក់ស្តែងតាមរយៈ Python ប្រើប្រាស់ PyTorch ឬ TensorFlow។
ជំហានទី២៖ ប្រមូលទិន្នន័យ និងធ្វើគំរូទិន្នន័យអគ្គិសនីនៅកម្ពុជា: សហការជាមួយរោងចក្រដៃគូ ឬអគ្គិសនីកម្ពុជា (EDC) ដើម្បីប្រមូលទិន្នន័យការប្រើប្រាស់ថាមពលជាក់ស្តែង លំនាំនៃការដាច់ភ្លើង និងរចនាសម្ព័ន្ធតម្លៃអគ្គិសនី ដើម្បីបង្កើតជា Dataset សម្រាប់ហ្វឹកហាត់។
ជំហានទី៣៖ បង្កើតបរិស្ថានក្លែងធ្វើ (Simulation Environment): ប្រើប្រាស់កម្មវិធី SimPy ឬ OpenAI Gym ដើម្បីបង្កើតគំរូរោងចក្រនិម្មិត (Digital Twin) សម្រាប់ប្រើប្រាស់ជាបរិស្ថានឱ្យភ្នាក់ងារ RL ធ្វើការហ្វឹកហាត់សាកល្បងមុននឹងយកទៅអនុវត្តផ្ទាល់។
ជំហានទី៤៖ អភិវឌ្ឍប្រព័ន្ធ Edge Computing គំរូ (Prototype): រៀបចំឧបករណ៍ Raspberry Pi ភ្ជាប់ជាមួយសេនស័រវាស់ចរន្តអគ្គិសនី ដោយដំណើរការម៉ូដែល TensorFlow Lite ដើម្បីបញ្ជូនទិន្នន័យទៅកាន់ផ្ទាំងគ្រប់គ្រង (Dashboard) និងសាកល្បងធ្វើការសម្រេចចិត្តក្នុងពេលវេលាជាក់ស្តែង (Real-time inference) លើម៉ាស៊ីនខ្នាតតូចសិន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement Learning	បច្ចេកទេសបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារកុំព្យូទ័ររៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងខុសនិងត្រូវជាមួយបរិស្ថាន ដើម្បីទទួលបានរង្វាន់អតិបរមា និងសម្រេចគោលដៅដែលបានកំណត់។	ដូចជាការបង្រៀនសត្វឆ្កែឱ្យចេះស្តាប់បញ្ជា ដោយឲ្យចំណីជាអាហារពេលវាធ្វើត្រូវ និងមិនឲ្យពេលវាធ្វើខុស យូរៗទៅវានឹងរៀនយល់ពីអ្វីដែលគួរធ្វើ។
Double Deep Q-Network (DDQN)	ក្បួនដោះស្រាយកម្រិតខ្ពស់នៃការរៀនពង្រឹង (RL) ដែលប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតពីរផ្សេងគ្នា ដើម្បីវាយតម្លៃសកម្មភាព ជួយជៀសវាងការវាយតម្លៃខ្ពស់ជ្រុល (Overestimation) ធ្វើឲ្យម៉ូដែលរៀនបានត្រឹមត្រូវនិងមានស្ថិរភាពជាងមុន។	ដូចជាមានទីប្រឹក្សាពីរនាក់ជួយផ្ទៀងផ្ទាត់យោបល់គ្នាទៅវិញទៅមក មុននឹងសម្រេចចិត្តវិនិយោគ ដើម្បីកុំឱ្យជឿជាក់លើការស្មានតែឯងខ្លាំងពេក។
Markov Decision Process (MDP)	ក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូដំណើរការសម្រេចចិត្ត ដែលស្ថានភាពបន្ទាប់ និងរង្វាន់ អាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្ន និងសកម្មភាពដែលបានជ្រើសរើសប៉ុណ្ណោះ ពោលគឺមិនទាមទារការចងចាំប្រវត្តិអតីតកាលដ៏វែងឆ្ងាយឡើយ។	ដូចជាការលេងអុក ដែលការដើរកូនបន្ទាប់គឺពឹងផ្អែកលើការរៀបចំកូនអុកនៅលើក្ដារនាពេលបច្ចុប្បន្ននេះផ្ទាល់ មិនមែនពឹងផ្អែកលើការដើរកាលពី១០វគ្គមុននោះទេ។
Industrial Internet of Things (IIoT)	បណ្ដាញនៃឧបករណ៍សេនស័រ ម៉ាស៊ីន និងប្រព័ន្ធកុំព្យូទ័រដែលភ្ជាប់គ្នាទៅវិញទៅមកតាមរយៈអ៊ីនធឺណិតនៅក្នុងរោងចក្រ ដើម្បីប្រមូលទិន្នន័យ វិភាគ និងគ្រប់គ្រងដំណើរការផលិតកម្មដោយស្វ័យប្រវត្តិក្នុងពេលជាក់ស្តែង។	ដូចជាប្រព័ន្ធសរសៃប្រសាទនៅក្នុងរាងកាយមនុស្ស ដែលភ្ជាប់គ្រប់សរីរាង្គ (ម៉ាស៊ីន) ទៅកាន់ខួរក្បាល (កុំព្យូទ័រ) ដើម្បីដឹងពីស្ថានភាពរាងកាយទាំងមូលក្នុងពេលតែមួយ។
Edge computing	ការដំណើរការនិងវិភាគទិន្នន័យនៅនឹងកន្លែង (ពោលគឺលើឧបករណ៍ ឬកុំព្យូទ័រក្បែរម៉ាស៊ីនផ្ទាល់) ជាជាងការបញ្ជូនទិន្នន័យទាំងអស់ទៅកាន់ Cloud ឆ្ងាយៗ ដែលជួយកាត់បន្ថយភាពយឺតយ៉ាវនៃការបញ្ជូនទិន្នន័យ (Latency) និងធានាសុវត្ថិភាព។	ដូចជាការបូកសរុបលុយចំណូលនៅឯតូបលក់ដូរផ្ទាល់ ជាជាងយកលុយនិងវិក្កយបត្រទាំងអស់ទៅរាប់នៅឯទីស្នាក់ការកណ្តាល ដែលខាតទាំងពេលនិងសោហ៊ុយធ្វើដំណើរ។
Manufacturing Execution System (MES)	ប្រព័ន្ធកុំព្យូទ័ររួមមជ្ឈមណ្ឌលដែលប្រើសម្រាប់តាមដាន កត់ត្រា និងគ្រប់គ្រងដំណើរការផលិតកម្មនៅលើរោងចក្រផ្ទាល់ ចាប់ពីពេលចាប់ផ្តើមរហូតដល់បញ្ចប់ការផលិត ដើម្បីធានាប្រសិទ្ធភាពនិងគុណភាព។	ដូចជាអ្នកគ្រប់គ្រងទូទៅនៅក្នុងភោជនីយដ្ឋាន ដែលតាមដានតាំងពីការកុម្ម៉ង់ម្ហូប ការចម្អិនក្នុងផ្ទះបាយ រហូតដល់ការលើកម្ហូបជូនភ្ញៀវ។
Reward function	រូបមន្តគណិតវិទ្យានៅក្នុង AI ដែលផ្តល់ពិន្ទុ (វិជ្ជមាន ឬអវិជ្ជមាន) ទៅលើសកម្មភាពដែលម៉ូដែលបានជ្រើសរើស ដើម្បីតម្រង់ទិសវាឱ្យធ្វើសកម្មភាពដែលសម្រេចគោលដៅ (ឧ. សន្សំថាមពល) និងពិន័យពេលវាធ្វើខុស (ឧ. ទុកម៉ាស៊ីនចោលយូរ)។	ដូចជាប្រព័ន្ធដាក់ពិន្ទុនៅក្នុងហ្គេម Super Mario ដែលអ្នកលេងបានពិន្ទុពេលស៊ីកាក់ និងត្រូវខាតបង់ជីវិតពេលប៉ះសត្រូវ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖