Original Title: NETWORK-AWARE MULTI-AGENT REINFORCEMENT LEARNING FOR ADAPTIVE NAVIGATION OF VEHICLES IN A DYNAMIC ROAD NETWORK
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងពហុភ្នាក់ងារដែលដឹងពីបណ្តាញសម្រាប់ការរុករកដោយប្រែប្រួលនៃយានយន្តនៅក្នុងបណ្តាញផ្លូវសកម្ម

ចំណងជើងដើម៖ NETWORK-AWARE MULTI-AGENT REINFORCEMENT LEARNING FOR ADAPTIVE NAVIGATION OF VEHICLES IN A DYNAMIC ROAD NETWORK

អ្នកនិពន្ធ៖ Fazel Arasteh (York University)

ឆ្នាំបោះពុម្ព៖ 2021 York University

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកកស្ទះចរាចរណ៍នៅក្នុងបណ្តាញផ្លូវទីក្រុងតែងតែកើតឡើងដោយសារការពឹងផ្អែកលើក្បួនដោះស្រាយកំណត់ផ្លូវខ្លីបំផុត (Shortest Path First - SPF) ដែលមិនអាចបត់បែន និងគណនាជាមុននូវភាពប្រែប្រួលនៃស្ថានភាពចរាចរណ៍ជាក់ស្តែងបាន។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវម៉ូដែលការរៀនពង្រឹងពហុភ្នាក់ងារ (Multi-Agent Reinforcement Learning) ដែលអនុញ្ញាតឱ្យយានយន្តស្វ័យប្រវត្តិធ្វើការសម្រេចចិត្តរុករកផ្លូវដោយផ្អែកលើស្ថានភាពចរាចរណ៍ជាក់ស្តែងតាមរយៈការសហការគ្នា។

ការប្រើប្រាស់ភ្នាក់ងារ Q-Learning (Q-Learning agents) ប្រចាំនៅតាមផ្លូវបំបែកនីមួយៗដើម្បីធ្វើជាអ្នកផ្តល់ការណែនាំផ្លូវ (Router agents)
ការអនុវត្តបណ្តាញ Graph Attention Networks (GAT) ដើម្បីប្រមូលផ្តុំ និងវិភាគស្ថានភាពបណ្តាញចរាចរណ៍នៅតំបន់ជុំវិញភ្នាក់ងារនីមួយៗ
ការប្រើប្រាស់វិធីសាស្ត្រខ្សែកោង Z-order (Z-order curve space-filling filter) ដើម្បីរក្សាទុកទីតាំងភូមិសាស្ត្រសម្រាប់ការរុករកផ្លូវប្រកបដោយប្រសិទ្ធភាពខ្ពស់

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល MARL ដែលបានស្នើឡើងអាចកាត់បន្ថយពេលវេលាធ្វើដំណើរជាមធ្យមបានរហូតដល់ 17.3% បើប្រៀបធៀបទៅនឹងក្បួនដោះស្រាយ SPF ជាប្រពៃណីទាំងលើបណ្តាញផ្លូវសិប្បនិម្មិត និងផ្លូវពិតប្រាកដ។
ការបញ្ចូលបណ្តាញ GAT បានបង្ហាញពីសមត្ថភាពក្នុងការទាញយកលំនាំនៃការយកចិត្តទុកដាក់ (Attention patterns) ដែលជួយឱ្យភ្នាក់ងារធ្វើការសម្រេចចិត្តបានត្រឹមត្រូវទៅលើស្ថានភាពផ្លូវកកស្ទះ។
វិធីសាស្ត្ររក្សាទុកទីតាំងនៃការចូលដំណើរការ (Locality of access preservation) ជួយឱ្យភ្នាក់ងារស្វែងរកជម្រើសផ្លូវដែលល្អបំផុតដោយកាត់បន្ថយទំហំស្វែងរកនៃទិន្នន័យស្មុគស្មាញ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Adaptive Navigation (AN - 1hop) ការរុករកដោយប្រែប្រួលប្រើប្រាស់បណ្តាញ GAT ១ស្រទាប់	មានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងចរាចរណ៍ជាក់ស្តែង និងអាចឱ្យភ្នាក់ងារសហការគ្នាដើម្បីបញ្ចៀសការកកស្ទះ។ ដំណើរការប៉ាន់ស្មានផ្លូវ (Inference) មានភាពរហ័ស។	ទាមទារពេលវេលា និងធនធានកុំព្យូទ័រច្រើនសម្រាប់ការបង្វឹកម៉ូដែល (Training) និងមានភាពស្មុគស្មាញក្នុងការដំឡើង។	កាត់បន្ថយពេលវេលាធ្វើដំណើរជាមធ្យមបានល្អបំផុត (១៣៨.៤ វិនាទី លើបណ្តាញ 5x6 និង ៤៧៦.៤ វិនាទី នៅតូរ៉ុនតូ)។
Shortest Path First (SPF) ក្បួនដោះស្រាយកំណត់ផ្លូវខ្លីបំផុត	មានភាពសាមញ្ញ ងាយស្រួលអនុវត្ត និងអាចរកផ្លូវដែលល្អបំផុតបានយ៉ាងសុក្រឹតនៅក្នុងស្ថានភាពបណ្តាញចរាចរណ៍ដែលមិនប្រែប្រួល (Static network)។	មិនអាចបត់បែនតាមស្ថានភាពចរាចរណ៍ជាក់ស្តែង ដែលនាំឱ្យយានយន្តទាំងអស់សម្រុកទៅផ្លូវតែមួយ និងបង្កើតជាការកកស្ទះធ្ងន់ធ្ងរ។	ប្រើប្រាស់ពេលវេលាធ្វើដំណើរជាមធ្យម ១៧៣.៤ វិនាទី (បណ្តាញ 5x6) និង ៥៥១.៧ វិនាទី (តូរ៉ុនតូ)។
Shortest Path First with Rerouting (SPFWR) ការកំណត់ផ្លូវខ្លីបំផុតជាមួយនឹងការគណនាផ្លូវឡើងវិញជានិច្ច	អាចសម្របខ្លួនបានខ្លះទៅនឹងស្ថានភាពបច្ចុប្បន្ន ដោយសារវាគណនាផ្លូវឡើងវិញរាល់ពេលយានយន្តទៅដល់ផ្លូវបំបែក។	ប្រើប្រាស់ថាមពលគណនាធ្ងន់ធ្ងរខ្លាំង (ស៊ីពេល ២៣ នាទី ធៀបនឹង ៥ នាទីរបស់ AN) និងនៅតែបង្កការកកស្ទះបើផ្លូវមានទំហំតូច។	ដំណើរការល្អនៅតូរ៉ុនតូ (៤៧៥.៦ វិនាទី) ប៉ុន្តែបរាជ័យខ្លាំងនៅបណ្តាញ 5x6 (២០៥.១ វិនាទី)។
Q-routing (QR) ការកំណត់ផ្លូវដោយប្រើ Q-Learning បែបប្រពៃណី	ជាវិធីសាស្ត្រមូលដ្ឋាននៃការរៀនពង្រឹង (Reinforcement Learning) ដែលងាយស្រួលយល់ និងធ្លាប់ទទួលបានជោគជ័យលើបណ្តាញ IP (Internet Protocol)។	មិនអាចក្តាប់បាននូវព័ត៌មាននៃការប្រែប្រួលបណ្តាញរួម ដែលតែងតែធ្វើឱ្យភ្នាក់ងារវង្វេង និងបង្កើតជាសង្វាក់វិលវល់ (Infinite loops) មិនដល់គោលដៅ។	មិនអាចបញ្ជូនយានយន្តឱ្យដល់គោលដៅទាំងអស់បានទេនៅទីក្រុងតូរ៉ុនតូ (បរាជ័យ / ចលនាវិលវល់មិនចេះចប់)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ (Hardware) ធុនធ្ងន់ និងកម្មវិធីក្លែងធ្វើចរាចរណ៍កម្រិតខ្ពស់ ដើម្បីធានាបាននូវភាពរលូនក្នុងការបង្វឹកភ្នាក់ងារ AI ច្រើនក្នុងពេលតែមួយ។

Hardware: ម៉ាស៊ីន Server ដែលមាន CPU ខ្លាំង (2 x Intel Xeon E5-2687W) RAM ទំហំធំ (8 x 64 GB) និងក្រាហ្វិកកាតចំនួនច្រើន (8 x NVIDIA GTX 1080Ti 11GB) សម្រាប់ដំណើរការ Deep Learning។
Software: កម្មវិធីក្លែងធ្វើចរាចរណ៍កម្រិតមីក្រូសូកុប Eclipse SUMO និងបណ្ណាល័យកូដ Python (TraCI, PyTorch) សម្រាប់បង្កើតបរិស្ថាន MARL។
Dataset: ទិន្នន័យផែនទីផ្លូវពិតប្រាកដពី OpenStreetMap (OSM) រួមបញ្ចូលជាមួយចរាចរណ៍សិប្បនិម្មិតដែលបង្កើតឡើងដោយកម្មវិធីសាកល្បង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយផ្អែកលើទិន្នន័យបណ្តាញផ្លូវនៅទីក្រុងតូរ៉ុនតូ (កាណាដា) និងទិន្នន័យចរាចរណ៍សិប្បនិម្មិត ដែលមានច្បាប់ចរាចរណ៍តឹងរ៉ឹងនិងស្តង់ដារ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តអាចមានការលំបាក ដោយសារចរាចរណ៍ពិតប្រាកដមានភាពស្មុគស្មាញ មានយានយន្តចម្រុះច្រើនប្រភេទ (ម៉ូតូ កង់បី) និងចលនាចរាចរណ៍ដែលមិនសូវមានសណ្តាប់ធ្នាប់តាមគន្លងផ្លូវច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមទាក់ទងនឹងរបៀបរៀបរយចរាចរណ៍ក៏ដោយ ក្បួនដោះស្រាយនេះមានសក្តានុពលខ្ពស់ក្នុងការជួយដោះស្រាយបញ្ហាកកស្ទះនៅតាមទីក្រុងធំៗរបស់កម្ពុជា។

ប្រព័ន្ធគ្រប់គ្រងចរាចរណ៍ឆ្លាតវៃនៅរាជធានីភ្នំពេញ (Smart Traffic Management): អាចត្រូវបានធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធភ្លើងស្តុបឆ្លាតវៃនៅភ្នំពេញ ដើម្បីផ្តល់ការណែនាំផ្លូវវាងដោយស្វ័យប្រវត្តិដល់អ្នកបើកបរពេលមានការកកស្ទះខ្លាំងនៅតំបន់ផ្លូវព្រះមុនីវង្ស ឬផ្លូវសហព័ន្ធរុស្ស៊ី។
ក្រុមហ៊ុនដឹកជញ្ជូន និងភស្តុភារ (Logistics & Ride-Hailing): ក្រុមហ៊ុនដូចជា Nham24, Grab ឬ Virak Buntham អាចប្រើយន្តការនេះដើម្បីបែងចែកផ្លូវធ្វើដំណើរដល់អ្នកដឹកជញ្ជូនរាប់ពាន់នាក់ក្នុងពេលតែមួយ ដើម្បីបញ្ចៀសកុំឱ្យពួកគេជិះកកស្ទះនៅផ្លូវតែមួយ។
ប្រព័ន្ធដឹកជញ្ជូនសាធារណៈស្វ័យប្រវត្តិ (Future Public Transit): អាចប្រើប្រាស់សម្រាប់ការស្រាវជ្រាវត្រួសត្រាយផ្លូវរៀបចំបណ្តាញរថយន្តក្រុងសាធារណៈ ឬរថយន្តស្វ័យប្រវត្តិ (Autonomous Vehicles) នាពេលអនាគតនៅក្នុងតំបន់អភិវឌ្ឍន៍ថ្មីៗដូចជាក្រុងព្រះសីហនុ។

សរុបមក វិធីសាស្ត្រនេះអាចក្លាយជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាពសម្រាប់កម្ពុជា ប្រសិនបើមានការកែច្នៃទិន្នន័យបញ្ចូល (Input data) ឱ្យស្របទៅនឹងឥរិយាបថនៃការបើកបរក្នុងស្រុក និងការតភ្ជាប់ជាមួយប្រព័ន្ធ GPS ពិតប្រាកដទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះស្តីពី Multi-Agent Reinforcement Learning (MARL): និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តី Q-Learning និងការបង្កើតភ្នាក់ងារបញ្ញាសិប្បនិម្មិត (AI Agents) ដោយប្រើប្រាស់បណ្ណាល័យ OpenAI Gym និងភាសា Python ដើម្បីយល់ពីរបៀបដែល AI ធ្វើការសម្រេចចិត្ត។
ស្វែងយល់ពីបណ្តាញ Graph Attention Networks (GAT): អនុវត្តការសរសេរកូដបណ្តាញសរសៃប្រសាទប្រភេទ Graph ដោយប្រើប្រាស់ PyTorch Geometric ដើម្បីរៀនពីរបៀបទាញយកទិន្នន័យរចនាសម្ព័ន្ធផ្លូវ និងការផ្សព្វផ្សាយព័ត៌មាន (Message passing) រវាងផ្លូវបំបែក។
អនុវត្តការប្រើប្រាស់កម្មវិធីក្លែងធ្វើចរាចរណ៍ SUMO: ដំឡើងកម្មវិធី Eclipse SUMO និងសិក្សាពីការប្រើប្រាស់ TraCI (Traffic Control Interface) ដើម្បីភ្ជាប់កូដ Python ទៅកាន់ប្រព័ន្ធក្លែងធ្វើចរាចរណ៍ និងបញ្ជាយានយន្តដោយស្វ័យប្រវត្តិ។
ទាញយកនិងកែច្នៃទិន្នន័យផែនទីទីក្រុងភ្នំពេញ: ប្រើប្រាស់ OSM WebWizard ដើម្បីទាញយកទិន្នន័យផែនទីតំបន់ណាមួយក្នុងរាជធានីភ្នំពេញ (ឧ. តំបន់ផ្សារធំថ្មី) ហើយបង្កើតសេណារីយ៉ូចរាចរណ៍សិប្បនិម្មិតដើម្បីធ្វើជាបរិស្ថានសាកល្បង (Testbed)។
អភិវឌ្ឍនិងបង្វឹកម៉ូដែលសាកល្បងខ្នាតតូច (Prototyping): បញ្ចូលចំណេះដឹងទាំង៤ចំណុចខាងលើ ដើម្បីសរសេរកូដបង្កើតម៉ូដែល MARL មួយដែលប្រើប្រាស់ GAT សម្រាប់ការរុករកផ្លូវវាង ដោយចាប់ផ្តើមសាកល្បងពីភ្នាក់ងារចំនួនតិចតួច (៥ ទៅ ១០ ផ្លូវបំបែក) រួចធ្វើការវាស់ស្ទង់លទ្ធផលធៀបនឹងក្បួនដោះស្រាយ Dijkstra (Shortest Path First)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Multi-Agent Reinforcement Learning (MARL)	ការរៀនពង្រឹងពហុភ្នាក់ងារ គឺជាទម្រង់នៃបញ្ញាសិប្បនិម្មិតដែលភ្នាក់ងារ (Agents) ច្រើនធ្វើអន្តរកម្មជាមួយបរិស្ថានតែមួយ ហើយរៀនធ្វើការសម្រេចចិត្តល្អបំផុតតាមរយៈការសាកល្បងនិងការទទួលរង្វាន់ឬពិន័យ ដើម្បីសម្រេចគោលដៅរៀងៗខ្លួន ឬគោលដៅរួម។	ដូចជាក្រុមអ្នកលេងកីឡាបាល់ទាត់ដែលរៀនសហការគ្នាលើទីលាន ដោយម្នាក់ៗព្យាយាមកែតម្រូវចលនារបស់ខ្លួនដើម្បីឱ្យក្រុមទាំងមូលអាចទាត់បញ្ចូលទីបាន។
Graph Attention Networks (GAT)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលវិភាគទិន្នន័យមានរចនាសម្ព័ន្ធជាបណ្ដាញ (Graph) ដោយប្រើប្រាស់យន្តការ 'Attention' ដើម្បីវាយតម្លៃថាតើកូនចំណុច (Nodes) ជិតខាងមួយណាដែលសំខាន់ជាងគេសម្រាប់ការសម្រេចចិត្ត។	ដូចជាពេលអ្នកឈរនៅផ្លូវបំបែក ហើយសម្រេចចិត្តផ្តោតការយកចិត្តទុកដាក់សម្លឹងមើលតែផ្លូវណាដែលកំពុងកកស្ទះខ្លាំង ជាជាងមើលគ្រប់ផ្លូវស្មើៗគ្នា។
Shortest Path First (SPF)	ជាក្បួនដោះស្រាយសម្រាប់ស្វែងរកផ្លូវធ្វើដំណើរដែលខ្លីជាងគេ ឬប្រើពេលតិចជាងគេបំផុតពីចំណុចមួយទៅចំណុចមួយទៀត ដោយគណនាផ្អែកលើស្ថានភាពបណ្តាញដែលមិនប្រែប្រួល (Static network)។	ដូចជាកម្មវិធីផែនទីដែលតែងតែប្រាប់អ្នកឱ្យជិះតាមផ្លូវកាត់ ទោះបីជាពេលខ្លះអ្នកគ្រប់គ្នានាំគ្នាសម្រុកទៅផ្លូវកាត់នោះរហូតដល់កកស្ទះក៏ដោយ។
Q-Learning	ជាក្បួនដោះស្រាយមូលដ្ឋាននៃការរៀនពង្រឹង (Reinforcement Learning) ដែលភ្នាក់ងារ AI រៀនវាយតម្លៃគុណភាព (Q-value) នៃជម្រើសនីមួយៗក្នុងស្ថានភាពជាក់លាក់មួយ ដើម្បីដឹងថាជម្រើសណាផ្តល់លទ្ធផលល្អបំផុតនៅពេលអនាគត។	ដូចជាការចងចាំរបស់អ្នករាល់ពេលសាកល្បងញ៉ាំម្ហូបនៅហាងថ្មីៗ បើហាងណាធ្វើឆ្ងាញ់អ្នកនឹងឱ្យពិន្ទុខ្ពស់ ហើយលើកក្រោយអ្នកនឹងជ្រើសរើសហាងនោះទៀត។
Z-order Curve	ជាក្បួនគណិតវិទ្យាក្នុងការបំប្លែងទិន្នន័យដែលមានវិមាត្រច្រើន (ឧទាហរណ៍ កូអរដោនេផែនទី 2D) ទៅជាទិន្នន័យខ្សែត្រង់១វិមាត្រ (1D Array) ដោយនៅតែរក្សាបាននូវភាពជិតគ្នានៃទីតាំងភូមិសាស្ត្រដើម។	ដូចជាការយកអំបោះវែងមួយខ្សែមកតម្រៀបរុំបត់ចុះឡើងៗឱ្យចេញជារូបរាងការ៉េ ដើម្បីឱ្យចំណុចដែលនៅក្បែរគ្នាក្នុងការ៉េនោះ ក៏នៅក្បែរគ្នានៅលើខ្សែអំបោះដែរ។
Locality of Access	លក្ខណៈនៃបណ្តាញភូមិសាស្ត្រដែលចង្អុលបង្ហាញថា គោលដៅដែលនៅជិតគ្នាតាមរយៈគម្លាតភូមិសាស្ត្រ តែងតែទាមទារការព្យាករណ៍រយៈពេលធ្វើដំណើរស្រដៀងគ្នា ឬការជ្រើសរើសផ្លូវស្រដៀងគ្នា។	ដូចជាគោលការណ៍ដែលថា បើអ្នកចង់ទៅផ្សារធំថ្មី ឬទៅសូរិយាម៉លពីកន្លែងតែមួយ អ្នកប្រហែលជាត្រូវជិះតាមផ្លូវតែមួយភាគច្រើន ព្រោះទីតាំងទាំងពីរនៅក្បែរគ្នា។
Connected Autonomous Vehicles (CAVs)	យានយន្តដែលបើកបរដោយស្វ័យប្រវត្តិបញ្ជាដោយប្រព័ន្ធកុំព្យូទ័រ និងមានសមត្ថភាពភ្ជាប់ទំនាក់ទំនងផ្លាស់ប្តូរទិន្នន័យជាមួយយានយន្តដទៃទៀត ឬប្រព័ន្ធបញ្ជាចរាចរណ៍កណ្តាលតាមរយៈបណ្តាញឥតខ្សែ។	ដូចជារថយន្តដែលមានខួរក្បាលឆ្លាតវៃអាចបើកបរដោយខ្លួនឯង ហើយថែមទាំងចេះតេប្រាប់ឡានខាងមុខពីស្ថានភាពផ្លូវបានទៀតផង។
Experience Replay Memory	ជាយន្តការមួយនៅក្នុងបញ្ញាសិប្បនិម្មិត ដែលម៉ូដែលរក្សាទុកនូវបទពិសោធន៍ចាស់ៗ (សកម្មភាព លទ្ធផល និងរង្វាន់) រួចទាញយកបទពិសោធន៍ទាំងនោះមកហ្វឹកហាត់ម្តងហើយម្តងទៀតដើម្បីកែលម្អការសម្រេចចិត្ត។	ដូចជាសិស្សដែលកត់ត្រាកំហុសរាល់ពេលធ្វើលំហាត់ រួចយកសៀវភៅកត់ត្រានោះមកអានរំលឹកសារចុះសារឡើងដើម្បីកុំឱ្យខុសនៅពេលប្រឡង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖