Original Title: NETWORK-AWARE MULTI-AGENT REINFORCEMENT LEARNING FOR ADAPTIVE NAVIGATION OF VEHICLES IN A DYNAMIC ROAD NETWORK
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងពហុភ្នាក់ងារដែលដឹងពីបណ្តាញសម្រាប់ការរុករកដោយប្រែប្រួលនៃយានយន្តនៅក្នុងបណ្តាញផ្លូវសកម្ម

ចំណងជើងដើម៖ NETWORK-AWARE MULTI-AGENT REINFORCEMENT LEARNING FOR ADAPTIVE NAVIGATION OF VEHICLES IN A DYNAMIC ROAD NETWORK

អ្នកនិពន្ធ៖ Fazel Arasteh (York University)

ឆ្នាំបោះពុម្ព៖ 2021 York University

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកកស្ទះចរាចរណ៍នៅក្នុងបណ្តាញផ្លូវទីក្រុងតែងតែកើតឡើងដោយសារការពឹងផ្អែកលើក្បួនដោះស្រាយកំណត់ផ្លូវខ្លីបំផុត (Shortest Path First - SPF) ដែលមិនអាចបត់បែន និងគណនាជាមុននូវភាពប្រែប្រួលនៃស្ថានភាពចរាចរណ៍ជាក់ស្តែងបាន។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវម៉ូដែលការរៀនពង្រឹងពហុភ្នាក់ងារ (Multi-Agent Reinforcement Learning) ដែលអនុញ្ញាតឱ្យយានយន្តស្វ័យប្រវត្តិធ្វើការសម្រេចចិត្តរុករកផ្លូវដោយផ្អែកលើស្ថានភាពចរាចរណ៍ជាក់ស្តែងតាមរយៈការសហការគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Adaptive Navigation (AN - 1hop)
ការរុករកដោយប្រែប្រួលប្រើប្រាស់បណ្តាញ GAT ១ស្រទាប់
មានសមត្ថភាពខ្ពស់ក្នុងការសម្របខ្លួនទៅនឹងចរាចរណ៍ជាក់ស្តែង និងអាចឱ្យភ្នាក់ងារសហការគ្នាដើម្បីបញ្ចៀសការកកស្ទះ។ ដំណើរការប៉ាន់ស្មានផ្លូវ (Inference) មានភាពរហ័ស។ ទាមទារពេលវេលា និងធនធានកុំព្យូទ័រច្រើនសម្រាប់ការបង្វឹកម៉ូដែល (Training) និងមានភាពស្មុគស្មាញក្នុងការដំឡើង។ កាត់បន្ថយពេលវេលាធ្វើដំណើរជាមធ្យមបានល្អបំផុត (១៣៨.៤ វិនាទី លើបណ្តាញ 5x6 និង ៤៧៦.៤ វិនាទី នៅតូរ៉ុនតូ)។
Shortest Path First (SPF)
ក្បួនដោះស្រាយកំណត់ផ្លូវខ្លីបំផុត
មានភាពសាមញ្ញ ងាយស្រួលអនុវត្ត និងអាចរកផ្លូវដែលល្អបំផុតបានយ៉ាងសុក្រឹតនៅក្នុងស្ថានភាពបណ្តាញចរាចរណ៍ដែលមិនប្រែប្រួល (Static network)។ មិនអាចបត់បែនតាមស្ថានភាពចរាចរណ៍ជាក់ស្តែង ដែលនាំឱ្យយានយន្តទាំងអស់សម្រុកទៅផ្លូវតែមួយ និងបង្កើតជាការកកស្ទះធ្ងន់ធ្ងរ។ ប្រើប្រាស់ពេលវេលាធ្វើដំណើរជាមធ្យម ១៧៣.៤ វិនាទី (បណ្តាញ 5x6) និង ៥៥១.៧ វិនាទី (តូរ៉ុនតូ)។
Shortest Path First with Rerouting (SPFWR)
ការកំណត់ផ្លូវខ្លីបំផុតជាមួយនឹងការគណនាផ្លូវឡើងវិញជានិច្ច
អាចសម្របខ្លួនបានខ្លះទៅនឹងស្ថានភាពបច្ចុប្បន្ន ដោយសារវាគណនាផ្លូវឡើងវិញរាល់ពេលយានយន្តទៅដល់ផ្លូវបំបែក។ ប្រើប្រាស់ថាមពលគណនាធ្ងន់ធ្ងរខ្លាំង (ស៊ីពេល ២៣ នាទី ធៀបនឹង ៥ នាទីរបស់ AN) និងនៅតែបង្កការកកស្ទះបើផ្លូវមានទំហំតូច។ ដំណើរការល្អនៅតូរ៉ុនតូ (៤៧៥.៦ វិនាទី) ប៉ុន្តែបរាជ័យខ្លាំងនៅបណ្តាញ 5x6 (២០៥.១ វិនាទី)។
Q-routing (QR)
ការកំណត់ផ្លូវដោយប្រើ Q-Learning បែបប្រពៃណី
ជាវិធីសាស្ត្រមូលដ្ឋាននៃការរៀនពង្រឹង (Reinforcement Learning) ដែលងាយស្រួលយល់ និងធ្លាប់ទទួលបានជោគជ័យលើបណ្តាញ IP (Internet Protocol)។ មិនអាចក្តាប់បាននូវព័ត៌មាននៃការប្រែប្រួលបណ្តាញរួម ដែលតែងតែធ្វើឱ្យភ្នាក់ងារវង្វេង និងបង្កើតជាសង្វាក់វិលវល់ (Infinite loops) មិនដល់គោលដៅ។ មិនអាចបញ្ជូនយានយន្តឱ្យដល់គោលដៅទាំងអស់បានទេនៅទីក្រុងតូរ៉ុនតូ (បរាជ័យ / ចលនាវិលវល់មិនចេះចប់)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ (Hardware) ធុនធ្ងន់ និងកម្មវិធីក្លែងធ្វើចរាចរណ៍កម្រិតខ្ពស់ ដើម្បីធានាបាននូវភាពរលូនក្នុងការបង្វឹកភ្នាក់ងារ AI ច្រើនក្នុងពេលតែមួយ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយផ្អែកលើទិន្នន័យបណ្តាញផ្លូវនៅទីក្រុងតូរ៉ុនតូ (កាណាដា) និងទិន្នន័យចរាចរណ៍សិប្បនិម្មិត ដែលមានច្បាប់ចរាចរណ៍តឹងរ៉ឹងនិងស្តង់ដារ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តអាចមានការលំបាក ដោយសារចរាចរណ៍ពិតប្រាកដមានភាពស្មុគស្មាញ មានយានយន្តចម្រុះច្រើនប្រភេទ (ម៉ូតូ កង់បី) និងចលនាចរាចរណ៍ដែលមិនសូវមានសណ្តាប់ធ្នាប់តាមគន្លងផ្លូវច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមទាក់ទងនឹងរបៀបរៀបរយចរាចរណ៍ក៏ដោយ ក្បួនដោះស្រាយនេះមានសក្តានុពលខ្ពស់ក្នុងការជួយដោះស្រាយបញ្ហាកកស្ទះនៅតាមទីក្រុងធំៗរបស់កម្ពុជា។

សរុបមក វិធីសាស្ត្រនេះអាចក្លាយជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាពសម្រាប់កម្ពុជា ប្រសិនបើមានការកែច្នៃទិន្នន័យបញ្ចូល (Input data) ឱ្យស្របទៅនឹងឥរិយាបថនៃការបើកបរក្នុងស្រុក និងការតភ្ជាប់ជាមួយប្រព័ន្ធ GPS ពិតប្រាកដទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះស្តីពី Multi-Agent Reinforcement Learning (MARL): និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តី Q-Learning និងការបង្កើតភ្នាក់ងារបញ្ញាសិប្បនិម្មិត (AI Agents) ដោយប្រើប្រាស់បណ្ណាល័យ OpenAI Gym និងភាសា Python ដើម្បីយល់ពីរបៀបដែល AI ធ្វើការសម្រេចចិត្ត។
  2. ស្វែងយល់ពីបណ្តាញ Graph Attention Networks (GAT): អនុវត្តការសរសេរកូដបណ្តាញសរសៃប្រសាទប្រភេទ Graph ដោយប្រើប្រាស់ PyTorch Geometric ដើម្បីរៀនពីរបៀបទាញយកទិន្នន័យរចនាសម្ព័ន្ធផ្លូវ និងការផ្សព្វផ្សាយព័ត៌មាន (Message passing) រវាងផ្លូវបំបែក។
  3. អនុវត្តការប្រើប្រាស់កម្មវិធីក្លែងធ្វើចរាចរណ៍ SUMO: ដំឡើងកម្មវិធី Eclipse SUMO និងសិក្សាពីការប្រើប្រាស់ TraCI (Traffic Control Interface) ដើម្បីភ្ជាប់កូដ Python ទៅកាន់ប្រព័ន្ធក្លែងធ្វើចរាចរណ៍ និងបញ្ជាយានយន្តដោយស្វ័យប្រវត្តិ។
  4. ទាញយកនិងកែច្នៃទិន្នន័យផែនទីទីក្រុងភ្នំពេញ: ប្រើប្រាស់ OSM WebWizard ដើម្បីទាញយកទិន្នន័យផែនទីតំបន់ណាមួយក្នុងរាជធានីភ្នំពេញ (ឧ. តំបន់ផ្សារធំថ្មី) ហើយបង្កើតសេណារីយ៉ូចរាចរណ៍សិប្បនិម្មិតដើម្បីធ្វើជាបរិស្ថានសាកល្បង (Testbed)។
  5. អភិវឌ្ឍនិងបង្វឹកម៉ូដែលសាកល្បងខ្នាតតូច (Prototyping): បញ្ចូលចំណេះដឹងទាំង៤ចំណុចខាងលើ ដើម្បីសរសេរកូដបង្កើតម៉ូដែល MARL មួយដែលប្រើប្រាស់ GAT សម្រាប់ការរុករកផ្លូវវាង ដោយចាប់ផ្តើមសាកល្បងពីភ្នាក់ងារចំនួនតិចតួច (៥ ទៅ ១០ ផ្លូវបំបែក) រួចធ្វើការវាស់ស្ទង់លទ្ធផលធៀបនឹងក្បួនដោះស្រាយ Dijkstra (Shortest Path First)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Multi-Agent Reinforcement Learning (MARL) ការរៀនពង្រឹងពហុភ្នាក់ងារ គឺជាទម្រង់នៃបញ្ញាសិប្បនិម្មិតដែលភ្នាក់ងារ (Agents) ច្រើនធ្វើអន្តរកម្មជាមួយបរិស្ថានតែមួយ ហើយរៀនធ្វើការសម្រេចចិត្តល្អបំផុតតាមរយៈការសាកល្បងនិងការទទួលរង្វាន់ឬពិន័យ ដើម្បីសម្រេចគោលដៅរៀងៗខ្លួន ឬគោលដៅរួម។ ដូចជាក្រុមអ្នកលេងកីឡាបាល់ទាត់ដែលរៀនសហការគ្នាលើទីលាន ដោយម្នាក់ៗព្យាយាមកែតម្រូវចលនារបស់ខ្លួនដើម្បីឱ្យក្រុមទាំងមូលអាចទាត់បញ្ចូលទីបាន។
Graph Attention Networks (GAT) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលវិភាគទិន្នន័យមានរចនាសម្ព័ន្ធជាបណ្ដាញ (Graph) ដោយប្រើប្រាស់យន្តការ 'Attention' ដើម្បីវាយតម្លៃថាតើកូនចំណុច (Nodes) ជិតខាងមួយណាដែលសំខាន់ជាងគេសម្រាប់ការសម្រេចចិត្ត។ ដូចជាពេលអ្នកឈរនៅផ្លូវបំបែក ហើយសម្រេចចិត្តផ្តោតការយកចិត្តទុកដាក់សម្លឹងមើលតែផ្លូវណាដែលកំពុងកកស្ទះខ្លាំង ជាជាងមើលគ្រប់ផ្លូវស្មើៗគ្នា។
Shortest Path First (SPF) ជាក្បួនដោះស្រាយសម្រាប់ស្វែងរកផ្លូវធ្វើដំណើរដែលខ្លីជាងគេ ឬប្រើពេលតិចជាងគេបំផុតពីចំណុចមួយទៅចំណុចមួយទៀត ដោយគណនាផ្អែកលើស្ថានភាពបណ្តាញដែលមិនប្រែប្រួល (Static network)។ ដូចជាកម្មវិធីផែនទីដែលតែងតែប្រាប់អ្នកឱ្យជិះតាមផ្លូវកាត់ ទោះបីជាពេលខ្លះអ្នកគ្រប់គ្នានាំគ្នាសម្រុកទៅផ្លូវកាត់នោះរហូតដល់កកស្ទះក៏ដោយ។
Q-Learning ជាក្បួនដោះស្រាយមូលដ្ឋាននៃការរៀនពង្រឹង (Reinforcement Learning) ដែលភ្នាក់ងារ AI រៀនវាយតម្លៃគុណភាព (Q-value) នៃជម្រើសនីមួយៗក្នុងស្ថានភាពជាក់លាក់មួយ ដើម្បីដឹងថាជម្រើសណាផ្តល់លទ្ធផលល្អបំផុតនៅពេលអនាគត។ ដូចជាការចងចាំរបស់អ្នករាល់ពេលសាកល្បងញ៉ាំម្ហូបនៅហាងថ្មីៗ បើហាងណាធ្វើឆ្ងាញ់អ្នកនឹងឱ្យពិន្ទុខ្ពស់ ហើយលើកក្រោយអ្នកនឹងជ្រើសរើសហាងនោះទៀត។
Z-order Curve ជាក្បួនគណិតវិទ្យាក្នុងការបំប្លែងទិន្នន័យដែលមានវិមាត្រច្រើន (ឧទាហរណ៍ កូអរដោនេផែនទី 2D) ទៅជាទិន្នន័យខ្សែត្រង់១វិមាត្រ (1D Array) ដោយនៅតែរក្សាបាននូវភាពជិតគ្នានៃទីតាំងភូមិសាស្ត្រដើម។ ដូចជាការយកអំបោះវែងមួយខ្សែមកតម្រៀបរុំបត់ចុះឡើងៗឱ្យចេញជារូបរាងការ៉េ ដើម្បីឱ្យចំណុចដែលនៅក្បែរគ្នាក្នុងការ៉េនោះ ក៏នៅក្បែរគ្នានៅលើខ្សែអំបោះដែរ។
Locality of Access លក្ខណៈនៃបណ្តាញភូមិសាស្ត្រដែលចង្អុលបង្ហាញថា គោលដៅដែលនៅជិតគ្នាតាមរយៈគម្លាតភូមិសាស្ត្រ តែងតែទាមទារការព្យាករណ៍រយៈពេលធ្វើដំណើរស្រដៀងគ្នា ឬការជ្រើសរើសផ្លូវស្រដៀងគ្នា។ ដូចជាគោលការណ៍ដែលថា បើអ្នកចង់ទៅផ្សារធំថ្មី ឬទៅសូរិយាម៉លពីកន្លែងតែមួយ អ្នកប្រហែលជាត្រូវជិះតាមផ្លូវតែមួយភាគច្រើន ព្រោះទីតាំងទាំងពីរនៅក្បែរគ្នា។
Connected Autonomous Vehicles (CAVs) យានយន្តដែលបើកបរដោយស្វ័យប្រវត្តិបញ្ជាដោយប្រព័ន្ធកុំព្យូទ័រ និងមានសមត្ថភាពភ្ជាប់ទំនាក់ទំនងផ្លាស់ប្តូរទិន្នន័យជាមួយយានយន្តដទៃទៀត ឬប្រព័ន្ធបញ្ជាចរាចរណ៍កណ្តាលតាមរយៈបណ្តាញឥតខ្សែ។ ដូចជារថយន្តដែលមានខួរក្បាលឆ្លាតវៃអាចបើកបរដោយខ្លួនឯង ហើយថែមទាំងចេះតេប្រាប់ឡានខាងមុខពីស្ថានភាពផ្លូវបានទៀតផង។
Experience Replay Memory ជាយន្តការមួយនៅក្នុងបញ្ញាសិប្បនិម្មិត ដែលម៉ូដែលរក្សាទុកនូវបទពិសោធន៍ចាស់ៗ (សកម្មភាព លទ្ធផល និងរង្វាន់) រួចទាញយកបទពិសោធន៍ទាំងនោះមកហ្វឹកហាត់ម្តងហើយម្តងទៀតដើម្បីកែលម្អការសម្រេចចិត្ត។ ដូចជាសិស្សដែលកត់ត្រាកំហុសរាល់ពេលធ្វើលំហាត់ រួចយកសៀវភៅកត់ត្រានោះមកអានរំលឹកសារចុះសារឡើងដើម្បីកុំឱ្យខុសនៅពេលប្រឡង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖