Original Title: A Graph Based Hybrid Approach to Injury Severity Prediction in Road Accidents Using Deep Learning
Source: doi.org/10.70389/PJS.100131
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

អភិក្រមចម្រុះផ្អែកលើក្រាហ្វសម្រាប់ការទស្សន៍ទាយកម្រិតភាពធ្ងន់ធ្ងរនៃរបួសក្នុងគ្រោះថ្នាក់ចរាចរណ៍ដោយប្រើប្រាស់ Deep Learning

ចំណងជើងដើម៖ A Graph Based Hybrid Approach to Injury Severity Prediction in Road Accidents Using Deep Learning

អ្នកនិពន្ធ៖ Jyoti B. Bhosale (Government College of Engineering, Karad, Maharashtra, India), Bhushan S. Yelure (Government College of Engineering, Karad, Maharashtra, India)

ឆ្នាំបោះពុម្ព៖ 2025 Premier Journal of Science

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ គ្រោះថ្នាក់ចរាចរណ៍នៅតែជាបញ្ហាសកលដ៏ធំដែលបណ្តាលឱ្យមានអ្នកស្លាប់និងរបួសជាច្រើន ហើយម៉ូដែលស្ថិតិប្រពៃណីមានការលំបាកក្នុងការចាប់យកទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងកត្តាផ្សេងៗដែលបណ្តាលឱ្យមានគ្រោះថ្នាក់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែលបញ្ញាសិប្បនិម្មិតចម្រុះ (Hybrid AI Model) ដោយរួមបញ្ចូលបច្ចេកវិទ្យា Graph Neural Networks (GNNs) ជាមួយចំណាត់ថ្នាក់អង់សំបល (Ensemble Classifiers) និងបច្ចេកទេសពន្យល់ (Explainable AI) ដើម្បីវិភាគទិន្នន័យគ្រោះថ្នាក់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Hybrid Model (GNN + Random Forest)
ម៉ូដែលចម្រុះរួមបញ្ចូលបណ្តាញសរសៃប្រសាទក្រាហ្វ និង Random Forest
មានសមត្ថភាពចាប់យកទំនាក់ទំនងរវាងកត្តាគ្រោះថ្នាក់ (Relational context) តាមរយៈ GNN និងផ្តល់នូវភាពរឹងមាំក្នុងការធ្វើចំណាត់ថ្នាក់តាមរយៈ Random Forest។ មានកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុត។ ទាមទារដំណើរការរៀបចំទិន្នន័យស្មុគស្មាញ (ការបំលែងទិន្នន័យតារាងទៅជាទម្រង់ក្រាហ្វ kNN) និងប្រើប្រាស់ធនធានកុំព្យូទ័រច្រើនជាងម៉ូដែលទូទៅ។ សម្រេចបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៤,២០% និង Macro-F1 ៩៣,៧៥%។
Standalone GNN (GraphSAGE)
ម៉ូដែលបណ្តាញសរសៃប្រសាទក្រាហ្វតែឯង
អាចទាញយកបរិបទនិងទំនាក់ទំនងរវាងករណីគ្រោះថ្នាក់នីមួយៗ (Spatial learning capabilities) បានយ៉ាងល្អ។ ខ្វះសមត្ថភាពក្នុងការធ្វើចំណាត់ថ្នាក់ច្បាស់លាស់នៅពេលប្រើតែឯង ដែលនាំឱ្យមានភាពត្រឹមត្រូវទាប និងងាយទទួលរងនូវភាពលំអៀង។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុតត្រឹមតែ ៧៤,៨០% ប៉ុណ្ណោះ។
Random Forest (RF)
ម៉ូដែលដើមឈើសម្រេចចិត្តអង់សំបល (Random Forest)
ដំណើរការបានល្អលើទិន្នន័យតារាង (Tabular Data) ងាយស្រួលក្នុងការទាញយកកត្តាសំខាន់ៗ និងមានស្ថិរភាព។ មិនអាចចាប់យកទំនាក់ទំនងរវាងសំណុំទិន្នន័យនីមួយៗបាន (No relational context learning) ដូចបច្ចេកវិទ្យាក្រាហ្វឡើយ។ ទទួលបានភាពត្រឹមត្រូវ ៩០,៦៤% (ល្អបង្គួរតែនៅចាញ់ម៉ូដែលចម្រុះ)។
XGBoost
ម៉ូដែលបង្កើនកម្រិតអង់សំបល (Extreme Gradient Boosting)
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនពីកំហុសរបស់ដើមឈើមុនៗ និងមានល្បឿនលឿនក្នុងការទស្សន៍ទាយលើទិន្នន័យដែលមានទំហំធំ។ ងាយនឹងជួបបញ្ហា Overfitting ប្រសិនបើមិនបានកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានត្រឹមត្រូវ និងមិនមានសមត្ថភាពវិភាគក្រាហ្វ។ ទទួលបានភាពត្រឹមត្រូវ ៩១,១០%។
SVM (Support Vector Machine)
ម៉ូដែល Support Vector Machine
មានប្រសិទ្ធភាពក្នុងការបែងចែកទិន្នន័យទូទៅ និងស្វែងរកបន្ទាត់ព្រំដែនច្បាស់លាស់រវាងថ្នាក់ទិន្នន័យ។ មានការលំបាកក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យដែលមានលក្ខណៈស្មុគស្មាញ (Non-linear interactions)។ ទទួលបានភាពត្រឹមត្រូវ ៨៩,១៥%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងផ្នែកទន់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល ដែលទាមទារកុំព្យូទ័រមានកម្លាំងមធ្យមទៅខ្ពស់ ប៉ុន្តែមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការដាក់ពង្រាយប្រើប្រាស់ផ្ទាល់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យគ្រោះថ្នាក់ចរាចរណ៍ពីចក្រភពអង់គ្លេស (UK) ចន្លោះឆ្នាំ ២០១១-២០១៦ តែមួយគត់។ ស្ថានភាពហេដ្ឋារចនាសម្ព័ន្ធផ្លូវថ្នល់ អាកាសធាតុ លក្ខណៈយានយន្ត និងច្បាប់ចរាចរណ៍នៅអង់គ្លេសមានភាពខុសគ្នាស្រឡះពីប្រទេសកម្ពុជា។ សម្រាប់កម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តចំៗនឹងមិនមានប្រសិទ្ធភាពឡើយ លុះត្រាតែមានការប្រមូលទិន្នន័យក្នុងស្រុកឱ្យបានច្បាស់លាស់ជាមុនសិន ដើម្បីជៀសវាងភាពលំអៀងនិងធានាបាននូវភាពត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីត្បិតតែទិន្នន័យដើមមកពីបរទេស ប៉ុន្តែវិធីសាស្ត្រ GNN+RF និង Explainable AI នេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ជួយពង្រឹងសុវត្ថិភាពចរាចរណ៍នៅកម្ពុជា។

ជារួម បច្ចេកវិទ្យានេះអាចក្លាយជាឧបករណ៍ដ៏មានអានុភាពសម្រាប់កម្ពុជាក្នុងការកាត់បន្ថយអត្រាស្លាប់និងរបួសដោយគ្រោះថ្នាក់ចរាចរណ៍ ប៉ុន្តែទាមទារឱ្យរាជរដ្ឋាភិបាលធ្វើទំនើបកម្មប្រព័ន្ធកត់ត្រាទិន្នន័យចរាចរណ៍ឌីជីថល (Digital Crash Records) ជាបន្ទាន់សិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Graph Neural Networks (GNNs): ស្វែងយល់ពីរបៀបបំលែងទិន្នន័យតារាងទៅជាទម្រង់ក្រាហ្វ (kNN graphs) និងរៀនពីស្ថាបត្យកម្ម GraphSAGE ដោយអនុវត្តផ្ទាល់ជាមួយបណ្ណាល័យ PyTorch Geometric លើ Python។
  2. អនុវត្តបច្ចេកទេសកាត់បន្ថយអតុល្យភាពទិន្នន័យ (Data Resampling): ទិន្នន័យគ្រោះថ្នាក់ច្រើនតែមានករណីស្រាលច្រើនជាងករណីធ្ងន់ធ្ងរ។ និស្សិតត្រូវរៀនប្រើប្រាស់វិធីសាស្ត្រ SMOTE និងបច្ចេកទេស PCA នៅក្នុង scikit-learn ដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពមុននឹងបង្ហាត់ម៉ូដែល។
  3. បង្កើតម៉ូដែលចម្រុះ (Hybrid Ensemble Development): អនុវត្តការរួមបញ្ចូលគ្នារវាងការទាញយកលក្ខណៈទិន្នន័យពី GNN ជាមួយនិង Machine Learning ធម្មតាដោយប្រើប្រាស់ Random ForestXGBoost ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយលើសំណុំទិន្នន័យគំរូ។
  4. បកស្រាយលទ្ធផលម៉ូដែលជាមួយ Explainable AI (XAI): ដើម្បីឱ្យភាគីពាក់ព័ន្ធជឿទុកចិត្តលទ្ធផលម៉ូដែល អ្នកត្រូវចេះប្រើប្រាស់បណ្ណាល័យ SHAP ដើម្បីគូសក្រាហ្វពន្យល់ពីឥទ្ធិពលនៃកត្តានីមួយៗ (ដូចជាអាយុ ឬអាកាសធាតុ) ទៅលើកម្រិតនៃគ្រោះថ្នាក់។
  5. ចូលរួមប្រមូលនិងធ្វើស្តង់ដារទិន្នន័យចរាចរណ៍ក្នុងស្រុក: សហការជាក្រុមដើម្បីបង្កើតគម្រោងប្រមូលទិន្នន័យចរាចរណ៍ខ្នាតតូចនៅកម្ពុជា (Data Scraping ឬ Survey) ដោយរៀបចំជាទម្រង់ CSV ដែលមានទម្រង់ច្បាស់លាស់ ដើម្បីសាកល្បងដំណើរការម៉ូដែលនេះនៅក្នុងបរិបទជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Graph Neural Networks (GNNs) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងដើម្បីដំណើរការទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ ដោយផ្តោតលើការទាញយកទំនាក់ទំនងនិងអន្តរកម្មរវាងចំណុចទិន្នន័យនីមួយៗ (Nodes) ជាមួយចំណុចទិន្នន័យដទៃទៀតដែលនៅក្បែរវា។ វាប្រៀបដូចជាការវាយតម្លៃអត្តចរិតរបស់មនុស្សម្នាក់ដោយមើលលើមិត្តភក្តិជុំវិញខ្លួនរបស់គេ ជំនួសឱ្យការមើលតែលើបុគ្គលនោះម្នាក់ឯង។
GraphSAGE ជាប្រភេទមួយនៃ GNN ដែលអាចរៀនពីរបៀបទាញយកព័ត៌មាននិងសង្ខេបលក្ខណៈទិន្នន័យពីចំណុចក្បែរៗ (Neighborhood aggregation) ដើម្បីធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីៗដែលម៉ូដែលមិនធ្លាប់ជួបពីមុនមក។ ដូចជាអ្នកកាសែតដែលចុះទៅសួរព័ត៌មានពីអ្នកជិតខាងជុំវិញ ដើម្បីទាញការសន្និដ្ឋានពីប្រវត្តិរបស់អ្នកចំណូលថ្មីនៅក្នុងភូមិ។
Principal Component Analysis (PCA) ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់បំប្លែងទិន្នន័យ ដែលជួយកាត់បន្ថយទំហំ ឬចំនួនអថេរនៃទិន្នន័យដ៏ស្មុគស្មាញ ប៉ុន្តែនៅតែរក្សាទុកនូវលក្ខណៈសំខាន់ៗបំផុតរបស់វា ដើម្បីឱ្យម៉ូដែល AI ដំណើរការបានលឿននិងមិនសូវប្រើប្រាស់អង្គចងចាំច្រើន។ ប្រៀបដូចជាការសង្ខេបសៀវភៅក្រាស់មួយក្បាលឱ្យនៅសល់តែ៣ទំព័រ ប៉ុន្តែនៅតែរក្សាបាននូវអត្ថន័យសំខាន់ៗទាំងអស់នៃសាច់រឿង។
SMOTE តំណាងឱ្យ Synthetic Minority Oversampling Technique ជាវិធីសាស្ត្រក្នុងការដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព ដោយវាបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីៗសម្រាប់ក្រុមដែលមានចំនួនតិច (ឧ. ករណីគ្រោះថ្នាក់ធ្ងន់ធ្ងរ) ដើម្បីឱ្យមានចំនួនប្រហាក់ប្រហែលនឹងក្រុមដែលមានចំនួនច្រើន (ឧ. ករណីគ្រោះថ្នាក់ស្រាល)។ ប្រៀបដូចជាការថតចម្លងនិងកែច្នៃឯកសារដ៏កម្រមួយឱ្យមានច្រើនច្បាប់និងមានទម្រង់ប្លែកៗគ្នាបន្តិចបន្តួច ដើម្បីងាយស្រួលក្នុងការសិក្សា។
Random Forest (RF) ជាម៉ូដែលបញ្ញាសិប្បនិម្មិតប្រភេទអង់សំបល (Ensemble Learning) ដែលដំណើរការដោយការបង្កើតដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើនដើម ហើយយកលទ្ធផលរបស់ពួកវាទាំងអស់មកបោះឆ្នោតជ្រើសរើសយកចម្លើយមួយណាដែលទទួលបានការគាំទ្រច្រើនជាងគេ។ ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញចំនួន ១០០ នាក់ ហើយយកសេចក្តីសម្រេចចិត្តណាដែលមានការឯកភាពច្រើនជាងគេបំផុត។
Explainable AI (XAI) ជាបណ្តុំនៃឧបករណ៍និងបច្ចេកទេសដែលជួយបកស្រាយនិងពន្យល់ពីដំណើរការនៃការសម្រេចចិត្តរបស់ម៉ូដែល AI ដ៏ស្មុគស្មាញដែលពិបាកយល់ (Black-box) ឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន។ ដូចជាការពន្យល់លម្អិតពីវិធីសាស្ត្រដោះស្រាយលំហាត់គណិតវិទ្យាមួយជំហានម្តងៗ ជំនួសឱ្យការគ្រាន់តែប្រាប់ចម្លើយចុងក្រោយ។
SHAP តំណាងឱ្យ SHapley Additive exPlanations ជាក្បួនអាល់កូរីតដែលប្រើក្នុង XAI ដើម្បីគណនាថា តើអថេរនីមួយៗ (ឧ. អាយុអ្នកបើកបរ, ស្ថានភាពផ្លូវ) មានឥទ្ធិពលប៉ុន្មានភាគរយ ឬកម្រិតណាទៅលើលទ្ធផលទស្សន៍ទាយរបស់ម៉ូដែល AI។ ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករម្នាក់ៗក្នុងក្រុមបាល់ទាត់ ដោយផ្អែកលើទំហំនៃការរួមចំណែកជាក់ស្តែងរបស់ពួកគេក្នុងការប្រកួត។
k-nearest neighbor (kNN) graph ជារចនាសម្ព័ន្ធទិន្នន័យដែលភ្ជាប់ចំណុចទិន្នន័យនីមួយៗ (ឧ. ករណីគ្រោះថ្នាក់មួយ) ទៅកាន់ចំណុចចំនួន k ផ្សេងទៀតដែលមានលក្ខណៈស្រដៀងវាបំផុត ដើម្បីជួយម៉ូដែលក្នុងការស្វែងរកទំនាក់ទំនងបរិបទនៃទិន្នន័យទាំងនោះ។ ដូចជាការចងបណ្តាញទាក់ទងគ្នារវាងមនុស្ស៥នាក់ដែលមានចំណូលចិត្តស្រដៀងអ្នកបំផុតនៅលើបណ្តាញសង្គម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖