Original Title: Development and Utilization of Bridge Data of the United States for Predicting Deck Condition Rating Using Random Forest, XGBoost, and Artificial Neural Network
Source: doi.org/10.3390/rs16020367
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអភិវឌ្ឍ និងការប្រើប្រាស់ទិន្នន័យស្ពានរបស់សហរដ្ឋអាមេរិក សម្រាប់ការព្យាករណ៍ចំណាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពាន ដោយប្រើប្រាស់ម៉ូដែល Random Forest, XGBoost និង Artificial Neural Network

ចំណងជើងដើម៖ Development and Utilization of Bridge Data of the United States for Predicting Deck Condition Rating Using Random Forest, XGBoost, and Artificial Neural Network

អ្នកនិពន្ធ៖ Fariba Fard (Department of Information Science, University of North Texas), Fereshteh Sadeghi Naieni Fard (Department of Information Science, University of North Texas)

ឆ្នាំបោះពុម្ព៖ 2024, Remote Sensing (MDPI)

វិស័យសិក្សា៖ Machine Learning in Civil Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទាក់ទងនឹងការខ្វះខាតម៉ូដែលព្យាករណ៍ចំណាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពាន (Bridge Deck Condition Rating) កម្រិតជាតិដែលមានភាពសុក្រឹត ដោយផ្តោតលើការទាញយកប្រយោជន៍ពីទិន្នន័យប្រវត្តិសាស្ត្រដើម្បីជួយដល់ការរៀបចំផែនការថែទាំស្ពាននៅសហរដ្ឋអាមេរិក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រមូល និងរៀបចំទិន្នន័យស្ពានថ្នាក់ជាតិចំនួនពីរឈុត (ទិន្នន័យឆ្នាំ២០២០ និងទិន្នន័យប្រវត្តិសាស្ត្រ៥ឆ្នាំ ពី២០១៦-២០២០) រួចអភិវឌ្ឍម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Models) ចំនួនបី ដើម្បីធ្វើការព្យាករណ៍។

ការប្រមូលទិន្នន័យស្តីពីបញ្ជីសារពើភណ្ឌស្ពានជាតិ (National Bridge Inventory - NBI) ទិន្នន័យចរាចរណ៍ និងតំបន់អាកាសធាតុ ដោយប្រើបច្ចេកវិទ្យាប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS) និងតេឡេតាមដាន (Remote Sensing)
ការសម្អាត និងបែងចែកទិន្នន័យ (Data Cleaning and Partitioning) ជា ៨០% សម្រាប់ការបណ្តុះបណ្តាល និង ២០% សម្រាប់ការធ្វើតេស្ត
ការបណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិតរួមមាន Random Forest, XGBoost និង Artificial Neural Network (ANN) សម្រាប់ចាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពានពីលេខ ០ ដល់ ៩
ការវាយតម្លៃដំណើរការម៉ូដែល (Model Evaluation) ដោយប្រើប្រាស់កម្រិតភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) និង Average F1 Score ព្រមទាំងការវាស់ស្ទង់សារៈសំខាន់នៃអថេរ (Permutation-based Variable Importance)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ទិន្នន័យប្រវត្តិសាស្ត្រចំនួន ៥ឆ្នាំ បានធ្វើឲ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវសមត្ថភាពព្យាករណ៍របស់ម៉ូដែលទាំងអស់ បើធៀបនឹងការប្រើប្រាស់ទិន្នន័យតែមួយឆ្នាំ (២០២០) ដោយជួយកាត់បន្ថយភាពលម្អៀងក្នុងការចាត់ថ្នាក់។
ម៉ូដែល Random Forest ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ខ្ពស់ជាងគេគឺ ៨៣.៤% និង Average F1 score ៧៩.៧% ចំណែកឯម៉ូដែល XGBoost ទទួលបាន ៧៩.៤% និង ANN ទទួលបាន ៧៩.៧%។
កត្តាអាយុកាលរបស់ស្ពាន (Age) លក្ខខណ្ឌអាកាសធាតុ (Climate regions) និងទិន្នន័យចរាចរណ៍ (Traffic) ត្រូវបានរកឃើញថាជាអថេរដែលជះឥទ្ធិពលសំខាន់ជាងគេបំផុតក្នុងការកំណត់ចំណាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពាន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Forest ម៉ូដែល Random Forest (ព្រៃចៃដន្យ)	មានភាពត្រឹមត្រូវខ្ពស់ជាងគេ ចំណាយពេលហ្វឹកហាត់តិចបំផុត (៧៣ នាទីសម្រាប់ទិន្នន័យធំ) និងអាចចាត់ថ្នាក់ទិន្នន័យដែលមិនមានតុល្យភាពបានល្អ។	ទាមទារការចងចាំ (Memory) ខ្ពស់ប្រសិនបើប្រើប្រាស់ដើមឈើសម្រេចចិត្តច្រើន (ឧ. ntree=500) សម្រាប់ការវិភាគទិន្នន័យខ្នាតធំ។	ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៨៣.៤% និង Average F1 score ៧៩.៧% លើទិន្នន័យប្រវត្តិសាស្ត្រ ៥ឆ្នាំ។
XGBoost (eXtreme Gradient Boosting) ម៉ូដែល XGBoost	មានសមត្ថភាពខ្ពស់ក្នុងការកែតម្រូវកំហុសពីម៉ូដែលមុនៗ (Boosting) និងផ្តល់ភាពងាយស្រួលក្នុងការបកស្រាយលក្ខណៈពិសេសរបស់ទិន្នន័យដោយប្រើដើមឈើតូចៗ។	ចំណាយពេលហ្វឹកហាត់យូរខ្លាំង (៨៩៤ នាទី) និងទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ស្មុគស្មាញជាច្រើនដើម្បីជៀសវាងបញ្ហា Overfitting។	ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៧៩.៤% និង Average F1 score ៧៧.៥%។
Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់ពីទំនាក់ទំនងស្មុគស្មាញ និងមិនលីនេអ៊ែរនៃអថេរផ្សេងៗក្នុងការវាយតម្លៃស្ថានភាពស្ពាន។	ទាមទារការសាកល្បងកំណត់រចនាសម្ព័ន្ធច្រើន (Hidden layers, nodes, dropout) និងស៊ីពេលហ្វឹកហាត់យូរគួរសម (២២៥ នាទី)។	ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៧៩.៧% និង Average F1 score ៧៨.៤%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបញ្ជាក់ពីតម្រូវការធនធានកុំព្យូទ័រ និងទិន្នន័យក្នុងកម្រិតមធ្យមទៅខ្ពស់ សម្រាប់ការអភិវឌ្ឍម៉ូដែលដោយប្រើទិន្នន័យប្រវត្តិសាស្ត្ររាប់លានកំណត់ត្រា។

Software Tools: ប្រើប្រាស់ភាសាកម្មវិធី R (ជំនាន់ 4.2.0) ជាមួយកញ្ចប់ ranger (សម្រាប់ Random Forest), xgboost, និង keras (សម្រាប់ ANN) ព្រមទាំងបច្ចេកវិទ្យា GIS សម្រាប់កំណត់ទីតាំងភូមិសាស្ត្រ។
Hardware Requirements: ត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាពដំណើរការខ្ពស់ (CPU/GPU ខ្លាំង) ដោយសារការហ្វឹកហាត់ម៉ូដែល XGBoost លើទិន្នន័យជាង ១.២លានកំណត់ត្រា ត្រូវចំណាយពេលរហូតដល់ជិត ១៥ម៉ោង។
Dataset Requirements: ទាមទារទិន្នន័យខ្នាតធំពីបញ្ជីសារពើភណ្ឌស្ពានជាតិអាមេរិក (NBI) ទិន្នន័យចរាចរណ៍ និងតំបន់អាកាសធាតុ ដោយមានជាង ១.២៤លាន កំណត់ត្រាសម្រាប់ហ្វឹកហាត់ម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យស្ពានទាំងស្រុងនៅសហរដ្ឋអាមេរិក ដែលមានលក្ខខណ្ឌអាកាសធាតុ ស្តង់ដារសំណង់ និងការគ្រប់គ្រងចរាចរណ៍ខុសពីកម្ពុជា។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តដោយផ្ទាល់អាចនឹងមានភាពលម្អៀង ព្រោះកម្ពុជាមានអាកាសធាតុត្រូពិច (ភ្លៀងធ្លាក់ខ្លាំងនិងទឹកជំនន់) និងមានបញ្ហារថយន្តដឹកទំនិញលើសទម្ងន់ដែលធ្វើឲ្យស្ពានឆាប់សឹករិចរិលជាងធម្មតា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីបើបរិបទប្រទេសមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រប្រើប្រាស់ Machine Learning នេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ក្នុងការផ្លាស់ប្តូរពីការជួសជុលពេលស្ពានខូច ទៅជាការថែទាំទុកជាមុន។

Ministry of Public Works and Transport (MPWT): ក្រសួងអាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីបង្កើតប្រព័ន្ធគ្រប់គ្រងទិន្នន័យស្ពានថ្នាក់ជាតិ និងព្យាករណ៍តម្រូវការថវិកាថែទាំប្រចាំឆ្នាំបានយ៉ាងសុក្រឹត។
National Roads Infrastructure (e.g., NR4, NR5): ស្ពានតាមបណ្តោយផ្លូវជាតិសំខាន់ៗដែលរងបន្ទុកដោយរថយន្តដឹកទំនិញធុនធ្ងន់ពីកំពង់ផែ អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីវាយតម្លៃ និងកាត់បន្ថយហានិភ័យនៃការបាក់ស្រុតជាយថាហេតុ។
Provincial and Rural Bridges (DRR): សម្រាប់ការគ្រប់គ្រងគ្រោះមហន្តរាយ ការបញ្ចូលទិន្នន័យទឹកជំនន់ទៅក្នុងម៉ូដែល អាចជួយព្យាករណ៍ពីកម្រិតភាពធន់របស់ស្ពាននៅតាមតំបន់ជនបទក្នុងរដូវវស្សា។

ជារួម ការអនុវត្តគំរូព្យាករណ៍នេះនៅកម្ពុជាអាចជួយសន្សំសំចៃថវិកាជាតិយ៉ាងច្រើន និងធានាសុវត្ថិភាពធ្វើដំណើរ ប្រសិនបើស្ថាប័នពាក់ព័ន្ធអាចប្រមូលទិន្នន័យក្នុងស្រុកបានទូលំទូលាយគ្រប់គ្រាន់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការរៀបចំប្រព័ន្ធទិន្នន័យស្ពានជាតិ (Digitalization of Bridge Inventory): ក្រសួងពាក់ព័ន្ធត្រូវចាប់ផ្តើមប្រមូល និងធ្វើឌីជីថលនីយកម្មទិន្នន័យស្ពាននៅទូទាំងប្រទេស (ឆ្នាំសាងសង់ ទំហំ ចរាចរណ៍ ប្រភេទសម្ភារៈ) ដោយបង្កើតជាឃ្លាំងទិន្នន័យកណ្តាលមួយស្រដៀងនឹងស្តង់ដារ National Bridge Inventory (NBI)។
ការរួមបញ្ចូលទិន្នន័យភូមិសាស្ត្រ និងអាកាសធាតុ (GIS & Climate Data Integration): ប្រើប្រាស់កម្មវិធី QGIS ឬ ArcGIS ដើម្បីភ្ជាប់ទីតាំងស្ពានទៅនឹងផែនទីតំបន់ទឹកជំនន់ កម្រិតទឹកភ្លៀង និងកម្រិតចរាចរណ៍ ដើម្បីបង្កើតជាអថេរ (Predictor variables) សម្រាប់ការវិភាគ។
ការអភិវឌ្ឍម៉ូដែលសាកល្បង (Model Prototyping): អ្នកស្រាវជ្រាវ និងវិស្វករអាចប្រើប្រាស់ភាសា Python រួមជាមួយបណ្ណាល័យ Scikit-Learn ជំនួសឲ្យ R ដើម្បីសាកល្បងបង្កើតម៉ូដែល Random Forest លើទិន្នន័យគំរូតូចមួយ (ឧ. ស្ពានក្នុងខេត្តមួយ) សិន ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។
ការវិភាគអថេរសំខាន់ៗ (Feature Importance Analysis): អនុវត្តបច្ចេកទេស Permutation-based Variable Importance ដើម្បីកំណត់ថាតើកត្តាណាខ្លះ (ឧ. អាយុកាលស្ពាន កម្រិតចរាចរណ៍ ឬ ទឹកជំនន់) ដែលជះឥទ្ធិពលខ្លាំងជាងគេដល់ការខូចខាតកម្រាលស្ពាននៅកម្ពុជា។
ការដាក់ពង្រាយប្រព័ន្ធគាំទ្រសេចក្តីសម្រេចចិត្ត (Decision Support System Deployment): បង្កើតផ្ទាំងព័ត៌មានអន្តរកម្ម (Interactive Dashboard) ឧទាហរណ៍តាមរយៈ Streamlit ឬ Tableau ដើម្បីបង្ហាញលទ្ធផលនៃការព្យាករណ៍ជូនដល់អ្នកធ្វើសេចក្តីសម្រេចចិត្ត ក្នុងការកំណត់អាទិភាពចុះត្រួតពិនិត្យនិងជួសជុល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deck Condition Rating	ប្រព័ន្ធវាយតម្លៃចំណាត់ថ្នាក់ស្ថានភាពរចនាសម្ព័ន្ធកម្រាលស្ពាន ដែលមានពិន្ទុពីលេខ ០ (ខូចខាតទាំងស្រុង) ដល់លេខ ៩ (ល្អឥតខ្ចោះ) ដែលជួយឲ្យវិស្វករដឹងថាតើស្ពានមួយណាគួរតែត្រូវជួសជុលឬថែទាំមុនគេ។	ដូចជាការឲ្យពិន្ទុសុខភាពប្រចាំឆ្នាំរបស់មនុស្សម្នាក់ៗ ដើម្បីប្រាប់គ្រូពេទ្យថាអ្នកណាមានជំងឺធ្ងន់ជាងគេ និងត្រូវការសង្គ្រោះបន្ទាន់មុនគេ។
National Bridge Inventory (NBI)	មូលដ្ឋានទិន្នន័យថ្នាក់ជាតិដ៏ធំរបស់រដ្ឋាភិបាលសហរដ្ឋអាមេរិក ដែលផ្ទុកព័ត៌មានលម្អិតស្តីពីស្ពានរាប់សែនកន្លែង រួមមានអាយុកាល ប្រភេទសំណង់ កម្រិតចរាចរណ៍ និងស្ថានភាពរូបវន្ត ដើម្បីងាយស្រួលក្នុងការគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធ។	ដូចជាសៀវភៅបញ្ជីសំបុត្រកំណើត និងប្រវត្តិរូបសុខភាពទូទៅរបស់ស្ពានទាំងអស់ដែលស្ថិតនៅក្នុងប្រទេស។
Random Forest	ក្បួនដោះស្រាយបញ្ញាសិប្បនិម្មិត (Machine Learning) ដែលបង្កើតជា 'ដើមឈើសម្រេចចិត្ត' (Decision Trees) ជាច្រើនដោយចៃដន្យ រួចប្រមូលយកលទ្ធផលការព្យាករណ៍របស់ដើមឈើទាំងអស់នោះមកធ្វើការបោះឆ្នោតរួមគ្នា ដើម្បីទទួលបានចម្លើយចុងក្រោយមួយដែលត្រឹមត្រូវបំផុត។	ដូចជាការសួរយោបល់ពីវេជ្ជបណ្ឌិត១០០នាក់ផ្សេងៗគ្នា អំពីជំងឺមួយ រួចយកចម្លើយដែលវេជ្ជបណ្ឌិតភាគច្រើនយល់ស្របគ្នាជាងគេ ចាត់ទុកជាលទ្ធផលវិនិច្ឆ័យចុងក្រោយ។
eXtreme Gradient Boosting (XGBoost)	ម៉ូដែលរៀនម៉ាស៊ីនដ៏មានអានុភាព ដែលដំណើរការដោយការបង្កើតដើមឈើសម្រេចចិត្តតូចៗបន្តបន្ទាប់គ្នាជាស៊េរី ដោយដើមឈើដែលកើតក្រោយៗ ព្យាយាមរៀននិងកែតម្រូវកំហុសដែលដើមឈើមុនៗបានធ្វើខុស ដើម្បីឲ្យលទ្ធផលកាន់តែសុក្រឹត។	ដូចជាសិស្សម្នាក់ដែលធ្វើលំហាត់ខុស រួចរៀនពីកំហុសនោះយ៉ាងយកចិត្តទុកដាក់ ហើយធ្វើលំហាត់ថ្មីបន្តបន្ទាប់ទៀតរហូតដល់លែងមានកំហុសទាល់តែសោះ។
Artificial Neural Network (ANN)	បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលបង្កើតឡើងដោយចម្លងតាមដំណើរការនៃខួរក្បាលមនុស្ស ដែលមានស្រទាប់ (Layers) និងចំណុចតភ្ជាប់ (Nodes) ជាច្រើន ដើម្បីស្វែងយល់ពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៃទិន្នន័យ ដែលក្បួនគណិតវិទ្យាធម្មតាមិនអាចមើលឃើញ។	ដូចជាបណ្តាញខួរក្បាលរបស់ក្មេងដែលរៀនចំណាំមុខម្តាយ ដោយមើលរូបភាពមុខច្រើនដងពីមុំណា ឬពន្លឺណាក៏ដោយ រហូតដល់អាចចំណាំបានដោយស្វ័យប្រវត្តិ។
Permutation-based Variable Importance	បច្ចេកទេសក្នុងវិទ្យាសាស្ត្រទិន្នន័យ សម្រាប់វាស់ស្ទង់ថាតើអថេរមួយ (ឧ. អាយុស្ពាន) សំខាន់កម្រិតណា ដោយការសាកល្បងច្របល់តម្លៃនៃអថេរនោះចោល រួចមើលថាតើភាពត្រឹមត្រូវរបស់ម៉ូដែលធ្លាក់ចុះប៉ុន្មានភាគរយ។	ដូចជាការសាកល្បងមិនដាក់គ្រឿងផ្សំមួយ (ឧទាហរណ៍ អំបិល) ចូលក្នុងស៊ុប ដើម្បីភ្លក់មើលថាតើវាបាត់បង់រសជាតិឆ្ងាញ់កម្រិតណា បើបាត់រសជាតិខ្លាំងមានន័យថាអំបិលសំខាន់ខ្លាំងណាស់។
Out-of-bag (OOB) error	វិធីសាស្ត្រវាយតម្លៃកំហុសរបស់ម៉ូដែល Random Forest ដោយប្រើប្រាស់ទិន្នន័យដើមមួយផ្នែក ដែលមិនត្រូវបានជ្រើសរើសដោយចៃដន្យយកទៅហ្វឹកហាត់ម៉ូដែលនោះ យកមកធ្វើជាវិញ្ញាសាសាកល្បងសមត្ថភាពម៉ូដែលវិញ។	ដូចជាការយកលំហាត់សៀវភៅដែលគ្រូមិនធ្លាប់យកមកបង្រៀននៅក្នុងថ្នាក់ទាល់តែសោះ យកមកធ្វើជាវិញ្ញាសាប្រឡង ដើម្បីវាស់ស្ទង់សមត្ថភាពពិតប្រាកដរបស់សិស្សថាយល់មេរៀនកម្រិតណា។
Average F1 Score	រង្វាស់វាយតម្លៃសមត្ថភាពម៉ូដែលម៉ាស៊ីន ដែលគណនាមធ្យមភាគរវាង Precision និង Recall របស់គ្រប់ថ្នាក់ (Classes) ទាំងអស់។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវាស់ស្ទង់ភាពត្រឹមត្រូវពិតប្រាកដ នៅពេលដែលចំនួនទិន្នន័យក្នុងថ្នាក់នីមួយៗមានគម្លាតមិនស្មើគ្នាខ្លាំង (Imbalanced Data)។	ដូចជាការវាយតម្លៃសិស្សពូកែ ដោយមើលលើពិន្ទុមធ្យមគ្រប់មុខវិជ្ជាទាំងអស់រួមបញ្ចូលគ្នា មិនមែនវាយតម្លៃដោយមើលតែមុខវិជ្ជាណាមួយដែលគេពូកែជាងគេនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖