Original Title: Development and Utilization of Bridge Data of the United States for Predicting Deck Condition Rating Using Random Forest, XGBoost, and Artificial Neural Network
Source: doi.org/10.3390/rs16020367
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអភិវឌ្ឍ និងការប្រើប្រាស់ទិន្នន័យស្ពានរបស់សហរដ្ឋអាមេរិក សម្រាប់ការព្យាករណ៍ចំណាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពាន ដោយប្រើប្រាស់ម៉ូដែល Random Forest, XGBoost និង Artificial Neural Network

ចំណងជើងដើម៖ Development and Utilization of Bridge Data of the United States for Predicting Deck Condition Rating Using Random Forest, XGBoost, and Artificial Neural Network

អ្នកនិពន្ធ៖ Fariba Fard (Department of Information Science, University of North Texas), Fereshteh Sadeghi Naieni Fard (Department of Information Science, University of North Texas)

ឆ្នាំបោះពុម្ព៖ 2024, Remote Sensing (MDPI)

វិស័យសិក្សា៖ Machine Learning in Civil Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទាក់ទងនឹងការខ្វះខាតម៉ូដែលព្យាករណ៍ចំណាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពាន (Bridge Deck Condition Rating) កម្រិតជាតិដែលមានភាពសុក្រឹត ដោយផ្តោតលើការទាញយកប្រយោជន៍ពីទិន្នន័យប្រវត្តិសាស្ត្រដើម្បីជួយដល់ការរៀបចំផែនការថែទាំស្ពាននៅសហរដ្ឋអាមេរិក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រមូល និងរៀបចំទិន្នន័យស្ពានថ្នាក់ជាតិចំនួនពីរឈុត (ទិន្នន័យឆ្នាំ២០២០ និងទិន្នន័យប្រវត្តិសាស្ត្រ៥ឆ្នាំ ពី២០១៦-២០២០) រួចអភិវឌ្ឍម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Models) ចំនួនបី ដើម្បីធ្វើការព្យាករណ៍។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Forest
ម៉ូដែល Random Forest (ព្រៃចៃដន្យ)
មានភាពត្រឹមត្រូវខ្ពស់ជាងគេ ចំណាយពេលហ្វឹកហាត់តិចបំផុត (៧៣ នាទីសម្រាប់ទិន្នន័យធំ) និងអាចចាត់ថ្នាក់ទិន្នន័យដែលមិនមានតុល្យភាពបានល្អ។ ទាមទារការចងចាំ (Memory) ខ្ពស់ប្រសិនបើប្រើប្រាស់ដើមឈើសម្រេចចិត្តច្រើន (ឧ. ntree=500) សម្រាប់ការវិភាគទិន្នន័យខ្នាតធំ។ ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៨៣.៤% និង Average F1 score ៧៩.៧% លើទិន្នន័យប្រវត្តិសាស្ត្រ ៥ឆ្នាំ។
XGBoost (eXtreme Gradient Boosting)
ម៉ូដែល XGBoost
មានសមត្ថភាពខ្ពស់ក្នុងការកែតម្រូវកំហុសពីម៉ូដែលមុនៗ (Boosting) និងផ្តល់ភាពងាយស្រួលក្នុងការបកស្រាយលក្ខណៈពិសេសរបស់ទិន្នន័យដោយប្រើដើមឈើតូចៗ។ ចំណាយពេលហ្វឹកហាត់យូរខ្លាំង (៨៩៤ នាទី) និងទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ស្មុគស្មាញជាច្រើនដើម្បីជៀសវាងបញ្ហា Overfitting។ ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៧៩.៤% និង Average F1 score ៧៧.៥%។
Artificial Neural Network (ANN)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់ពីទំនាក់ទំនងស្មុគស្មាញ និងមិនលីនេអ៊ែរនៃអថេរផ្សេងៗក្នុងការវាយតម្លៃស្ថានភាពស្ពាន។ ទាមទារការសាកល្បងកំណត់រចនាសម្ព័ន្ធច្រើន (Hidden layers, nodes, dropout) និងស៊ីពេលហ្វឹកហាត់យូរគួរសម (២២៥ នាទី)។ ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៧៩.៧% និង Average F1 score ៧៨.៤%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបញ្ជាក់ពីតម្រូវការធនធានកុំព្យូទ័រ និងទិន្នន័យក្នុងកម្រិតមធ្យមទៅខ្ពស់ សម្រាប់ការអភិវឌ្ឍម៉ូដែលដោយប្រើទិន្នន័យប្រវត្តិសាស្ត្ររាប់លានកំណត់ត្រា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យស្ពានទាំងស្រុងនៅសហរដ្ឋអាមេរិក ដែលមានលក្ខខណ្ឌអាកាសធាតុ ស្តង់ដារសំណង់ និងការគ្រប់គ្រងចរាចរណ៍ខុសពីកម្ពុជា។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តដោយផ្ទាល់អាចនឹងមានភាពលម្អៀង ព្រោះកម្ពុជាមានអាកាសធាតុត្រូពិច (ភ្លៀងធ្លាក់ខ្លាំងនិងទឹកជំនន់) និងមានបញ្ហារថយន្តដឹកទំនិញលើសទម្ងន់ដែលធ្វើឲ្យស្ពានឆាប់សឹករិចរិលជាងធម្មតា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីបើបរិបទប្រទេសមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រប្រើប្រាស់ Machine Learning នេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ក្នុងការផ្លាស់ប្តូរពីការជួសជុលពេលស្ពានខូច ទៅជាការថែទាំទុកជាមុន។

ជារួម ការអនុវត្តគំរូព្យាករណ៍នេះនៅកម្ពុជាអាចជួយសន្សំសំចៃថវិកាជាតិយ៉ាងច្រើន និងធានាសុវត្ថិភាពធ្វើដំណើរ ប្រសិនបើស្ថាប័នពាក់ព័ន្ធអាចប្រមូលទិន្នន័យក្នុងស្រុកបានទូលំទូលាយគ្រប់គ្រាន់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការរៀបចំប្រព័ន្ធទិន្នន័យស្ពានជាតិ (Digitalization of Bridge Inventory): ក្រសួងពាក់ព័ន្ធត្រូវចាប់ផ្តើមប្រមូល និងធ្វើឌីជីថលនីយកម្មទិន្នន័យស្ពាននៅទូទាំងប្រទេស (ឆ្នាំសាងសង់ ទំហំ ចរាចរណ៍ ប្រភេទសម្ភារៈ) ដោយបង្កើតជាឃ្លាំងទិន្នន័យកណ្តាលមួយស្រដៀងនឹងស្តង់ដារ National Bridge Inventory (NBI)
  2. ការរួមបញ្ចូលទិន្នន័យភូមិសាស្ត្រ និងអាកាសធាតុ (GIS & Climate Data Integration): ប្រើប្រាស់កម្មវិធី QGISArcGIS ដើម្បីភ្ជាប់ទីតាំងស្ពានទៅនឹងផែនទីតំបន់ទឹកជំនន់ កម្រិតទឹកភ្លៀង និងកម្រិតចរាចរណ៍ ដើម្បីបង្កើតជាអថេរ (Predictor variables) សម្រាប់ការវិភាគ។
  3. ការអភិវឌ្ឍម៉ូដែលសាកល្បង (Model Prototyping): អ្នកស្រាវជ្រាវ និងវិស្វករអាចប្រើប្រាស់ភាសា Python រួមជាមួយបណ្ណាល័យ Scikit-Learn ជំនួសឲ្យ R ដើម្បីសាកល្បងបង្កើតម៉ូដែល Random Forest លើទិន្នន័យគំរូតូចមួយ (ឧ. ស្ពានក្នុងខេត្តមួយ) សិន ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។
  4. ការវិភាគអថេរសំខាន់ៗ (Feature Importance Analysis): អនុវត្តបច្ចេកទេស Permutation-based Variable Importance ដើម្បីកំណត់ថាតើកត្តាណាខ្លះ (ឧ. អាយុកាលស្ពាន កម្រិតចរាចរណ៍ ឬ ទឹកជំនន់) ដែលជះឥទ្ធិពលខ្លាំងជាងគេដល់ការខូចខាតកម្រាលស្ពាននៅកម្ពុជា។
  5. ការដាក់ពង្រាយប្រព័ន្ធគាំទ្រសេចក្តីសម្រេចចិត្ត (Decision Support System Deployment): បង្កើតផ្ទាំងព័ត៌មានអន្តរកម្ម (Interactive Dashboard) ឧទាហរណ៍តាមរយៈ StreamlitTableau ដើម្បីបង្ហាញលទ្ធផលនៃការព្យាករណ៍ជូនដល់អ្នកធ្វើសេចក្តីសម្រេចចិត្ត ក្នុងការកំណត់អាទិភាពចុះត្រួតពិនិត្យនិងជួសជុល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Deck Condition Rating ប្រព័ន្ធវាយតម្លៃចំណាត់ថ្នាក់ស្ថានភាពរចនាសម្ព័ន្ធកម្រាលស្ពាន ដែលមានពិន្ទុពីលេខ ០ (ខូចខាតទាំងស្រុង) ដល់លេខ ៩ (ល្អឥតខ្ចោះ) ដែលជួយឲ្យវិស្វករដឹងថាតើស្ពានមួយណាគួរតែត្រូវជួសជុលឬថែទាំមុនគេ។ ដូចជាការឲ្យពិន្ទុសុខភាពប្រចាំឆ្នាំរបស់មនុស្សម្នាក់ៗ ដើម្បីប្រាប់គ្រូពេទ្យថាអ្នកណាមានជំងឺធ្ងន់ជាងគេ និងត្រូវការសង្គ្រោះបន្ទាន់មុនគេ។
National Bridge Inventory (NBI) មូលដ្ឋានទិន្នន័យថ្នាក់ជាតិដ៏ធំរបស់រដ្ឋាភិបាលសហរដ្ឋអាមេរិក ដែលផ្ទុកព័ត៌មានលម្អិតស្តីពីស្ពានរាប់សែនកន្លែង រួមមានអាយុកាល ប្រភេទសំណង់ កម្រិតចរាចរណ៍ និងស្ថានភាពរូបវន្ត ដើម្បីងាយស្រួលក្នុងការគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធ។ ដូចជាសៀវភៅបញ្ជីសំបុត្រកំណើត និងប្រវត្តិរូបសុខភាពទូទៅរបស់ស្ពានទាំងអស់ដែលស្ថិតនៅក្នុងប្រទេស។
Random Forest ក្បួនដោះស្រាយបញ្ញាសិប្បនិម្មិត (Machine Learning) ដែលបង្កើតជា 'ដើមឈើសម្រេចចិត្ត' (Decision Trees) ជាច្រើនដោយចៃដន្យ រួចប្រមូលយកលទ្ធផលការព្យាករណ៍របស់ដើមឈើទាំងអស់នោះមកធ្វើការបោះឆ្នោតរួមគ្នា ដើម្បីទទួលបានចម្លើយចុងក្រោយមួយដែលត្រឹមត្រូវបំផុត។ ដូចជាការសួរយោបល់ពីវេជ្ជបណ្ឌិត១០០នាក់ផ្សេងៗគ្នា អំពីជំងឺមួយ រួចយកចម្លើយដែលវេជ្ជបណ្ឌិតភាគច្រើនយល់ស្របគ្នាជាងគេ ចាត់ទុកជាលទ្ធផលវិនិច្ឆ័យចុងក្រោយ។
eXtreme Gradient Boosting (XGBoost) ម៉ូដែលរៀនម៉ាស៊ីនដ៏មានអានុភាព ដែលដំណើរការដោយការបង្កើតដើមឈើសម្រេចចិត្តតូចៗបន្តបន្ទាប់គ្នាជាស៊េរី ដោយដើមឈើដែលកើតក្រោយៗ ព្យាយាមរៀននិងកែតម្រូវកំហុសដែលដើមឈើមុនៗបានធ្វើខុស ដើម្បីឲ្យលទ្ធផលកាន់តែសុក្រឹត។ ដូចជាសិស្សម្នាក់ដែលធ្វើលំហាត់ខុស រួចរៀនពីកំហុសនោះយ៉ាងយកចិត្តទុកដាក់ ហើយធ្វើលំហាត់ថ្មីបន្តបន្ទាប់ទៀតរហូតដល់លែងមានកំហុសទាល់តែសោះ។
Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលបង្កើតឡើងដោយចម្លងតាមដំណើរការនៃខួរក្បាលមនុស្ស ដែលមានស្រទាប់ (Layers) និងចំណុចតភ្ជាប់ (Nodes) ជាច្រើន ដើម្បីស្វែងយល់ពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៃទិន្នន័យ ដែលក្បួនគណិតវិទ្យាធម្មតាមិនអាចមើលឃើញ។ ដូចជាបណ្តាញខួរក្បាលរបស់ក្មេងដែលរៀនចំណាំមុខម្តាយ ដោយមើលរូបភាពមុខច្រើនដងពីមុំណា ឬពន្លឺណាក៏ដោយ រហូតដល់អាចចំណាំបានដោយស្វ័យប្រវត្តិ។
Permutation-based Variable Importance បច្ចេកទេសក្នុងវិទ្យាសាស្ត្រទិន្នន័យ សម្រាប់វាស់ស្ទង់ថាតើអថេរមួយ (ឧ. អាយុស្ពាន) សំខាន់កម្រិតណា ដោយការសាកល្បងច្របល់តម្លៃនៃអថេរនោះចោល រួចមើលថាតើភាពត្រឹមត្រូវរបស់ម៉ូដែលធ្លាក់ចុះប៉ុន្មានភាគរយ។ ដូចជាការសាកល្បងមិនដាក់គ្រឿងផ្សំមួយ (ឧទាហរណ៍ អំបិល) ចូលក្នុងស៊ុប ដើម្បីភ្លក់មើលថាតើវាបាត់បង់រសជាតិឆ្ងាញ់កម្រិតណា បើបាត់រសជាតិខ្លាំងមានន័យថាអំបិលសំខាន់ខ្លាំងណាស់។
Out-of-bag (OOB) error វិធីសាស្ត្រវាយតម្លៃកំហុសរបស់ម៉ូដែល Random Forest ដោយប្រើប្រាស់ទិន្នន័យដើមមួយផ្នែក ដែលមិនត្រូវបានជ្រើសរើសដោយចៃដន្យយកទៅហ្វឹកហាត់ម៉ូដែលនោះ យកមកធ្វើជាវិញ្ញាសាសាកល្បងសមត្ថភាពម៉ូដែលវិញ។ ដូចជាការយកលំហាត់សៀវភៅដែលគ្រូមិនធ្លាប់យកមកបង្រៀននៅក្នុងថ្នាក់ទាល់តែសោះ យកមកធ្វើជាវិញ្ញាសាប្រឡង ដើម្បីវាស់ស្ទង់សមត្ថភាពពិតប្រាកដរបស់សិស្សថាយល់មេរៀនកម្រិតណា។
Average F1 Score រង្វាស់វាយតម្លៃសមត្ថភាពម៉ូដែលម៉ាស៊ីន ដែលគណនាមធ្យមភាគរវាង Precision និង Recall របស់គ្រប់ថ្នាក់ (Classes) ទាំងអស់។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវាស់ស្ទង់ភាពត្រឹមត្រូវពិតប្រាកដ នៅពេលដែលចំនួនទិន្នន័យក្នុងថ្នាក់នីមួយៗមានគម្លាតមិនស្មើគ្នាខ្លាំង (Imbalanced Data)។ ដូចជាការវាយតម្លៃសិស្សពូកែ ដោយមើលលើពិន្ទុមធ្យមគ្រប់មុខវិជ្ជាទាំងអស់រួមបញ្ចូលគ្នា មិនមែនវាយតម្លៃដោយមើលតែមុខវិជ្ជាណាមួយដែលគេពូកែជាងគេនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖