បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទាក់ទងនឹងការខ្វះខាតម៉ូដែលព្យាករណ៍ចំណាត់ថ្នាក់ស្ថានភាពកម្រាលស្ពាន (Bridge Deck Condition Rating) កម្រិតជាតិដែលមានភាពសុក្រឹត ដោយផ្តោតលើការទាញយកប្រយោជន៍ពីទិន្នន័យប្រវត្តិសាស្ត្រដើម្បីជួយដល់ការរៀបចំផែនការថែទាំស្ពាននៅសហរដ្ឋអាមេរិក។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រមូល និងរៀបចំទិន្នន័យស្ពានថ្នាក់ជាតិចំនួនពីរឈុត (ទិន្នន័យឆ្នាំ២០២០ និងទិន្នន័យប្រវត្តិសាស្ត្រ៥ឆ្នាំ ពី២០១៦-២០២០) រួចអភិវឌ្ឍម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Models) ចំនួនបី ដើម្បីធ្វើការព្យាករណ៍។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest ម៉ូដែល Random Forest (ព្រៃចៃដន្យ) |
មានភាពត្រឹមត្រូវខ្ពស់ជាងគេ ចំណាយពេលហ្វឹកហាត់តិចបំផុត (៧៣ នាទីសម្រាប់ទិន្នន័យធំ) និងអាចចាត់ថ្នាក់ទិន្នន័យដែលមិនមានតុល្យភាពបានល្អ។ | ទាមទារការចងចាំ (Memory) ខ្ពស់ប្រសិនបើប្រើប្រាស់ដើមឈើសម្រេចចិត្តច្រើន (ឧ. ntree=500) សម្រាប់ការវិភាគទិន្នន័យខ្នាតធំ។ | ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៨៣.៤% និង Average F1 score ៧៩.៧% លើទិន្នន័យប្រវត្តិសាស្ត្រ ៥ឆ្នាំ។ |
| XGBoost (eXtreme Gradient Boosting) ម៉ូដែល XGBoost |
មានសមត្ថភាពខ្ពស់ក្នុងការកែតម្រូវកំហុសពីម៉ូដែលមុនៗ (Boosting) និងផ្តល់ភាពងាយស្រួលក្នុងការបកស្រាយលក្ខណៈពិសេសរបស់ទិន្នន័យដោយប្រើដើមឈើតូចៗ។ | ចំណាយពេលហ្វឹកហាត់យូរខ្លាំង (៨៩៤ នាទី) និងទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ស្មុគស្មាញជាច្រើនដើម្បីជៀសវាងបញ្ហា Overfitting។ | ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៧៩.៤% និង Average F1 score ៧៧.៥%។ |
| Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត |
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់ពីទំនាក់ទំនងស្មុគស្មាញ និងមិនលីនេអ៊ែរនៃអថេរផ្សេងៗក្នុងការវាយតម្លៃស្ថានភាពស្ពាន។ | ទាមទារការសាកល្បងកំណត់រចនាសម្ព័ន្ធច្រើន (Hidden layers, nodes, dropout) និងស៊ីពេលហ្វឹកហាត់យូរគួរសម (២២៥ នាទី)។ | ទទួលបានភាពត្រឹមត្រូវទូទៅ (Overall Accuracy) ៧៩.៧% និង Average F1 score ៧៨.៤%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបញ្ជាក់ពីតម្រូវការធនធានកុំព្យូទ័រ និងទិន្នន័យក្នុងកម្រិតមធ្យមទៅខ្ពស់ សម្រាប់ការអភិវឌ្ឍម៉ូដែលដោយប្រើទិន្នន័យប្រវត្តិសាស្ត្ររាប់លានកំណត់ត្រា។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យស្ពានទាំងស្រុងនៅសហរដ្ឋអាមេរិក ដែលមានលក្ខខណ្ឌអាកាសធាតុ ស្តង់ដារសំណង់ និងការគ្រប់គ្រងចរាចរណ៍ខុសពីកម្ពុជា។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកអនុវត្តដោយផ្ទាល់អាចនឹងមានភាពលម្អៀង ព្រោះកម្ពុជាមានអាកាសធាតុត្រូពិច (ភ្លៀងធ្លាក់ខ្លាំងនិងទឹកជំនន់) និងមានបញ្ហារថយន្តដឹកទំនិញលើសទម្ងន់ដែលធ្វើឲ្យស្ពានឆាប់សឹករិចរិលជាងធម្មតា។
ថ្វីបើបរិបទប្រទេសមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រប្រើប្រាស់ Machine Learning នេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ក្នុងការផ្លាស់ប្តូរពីការជួសជុលពេលស្ពានខូច ទៅជាការថែទាំទុកជាមុន។
ជារួម ការអនុវត្តគំរូព្យាករណ៍នេះនៅកម្ពុជាអាចជួយសន្សំសំចៃថវិកាជាតិយ៉ាងច្រើន និងធានាសុវត្ថិភាពធ្វើដំណើរ ប្រសិនបើស្ថាប័នពាក់ព័ន្ធអាចប្រមូលទិន្នន័យក្នុងស្រុកបានទូលំទូលាយគ្រប់គ្រាន់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Deck Condition Rating | ប្រព័ន្ធវាយតម្លៃចំណាត់ថ្នាក់ស្ថានភាពរចនាសម្ព័ន្ធកម្រាលស្ពាន ដែលមានពិន្ទុពីលេខ ០ (ខូចខាតទាំងស្រុង) ដល់លេខ ៩ (ល្អឥតខ្ចោះ) ដែលជួយឲ្យវិស្វករដឹងថាតើស្ពានមួយណាគួរតែត្រូវជួសជុលឬថែទាំមុនគេ។ | ដូចជាការឲ្យពិន្ទុសុខភាពប្រចាំឆ្នាំរបស់មនុស្សម្នាក់ៗ ដើម្បីប្រាប់គ្រូពេទ្យថាអ្នកណាមានជំងឺធ្ងន់ជាងគេ និងត្រូវការសង្គ្រោះបន្ទាន់មុនគេ។ |
| National Bridge Inventory (NBI) | មូលដ្ឋានទិន្នន័យថ្នាក់ជាតិដ៏ធំរបស់រដ្ឋាភិបាលសហរដ្ឋអាមេរិក ដែលផ្ទុកព័ត៌មានលម្អិតស្តីពីស្ពានរាប់សែនកន្លែង រួមមានអាយុកាល ប្រភេទសំណង់ កម្រិតចរាចរណ៍ និងស្ថានភាពរូបវន្ត ដើម្បីងាយស្រួលក្នុងការគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធ។ | ដូចជាសៀវភៅបញ្ជីសំបុត្រកំណើត និងប្រវត្តិរូបសុខភាពទូទៅរបស់ស្ពានទាំងអស់ដែលស្ថិតនៅក្នុងប្រទេស។ |
| Random Forest | ក្បួនដោះស្រាយបញ្ញាសិប្បនិម្មិត (Machine Learning) ដែលបង្កើតជា 'ដើមឈើសម្រេចចិត្ត' (Decision Trees) ជាច្រើនដោយចៃដន្យ រួចប្រមូលយកលទ្ធផលការព្យាករណ៍របស់ដើមឈើទាំងអស់នោះមកធ្វើការបោះឆ្នោតរួមគ្នា ដើម្បីទទួលបានចម្លើយចុងក្រោយមួយដែលត្រឹមត្រូវបំផុត។ | ដូចជាការសួរយោបល់ពីវេជ្ជបណ្ឌិត១០០នាក់ផ្សេងៗគ្នា អំពីជំងឺមួយ រួចយកចម្លើយដែលវេជ្ជបណ្ឌិតភាគច្រើនយល់ស្របគ្នាជាងគេ ចាត់ទុកជាលទ្ធផលវិនិច្ឆ័យចុងក្រោយ។ |
| eXtreme Gradient Boosting (XGBoost) | ម៉ូដែលរៀនម៉ាស៊ីនដ៏មានអានុភាព ដែលដំណើរការដោយការបង្កើតដើមឈើសម្រេចចិត្តតូចៗបន្តបន្ទាប់គ្នាជាស៊េរី ដោយដើមឈើដែលកើតក្រោយៗ ព្យាយាមរៀននិងកែតម្រូវកំហុសដែលដើមឈើមុនៗបានធ្វើខុស ដើម្បីឲ្យលទ្ធផលកាន់តែសុក្រឹត។ | ដូចជាសិស្សម្នាក់ដែលធ្វើលំហាត់ខុស រួចរៀនពីកំហុសនោះយ៉ាងយកចិត្តទុកដាក់ ហើយធ្វើលំហាត់ថ្មីបន្តបន្ទាប់ទៀតរហូតដល់លែងមានកំហុសទាល់តែសោះ។ |
| Artificial Neural Network (ANN) | បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលបង្កើតឡើងដោយចម្លងតាមដំណើរការនៃខួរក្បាលមនុស្ស ដែលមានស្រទាប់ (Layers) និងចំណុចតភ្ជាប់ (Nodes) ជាច្រើន ដើម្បីស្វែងយល់ពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៃទិន្នន័យ ដែលក្បួនគណិតវិទ្យាធម្មតាមិនអាចមើលឃើញ។ | ដូចជាបណ្តាញខួរក្បាលរបស់ក្មេងដែលរៀនចំណាំមុខម្តាយ ដោយមើលរូបភាពមុខច្រើនដងពីមុំណា ឬពន្លឺណាក៏ដោយ រហូតដល់អាចចំណាំបានដោយស្វ័យប្រវត្តិ។ |
| Permutation-based Variable Importance | បច្ចេកទេសក្នុងវិទ្យាសាស្ត្រទិន្នន័យ សម្រាប់វាស់ស្ទង់ថាតើអថេរមួយ (ឧ. អាយុស្ពាន) សំខាន់កម្រិតណា ដោយការសាកល្បងច្របល់តម្លៃនៃអថេរនោះចោល រួចមើលថាតើភាពត្រឹមត្រូវរបស់ម៉ូដែលធ្លាក់ចុះប៉ុន្មានភាគរយ។ | ដូចជាការសាកល្បងមិនដាក់គ្រឿងផ្សំមួយ (ឧទាហរណ៍ អំបិល) ចូលក្នុងស៊ុប ដើម្បីភ្លក់មើលថាតើវាបាត់បង់រសជាតិឆ្ងាញ់កម្រិតណា បើបាត់រសជាតិខ្លាំងមានន័យថាអំបិលសំខាន់ខ្លាំងណាស់។ |
| Out-of-bag (OOB) error | វិធីសាស្ត្រវាយតម្លៃកំហុសរបស់ម៉ូដែល Random Forest ដោយប្រើប្រាស់ទិន្នន័យដើមមួយផ្នែក ដែលមិនត្រូវបានជ្រើសរើសដោយចៃដន្យយកទៅហ្វឹកហាត់ម៉ូដែលនោះ យកមកធ្វើជាវិញ្ញាសាសាកល្បងសមត្ថភាពម៉ូដែលវិញ។ | ដូចជាការយកលំហាត់សៀវភៅដែលគ្រូមិនធ្លាប់យកមកបង្រៀននៅក្នុងថ្នាក់ទាល់តែសោះ យកមកធ្វើជាវិញ្ញាសាប្រឡង ដើម្បីវាស់ស្ទង់សមត្ថភាពពិតប្រាកដរបស់សិស្សថាយល់មេរៀនកម្រិតណា។ |
| Average F1 Score | រង្វាស់វាយតម្លៃសមត្ថភាពម៉ូដែលម៉ាស៊ីន ដែលគណនាមធ្យមភាគរវាង Precision និង Recall របស់គ្រប់ថ្នាក់ (Classes) ទាំងអស់។ វាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវាស់ស្ទង់ភាពត្រឹមត្រូវពិតប្រាកដ នៅពេលដែលចំនួនទិន្នន័យក្នុងថ្នាក់នីមួយៗមានគម្លាតមិនស្មើគ្នាខ្លាំង (Imbalanced Data)។ | ដូចជាការវាយតម្លៃសិស្សពូកែ ដោយមើលលើពិន្ទុមធ្យមគ្រប់មុខវិជ្ជាទាំងអស់រួមបញ្ចូលគ្នា មិនមែនវាយតម្លៃដោយមើលតែមុខវិជ្ជាណាមួយដែលគេពូកែជាងគេនោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖