បញ្ហា (The Problem)៖ វិស័យកសិកម្មនៅក្នុងខេត្ត Henan ប្រទេសចិន ងាយរងគ្រោះដោយសារអាកាសធាតុប្រែប្រួលខ្លាំង ដែលទាមទារឱ្យមានម៉ូដែលព្យាករណ៍អត្រាខាតបង់ធានារ៉ាប់រងកសិកម្ម (Loss Ratio) ដ៏មានភាពត្រឹមត្រូវខ្ពស់ដើម្បីជួយដល់ការធ្វើផែនការហិរញ្ញវត្ថុប្រកបដោយចីរភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែលរួមបញ្ចូលគ្នារវាង Deep Gaussian Processes (DGP) និងបណ្តាញកោសិកា Bayesian Long Short-Term Memory (LSTM) ដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងពីខែមករា ឆ្នាំ២០២០ ដល់ខែធ្នូ ឆ្នាំ២០២៣។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| DGP + Bayesian LSTM (Proposed) ម៉ូដែលកូនកាត់បញ្ចូល Deep Gaussian Processes និង Bayesian LSTM |
មានភាពត្រឹមត្រូវខ្ពស់ជាងគេក្នុងការទស្សន៍ទាយអត្រាខាតបង់ និងមានសមត្ថភាពវាស់ស្ទង់ភាពមិនប្រាកដប្រជា (Uncertainty) បានល្អឥតខ្ចោះ។ | ទាមទារពេលវេលាបណ្តុះបណ្តាលយូរជាងគេបំផុត (៣៦២៦ វិនាទី) និងស៊ីធនធានកុំព្យូទ័រខ្លាំងដោយមានអត្រាស្មុគស្មាញដល់ទៅ O(n³ )។ | Test RMSE: 8.2%, Test MAE: 6.1%, R²: 0.88 |
| ARIMA ម៉ូដែលស្ថិតិ Autoregressive Integrated Moving Average |
ស៊ីធនធានតិច និងមានល្បឿនលឿនបំផុតទាំងការបណ្តុះបណ្តាល (៣០២ វិនាទី) និងការទស្សន៍ទាយ (៣៧ វិនាទី)។ | មានអត្រាកំហុសខ្ពស់ជាងគេ និងមិនសូវពូកែចាប់យកទិន្នន័យដែលស្មុគស្មាញ ឬមិនមានលក្ខណៈជាបន្ទាត់ត្រង់។ | Test RMSE: 10.5%, Test MAE: 8.3%, R²: 0.72 |
| Simple LSTM បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត Long Short-Term Memory |
មានសមត្ថភាពល្អក្នុងការចាប់យកលំនាំស៊េរីពេលវេលា ដោយប្រើប្រាស់ធនធានកុំព្យូទ័រ និងល្បឿនក្នុងកម្រិតមធ្យម។ | ភាពត្រឹមត្រូវនៅមានកម្រិតបើប្រៀបធៀបជាមួយម៉ូដែលកូនកាត់ និងមិនមានលទ្ធភាពផ្តល់ការវាយតម្លៃលើភាពមិនប្រាកដប្រជានៃការព្យាករណ៍ទេ។ | Test RMSE: 9.0%, Test MAE: 7.0%, R²: 0.81 |
| Random Forest Regressor (RF) ម៉ូដែលរៀនម៉ាស៊ីន Random Forest |
ងាយស្រួលប្រើប្រាស់ មានល្បឿនលឿនគួរសមក្នុងការដំណើរការ និងអាចទប់ទល់នឹងបញ្ហា Overfitting បានល្អ។ | មិនសូវមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយទិន្នន័យស៊េរីពេលវេលាដែលស្មុគស្មាញ ប្រៀបធៀបទៅនឹង Deep Learning ឡើយ។ | Test RMSE: 9.3%, Test MAE: 7.3%, R²: 0.79 |
| Support Vector Regression (SVR) ម៉ូដែលរៀនម៉ាស៊ីន Support Vector Regression |
អាចដោះស្រាយបញ្ហាទិន្នន័យដែលមិនមានលក្ខណៈជាបន្ទាត់ត្រង់ (Non-linear relationships) បានគួរសម។ | ត្រូវការពេលវេលាបណ្តុះបណ្តាលយូរ (១៨០៩ វិនាទី) និងមានអត្រាកំហុសខ្ពស់លំដាប់ទី២។ | Test RMSE: 10.0%, Test MAE: 7.9%, R²: 0.77 |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ពិសេសក្រាហ្វិកកាត (GPU) ទំហំធំ ដើម្បីដំណើរការម៉ូដែល Deep Learning និង Gaussian Processes ដែលមានភាពស្មុគស្មាញខ្ពស់។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីខេត្ត Henan ប្រទេសចិន ដែលផ្តោតជាចម្បងលើដំណាំស្រូវសាលី និងអាកាសធាតុប្រចាំតំបន់នោះ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ ដោយសារកម្ពុជាមានអាកាសធាតុខុសគ្នា (ត្រូពិចមូសុង) និងពឹងផ្អែកលើដំណាំស្រូវ ស្វាយចន្ទី ឬកៅស៊ូ ដែលមានហានិភ័យ និងវដ្តលូតលាស់ខុសគ្នា។
ទោះបីជាបរិបទកសិកម្មខុសគ្នាក៏ដោយ ក្របខ័ណ្ឌនៃការព្យាករណ៍ដោយប្រើប្រាស់ម៉ូដែលកូនកាត់នេះ មានសក្តានុពលខ្ពស់ក្នុងការជួយរៀបចំប្រព័ន្ធធានារ៉ាប់រងកសិកម្មនៅកម្ពុជា។
ការអនុវត្តវិធីសាស្ត្រនេះអាចជួយកសាងទំនុកចិត្តលើប្រព័ន្ធធានារ៉ាប់រងកសិកម្មនៅកម្ពុជា ដែលជាខែលការពារជីវភាពកសិករខ្មែរពីការខាតបង់ធ្ងន់ធ្ងរដោយសារគ្រោះមហន្តរាយធម្មជាតិ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Loss Ratio (អត្រាខាតបង់ធានារ៉ាប់រង) | ទំហំនៃទិន្នន័យហិរញ្ញវត្ថុដែលបង្ហាញពីសមាមាត្ររវាងប្រាក់សំណងដែលក្រុមហ៊ុនធានារ៉ាប់រងបានសងទៅអតិថិជន ធៀបនឹងប្រាក់បុព្វលាភ (Premium) សរុបដែលក្រុមហ៊ុនប្រមូលបាន។ ប្រសិនបើកម្រិតនេះខ្ពស់ មានន័យថាក្រុមហ៊ុនខាតបង់ច្រើនដោយសារការខូចខាតដំណាំ។ | ដូចជាការប្រៀបធៀបលុយដែលយើងចំណាយទៅលើការជួសជុលឡាន ធៀបនឹងលុយដែលយើងបង់ថ្លៃធានារ៉ាប់រងប្រចាំឆ្នាំ បើថ្លៃជួសជុលអស់ច្រើនជាង នោះមានន័យថាអត្រាខាតបង់មានកម្រិតខ្ពស់។ |
| Bayesian LSTM (បណ្តាញកោសិកា Bayesian Long Short-Term Memory) | វាជាប្រភេទម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលពូកែចងចាំទិន្នន័យប្រវត្តិសាស្រ្តរយៈពេលវែង (ដូចជាប្រវត្តិអាកាសធាតុ) ហើយប្រើប្រាស់ទ្រឹស្តីប្រូបាប៊ីលីតេ (Bayesian) ដើម្បីវាស់ស្ទង់ពីកម្រិតភាពមិនប្រាកដប្រជានៃការព្យាករណ៍របស់ខ្លួន។ | ដូចជាអ្នកព្យាករណ៍អាកាសធាតុដ៏ឆ្លាតវៃម្នាក់ ដែលមិនត្រឹមតែប្រាប់ថាថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ទេ ថែមទាំងប្រាប់ពីកម្រិតភាគរយនៃភាពជឿជាក់របស់គាត់ទៀតផង (ឧទាហរណ៍៖ ជឿជាក់ ៩០%)។ |
| Deep Gaussian Processes (ដំណើរការ Deep Gaussian) | ជាម៉ូដែលគណិតវិទ្យាប្រូបាប៊ីលីតេដែលមានស្រទាប់ច្រើន (Multiple layers) ដែលព្យាករណ៍លទ្ធផលដោយមិនត្រឹមតែផ្តល់នូវតម្លៃមួយជាក់លាក់នោះទេ តែវាគណនាពីវិសាលភាពនៃលទ្ធផលដែលអាចកើតមានទាំងអស់ ដើម្បីចាប់យកភាពស្មុគស្មាញនៃទិន្នន័យ។ | ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងគោលដៅ ដែលម៉ូដែលនេះមិនគ្រាន់តែចង្អុលបង្ហាញចំណុចមួយដែលព្រួញនឹងធ្លាក់នោះទេ តែវាគូសវង់ជុំវិញតំបន់ទាំងមូលដែលព្រួញអាចនឹងធ្លាក់ចូល។ |
| Negative Log-Likelihood / NLL (កំហុស Negative Log-Likelihood) | ជារង្វាស់ដែលប្រើសម្រាប់វាយតម្លៃម៉ូដែលប្រូបាប៊ីលីតេ ដើម្បីមើលថាតើការព្យាករណ៍របស់ម៉ូដែលនោះស្របគ្នានឹងទិន្នន័យជាក់ស្តែងកម្រិតណា។ វាដាក់ពិន័យយ៉ាងធ្ងន់ធ្ងរដល់ម៉ូដែលដែលព្យាករណ៍ខុសហើយមានទំនុកចិត្តខុសកន្លែង។ កំហុសនេះកាន់តែតូច ម៉ូដែលកាន់តែល្អ។ | ដូចជាការពិន័យសិស្សនៅពេលដែលពួកគេឆ្លើយខុស ហើយថែមទាំងមានទំនុកចិត្តខុសកន្លែង (ប្រាកដប្រជាថាត្រូវ តែបែរជាខុស)។ ការពិន័យកាន់តែតិច មានន័យថាសិស្សនោះកាន់តែពូកែ។ |
| Root Mean Squared Error / RMSE (ឫសកំហុសមធ្យមការ៉េ) | ជារង្វាស់ស្តង់ដារដែលប្រើដើម្បីគណនាកម្រិតខុសគ្នារវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ។ វិធីសាស្ត្រនេះដាក់ពិន័យធ្ងន់ធ្ងរលើកំហុសណាដែលមានទំហំធំ។ | ដូចជាការវាស់ស្ទង់ចម្ងាយពេលបាញ់កាំភ្លើង។ បើអ្នកបាញ់ខុសគោលដៅកាន់តែឆ្ងាយ ពិន្ទុដករបស់អ្នកនឹងកើនឡើងទ្វេដង ដែលបង្ខំឱ្យអ្នកត្រូវតែបាញ់ឱ្យជិតគោលដៅបំផុតរាល់ពេលដើម្បីចៀសវាងការពិន័យធ្ងន់ធ្ងរ។ |
| ARIMA (ម៉ូដែលស៊េរីពេលវេលា ARIMA) | ជាម៉ូដែលស្ថិតិបុរាណដែលប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការវិភាគ និងព្យាករណ៍ទិន្នន័យស៊េរីពេលវេលា ដោយផ្អែកលើការទាញយកលំនាំចាស់ៗ និងតម្លៃមធ្យមនៃទិន្នន័យកាលពីអតីតកាល។ | ដូចជាការបើកបរឡានដោយសម្លឹងមើលកញ្ចក់មើលក្រោយ ដើម្បីទាយថាតើផ្លូវខាងមុខនឹងមានរាងកោងបែបណា ដោយផ្អែកលើផ្លូវដែលយើងទើបតែបានបើកកាត់។ |
| Stationarity (ភាពនឹងនរនៃទិន្នន័យស៊េរីពេលវេលា) | ជាលក្ខណៈនៃទិន្នន័យស៊េរីពេលវេលាដែលតម្លៃមធ្យម (Mean) និងបំរែបំរួល (Variance) របស់វាមិនប្រែប្រួលតាមពេលវេលា ដែលជាលក្ខខណ្ឌចាំបាច់ធ្វើឱ្យម៉ូដែលស្ថិតិងាយស្រួលក្នុងការទស្សន៍ទាយអនាគតបានត្រឹមត្រូវ។ | ដូចជាចង្វាក់បេះដូងរបស់មនុស្សដែលកំពុងគេងលក់ វាលោតក្នុងល្បឿនថេរងាយស្រួលទស្សន៍ទាយ ផ្ទុយពីពេលកំពុងរត់ដែលមានការប្រែប្រួលខ្លាំងពិបាកនឹងចាប់ចង្វាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖