Original Title: Time Series Analysis and Optimization of the Prediction Model of Agricultural Insurance Loss Ratio
Source: doi.org/10.36956/rwae.v5i4.1219
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគស៊េរីពេលវេលា និងការធ្វើឱ្យប្រសើរឡើងនៃម៉ូដែលព្យាករណ៍អត្រាខាតបង់ធានារ៉ាប់រងកសិកម្ម

ចំណងជើងដើម៖ Time Series Analysis and Optimization of the Prediction Model of Agricultural Insurance Loss Ratio

អ្នកនិពន្ធ៖ Yu Wang, Faculty of Economics and Business, Universiti Malaysia Sarawak (UNIMAS), Muhammad Asraf Bin Abdullah, Faculty of Economics and Business, Universiti Malaysia Sarawak (UNIMAS), Josephine Yau Tan Hwang, Faculty of Economics and Business, Universiti Malaysia Sarawak (UNIMAS)

ឆ្នាំបោះពុម្ព៖ 2024, Research on World Agricultural Economy

វិស័យសិក្សា៖ Agricultural Economics & Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ វិស័យកសិកម្មនៅក្នុងខេត្ត Henan ប្រទេសចិន ងាយរងគ្រោះដោយសារអាកាសធាតុប្រែប្រួលខ្លាំង ដែលទាមទារឱ្យមានម៉ូដែលព្យាករណ៍អត្រាខាតបង់ធានារ៉ាប់រងកសិកម្ម (Loss Ratio) ដ៏មានភាពត្រឹមត្រូវខ្ពស់ដើម្បីជួយដល់ការធ្វើផែនការហិរញ្ញវត្ថុប្រកបដោយចីរភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែលរួមបញ្ចូលគ្នារវាង Deep Gaussian Processes (DGP) និងបណ្តាញកោសិកា Bayesian Long Short-Term Memory (LSTM) ដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងពីខែមករា ឆ្នាំ២០២០ ដល់ខែធ្នូ ឆ្នាំ២០២៣។

ការប្រមូលទិន្នន័យអាកាសធាតុ ប្រវត្តិទាមទារសំណងធានារ៉ាប់រង និងទិន្នន័យកសិកម្ម (Weather, Insurance Claims, and Agricultural Data)
ការប្រើប្រាស់បណ្តាញកោសិកា (Bayesian LSTM) ដើម្បីវិភាគទិន្នន័យស៊េរីពេលវេលា
ការរួមបញ្ចូលម៉ូដែល (Deep Gaussian Process) ដើម្បីព្យាករណ៍លទ្ធផល និងវាយតម្លៃភាពមិនប្រាកដប្រជា
ការប្រៀបធៀបដំណើរការម៉ូដែល (Model Evaluation) ជាមួយ ARIMA, SVR, និង Random Forest

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានស្នើឡើងសម្រេចបាននូវភាពត្រឹមត្រូវខ្ពស់ជាងគេ ដោយមានកំហុស RMSE មធ្យមត្រឹមតែ ៧,១% សម្រាប់ទិន្នន័យបណ្តុះបណ្តាល និង ៨,២% សម្រាប់ទិន្នន័យសាកល្បង។
វាមានសមត្ថភាពកាត់បន្ថយកំហុស Log-likelihood បានយ៉ាងមានប្រសិទ្ធភាពពី -២៥០,៣២ មកត្រឹម -៩០,៤៥ នៅវដ្តបណ្តុះបណ្តាលទី១០០ (100th epoch)។
កត្តាសីតុណ្ហភាព (Correlation: ០,៨២) និងថ្លៃដើមធាតុចូលកសិកម្ម (Correlation: ០,៩៦) ត្រូវបានរកឃើញថាមានទំនាក់ទំនងយ៉ាងខ្លាំងទៅនឹងការកើនឡើងនៃអត្រាខាតបង់ធានារ៉ាប់រងកសិកម្ម។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
DGP + Bayesian LSTM (Proposed) ម៉ូដែលកូនកាត់បញ្ចូល Deep Gaussian Processes និង Bayesian LSTM	មានភាពត្រឹមត្រូវខ្ពស់ជាងគេក្នុងការទស្សន៍ទាយអត្រាខាតបង់ និងមានសមត្ថភាពវាស់ស្ទង់ភាពមិនប្រាកដប្រជា (Uncertainty) បានល្អឥតខ្ចោះ។	ទាមទារពេលវេលាបណ្តុះបណ្តាលយូរជាងគេបំផុត (៣៦២៦ វិនាទី) និងស៊ីធនធានកុំព្យូទ័រខ្លាំងដោយមានអត្រាស្មុគស្មាញដល់ទៅ O(n³ )។	Test RMSE: 8.2%, Test MAE: 6.1%, R²: 0.88
ARIMA ម៉ូដែលស្ថិតិ Autoregressive Integrated Moving Average	ស៊ីធនធានតិច និងមានល្បឿនលឿនបំផុតទាំងការបណ្តុះបណ្តាល (៣០២ វិនាទី) និងការទស្សន៍ទាយ (៣៧ វិនាទី)។	មានអត្រាកំហុសខ្ពស់ជាងគេ និងមិនសូវពូកែចាប់យកទិន្នន័យដែលស្មុគស្មាញ ឬមិនមានលក្ខណៈជាបន្ទាត់ត្រង់។	Test RMSE: 10.5%, Test MAE: 8.3%, R²: 0.72
Simple LSTM បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត Long Short-Term Memory	មានសមត្ថភាពល្អក្នុងការចាប់យកលំនាំស៊េរីពេលវេលា ដោយប្រើប្រាស់ធនធានកុំព្យូទ័រ និងល្បឿនក្នុងកម្រិតមធ្យម។	ភាពត្រឹមត្រូវនៅមានកម្រិតបើប្រៀបធៀបជាមួយម៉ូដែលកូនកាត់ និងមិនមានលទ្ធភាពផ្តល់ការវាយតម្លៃលើភាពមិនប្រាកដប្រជានៃការព្យាករណ៍ទេ។	Test RMSE: 9.0%, Test MAE: 7.0%, R²: 0.81
Random Forest Regressor (RF) ម៉ូដែលរៀនម៉ាស៊ីន Random Forest	ងាយស្រួលប្រើប្រាស់ មានល្បឿនលឿនគួរសមក្នុងការដំណើរការ និងអាចទប់ទល់នឹងបញ្ហា Overfitting បានល្អ។	មិនសូវមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយទិន្នន័យស៊េរីពេលវេលាដែលស្មុគស្មាញ ប្រៀបធៀបទៅនឹង Deep Learning ឡើយ។	Test RMSE: 9.3%, Test MAE: 7.3%, R²: 0.79
Support Vector Regression (SVR) ម៉ូដែលរៀនម៉ាស៊ីន Support Vector Regression	អាចដោះស្រាយបញ្ហាទិន្នន័យដែលមិនមានលក្ខណៈជាបន្ទាត់ត្រង់ (Non-linear relationships) បានគួរសម។	ត្រូវការពេលវេលាបណ្តុះបណ្តាលយូរ (១៨០៩ វិនាទី) និងមានអត្រាកំហុសខ្ពស់លំដាប់ទី២។	Test RMSE: 10.0%, Test MAE: 7.9%, R²: 0.77

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ពិសេសក្រាហ្វិកកាត (GPU) ទំហំធំ ដើម្បីដំណើរការម៉ូដែល Deep Learning និង Gaussian Processes ដែលមានភាពស្មុគស្មាញខ្ពស់។

Hardware: ទាមទារម៉ាស៊ីនកុំព្យូទ័រដែលមាន CPU Intel Core i9 (16 cores, 3.6 GHz), ក្រាហ្វិកកាត NVIDIA RTX 3080 GPU (10 GB VRAM) និងអង្គចងចាំ 64 GB DDR4 RAM។
Software: ប្រព័ន្ធប្រតិបត្តិការ Ubuntu 20.04 LTS ជាមួយ Python 3.8, TensorFlow 2.4 និង GPflow 2.1។
Dataset: ត្រូវការទិន្នន័យស៊េរីពេលវេលាយ៉ាងហោចណាស់ ៤ ឆ្នាំ (២០២០-២០២៣) ដែលរួមមាន ទិន្នន័យអាកាសធាតុ កំណត់ត្រាទាមទារសំណងធានារ៉ាប់រង ប្រភេទពូជដំណាំ ការប្រើប្រាស់ជី និងរបាយការណ៍សេដ្ឋកិច្ច។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីខេត្ត Henan ប្រទេសចិន ដែលផ្តោតជាចម្បងលើដំណាំស្រូវសាលី និងអាកាសធាតុប្រចាំតំបន់នោះ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ ដោយសារកម្ពុជាមានអាកាសធាតុខុសគ្នា (ត្រូពិចមូសុង) និងពឹងផ្អែកលើដំណាំស្រូវ ស្វាយចន្ទី ឬកៅស៊ូ ដែលមានហានិភ័យ និងវដ្តលូតលាស់ខុសគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាបរិបទកសិកម្មខុសគ្នាក៏ដោយ ក្របខ័ណ្ឌនៃការព្យាករណ៍ដោយប្រើប្រាស់ម៉ូដែលកូនកាត់នេះ មានសក្តានុពលខ្ពស់ក្នុងការជួយរៀបចំប្រព័ន្ធធានារ៉ាប់រងកសិកម្មនៅកម្ពុជា។

Forte Insurance ឬក្រុមហ៊ុនធានារ៉ាប់រងក្នុងស្រុក: អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីវាយតម្លៃហានិភ័យនៃគ្រោះរាំងស្ងួត ឬទឹកជំនន់លើដំណាំស្រូវនៅខេត្តបាត់ដំបង និងបន្ទាយមានជ័យ ដើម្បីកំណត់តម្លៃបុព្វលាភធានារ៉ាប់រង (Premium Rates) ដោយផ្អែកលើទិន្នន័យជាក់ស្តែង។
ក្រសួងកសិកម្ម រុក្ខាប្រមាញ់ និងនេសាទ (MAFF): អាចយកវិធីសាស្ត្រនេះទៅទស្សន៍ទាយពីការខាតបង់ទិន្នផលដោយសារបម្រែបម្រួលអាកាសធាតុ ដែលជួយដល់ការធ្វើផែនការផ្តល់គ្រាប់ពូជ ឬថវិកាសង្គ្រោះដល់កសិករបានទាន់ពេលវេលា។

ការអនុវត្តវិធីសាស្ត្រនេះអាចជួយកសាងទំនុកចិត្តលើប្រព័ន្ធធានារ៉ាប់រងកសិកម្មនៅកម្ពុជា ដែលជាខែលការពារជីវភាពកសិករខ្មែរពីការខាតបង់ធ្ងន់ធ្ងរដោយសារគ្រោះមហន្តរាយធម្មជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល (Mastering the Foundations): និស្សិតគប្បីផ្តើមសិក្សាពីទ្រឹស្តីនៃ Time Series Analysis, Bayesian LSTM និង Gaussian Processes តាមរយៈប្រភពអនឡាញ ឬការសាកល្បងសរសេរកូដសាមញ្ញជាមួយបណ្ណាល័យ TensorFlow។
ការប្រមូល និងរៀបចំទិន្នន័យក្នុងស្រុក (Local Data Collection): សហការជាមួយស្ថាប័នរដ្ឋ ដូចជាក្រសួងធនធានទឹក និងឧតុនិយម (MOWRAM) ដើម្បីប្រមូលទិន្នន័យទឹកភ្លៀង សីតុណ្ហភាព និងទិន្នន័យកសិកម្ម ហើយបំប្លែងទិន្នន័យទាំងនោះ (Data Normalization) ឱ្យស្របតាមស្តង់ដារ។
ការអភិវឌ្ឍម៉ូដែលកូនកាត់ (Developing the Hybrid Model): អនុវត្តការសរសេរកូដដោយប្រើប្រាស់ Python រួមជាមួយ TensorFlow និង GPflow ដើម្បីសាងសង់ម៉ូដែល Bayesian LSTM ផ្សំជាមួយ Deep Gaussian Processes ដោយផ្តោតលើការកែសម្រួល Hyperparameters។
ការវាយតម្លៃ និងប្រៀបធៀបលទ្ធផល (Model Evaluation): ប្រើប្រាស់រង្វាស់រង្វាល់ស្តង់ដារដូចជា RMSE និង MAE ដើម្បីប្រៀបធៀបម៉ូដែលដែលបានបង្កើតថ្មី ជាមួយនឹងម៉ូដែលងាយៗដូចជា ARIMA ឬ Random Forest ដើម្បីបញ្ជាក់ពីប្រសិទ្ធភាព។
បង្ហាញលទ្ធផលទៅកាន់អ្នកពាក់ព័ន្ធ (Stakeholder Engagement): រៀបចំរបាយការណ៍ និងបទបង្ហាញលទ្ធផលនៃការទស្សន៍ទាយទៅកាន់ក្រុមហ៊ុនធានារ៉ាប់រង ឬស្ថាប័នពាក់ព័ន្ធនានា ដើម្បីសាកល្បងប្រើប្រាស់ម៉ូដែលនេះជាឧបករណ៍វាយតម្លៃហានិភ័យ (Risk Assessment Tool) ជាក់ស្តែងនៅក្នុងវិស័យកសិកម្ម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Loss Ratio (អត្រាខាតបង់ធានារ៉ាប់រង)	ទំហំនៃទិន្នន័យហិរញ្ញវត្ថុដែលបង្ហាញពីសមាមាត្ររវាងប្រាក់សំណងដែលក្រុមហ៊ុនធានារ៉ាប់រងបានសងទៅអតិថិជន ធៀបនឹងប្រាក់បុព្វលាភ (Premium) សរុបដែលក្រុមហ៊ុនប្រមូលបាន។ ប្រសិនបើកម្រិតនេះខ្ពស់ មានន័យថាក្រុមហ៊ុនខាតបង់ច្រើនដោយសារការខូចខាតដំណាំ។	ដូចជាការប្រៀបធៀបលុយដែលយើងចំណាយទៅលើការជួសជុលឡាន ធៀបនឹងលុយដែលយើងបង់ថ្លៃធានារ៉ាប់រងប្រចាំឆ្នាំ បើថ្លៃជួសជុលអស់ច្រើនជាង នោះមានន័យថាអត្រាខាតបង់មានកម្រិតខ្ពស់។
Bayesian LSTM (បណ្តាញកោសិកា Bayesian Long Short-Term Memory)	វាជាប្រភេទម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ដែលពូកែចងចាំទិន្នន័យប្រវត្តិសាស្រ្តរយៈពេលវែង (ដូចជាប្រវត្តិអាកាសធាតុ) ហើយប្រើប្រាស់ទ្រឹស្តីប្រូបាប៊ីលីតេ (Bayesian) ដើម្បីវាស់ស្ទង់ពីកម្រិតភាពមិនប្រាកដប្រជានៃការព្យាករណ៍របស់ខ្លួន។	ដូចជាអ្នកព្យាករណ៍អាកាសធាតុដ៏ឆ្លាតវៃម្នាក់ ដែលមិនត្រឹមតែប្រាប់ថាថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ទេ ថែមទាំងប្រាប់ពីកម្រិតភាគរយនៃភាពជឿជាក់របស់គាត់ទៀតផង (ឧទាហរណ៍៖ ជឿជាក់ ៩០%)។
Deep Gaussian Processes (ដំណើរការ Deep Gaussian)	ជាម៉ូដែលគណិតវិទ្យាប្រូបាប៊ីលីតេដែលមានស្រទាប់ច្រើន (Multiple layers) ដែលព្យាករណ៍លទ្ធផលដោយមិនត្រឹមតែផ្តល់នូវតម្លៃមួយជាក់លាក់នោះទេ តែវាគណនាពីវិសាលភាពនៃលទ្ធផលដែលអាចកើតមានទាំងអស់ ដើម្បីចាប់យកភាពស្មុគស្មាញនៃទិន្នន័យ។	ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងគោលដៅ ដែលម៉ូដែលនេះមិនគ្រាន់តែចង្អុលបង្ហាញចំណុចមួយដែលព្រួញនឹងធ្លាក់នោះទេ តែវាគូសវង់ជុំវិញតំបន់ទាំងមូលដែលព្រួញអាចនឹងធ្លាក់ចូល។
Negative Log-Likelihood / NLL (កំហុស Negative Log-Likelihood)	ជារង្វាស់ដែលប្រើសម្រាប់វាយតម្លៃម៉ូដែលប្រូបាប៊ីលីតេ ដើម្បីមើលថាតើការព្យាករណ៍របស់ម៉ូដែលនោះស្របគ្នានឹងទិន្នន័យជាក់ស្តែងកម្រិតណា។ វាដាក់ពិន័យយ៉ាងធ្ងន់ធ្ងរដល់ម៉ូដែលដែលព្យាករណ៍ខុសហើយមានទំនុកចិត្តខុសកន្លែង។ កំហុសនេះកាន់តែតូច ម៉ូដែលកាន់តែល្អ។	ដូចជាការពិន័យសិស្សនៅពេលដែលពួកគេឆ្លើយខុស ហើយថែមទាំងមានទំនុកចិត្តខុសកន្លែង (ប្រាកដប្រជាថាត្រូវ តែបែរជាខុស)។ ការពិន័យកាន់តែតិច មានន័យថាសិស្សនោះកាន់តែពូកែ។
Root Mean Squared Error / RMSE (ឫសកំហុសមធ្យមការ៉េ)	ជារង្វាស់ស្តង់ដារដែលប្រើដើម្បីគណនាកម្រិតខុសគ្នារវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ។ វិធីសាស្ត្រនេះដាក់ពិន័យធ្ងន់ធ្ងរលើកំហុសណាដែលមានទំហំធំ។	ដូចជាការវាស់ស្ទង់ចម្ងាយពេលបាញ់កាំភ្លើង។ បើអ្នកបាញ់ខុសគោលដៅកាន់តែឆ្ងាយ ពិន្ទុដករបស់អ្នកនឹងកើនឡើងទ្វេដង ដែលបង្ខំឱ្យអ្នកត្រូវតែបាញ់ឱ្យជិតគោលដៅបំផុតរាល់ពេលដើម្បីចៀសវាងការពិន័យធ្ងន់ធ្ងរ។
ARIMA (ម៉ូដែលស៊េរីពេលវេលា ARIMA)	ជាម៉ូដែលស្ថិតិបុរាណដែលប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការវិភាគ និងព្យាករណ៍ទិន្នន័យស៊េរីពេលវេលា ដោយផ្អែកលើការទាញយកលំនាំចាស់ៗ និងតម្លៃមធ្យមនៃទិន្នន័យកាលពីអតីតកាល។	ដូចជាការបើកបរឡានដោយសម្លឹងមើលកញ្ចក់មើលក្រោយ ដើម្បីទាយថាតើផ្លូវខាងមុខនឹងមានរាងកោងបែបណា ដោយផ្អែកលើផ្លូវដែលយើងទើបតែបានបើកកាត់។
Stationarity (ភាពនឹងនរនៃទិន្នន័យស៊េរីពេលវេលា)	ជាលក្ខណៈនៃទិន្នន័យស៊េរីពេលវេលាដែលតម្លៃមធ្យម (Mean) និងបំរែបំរួល (Variance) របស់វាមិនប្រែប្រួលតាមពេលវេលា ដែលជាលក្ខខណ្ឌចាំបាច់ធ្វើឱ្យម៉ូដែលស្ថិតិងាយស្រួលក្នុងការទស្សន៍ទាយអនាគតបានត្រឹមត្រូវ។	ដូចជាចង្វាក់បេះដូងរបស់មនុស្សដែលកំពុងគេងលក់ វាលោតក្នុងល្បឿនថេរងាយស្រួលទស្សន៍ទាយ ផ្ទុយពីពេលកំពុងរត់ដែលមានការប្រែប្រួលខ្លាំងពិបាកនឹងចាប់ចង្វាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖