Original Title: Forecasting Agricultural Trade Based on TCN-LightGBM Models: A Data-Driven Decision
Source: doi.org/10.36956/rwae.v6i1.1429
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍ពាណិជ្ជកម្មកសិកម្មដោយផ្អែកលើម៉ូដែល TCN-LightGBM៖ ការសម្រេចចិត្តជំរុញដោយទិន្នន័យ

ចំណងជើងដើម៖ Forecasting Agricultural Trade Based on TCN-LightGBM Models: A Data-Driven Decision

អ្នកនិពន្ធ៖ Tianwen Zhao (Daegu Catholic University), Guoqing Chen (Chengdu Jincheng College), Thom Gatewongsa (Mahasarakham University), Piyapatr Busababodhin (Mahasarakham University)

ឆ្នាំបោះពុម្ព៖ 2025, Research on World Agricultural Economy

វិស័យសិក្សា៖ Agricultural Economics & Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទីផ្សារពាណិជ្ជកម្មកសិកម្មសកលមានភាពស្មុគស្មាញ និងប្រែប្រួលខ្លាំង ដែលធ្វើឱ្យការស្វែងរកម៉ូដែលព្យាករណ៍ដែលមានភាពត្រឹមត្រូវខ្ពស់ក្លាយជាបញ្ហាប្រឈមដ៏ធំសម្រាប់អ្នករៀបចំគោលនយោបាយ និងអ្នកពាណិជ្ជកម្ម។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវម៉ូដែលកូនកាត់ដែលរួមបញ្ចូលគ្នានូវបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត និងម៉ាស៊ីនរៀន ដើម្បីវិភាគទិន្នន័យពាណិជ្ជកម្មរយៈពេល១០ឆ្នាំ។

ការទាញយកលក្ខណៈពិសេសនៃស៊េរីពេលវេលា (Time Series Feature Extraction) ដោយប្រើប្រាស់បណ្តាញ Temporal Convolution Network (TCN)។
ការទស្សន៍ទាយតំរែតំរង់ (Regression Prediction) តាមរយៈក្បួនដោះស្រាយ Light Gradient Boosting Machine (LightGBM) សម្រាប់ដោះស្រាយទំនាក់ទំនងមិនលីនេអ៊ែរ។
ការវាយតម្លៃប្រៀបធៀបធៀបនឹងម៉ូដែលប្រពៃណីដូចជា ARIMA, LSTM, និងម៉ូដែល TCN/LightGBM ឯករាជ្យ ដោយប្រើប្រាស់ទិន្នន័យពីអង្គការ FAO និង IMF ចន្លោះឆ្នាំ ២០១១-២០២១។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល TCN-LightGBM សម្រេចបាននូវភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ (Prediction accuracy) រហូតដល់ ៩១,៣% លើទិន្នន័យសាកល្បង។
ម៉ូដែលនេះមានកម្រិតកំហុសទាបបំផុត ដោយមានកំហុសការ៉េមធ្យម (MSE) ត្រឹមតែ ០,០២១ និងកំហុសដាច់ខាតមធ្យម (MAE) ចំនួន ០,១១៥ បើប្រៀបធៀបទៅនឹងម៉ូដែលដទៃទៀត។
ការវិភាគភាពរសើបនៃប៉ារ៉ាម៉ែត្រ (Parameter sensitivity analysis) បង្ហាញថាម៉ូដែលនេះមានស្ថិរភាពខ្ពស់ និងភាពរឹងមាំ ដែលផ្តល់នូវឧបករណ៍គាំទ្រការសម្រេចចិត្តផ្អែកលើទិន្នន័យដ៏មានសក្តានុពលក្នុងវិស័យពាណិជ្ជកម្មកសិកម្ម។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
TCN-LightGBM (Proposed Hybrid Model) ម៉ូដែលកូនកាត់ TCN-LightGBM	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យរយៈពេលវែង (Long-term dependencies) និងដោះស្រាយទំនាក់ទំនងមិនលីនេអ៊ែរបានយ៉ាងល្អ ព្រមទាំងមានស្ថិរភាពខ្ពស់។	មានចំណុចខ្សោយក្នុងការទាញយកនិន្នាការទស្សន៍ទាយរយៈពេលវែងខ្លាំង (Trend extrapolation) ដោយសារវាពឹងផ្អែកលើទម្រង់ដើមឈើ (Tree-based model) និងទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រច្រើន។	សម្រេចបានភាពត្រឹមត្រូវ ៩១,៣%, កំហុស MSE=០,០២១, និងកំហុស MAE=០,១១៥។
ARIMA (Baseline Statistical Model) ម៉ូដែលស្ថិតិប្រពៃណី ARIMA	មានដំណើរការល្អក្នុងការធ្វើម៉ូដែលច្បាស់លាស់សម្រាប់និន្នាការ និងរដូវកាល (Trend and seasonality) ដែលស័ក្តិសមសម្រាប់ការទាញយកនិន្នាការទស្សន៍ទាយរយៈពេលវែង។	មិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការដោះស្រាយទំនាក់ទំនងមិនលីនេអ៊ែរដែលស្មុគស្មាញ និងទិន្នន័យដែលមានការប្រែប្រួលខ្ពស់នោះទេ។	សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៨២,៦%, កំហុស MSE=០,០៤៥, និងកំហុស MAE=០,១៧៨។
LSTM (Deep Learning Model) ម៉ូដែលសិក្សាជ្រៅជ្រះ LSTM	មានភាពលេចធ្លោក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យពេលវេលា (Time-dependence) បានយ៉ាងល្អ។	ងាយនឹងជួបបញ្ហា Overfitting និងចំណាយធនធានកុំព្យូទ័រខ្ពស់ក្នុងការហ្វឹកហាត់ (Low computational efficiency)។	សម្រេចបានភាពត្រឹមត្រូវ ៨៦,៧%, កំហុស MSE=០,០៣១, និងកំហុស MAE=០,១៤១។
LightGBM (Standalone) ម៉ូដែល LightGBM ឯករាជ្យ	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈមិនលីនេអ៊ែរ ជាមួយនឹងការចំណាយធនធានកុំព្យូទ័រតិច និងហ្វឹកហាត់បានលឿន។	មិនអាចទាញយកទំនាក់ទំនងបន្តបន្ទាប់នៃទិន្នន័យពេលវេលា (Temporal sequence dependency) បានល្អប្រសិនបើមិនមានលក្ខណៈពិសេសគ្រប់គ្រាន់។	សម្រេចបានភាពត្រឹមត្រូវ ៨៨,១%, កំហុស MSE=០,០២៨, និងកំហុស MAE=០,១៣០។

ការចំណាយលើធនធាន (Resource Cost)៖ ម៉ូដែលនេះទាមទារធនធានកុំព្យូទ័រតិចជាងម៉ូដែល Deep Learning ប្រពៃណី (ដូចជា LSTM) ដោយសារការប្រើប្រាស់ LightGBM ដែលមានភាពស្រាល ប៉ុន្តែទាមទារទិន្នន័យប្រវត្តិសាស្ត្រច្រើន និងពេលវេលាក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ។

Dataset: ទិន្នន័យពាណិជ្ជកម្មកសិកម្មប្រវត្តិសាស្ត្រទ្រង់ទ្រាយធំ (យ៉ាងហោចណាស់១០ឆ្នាំ និងមានទម្រង់ជាប្រចាំខែ) រួមមានបរិមាណពាណិជ្ជកម្ម និងសូចនាករម៉ាក្រូសេដ្ឋកិច្ច (អតិផរណា កំណើនផសស)។
Hardware: កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ (មាន GPU សម្រាប់បង្កើនល្បឿនដំណើរការ TCN) និងប្រព័ន្ធ Cloud Computing សម្រាប់ការទស្សន៍ទាយជាក់ស្តែង (Real-time prediction)។
Software: បណ្ណាល័យសរសេរកូដសម្រាប់ Machine Learning និង Deep Learning (ដូចជា Python, PyTorch, TensorFlow, និង LightGBM framework)។
Expertise: ទាមទារអ្នកជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ ដែលយល់ដឹងអំពី Time Series Analysis, Feature Engineering, និងការកែតម្រូវប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពាណិជ្ជកម្មម៉ាក្រូកសិកម្មពីអង្គការ FAO និង IMF ដែលគ្របដណ្តប់លើទ្វីបចំនួន៥ ផ្តោតលើផលិតផលទូទៅដូចជា គ្រាប់ធញ្ញជាតិ សាច់ និងបន្លែ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តម៉ូដែលនេះដោយប្រើត្រឹមទិន្នន័យសកលអាចនឹងមិនឆ្លុះបញ្ចាំងពេញលេញពីទីផ្សារក្នុងស្រុកឡើយ ព្រោះកម្ពុជាពឹងផ្អែកខ្លាំងលើការនាំចេញកសិផលឆៅទៅកាន់ប្រទេសជិតខាង (វៀតណាម ថៃ) និងប្រទេសចិន។ ហេតុនេះ ការបណ្តុះបណ្តាលម៉ូដែលឡើងវិញជាមួយទិន្នន័យក្នុងស្រុកគឺជារឿងចាំបាច់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អសម្រាប់វិស័យកសិកម្មនៅកម្ពុជា ដើម្បីជួយសម្រួលដល់ការរៀបចំផែនការនាំចេញ និងកាត់បន្ថយហានិភ័យទីផ្សារ។

ការនាំចេញអង្ករ និងដំឡូងមី (ខេត្តបាត់ដំបង និងបន្ទាយមានជ័យ): អាចប្រើម៉ូដែលនេះដើម្បីទស្សន៍ទាយតម្រូវការទីផ្សារសកល និងការប្រែប្រួលតម្លៃ ដែលជួយសហគមន៍កសិករ និងរោងម៉ាស៊ីនកិនស្រូវរៀបចំស្តុក និងកំណត់តម្លៃប្រកួតប្រជែង។
ទីផ្សារគ្រាប់ស្វាយចន្ទី និងកៅស៊ូ (ខេត្តកំពង់ធំ និងរតនគិរី): ដោយសារកសិផលទាំងនេះងាយរងគ្រោះដោយការប្រែប្រួលតម្លៃសកល ម៉ូដែលនេះអាចជួយអ្នកនាំចេញក្នុងការស្វែងយល់ពីវដ្តនៃការឡើងចុះតម្លៃ និងធ្វើការសម្រេចចិត្តលក់នៅពេលវេលាសមស្រប។
ការរៀបចំគោលនយោបាយរបស់ក្រសួងកសិកម្ម រុក្ខាប្រមាញ់ និងនេសាទ (MAFF): អ្នករៀបចំគោលនយោបាយអាចប្រើប្រាស់វាជាប្រព័ន្ធគាំទ្រការសម្រេចចិត្ត (Decision Support System) ដើម្បីកំណត់យុទ្ធសាស្ត្រអន្តរាគមន៍ទីផ្សារ ធានាសន្តិសុខស្បៀង និងជំរុញការនាំចេញ។

ការធ្វើសមាហរណកម្មម៉ូដែលព្យាករណ៍ដែលជំរុញដោយទិន្នន័យនេះ នឹងជួយប្រែក្លាយកសិកម្មកម្ពុជាពីការដាំដុះតាមទម្លាប់ ទៅជាការផលិតនិងការនាំចេញដែលមានយុទ្ធសាស្ត្រច្បាស់លាស់ និងធន់នឹងវិបត្តិទីផ្សារ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងរៀបចំទិន្នន័យពាណិជ្ជកម្មកសិកម្ម: ប្រមូលទិន្នន័យប្រវត្តិសាស្ត្រនៃការនាំចេញកសិផល (អង្ករ ដំឡូងមី ស្វាយចន្ទី) ពីអគ្គនាយកដ្ឋានគយ និងរដ្ឋាករកម្ពុជា និងសូចនាករសេដ្ឋកិច្ច។ ប្រើប្រាស់ Pandas ដើម្បីសម្អាតទិន្នន័យ (Data cleaning) និងបំពេញទិន្នន័យដែលបាត់បង់ (Missing values) ដោយប្រើវិធី Linear Interpolation។
អនុវត្តការទាញយកលក្ខណៈពិសេសដោយប្រើ TCN: សាងសង់បណ្តាញ Temporal Convolutional Network (TCN) តាមរយៈ PyTorch ឬ TensorFlow ដើម្បីចាប់យកលក្ខណៈពេលវេលារយៈពេលវែង ដោយប្រើ Dilated Convolution និង Causal Convolution ដើម្បីការពារការលេចធ្លាយទិន្នន័យអនាគត។
រួមបញ្ចូលម៉ូដែល LightGBM សម្រាប់ការទស្សន៍ទាយ: យកលទ្ធផល Feature Vectors ដែលទទួលបានពី TCN បញ្ចូលទៅក្នុង LightGBM API។ ម៉ូដែលនេះនឹងទាញយកអត្ថប្រយោជន៍ពី Gradient Boosting Decision Tree ដើម្បីវិភាគទំនាក់ទំនងមិនលីនេអ៊ែរ និងធ្វើការទស្សន៍ទាយតម្លៃចុងក្រោយ។
កែតម្រូវប៉ារ៉ាម៉ែត្រកម្រិតខ្ពស់ (Hyperparameter Tuning): ធ្វើតេស្តស្វែងរកការកំណត់ដែលល្អបំផុតដោយប្រើ Optuna ឬ GridSearchCV លើចំនួនស្រទាប់ TCN (ឧទាហរណ៍ ៤ ស្រទាប់) ទំហំ Kernel ព្រមទាំងចំនួនដើមឈើ (Trees=200) និងអត្រាសិក្សា (Learning Rate=0.05) របស់ LightGBM។
ដាក់ពង្រាយជាប្រព័ន្ធគាំទ្រការសម្រេចចិត្ត (DSS): ដាក់ដំណើរការម៉ូដែលនៅលើ AWS ឬ Google Cloud រួចបង្កើត Dashboard អន្តរកម្មតាមរយៈ Streamlit ឬ PowerBI ដើម្បីបង្ហាញការព្យាករណ៍និន្នាការទីផ្សារដល់កសិករ និងស្ថាប័នពាក់ព័ន្ធសម្រាប់ការសម្រេចចិត្តប្រកបដោយប្រសិទ្ធភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Temporal Convolution Network (TCN) (បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតវិភាគពេលវេលា)	គឺជាប្រភេទម៉ូដែលសិក្សាជ្រៅជ្រះ (Deep Learning) ដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសដើម្បីដោះស្រាយទិន្នន័យជាស៊េរីពេលវេលា ដោយប្រើប្រាស់រចនាសម្ព័ន្ធ Convolution ដើម្បីចាប់យកទំនាក់ទំនងទិន្នន័យពីអតីតកាលមកបច្ចុប្បន្ន។	ដូចជាអ្នកសង្កេតមើលចរាចរណ៍ផ្លូវគោកជាច្រើនម៉ោងជាប់ៗគ្នា ដើម្បីទាយដឹងថាពេលណាស្ទះ និងពេលណាស្រឡះ ដោយមិនចាំបាច់មើលរាល់វិនាទីនៃវីដេអូនោះទេ។
LightGBM (ម៉ាស៊ីនរៀន Light Gradient Boosting Machine)	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ប្រភេទដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានល្បឿនលឿន និងស៊ីធនធានកុំព្យូទ័រតិច ស័ក្តិសមបំផុតក្នុងការវិភាគទំនាក់ទំនងទិន្នន័យដែលមិនមែនជាបន្ទាត់ត្រង់ (Nonlinear)។	ដូចជាក្រុមអ្នកជំនាញពិភាក្សាគ្នា ដោយម្នាក់ៗកែតម្រូវកំហុសរបស់អ្នកមុនៗរហូតទទួលបានចម្លើយរួមមួយដែលត្រឹមត្រូវបំផុត និងប្រើពេលលឿនបំផុត។
Dilated Convolution (កម្រងប្រមូលផ្តុំពង្រីក)	ជាបច្ចេកទេសនៅក្នុងបណ្តាញ TCN ដែលអនុញ្ញាតឱ្យម៉ូដែលរំលងទិន្នន័យមួយចំនួនតាមលំដាប់លំដោយ ដើម្បីអាចមើលឃើញទិន្នន័យក្នុងចន្លោះពេលកាន់តែធំដោយមិនបង្កើនទំហំនៃការគណនា។	ដូចជាការអានសៀវភៅដោយមើលរំលង២ទំព័រម្តងៗ ដើម្បីចាប់យកអត្ថន័យរួមនៃសាច់រឿងឱ្យបានលឿន ជាជាងអានគ្រប់តួអក្សរ។
Causal Convolution (កម្រងប្រមូលផ្តុំផ្អែកលើហេតុនិងផល)	យន្តការដែលធានាថាម៉ូដែលមិនយកទិន្នន័យពីអនាគតមកប្រើប្រាស់ដើម្បីទស្សន៍ទាយបច្ចុប្បន្ននោះទេ ពោលគឺវាវិភាគតែទិន្នន័យអតីតកាលប៉ុណ្ណោះដើម្បីរក្សាភាពត្រឹមត្រូវពិតប្រាកដនៃការទស្សន៍ទាយ។	ដូចជាការទាយលទ្ធផលប្រឡងដោយផ្អែកលើពិន្ទុធ្វើតេស្តសាកល្បងកន្លងមក ដោយមិនអាចលួចមើលសន្លឹកកិច្ចការថ្ងៃប្រឡងពិតប្រាកដមុនពេលកំណត់ឡើយ។
Mean Square Error (MSE) (កំហុសការ៉េមធ្យម)	ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃកម្រិតខុសគ្នារវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ ដោយវាផ្តល់ទម្ងន់កាន់តែធ្ងន់ចំពោះកំហុសណាដែលមានទំហំធំ ឬខុសឆ្ងាយពីការពិតខ្លាំង។	ដូចជាការបាញ់ស៊ីបព្រួញ បើអ្នកបាញ់ខុសគោលដៅតិចតួចមិនសូវអីទេ តែបើបាញ់ខុសឆ្ងាយ អ្នកនឹងត្រូវពិន័យជាពិន្ទុគុណនឹងពីរទ្វេដង។
Time Series Analysis (ការវិភាគស៊េរីពេលវេលា)	ដំណើរការនៃការទាញយកទិន្នន័យដែលប្រមូលបានជាបន្តបន្ទាប់តាមលំដាប់ពេលវេលា (ដូចជាបរិមាណពាណិជ្ជកម្មកសិកម្មប្រចាំខែ) ដើម្បីស្វែងរកនិន្នាការ ឬវដ្តប្រចាំរដូវកាលសម្រាប់ការទស្សន៍ទាយនៅអនាគត។	ដូចជាការកត់ត្រាសីតុណ្ហភាពរៀងរាល់ថ្ងៃក្នុងមួយឆ្នាំ ដើម្បីទាញសេចក្តីសន្និដ្ឋានថារដូវរំហើយនឹងចាប់ផ្តើមនៅខែណា។
Gradient Boosting Decision Tree (GBDT) (ដើមឈើសម្រេចចិត្តជម្រុញកម្រិតភាពជម្រាល)	ជាបច្ចេកទេស Machine Learning ដែលបង្កើតម៉ូដែលខ្សោយៗជាច្រើនជាបន្តបន្ទាប់ ដោយម៉ូដែលនីមួយៗផ្តោតលើការកែតម្រូវកំហុសដែលបន្សល់ទុកដោយម៉ូដែលមុន។	ដូចជាសិស្សមួយក្រុមធ្វើកិច្ចការផ្ទះរួមគ្នា ដោយសិស្សទី២ជួយកែចំណុចខុសរបស់សិស្សទី១ ហើយសិស្សទី៣ជួយកែចំណុចខុសរបស់សិស្សទី២ បន្តបន្ទាប់គ្នារហូតកិច្ចការនោះល្អឥតខ្ចោះ។
Feature Engineering (វិស្វកម្មលក្ខណៈទិន្នន័យ)	ការប្រើប្រាស់ចំណេះដឹងផ្នែកវិភាគទិន្នន័យដើម្បីបង្កើតលក្ខណៈពិសេសថ្មីៗពីទិន្នន័យឆៅ (ឧទាហរណ៍ ការបូកបញ្ចូលអតិផរណា និងកំណើនសេដ្ឋកិច្ច) ដើម្បីជួយឱ្យម៉ូដែលយល់ដឹងកាន់តែច្បាស់ និងទស្សន៍ទាយបានត្រឹមត្រូវជាងមុន។	ដូចជាការច្នៃបន្លែឆៅ ត្រី និងគ្រឿងទេស បញ្ចូលគ្នាទៅជាស៊ុបដែលមានរសជាតិឆ្ងាញ់ ដើម្បីឱ្យរាងកាយងាយស្រួលស្រូបយកជីវជាតិពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖