Original Title: AI-based Yield Prediction: A Thorough Review
Source: doi.org/10.17485/IJST/v18i10.175
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍ទិន្នផលដោយប្រើប្រាស់បញ្ញាសិប្បនិម្មិត៖ ការពិនិត្យឡើងវិញយ៉ាងល្អិតល្អន់

ចំណងជើងដើម៖ AI-based Yield Prediction: A Thorough Review

អ្នកនិពន្ធ៖ Soma Gupta (School of Computer Engineering, KIIT Deemed to be University), Satarupa Mohanty, Dayal Kumar Behera

ឆ្នាំបោះពុម្ព៖ 2025, Indian Journal of Science and Technology

វិស័យសិក្សា៖ Machine Learning in Agriculture

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការអនុវត្តកសិកម្មបែបប្រពៃណីពឹងផ្អែកលើវិធីសាស្ត្រចាស់ៗ ដែលធ្វើឱ្យការប៉ាន់ស្មានទិន្នផលដំណាំមានភាពមិនច្បាស់លាស់ក្នុងកាលៈទេសៈប្រែប្រួលអាកាសធាតុ។ ឯកសារនេះដោះស្រាយបញ្ហាដោយការសិក្សាពីរបៀបដែលម៉ាស៊ីនរៀន (Machine Learning) អាចជួយបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយទិន្នផលសម្រាប់ការធ្វើសេចក្តីសម្រេចចិត្ត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់វិធីសាស្ត្រពិនិត្យឡើងវិញនូវអក្សរសិល្ប៍ជាប្រព័ន្ធ (Systematic Literature Review) ដោយចម្រាញ់អត្ថបទពី ៤៥០ មកត្រឹម ៤០ ពីមូលដ្ឋានទិន្នន័យធំៗចំនួន ៥ ដើម្បីវិភាគលើក្បួនដោះស្រាយ និងប្រភពទិន្នន័យ។

ការពិនិត្យឡើងវិញអក្សរសិល្ប៍ជាប្រព័ន្ធ (Systematic Literature Review)
បច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យ (Feature Selection Techniques)
ការវាយតម្លៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithms evaluation)
ការរួមបញ្ចូលប្រភពទិន្នន័យចម្រុះ (Data source integration)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការវាយតម្លៃបង្ហាញថា Random Forest (RF) គឺជាក្បួនដោះស្រាយម៉ាស៊ីនរៀនដែលត្រូវបានប្រើប្រាស់ច្រើនជាងគេបំផុត ខណៈដែល Convolutional Neural Network (CNN) និង LSTM ពេញនិយមបំផុតក្នុងកម្រិត Deep Learning។
ទិន្នន័យសន្ទស្សន៍រុក្ខជាតិ (Vegetation index) និងទិន្នន័យផ្កាយរណប គឺជាប្រភេទលក្ខណៈពិសេសដែលត្រូវបានប្រើប្រាស់ញឹកញាប់បំផុត (ប្រមាណ ១១ ការសិក្សា) ដើម្បីទស្សន៍ទាយទិន្នផលដំណាំ។
ការរួមបញ្ចូលគំរូកូនកាត់ (Hybrid models) និងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលអាចបកស្រាយបាន (Explainable AI - XAI) ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ និងបង្កើនតម្លាភាពដែលអាចជួយកសិករយល់កាន់តែច្បាស់ពីលទ្ធផលនៃការទស្សន៍ទាយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Forest (RF) ក្បួនដោះស្រាយ Random Forest (RF) ជាប្រភេទសំណុំម៉ាស៊ីនរៀន (Ensemble Learning)	មិនសូវងាយមានបញ្ហា Overfitting និងមានភាពជាក់លាក់ខ្ពស់ទោះមានទិន្នន័យច្រើន។	ការផ្លាស់ប្តូរទិន្នន័យបន្តិចបន្តួចអាចជះឥទ្ធិពលធំដល់លទ្ធផលនៃការទស្សន៍ទាយ។	ជាម៉ូដែលដែលពេញនិយមជាងគេ ដោយផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ (ឧ. ទទួលបាន R² រហូតដល់ ០.៧៥ ក្នុងការទស្សន៍ទាយទិន្នផលស្រូវសាលី)។
Convolutional Neural Network (CNN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត CNN	មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគលើទិន្នន័យរូបភាព (ដូចជារូបភាពពីផ្កាយរណប ឬដ្រូន) ដោយកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្របានល្អ។	ដំណើរការមានភាពយឺតជាង ANN ធម្មតា និងទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្ពស់។	អាចទស្សន៍ទាយបានយ៉ាងច្បាស់លាស់ជាមួយទិន្នន័យរូបភាពចម្រុះ (ទទួលបាន R² លើសពី ០.៨ និង RMSE តូចជាង ១០% សម្រាប់ពោត និងសណ្តែក)។
Long Short-Term Memory (LSTM) បណ្តាញសរសៃប្រសាទចងចាំលំដាប់ពេលវេលា (LSTM)	តំណាងឱ្យលំដាប់ទិន្នន័យតាមពេលវេលាបានល្អខ្លាំង (ឧទាហរណ៍៖ ទិន្នន័យអាកាសធាតុ ឬសីតុណ្ហភាពប្រចាំថ្ងៃ)។	មិនអាចដំណើរការទិន្នន័យដែលវែងពេកបានទេ នៅពេលប្រើប្រាស់អនុគមន៍ Activation មួយចំនួនដូចជា ReLU។	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការវិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា (ទទួលបានភាពត្រឹមត្រូវពី ៩៧.៣៣% ដល់ ៩៩.២១% ក្នុងការវាយតម្លៃប្រភេទដីដាំដុះ)។
Support Vector Machine (SVM) ម៉ាស៊ីន Support Vector Machine (SVM)	ជួយសម្រួលដល់ការចាត់ថ្នាក់ទិន្នន័យ និងកាត់បន្ថយកំហុសប្រកបដោយប្រសិទ្ធភាពដោយប្រើអនុគមន៍ Kernel។	ងាយរងគ្រោះនឹងបញ្ហា Overfitting ដែលអាស្រ័យទៅលើប្រភេទ Kernel ដែលបានប្រើ។	មានប្រសិទ្ធភាពបង្គួរក្នុងការប្រៀបធៀប (ឧទាហរណ៍៖ ការទស្សន៍ទាយទិន្នផលស្រូវទទួលបាន RMSE ប្រមាណ ៧៣៧ គីឡូក្រាមក្នុងមួយហិកតា)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់ថាការប្រើប្រាស់គំរូ Deep Learning (ដូចជា CNN និង DNN) ទាមទារធនធានកុំព្យូទ័រខ្លាំង និងទិន្នន័យចម្រុះច្រើនប្រភព។

Hardware: ទាមទារកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង (High-end computer / GPU) ជាពិសេសសម្រាប់ដំណើរការក្បួនដោះស្រាយ Deep Learning ដែលមានទំហំធំ និងស្មុគស្មាញ។
Dataset: ត្រូវការប្រភពទិន្នន័យចម្រុះរួមមាន៖ រូបភាពផ្កាយរណប (MODIS, Landsat), សន្ទស្សន៍រុក្ខជាតិ (NDVI, LAI), ទិន្នន័យអាកាសធាតុ (សីតុណ្ហភាព, ទឹកភ្លៀង) និងទិន្នន័យគុណភាពដី។
Expertise: អ្នកស្រាវជ្រាវត្រូវមានជំនាញក្នុងការប្រើប្រាស់បច្ចេកទេស Feature Selection និងការកែច្នៃទិន្នន័យមុនពេលបញ្ចូលទៅក្នុងម៉ូដែល (Data Preprocessing)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាភាគច្រើន (ក្នុងឯកសារទាំង ៤០) ត្រូវបានធ្វើឡើងនៅក្នុងតំបន់កសិកម្មធំៗដូចជា សហរដ្ឋអាមេរិក ចិន ឥណ្ឌា អូស្ត្រាលី និងប្រេស៊ីល ដោយប្រើប្រាស់ទិន្នន័យដែលមានគុណភាពខ្ពស់ និងប្រវត្តិទិន្នផលយូរឆ្នាំ។ នេះគឺជាឧបសគ្គសម្រាប់ប្រទេសកម្ពុជា ដោយសារយើងនៅខ្វះខាតប្រព័ន្ធប្រមូលទិន្នន័យអាកាសធាតុរឹមៗ (Micro-climate) កម្រិតជីវជាតិដីលម្អិត និងប្រវត្តិទិន្នផលដំណាំដែលច្បាស់លាស់នៅឡើយ ដែលទាមទារឱ្យមានការប្រើប្រាស់បច្ចេកទេស Transfer Learning ដើម្បីយកមកអនុវត្ត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមរឿងការប្រមូលទិន្នន័យក៏ដោយ វិធីសាស្ត្រ Machine Learning ទាំងនេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការជួយធ្វើទំនើបកម្មវិស័យកសិកម្មនៅកម្ពុជា។

ខេត្តបាត់ដំបង និងបន្ទាយមានជ័យ (តំបន់ផលិតស្រូវ និងដំឡូងមី): អាចប្រើប្រាស់រូបភាពផ្កាយរណប (NDVI) រួមជាមួយក្បួនដោះស្រាយ Random Forest ដើម្បីតាមដានសុខភាពដំណាំ និងទស្សន៍ទាយទិន្នផលស្រូវ ឬដំឡូងមីមុនរដូវប្រមូលផល ដើម្បីរៀបចំទីផ្សារ។
ការគ្រប់គ្រងគ្រោះរាំងស្ងួត និងទឹកជំនន់នៅជុំវិញបឹងទន្លេសាប: អាចអនុវត្តបណ្តាញ LSTM រួមបញ្ចូលជាមួយគំរូកូនកាត់ (Hybrid models) ដើម្បីវិភាគទិន្នន័យអាកាសធាតុប្រចាំថ្ងៃ និងវាយតម្លៃហានិភ័យនៃបម្រែបម្រួលអាកាសធាតុមកលើទិន្នផលកសិកម្ម។
កសិដ្ឋានវៃឆ្លាត (Smart Farms) ក្នុងខេត្តមណ្ឌលគិរី និងរតនគិរី: កសិដ្ឋានដាំដុះដំណាំកសិ-ឧស្សាហកម្មដូចជា កៅស៊ូ ឬម្រេច អាចប្រើប្រាស់បច្ចេកវិទ្យា Explainable AI (XAI) ដើម្បីទទួលបានការណែនាំជាក់លាក់អំពីការប្រើប្រាស់ជី និងទឹកដោយតម្លាភាព។

សរុបមក ការចាប់ផ្តើមអនុវត្តបច្ចេកវិទ្យាទាំងនេះតម្រូវឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាធ្វើការវិនិយោគលើហេដ្ឋារចនាសម្ព័ន្ធប្រមូលទិន្នន័យជាប្រព័ន្ធសិន ទើបអាចបង្កើតម៉ូដែលទស្សន៍ទាយដែលអាចជឿទុកចិត្តបានសម្រាប់ប្រជាកសិករ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងរៀបចំទិន្នន័យ (Data Collection): ចាប់ផ្តើមដោយការទាញយកទិន្នន័យផ្កាយរណបឥតគិតថ្លៃដូចជា Landsat 8 ឬ MODIS តាមរយៈថ្នាល Google Earth Engine (GEE) និងធ្វើការរួមបញ្ចូលជាមួយទិន្នន័យអាកាសធាតុប្រវត្តិសាស្ត្រ។
ការជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យ (Feature Selection): អនុវត្តបច្ចេកទេស Recursive Feature Elimination (RFE) ឬ PCA នៅក្នុង Python (Scikit-Learn) ដើម្បីកាត់បន្ថយទិន្នន័យរំខាន និងជ្រើសរើសអថេរដែលសំខាន់បំផុត (ឧទាហរណ៍៖ សីតុណ្ហភាព, កម្រិតទឹកភ្លៀង, និងសន្ទស្សន៍ NDVI)។
ការសាកល្បងជាមួយគំរូកម្រិតមូលដ្ឋាន (Baseline Modeling): សាងសង់គំរូ Random Forest ឬ Support Vector Regression (SVR) ជាមុនសិន ដើម្បីបង្កើតជាគោលសម្រាប់ប្រៀបធៀប (Baseline) ព្រោះក្បួនដោះស្រាយទាំងនេះដើរលឿន និងមិនសូវទាមទារកម្លាំងកុំព្យូទ័រខ្លាំង។
ការអភិវឌ្ឍគំរូកម្រិតខ្ពស់ (Deep Learning & Hybrid Models): បន្តឈានទៅប្រើប្រាស់ CNN សម្រាប់វិភាគរូបភាព (Spatial) ឬ LSTM សម្រាប់ទិន្នន័យប្រែប្រួលតាមពេលវេលា (Temporal) ដោយប្រើ TensorFlow ឬ PyTorch។
ការបកស្រាយលទ្ធផលជូនកសិករ (Explainable AI Implementation): ប្រើប្រាស់បណ្ណាល័យដូចជា SHAP ឬ LIME (បច្ចេកទេស XAI) ដើម្បីបកស្រាយពីកត្តាដែលជះឥទ្ធិពលដល់ការទស្សន៍ទាយទិន្នផល ដែលអាចជួយឱ្យអ្នកធ្វើគោលនយោបាយ និងកសិករងាយយល់និងអាចចាត់វិធានការបានត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Convolutional Neural Network (CNN)	បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់វិភាគទិន្នន័យរូបភាព (ដូចជារូបភាពពីផ្កាយរណប ឬដ្រូន) ដើម្បីទាញយកលក្ខណៈពិសេសរបស់តំបន់ដាំដុះ និងវាយតម្លៃសុខភាពដំណាំ។	ដូចជាភ្នែកមនុស្សដែលសម្លឹងមើលរូបថតចម្ការមួយសន្លឹក ហើយអាចប្រាប់បានយ៉ាងរហ័សថាកន្លែងណាដំណាំលូតលាស់ល្អ ឬកន្លែងណាមានជំងឺ។
Long Short-Term Memory (LSTM)	ប្រភេទនៃបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Learning) ដែលមានសមត្ថភាពចងចាំទិន្នន័យដែលកើតឡើងតាមលំដាប់ពេលវេលា (Time-series) ដូចជាការប្រែប្រួលសីតុណ្ហភាព និងទឹកភ្លៀងប្រចាំថ្ងៃ ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលនាពេលអនាគត។	ដូចជាកសិករចាស់វស្សាម្នាក់ដែលចងចាំប្រវត្តិអាកាសធាតុនិងបរិមាណទឹកភ្លៀងពីខែមុនៗ ដើម្បីទាយថាខែនេះស្រូវនឹងបានផលល្អឬអត់។
Random Forest (RF)	ក្បួនដោះស្រាយម៉ាស៊ីនរៀនដែលបង្កើតជាម៉ូដែល 'ដើមឈើសម្រេចចិត្ត' (Decision Trees) ជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយរួមមួយដែលមានភាពត្រឹមត្រូវខ្ពស់ និងកាត់បន្ថយបញ្ហាកំហុសឆ្គងពីការទន្ទេញទិន្នន័យ (Overfitting)។	ដូចជាការប្រមូលយោបល់ពីអ្នកជំនាញកសិកម្មចំនួន ១០០ នាក់ រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយប្រកបដោយទំនុកចិត្តខ្ពស់។
Normalized Difference Vegetation Index (NDVI)	សន្ទស្សន៍ដែលបានមកពីការគណនាចំណាំងផ្លាតពន្លឺ (ពិសេសពន្លឺក្រហម និងពន្លឺអ៊ីនហ្វ្រារ៉េដក្បែរ) នៃរូបភាពផ្កាយរណប ដើម្បីវាស់ស្ទង់កម្រិតភាពបៃតង និងដង់ស៊ីតេសុខភាពរបស់រុក្ខជាតិនៅលើផ្ទៃដី។	ដូចជាប្រដាប់វាស់កម្តៅដែលគ្រូពេទ្យប្រើសម្រាប់វាស់កម្តៅអ្នកជំងឺ តែនេះគឺជាការវាស់ 'សុខភាព' របស់រុក្ខជាតិពីលើមេឃដោយមើលលើកម្រិតពណ៌បៃតងរបស់វា។
Transfer Learning	បច្ចេកទេសក្នុងម៉ាស៊ីនរៀន (Machine Learning) ដែលផ្តោតលើការយកចំណេះដឹងពីម៉ូដែលដែលបានហ្វឹកហាត់រួចមកអនុវត្តលើបញ្ហាថ្មីមួយទៀតដែលមានទិន្នន័យតិចតួច ដើម្បីសន្សំពេលវេលា និងធនធានកុំព្យូទ័រក្នុងការអភិវឌ្ឍម៉ូដែល។	ដូចជាមនុស្សដែលចេះជិះកង់យ៉ាងស្ទាត់ជំនាញរួចហើយ យកបច្ចេកទេសរក្សាលំនឹងនោះទៅរៀនជិះម៉ូតូ ដែលធ្វើឱ្យគាត់ឆាប់ចេះជាងអ្នកមិនធ្លាប់ជិះកង់សោះ។
Explainable AI (XAI)	បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផលទស្សន៍ទាយប៉ុណ្ណោះទេ ថែមទាំងផ្តល់នូវតម្លាភាពដោយអាចពន្យល់ពីហេតុផល កត្តាជំរុញ និងទម្ងន់នៃទិន្នន័យនៅពីក្រោយការសម្រេចចិត្តទាំងនោះបានយ៉ាងច្បាស់លាស់។	ដូចជាគ្រូបង្រៀនគណិតវិទ្យាដែលមិនត្រឹមតែប្រាប់ចម្លើយត្រឹមត្រូវដល់សិស្ស ប៉ុន្តែថែមទាំងបង្ហាញពីរបៀបគណនាមួយជំហានម្តងៗដើម្បីឱ្យសិស្សអស់ចម្ងល់។
Precision Agriculture	ការអនុវត្តកសិកម្មដោយប្រើប្រាស់បច្ចេកវិទ្យាទំនើបៗ (ដូចជា AI, រូបភាពផ្កាយរណប និងសេនស័រ) ដើម្បីតាមដាន និងគ្រប់គ្រងការដាំដុះឱ្យមានប្រសិទ្ធភាពខ្ពស់ បង្កើនទិន្នផល កាត់បន្ថយការចំណាយ និងកាត់បន្ថយផលប៉ះពាល់បរិស្ថាន។	ដូចជាការផ្តល់ថ្នាំ និងចំណីឱ្យកូនស្រូវនីមួយៗតាមតម្រូវការជាក់ស្តែងរបស់វានៅតាមចំណុចនីមួយៗ ជំនួសឱ្យការបាចជីព្រាវៗពាសពេញស្រែ។
Feature Selection	ដំណើរការនៃជម្រុះ និងជ្រើសរើសអថេរ ឬកត្តាដែលពាក់ព័ន្ធនិងសំខាន់បំផុតពីក្នុងសំណុំទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកទៅបង្វឹកម៉ូដែលម៉ាស៊ីនរៀនឱ្យដំណើរការបានលឿន និងចៀសវាងទិន្នន័យរំខាន (Noise)។	ដូចជាការរើសយកតែគ្រឿងផ្សំសំខាន់ៗ ៣ ទៅ ៤ មុខដើម្បីធ្វើម្ហូបមួយចានឱ្យឆ្ងាញ់ ជាជាងការចាក់គ្រឿងផ្សំទាំង ១០០ មុខចូលក្នុងឆ្នាំងតែមួយដែលនាំឱ្យខូចរសជាតិ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖