Original Title: 90-m Resolution Mapping of Black Soil Organic Carbon in Heilongjiang: Integrating Meta-Analysis with XGBoost
Source: doi.org/10.21203/rs.3.rs-6872173/v1
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការគូសផែនទីកាបូនសរីរាង្គក្នុងដីខ្មៅក្នុងកម្រិតភាពច្បាស់ ៩០ ម៉ែត្រ នៅខេត្ត Heilongjiang៖ ការរួមបញ្ចូលការវិភាគមេតា (Meta-Analysis) ជាមួយម៉ូដែល XGBoost

ចំណងជើងដើម៖ 90-m Resolution Mapping of Black Soil Organic Carbon in Heilongjiang: Integrating Meta-Analysis with XGBoost

អ្នកនិពន្ធ៖ Xuyang Guo (Heilongjiang University of Science and Technology), Lilai Liu (Heilongjiang University of Science and Technology), Xiaolin Zheng (Heilongjiang University of Science and Technology), Jiayi Zhao (Heilongjiang University of Science and Technology), Liangtao Jiang (Heilongjiang University of Science and Technology), Chenglong Li (Heilongjiang University of Science and Technology), Ruxin Xiao (Heilongjiang University of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2025, Research Square

វិស័យសិក្សា៖ Environmental Science, Soil Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការវាយតម្លៃបរិមាណស្តុក និងការគូសផែនទីចែកចាយកាបូនសរីរាង្គក្នុងដី (Soil Organic Carbon - SOC) នៅតំបន់ដីខ្មៅនៃខេត្ត Heilongjiang ដើម្បីគាំទ្រដល់ការកាត់បន្ថយការប្រែប្រួលអាកាសធាតុ និងជួយសម្រេចគោលដៅអព្យាក្រឹតកាបូន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះរួមបញ្ចូលទិន្នន័យពីការវិភាគមេតា (Meta-analysis) នៃឯកសារស្រាវជ្រាវមុនៗ ជាមួយនឹងបច្ចេកវិទ្យាគូសផែនទីដីបែបឌីជីថល (Digital Soil Mapping) ដោយប្រើប្រាស់ម៉ូដែលរៀនម៉ាស៊ីន (Machine learning) ផ្សេងៗគ្នាដើម្បីប្រៀបធៀប។

ការប្រមូលទិន្នន័យនិងការវិភាគមេតា (Meta-analysis) នៃទីតាំងគំរូដីចំនួន ១៧៥ កន្លែងពីឆ្នាំ ២០០៥ ដល់ ២០២៣
ការប្រើប្រាស់អថេរបរិស្ថានចំនួន ១៣ ប្រភេទ (13 environmental variables) រួមមាន អាកាសធាតុ សណ្ឋានដី សន្ទស្សន៍រុក្ខជាតិ លក្ខណៈសម្បត្តិដី និងសកម្មភាពមនុស្ស
ការធ្វើម៉ូដែលនិងវាយតម្លៃក្បួនដោះស្រាយបញ្ញាសិប្បនិមិត្ត (Machine learning algorithms) ចំនួនបីគឺ Random Forest (RF), XGBoost, និង Support Vector Machine (SVM)
ការគូសផែនទីចែកចាយកាបូនសរីរាង្គក្នុងដីកម្រិតភាពច្បាស់ ៩០ ម៉ែត្រ (90-m resolution spatial mapping) តាមរយៈកម្មវិធី ArcGIS

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល XGBoost មានដំណើរការល្អជាងគេក្នុងការទស្សន៍ទាយទំនាក់ទំនងស្មុគស្មាញរវាងបរិស្ថាន និងកាបូនសរីរាង្គក្នុងដី ដោយមានតម្លៃ R²=0.82 និងមានកំហុសទាបបំផុត (RMSE=1.80 kg/m ², MAE=1.35 kg/m ²)។
អាកាសធាតុ (ជាពិសេសសីតុណ្ហភាពនិងទឹកភ្លៀង) សណ្ឋានដី និងប្រភេទដីខ្មៅ គឺជាកត្តាជំរុញដ៏សំខាន់បំផុតនៃការចែកចាយកាបូនសរីរាង្គក្នុងតំបន់សិក្សា។
បរិមាណស្តុកកាបូនសរីរាង្គក្នុងដីសរុប (Total SOC storage) សម្រាប់ស្រទាប់ដីជម្រៅ ០-២០ សង់ទីម៉ែត្រ ត្រូវបានប៉ាន់ប្រមាណថាមានចំនួន ៤,០៤ ជីហ្គាតោន (Gt) ដែលមានកំហាប់ខ្ពស់ភាគច្រើននៅតំបន់ខ្ពង់រាប Songnen Plain និង Xiaoxing'anling។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Extreme Gradient Boosting (XGBoost) ម៉ូដែលរៀនម៉ាស៊ីន XGBoost ផ្អែកលើ Gradient Boosting	មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear) ស្មុគស្មាញ និងផ្តល់លទ្ធផលព្យាករណ៍សុក្រឹតជាងគេដោយមានកំហុសទាប។	ជាម៉ូដែលប្រភេទ Black-box ដែលពិបាកបកស្រាយទំនាក់ទំនងហេតុនិងផលច្បាស់លាស់ ហើយងាយរងឥទ្ធិពលពីគុណភាពទិន្នន័យ (Noise)។	R² = 0.82, RMSE = 1.80 kg/m ², MAE = 1.35 kg/m ² (លទ្ធផលល្អបំផុត)
Random Forest (RF) ម៉ូដែលរៀនម៉ាស៊ីន Random Forest (ការប្រើប្រាស់ដើមឈើសម្រេចចិត្តច្រើន)	មានភាពធន់ខ្ពស់ចំពោះបញ្ហា Overfitting និងអាចដោះស្រាយទិន្នន័យដែលមានវិមាត្រច្រើន (High-dimensional data) បានយ៉ាងល្អ។	ផ្តល់លទ្ធផលសុក្រឹតទាបជាង XGBoost នៅក្នុងការសិក្សានេះ និងត្រូវការកម្លាំងម៉ាស៊ីនច្រើនក្នុងការគណនាប្រសិនបើមានដើមឈើ (Trees) ច្រើន។	R² = 0.64, RMSE = 3.08 kg/m ², MAE = 2.36 kg/m ²
Support Vector Machine (SVM) ម៉ូដែល Support Vector Machine សម្រាប់ការវិភាគទិន្នន័យ	ស័ក្តិសមសម្រាប់សំណុំទិន្នន័យតូចៗ និងមានប្រសិទ្ធភាពក្នុងការដោះស្រាយបញ្ហាព្រំដែនស្មុគស្មាញ (Complex boundary problems)។	ទទួលបានលទ្ធផលទាបបំផុតក្នុងការសិក្សានេះ និងពិបាកក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ឱ្យបានត្រឹមត្រូវ។	R² = 0.51, RMSE = 3.22 kg/m ², MAE = 2.15 kg/m ²

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃកម្រិតហិរញ្ញវត្ថុ ឬតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យដូចខាងក្រោម៖

Software: កម្មវិធីសម្រាប់គូសផែនទី Geographic Information System (ArcGIS 10.7) និងបរិស្ថានសរសេរកូដសម្រាប់ Machine Learning (ដូចជា Python ជាមួយ Scikit-learn និង XGBoost) និង Google Earth Engine (GEE)។
Dataset: ទិន្នន័យគំរូដី (១៧៥ ទីតាំងតាមរយៈ Meta-analysis) និងទិន្នន័យអថេរបរិស្ថានចំនួន ១៣ ប្រភេទរួមមាន អាកាសធាតុ សណ្ឋានដី ជីវម៉ាសរុក្ខជាតិ (MODIS) និងសកម្មភាពមនុស្ស (GDP, Nighttime lights)។
Expertise: ចំណេះដឹងផ្នែក Digital Soil Mapping (DSM), វិធីសាស្ត្រវិភាគ Meta-analysis, ការប្រមូលទិន្នន័យផ្កាយរណប និងការកែសម្រួលប៉ារ៉ាម៉ែត្រម៉ូដែល (Grid Search Hyperparameter Tuning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅខេត្ត Heilongjiang ប្រទេសចិន ដែលផ្តោតលើប្រភេទដីខ្មៅ (Black soil) នៅក្នុងតំបន់អាកាសធាតុត្រជាក់មានព្រិល ដែលខុសប្លែកទាំងស្រុងពីប្រទេសកម្ពុជាដែលមានអាកាសធាតុត្រូពិច និងមានប្រភេទដីខុសៗគ្នា (ដូចជាដីល្បាប់ ដីក្រហម)។ នេះមានន័យថា អថេរអាកាសធាតុ (សីតុណ្ហភាពទឹកភ្លៀង) ដែលមានឥទ្ធិពលខ្លាំងនៅក្នុងការសិក្សានេះ អាចនឹងមិនឆ្លុះបញ្ចាំងពីបរិបទប្រព័ន្ធកសិកម្ម និងអេកូឡូស៊ីនៅកម្ពុជាឡើយ ទោះបីជាវិធីសាស្ត្រស្រាវជ្រាវអាចយកមកអនុវត្តបានក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាលក្ខខណ្ឌភូមិសាស្ត្រខុសគ្នាក៏ដោយ វិធីសាស្ត្រនៃការរួមបញ្ចូល Meta-analysis ជាមួយ Machine Learning នេះមានសក្តានុពលខ្ពស់សម្រាប់អនុវត្តនៅប្រទេសកម្ពុជាដើម្បីគូសផែនទីកាបូនដី។

ក្រសួងកសិកម្ម រុក្ខាប្រមាញ់ និងនេសាទ (MAFF): អាចប្រើប្រាស់វិធីសាស្ត្រ Digital Soil Mapping (DSM) នេះដើម្បីធ្វើបច្ចុប្បន្នភាពផែនទីដីថ្នាក់ជាតិ ដោយប្រមូលទិន្នន័យចាស់ៗដែលមានស្រាប់ (Meta-analysis) ជាជាងការចំណាយលុយច្រើនលើការចុះយកសំណុំដីថ្មីទូទាំងប្រទេស។
តំបន់ដីកសិកម្មជុំវិញបឹងទន្លេសាប: អាចអនុវត្តម៉ូដែលនេះដើម្បីវាយតម្លៃពីផលប៉ះពាល់នៃការប្រែប្រួលអាកាសធាតុ និងការលិចទឹកតាមរដូវកាលទៅលើបរិមាណកាបូនសរីរាង្គក្នុងដី ដែលជួយដល់ការគ្រប់គ្រងដីស្រែឱ្យមានជីជាតិល្អ។
គម្រោងឥណទានកាបូននៅតំបន់ខ្ពង់រាប (មណ្ឌលគិរី ក្រចេះ): អាចប្រើប្រាស់សម្រាប់គណនាបរិមាណស្តុកកាបូនក្នុងដី (Soil Carbon Stock) នៅតំបន់ព្រៃឈើ ឬចម្ការកៅស៊ូ ដែលជាទិន្នន័យចាំបាច់បំផុតសម្រាប់ការវាយតម្លៃ និងលក់ឥណទានកាបូន (Carbon Credits)។

ជារួម ការរៀនសូត្រពីវិធីសាស្ត្រក្នុងឯកសារនេះអាចជួយអ្នកស្រាវជ្រាវកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធត្រួតពិនិត្យសុខភាពដីបែបឌីជីថល ដែលចំណាយតិចនិងមានភាពច្បាស់លាស់ខ្ពស់ គាំទ្រដល់គោលនយោបាយកសិកម្មឆ្លាតវៃ (Smart Agriculture)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning និង GIS: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីភាសាសរសេរកូដ Python ដោយផ្តោតលើបណ្ណាល័យ scikit-learn និង XGBoost ព្រមទាំងហ្វឹកហាត់ប្រើប្រាស់កម្មវិធី QGIS ឬ ArcGIS សម្រាប់វិភាគទិន្នន័យលំហរ (Spatial analysis)។
ប្រមូលនិងរៀបចំទិន្នន័យដីនៅកម្ពុជាតាមរយៈ Meta-analysis: ធ្វើការស្រាវជ្រាវឯកសារ និងប្រមូលទិន្នន័យកាបូនដី (Soil Organic Carbon) ពីការសិក្សាចាស់ៗរបស់វិទ្យាស្ថានស្រាវជ្រាវកសិកម្មកម្ពុជា (CARDI) ឬអង្គការផ្សេងៗ បន្ទាប់មកសម្អាតទិន្នន័យ (Data cleaning) និងកត់ត្រានិយាមកាមជារយៈបណ្តោយនិងទទឹង (Coordinates)។
ទាញយកអថេរបរិស្ថានពីប្រភពបើកទូលាយ (Open-Source Data): ប្រើប្រាស់ Google Earth Engine (GEE) ដើម្បីទាញយកទិន្នន័យអាកាសធាតុ (ទឹកភ្លៀង សីតុណ្ហភាព) ទិន្នន័យសណ្ឋានដី (DEM) និងសន្ទស្សន៍រុក្ខជាតិ (ដូចជា NDVI ឬ MODIS NPP) សម្រាប់តំបន់សិក្សានៅកម្ពុជា។
អភិវឌ្ឍម៉ូដែល និងធ្វើការវាយតម្លៃអថេរ (Model Training & Evaluation): បញ្ចូលទិន្នន័យដីនិងបរិស្ថានទៅក្នុងម៉ូដែល XGBoost និង Random Forest។ ប្រើប្រាស់បច្ចេកទេស 10-fold cross-validation ដើម្បីវាយតម្លៃកំហុស (RMSE, MAE) និងស្វែងរកអថេរណាដែលមានឥទ្ធិពលជាងគេ។
គូសផែនទីឌីជីថល និងសរសេររបាយការណ៍: ទាញយកលទ្ធផលព្យាករណ៍ពីម៉ូដែលមកបង្កើតជាផែនទី (Spatial extrapolation) ក្នុងកម្រិតភាពច្បាស់ណាមួយ (ឧ. ៩០ម៉ែត្រ) តាមរយៈ ArcGIS រួចសរសេររបាយការណ៍ផ្តល់អនុសាសន៍ដល់អ្នកបង្កើតគោលនយោបាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Soil organic carbon density (SOCD)	ជារង្វាស់ដែលបង្ហាញពីបរិមាណកាបូនសរីរាង្គសរុបដែលផ្ទុកនៅក្នុងដីក្នុងមួយឯកតាផ្ទៃក្រឡា (គិតជាគីឡូក្រាមក្នុងមួយម៉ែត្រការ៉េ)។ វាជួយអ្នកស្រាវជ្រាវដឹងពីកម្រិតភាពមានជីជាតិរបស់ដី និងសមត្ថភាពរបស់ដីក្នុងការស្តុកទុកឧស្ម័នកាបូនិកដើម្បីកាត់បន្ថយការប្រែប្រួលអាកាសធាតុ។	ដូចជាការវាស់បរិមាណជាតិស្ករដែលមាននៅក្នុងកែវទឹកមួយ ដើម្បីដឹងថាទឹកនោះផ្អែមកម្រិតណា។
Meta-analysis	ជាវិធីសាស្ត្រស្ថិតិដែលប្រមូលនិងបូកបញ្ចូលលទ្ធផលទិន្នន័យពីការសិក្សាស្រាវជ្រាវមុនៗជាច្រើនផ្សេងៗគ្នា ដើម្បីទាញរកសេចក្តីសន្និដ្ឋានរួមមួយដែលមានភាពច្បាស់លាស់ និងអាចជឿទុកចិត្តបានខ្ពស់ជាងការធ្វើការសន្និដ្ឋានលើការសិក្សាតែមួយ។	ដូចជាការប្រមូលមតិយោបល់ពីគ្រូពេទ្យ ១០០ នាក់អំពីថ្នាំមួយប្រភេទ រួចសន្និដ្ឋានរួមថាវត្ថុនោះពិតជាមានប្រសិទ្ធភាពមែនឬអត់ ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។
Digital soil mapping (DSM)	ជាការប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រ និងម៉ូដែលគណិតវិទ្យាដើម្បីផ្សារភ្ជាប់ទិន្នន័យដីដែលបានវាស់វែងជាក់ស្តែង ជាមួយនឹងទិន្នន័យបរិស្ថាន (ដូចជាអាកាសធាតុ សណ្ឋានដី) ដើម្បីបង្កើតជាផែនទីទស្សន៍ទាយលក្ខណៈដីនៅតាមតំបន់ដែលមិនធ្លាប់បានចុះទៅយកសំណាកដោយផ្ទាល់។	ដូចជាការគូសរូបសញ្ញាបង្ហាញស្ថានភាពស្ទះចរាចរណ៍នៅលើ Google Maps ដោយប្រើប្រាស់ទិន្នន័យទូរស័ព្ទដៃ ដោយមិនបាច់ចុះទៅរាប់ឡានផ្ទាល់នៅគ្រប់ផ្លូវ។
Extreme gradient boosting algorithm (XGBoost)	ជាក្បួនដោះស្រាយបញ្ញាសិប្បនិមិត្ត (Machine Learning) ដែលធ្វើការរៀនសូត្រដោយការបង្កើតកូនម៉ូដែលទស្សន៍ទាយតូចៗជាច្រើន ហើយម៉ូដែលនីមួយៗព្យាយាមកែតម្រូវកំហុសរបស់ម៉ូដែលមុនៗជាបន្តបន្ទាប់ រហូតទាល់តែទទួលបានលទ្ធផលទស្សន៍ទាយដែលមានភាពច្បាស់លាស់បំផុត។	ដូចជាក្រុមសិស្សធ្វើតេស្តរួមគ្នា ដែលសិស្សទីពីរព្យាយាមកែតម្រូវចម្លើយខុសរបស់សិស្សទីមួយ ហើយសិស្សទីបីកែតម្រូវសិស្សទីពីរ បន្តបន្ទាប់រហូតទទួលបានពិន្ទុពេញ១០០។
Ten-fold cross-validation	ជាបច្ចេកទេសវាយតម្លៃភាពត្រឹមត្រូវរបស់ម៉ូដែល ដោយបែងចែកទិន្នន័យជា ១០ ចំណែកស្មើៗគ្នា រួចយក ៩ ចំណែកទៅបង្រៀនម៉ូដែល (Train) និង ១ ចំណែកទៀតសម្រាប់ធ្វើតេស្ត (Test) ដោយផ្លាស់ប្តូរគ្នាចំនួន ១០ ដង ដើម្បីធានាថាម៉ូដែលមិនគ្រាន់តែទន្ទេញចាំទិន្នន័យចាស់ ប៉ុន្តែពិតជាអាចទស្សន៍ទាយទិន្នន័យថ្មីបានត្រឹមត្រូវប្រាកដមែន។	ដូចជាគ្រូដាក់លំហាត់ឲ្យសិស្សធ្វើដោយបែងចែកលំហាត់ជា១០សន្លឹក ហើយផ្លាស់ប្តូរគ្នាសួរ១០ដង ដើម្បីឲ្យប្រាកដថាសិស្សពិតជាចេះមែន មិនមែនគ្រាន់តែទន្ទេញចាំចម្លើយ។
Variance Inflation Factor (VIF)	ជារង្វាស់ស្ថិតិសម្រាប់ត្រួតពិនិត្យមើលថាតើមានអថេរឯករាជ្យណាមួយមានទំនាក់ទំនងគ្នា ឬជាន់គ្នាខ្លាំងពេក (Multicollinearity) នៅក្នុងម៉ូដែលដែរឬទេ ដែលការជាន់គ្នានេះអាចធ្វើឲ្យម៉ូដែលច្រឡំនិងពិបាកកំណត់ថាអថេរមួយណាពិតជាមានឥទ្ធិពលពិតប្រាកដ។	ដូចជាការមានអ្នកចម្រៀងពីរនាក់ច្រៀងសំឡេងដូចគ្នាបេះបិទក្នុងក្រុមតែមួយ ដែលធ្វើឲ្យអ្នកស្តាប់ពិបាកដឹងថាសំឡេងពិរោះនោះចេញពីមាត់អ្នកណាប្រាកដ។
Normalized difference vegetation index (NDVI)	ជាសន្ទស្សន៍ដែលបានមកពីការគណនារូបភាពពន្លឺពីផ្កាយរណប ដើម្បីវាស់ស្ទង់កម្រិតភាពបៃតង និងដង់ស៊ីតេនៃការលូតលាស់របស់រុក្ខជាតិនៅលើផ្ទៃដី។ វាជួយឲ្យម៉ូដែលដឹងថាតំបន់ណាមួយមានរុក្ខជាតិដុះលូតលាស់ល្អ ដែលជាប្រភពផ្តល់កាបូនទៅក្នុងដី។	ដូចជាការប្រើម៉ាស៊ីនស្កេនកម្តៅខ្លួនដើម្បីរកមើលថាតើនរណាម្នាក់មានសុខភាពល្អឬអត់ តែនេះគឺការស្កេនពន្លឺដើម្បីរកមើលសុខភាពរុក្ខជាតិ។
grid search technique	ជាបច្ចេកទេសសម្រាប់ស្វែងរកការកំណត់ដ៏ល្អបំផុត (Optimal Hyperparameters) សម្រាប់ម៉ូដែលរៀនម៉ាស៊ីន ដោយវាធ្វើការសាកល្បងរាល់បន្សំលទ្ធភាពទាំងអស់នៃប៉ារ៉ាម៉ែត្រដោយស្វ័យប្រវត្តិ ដើម្បីជ្រើសរើសយកការកំណត់ណាដែលផ្តល់លទ្ធផលទស្សន៍ទាយត្រឹមត្រូវជាងគេ។	ដូចជាការសាកល្បងចាក់សោរលេខកូដដោយរង្វិលលេខចាប់ពី 000 ដល់ 999 មួយម្តងៗ រហូតទាល់តែរកឃើញលេខដែលបើកសោរនោះចេញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖