បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការវាយតម្លៃបរិមាណស្តុក និងការគូសផែនទីចែកចាយកាបូនសរីរាង្គក្នុងដី (Soil Organic Carbon - SOC) នៅតំបន់ដីខ្មៅនៃខេត្ត Heilongjiang ដើម្បីគាំទ្រដល់ការកាត់បន្ថយការប្រែប្រួលអាកាសធាតុ និងជួយសម្រេចគោលដៅអព្យាក្រឹតកាបូន។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះរួមបញ្ចូលទិន្នន័យពីការវិភាគមេតា (Meta-analysis) នៃឯកសារស្រាវជ្រាវមុនៗ ជាមួយនឹងបច្ចេកវិទ្យាគូសផែនទីដីបែបឌីជីថល (Digital Soil Mapping) ដោយប្រើប្រាស់ម៉ូដែលរៀនម៉ាស៊ីន (Machine learning) ផ្សេងៗគ្នាដើម្បីប្រៀបធៀប។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Extreme Gradient Boosting (XGBoost) ម៉ូដែលរៀនម៉ាស៊ីន XGBoost ផ្អែកលើ Gradient Boosting |
មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear) ស្មុគស្មាញ និងផ្តល់លទ្ធផលព្យាករណ៍សុក្រឹតជាងគេដោយមានកំហុសទាប។ | ជាម៉ូដែលប្រភេទ Black-box ដែលពិបាកបកស្រាយទំនាក់ទំនងហេតុនិងផលច្បាស់លាស់ ហើយងាយរងឥទ្ធិពលពីគុណភាពទិន្នន័យ (Noise)។ | R² = 0.82, RMSE = 1.80 kg/m ², MAE = 1.35 kg/m ² (លទ្ធផលល្អបំផុត) |
| Random Forest (RF) ម៉ូដែលរៀនម៉ាស៊ីន Random Forest (ការប្រើប្រាស់ដើមឈើសម្រេចចិត្តច្រើន) |
មានភាពធន់ខ្ពស់ចំពោះបញ្ហា Overfitting និងអាចដោះស្រាយទិន្នន័យដែលមានវិមាត្រច្រើន (High-dimensional data) បានយ៉ាងល្អ។ | ផ្តល់លទ្ធផលសុក្រឹតទាបជាង XGBoost នៅក្នុងការសិក្សានេះ និងត្រូវការកម្លាំងម៉ាស៊ីនច្រើនក្នុងការគណនាប្រសិនបើមានដើមឈើ (Trees) ច្រើន។ | R² = 0.64, RMSE = 3.08 kg/m ², MAE = 2.36 kg/m ² |
| Support Vector Machine (SVM) ម៉ូដែល Support Vector Machine សម្រាប់ការវិភាគទិន្នន័យ |
ស័ក្តិសមសម្រាប់សំណុំទិន្នន័យតូចៗ និងមានប្រសិទ្ធភាពក្នុងការដោះស្រាយបញ្ហាព្រំដែនស្មុគស្មាញ (Complex boundary problems)។ | ទទួលបានលទ្ធផលទាបបំផុតក្នុងការសិក្សានេះ និងពិបាកក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ឱ្យបានត្រឹមត្រូវ។ | R² = 0.51, RMSE = 3.22 kg/m ², MAE = 2.15 kg/m ² |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃកម្រិតហិរញ្ញវត្ថុ ឬតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យដូចខាងក្រោម៖
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅខេត្ត Heilongjiang ប្រទេសចិន ដែលផ្តោតលើប្រភេទដីខ្មៅ (Black soil) នៅក្នុងតំបន់អាកាសធាតុត្រជាក់មានព្រិល ដែលខុសប្លែកទាំងស្រុងពីប្រទេសកម្ពុជាដែលមានអាកាសធាតុត្រូពិច និងមានប្រភេទដីខុសៗគ្នា (ដូចជាដីល្បាប់ ដីក្រហម)។ នេះមានន័យថា អថេរអាកាសធាតុ (សីតុណ្ហភាពទឹកភ្លៀង) ដែលមានឥទ្ធិពលខ្លាំងនៅក្នុងការសិក្សានេះ អាចនឹងមិនឆ្លុះបញ្ចាំងពីបរិបទប្រព័ន្ធកសិកម្ម និងអេកូឡូស៊ីនៅកម្ពុជាឡើយ ទោះបីជាវិធីសាស្ត្រស្រាវជ្រាវអាចយកមកអនុវត្តបានក៏ដោយ។
ទោះបីជាលក្ខខណ្ឌភូមិសាស្ត្រខុសគ្នាក៏ដោយ វិធីសាស្ត្រនៃការរួមបញ្ចូល Meta-analysis ជាមួយ Machine Learning នេះមានសក្តានុពលខ្ពស់សម្រាប់អនុវត្តនៅប្រទេសកម្ពុជាដើម្បីគូសផែនទីកាបូនដី។
ជារួម ការរៀនសូត្រពីវិធីសាស្ត្រក្នុងឯកសារនេះអាចជួយអ្នកស្រាវជ្រាវកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធត្រួតពិនិត្យសុខភាពដីបែបឌីជីថល ដែលចំណាយតិចនិងមានភាពច្បាស់លាស់ខ្ពស់ គាំទ្រដល់គោលនយោបាយកសិកម្មឆ្លាតវៃ (Smart Agriculture)។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Soil organic carbon density (SOCD) | ជារង្វាស់ដែលបង្ហាញពីបរិមាណកាបូនសរីរាង្គសរុបដែលផ្ទុកនៅក្នុងដីក្នុងមួយឯកតាផ្ទៃក្រឡា (គិតជាគីឡូក្រាមក្នុងមួយម៉ែត្រការ៉េ)។ វាជួយអ្នកស្រាវជ្រាវដឹងពីកម្រិតភាពមានជីជាតិរបស់ដី និងសមត្ថភាពរបស់ដីក្នុងការស្តុកទុកឧស្ម័នកាបូនិកដើម្បីកាត់បន្ថយការប្រែប្រួលអាកាសធាតុ។ | ដូចជាការវាស់បរិមាណជាតិស្ករដែលមាននៅក្នុងកែវទឹកមួយ ដើម្បីដឹងថាទឹកនោះផ្អែមកម្រិតណា។ |
| Meta-analysis | ជាវិធីសាស្ត្រស្ថិតិដែលប្រមូលនិងបូកបញ្ចូលលទ្ធផលទិន្នន័យពីការសិក្សាស្រាវជ្រាវមុនៗជាច្រើនផ្សេងៗគ្នា ដើម្បីទាញរកសេចក្តីសន្និដ្ឋានរួមមួយដែលមានភាពច្បាស់លាស់ និងអាចជឿទុកចិត្តបានខ្ពស់ជាងការធ្វើការសន្និដ្ឋានលើការសិក្សាតែមួយ។ | ដូចជាការប្រមូលមតិយោបល់ពីគ្រូពេទ្យ ១០០ នាក់អំពីថ្នាំមួយប្រភេទ រួចសន្និដ្ឋានរួមថាវត្ថុនោះពិតជាមានប្រសិទ្ធភាពមែនឬអត់ ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។ |
| Digital soil mapping (DSM) | ជាការប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រ និងម៉ូដែលគណិតវិទ្យាដើម្បីផ្សារភ្ជាប់ទិន្នន័យដីដែលបានវាស់វែងជាក់ស្តែង ជាមួយនឹងទិន្នន័យបរិស្ថាន (ដូចជាអាកាសធាតុ សណ្ឋានដី) ដើម្បីបង្កើតជាផែនទីទស្សន៍ទាយលក្ខណៈដីនៅតាមតំបន់ដែលមិនធ្លាប់បានចុះទៅយកសំណាកដោយផ្ទាល់។ | ដូចជាការគូសរូបសញ្ញាបង្ហាញស្ថានភាពស្ទះចរាចរណ៍នៅលើ Google Maps ដោយប្រើប្រាស់ទិន្នន័យទូរស័ព្ទដៃ ដោយមិនបាច់ចុះទៅរាប់ឡានផ្ទាល់នៅគ្រប់ផ្លូវ។ |
| Extreme gradient boosting algorithm (XGBoost) | ជាក្បួនដោះស្រាយបញ្ញាសិប្បនិមិត្ត (Machine Learning) ដែលធ្វើការរៀនសូត្រដោយការបង្កើតកូនម៉ូដែលទស្សន៍ទាយតូចៗជាច្រើន ហើយម៉ូដែលនីមួយៗព្យាយាមកែតម្រូវកំហុសរបស់ម៉ូដែលមុនៗជាបន្តបន្ទាប់ រហូតទាល់តែទទួលបានលទ្ធផលទស្សន៍ទាយដែលមានភាពច្បាស់លាស់បំផុត។ | ដូចជាក្រុមសិស្សធ្វើតេស្តរួមគ្នា ដែលសិស្សទីពីរព្យាយាមកែតម្រូវចម្លើយខុសរបស់សិស្សទីមួយ ហើយសិស្សទីបីកែតម្រូវសិស្សទីពីរ បន្តបន្ទាប់រហូតទទួលបានពិន្ទុពេញ១០០។ |
| Ten-fold cross-validation | ជាបច្ចេកទេសវាយតម្លៃភាពត្រឹមត្រូវរបស់ម៉ូដែល ដោយបែងចែកទិន្នន័យជា ១០ ចំណែកស្មើៗគ្នា រួចយក ៩ ចំណែកទៅបង្រៀនម៉ូដែល (Train) និង ១ ចំណែកទៀតសម្រាប់ធ្វើតេស្ត (Test) ដោយផ្លាស់ប្តូរគ្នាចំនួន ១០ ដង ដើម្បីធានាថាម៉ូដែលមិនគ្រាន់តែទន្ទេញចាំទិន្នន័យចាស់ ប៉ុន្តែពិតជាអាចទស្សន៍ទាយទិន្នន័យថ្មីបានត្រឹមត្រូវប្រាកដមែន។ | ដូចជាគ្រូដាក់លំហាត់ឲ្យសិស្សធ្វើដោយបែងចែកលំហាត់ជា១០សន្លឹក ហើយផ្លាស់ប្តូរគ្នាសួរ១០ដង ដើម្បីឲ្យប្រាកដថាសិស្សពិតជាចេះមែន មិនមែនគ្រាន់តែទន្ទេញចាំចម្លើយ។ |
| Variance Inflation Factor (VIF) | ជារង្វាស់ស្ថិតិសម្រាប់ត្រួតពិនិត្យមើលថាតើមានអថេរឯករាជ្យណាមួយមានទំនាក់ទំនងគ្នា ឬជាន់គ្នាខ្លាំងពេក (Multicollinearity) នៅក្នុងម៉ូដែលដែរឬទេ ដែលការជាន់គ្នានេះអាចធ្វើឲ្យម៉ូដែលច្រឡំនិងពិបាកកំណត់ថាអថេរមួយណាពិតជាមានឥទ្ធិពលពិតប្រាកដ។ | ដូចជាការមានអ្នកចម្រៀងពីរនាក់ច្រៀងសំឡេងដូចគ្នាបេះបិទក្នុងក្រុមតែមួយ ដែលធ្វើឲ្យអ្នកស្តាប់ពិបាកដឹងថាសំឡេងពិរោះនោះចេញពីមាត់អ្នកណាប្រាកដ។ |
| Normalized difference vegetation index (NDVI) | ជាសន្ទស្សន៍ដែលបានមកពីការគណនារូបភាពពន្លឺពីផ្កាយរណប ដើម្បីវាស់ស្ទង់កម្រិតភាពបៃតង និងដង់ស៊ីតេនៃការលូតលាស់របស់រុក្ខជាតិនៅលើផ្ទៃដី។ វាជួយឲ្យម៉ូដែលដឹងថាតំបន់ណាមួយមានរុក្ខជាតិដុះលូតលាស់ល្អ ដែលជាប្រភពផ្តល់កាបូនទៅក្នុងដី។ | ដូចជាការប្រើម៉ាស៊ីនស្កេនកម្តៅខ្លួនដើម្បីរកមើលថាតើនរណាម្នាក់មានសុខភាពល្អឬអត់ តែនេះគឺការស្កេនពន្លឺដើម្បីរកមើលសុខភាពរុក្ខជាតិ។ |
| grid search technique | ជាបច្ចេកទេសសម្រាប់ស្វែងរកការកំណត់ដ៏ល្អបំផុត (Optimal Hyperparameters) សម្រាប់ម៉ូដែលរៀនម៉ាស៊ីន ដោយវាធ្វើការសាកល្បងរាល់បន្សំលទ្ធភាពទាំងអស់នៃប៉ារ៉ាម៉ែត្រដោយស្វ័យប្រវត្តិ ដើម្បីជ្រើសរើសយកការកំណត់ណាដែលផ្តល់លទ្ធផលទស្សន៍ទាយត្រឹមត្រូវជាងគេ។ | ដូចជាការសាកល្បងចាក់សោរលេខកូដដោយរង្វិលលេខចាប់ពី 000 ដល់ 999 មួយម្តងៗ រហូតទាល់តែរកឃើញលេខដែលបើកសោរនោះចេញ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖