Original Title: Soil quality classification from chemical composition using machine learning methods with SHAP-based explanation
Source: doi.org/10.1016/j.envc.2025.101404
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ចំណាត់ថ្នាក់គុណភាពដីពីសមាសធាតុគីមីដោយប្រើប្រាស់វិធីសាស្ត្រ Machine Learning ជាមួយនឹងការពន្យល់ផ្អែកលើ SHAP

ចំណងជើងដើម៖ Soil quality classification from chemical composition using machine learning methods with SHAP-based explanation

អ្នកនិពន្ធ៖ Halyna Humeniuk (Department of General Biology and Methods of Teaching Natural Sciences, Ternopil Volodymyr Hnatiuk National Pedagogical University), Dmytro Tymoshchuk (Department of Artificial Intelligence Systems and Data Analysis, Ternopil Ivan Puluj National Technical University), Andrii Sverstiuk (Department of Medical Informatics, I. Horbachevsky Ternopil National Medical University)

ឆ្នាំបោះពុម្ព៖ 2026 Environmental Challenges

វិស័យសិក្សា៖ Environmental Science / Agricultural Data Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវាយតម្លៃ និងចំណាត់ថ្នាក់គុណភាពដីដោយផ្អែកលើសូចនាករគីមីកសិកម្ម ដើម្បីគាំទ្រដល់ការប្រើប្រាស់ដីប្រកបដោយនិរន្តរភាព និងប្រព័ន្ធកសិកម្មច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រមូលគំរូដីជាង ៧០០ គំរូ និងបានប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning ផ្សេងៗ ដើម្បីទស្សន៍ទាយចំណាត់ថ្នាក់គុណភាពដី ដោយរួមបញ្ចូលទាំងការបកស្រាយលទ្ធផលតាមរយៈវិធីសាស្ត្រ SHAP (SHapley Additive exPlanations)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Multi-Layer Perceptron (MLP)
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត MLP
មានស្ថិរភាពខ្ពស់បំផុត និងរក្សាបាននូវតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ (Accuracy) និងការចងចាំ (Recall) លើទិន្នន័យថ្មី។ អាចបកស្រាយបានស៊ីជម្រៅតាមរយៈ SHAP ដើម្បីមើលពីឥទ្ធិពលនៃកត្តាគីមីនីមួយៗ។ ត្រូវការពេលវេលាបង្វឹកយូរ និងការកែសម្រួលប៉ារ៉ាម៉ែត្រស្មុគស្មាញ (Hyperparameter tuning) ច្រើនជាងម៉ូដែលទូទៅ ដោយសារតែមានស្រទាប់ Hidden layers ច្រើន។ ទទួលបានតម្លៃ F1-score 0.884 (ថ្នាក់ទី១), 0.921 (ថ្នាក់ទី២) និង 0.773 (ថ្នាក់ទី៣) លើសំណុំទិន្នន័យសាកល្បងថ្មីឯករាជ្យ (192 គំរូ)។
Random Forest (RF)
ក្បួនដោះស្រាយ Random Forest
មានភាពត្រឹមត្រូវខ្ពស់នៅលើទិន្នន័យតេស្តដំបូង និងមានស្ថិរភាពល្អក្នុងការចាត់ថ្នាក់ទិន្នន័យថ្មីភាគច្រើន ដោយមិនងាយជួបបញ្ហា Overfitting នោះទេ។ ជួបប្រទះការលំបាកខ្លះក្នុងការបែងចែកគុណភាពដីកម្រិតមធ្យម (ថ្នាក់ទី២) នៅពេលអនុវត្តលើសំណុំទិន្នន័យថ្មី បើប្រៀបធៀបជាមួយ MLP។ ទទួលបាន F1-score 0.9103 សម្រាប់ថ្នាក់ទី១ ប៉ុន្តែធ្លាក់ចុះមកត្រឹម 0.8783 សម្រាប់ថ្នាក់ទី២ លើទិន្នន័យថ្មី។
eXtreme Gradient Boosting (XGBoost)
ក្បួនដោះស្រាយ XGBoost
ដំណើរការបានយ៉ាងល្អឥតខ្ចោះលើសំណុំទិន្នន័យតេស្តដំបូង (Accuracy 100%) ដោយសារការពង្រឹងរចនាសម្ព័ន្ធមែកធាងជាបន្តបន្ទាប់។ ធ្លាក់ចុះសមត្ថភាពធ្វើទូទៅកម្ម (Generalization issue) យ៉ាងខ្លាំងនៅពេលអនុវត្តលើសំណុំទិន្នន័យថ្មី ជាពិសេសក្នុងការកំណត់ថ្នាក់ទី១។ F1-score សម្រាប់ថ្នាក់ទី១ ធ្លាក់ចុះមកត្រឹម 0.6610 លើសំណុំទិន្នន័យថ្មី (Recall ទាបត្រឹមតែ 0.52 ប៉ុណ្ណោះ)។
Logistic Regression (LR)
តម្រែតម្រង់ឡូជីស្ទីក
មានលក្ខណៈសាមញ្ញ ងាយស្រួលយល់ និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចតួចសម្រាប់ការគណនានិងការបណ្តុះបណ្តាល។ មិនអាចចាប់យកទំនាក់ទំនងស្មុគស្មាញ (Non-linear relationships) រវាងកត្តាគីមីដីបានល្អនោះទេ ដែលធ្វើឱ្យមានកំហុសច្រើនក្នុងការធ្វើចំណាត់ថ្នាក់។ មានកំហុសក្នុងការចាត់ថ្នាក់សំណាកដីថ្នាក់ទី២ ដោយមាន 8 សំណាកខុសទៅថ្នាក់ទី១ និង 4 សំណាកខុសទៅថ្នាក់ទី៣ លើទិន្នន័យតេស្ត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រនិងកម្មវិធី Software កម្រិតមធ្យមសម្រាប់ការវិភាគទិន្នន័យ ប៉ុន្តែទាមទារការចំណាយធនធានច្រើនលើការពិសោធន៍គីមីក្នុងមន្ទីរពិសោធន៍។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ Khmelnytskyi ប្រទេសអ៊ុយក្រែន ដែលផ្តោតលើប្រភេទដី podzolized chernozems ។ សម្រាប់ប្រទេសកម្ពុជា លក្ខខណ្ឌអាកាសធាតុត្រូពិច និងប្រភេទដី (ឧទាហរណ៍៖ ដីល្បាយខ្សាច់ ដីក្រហម ដីលិចទឹក) មានលក្ខណៈខុសគ្នាស្រឡះ។ ដូច្នេះ ម៉ូដែលនេះមិនអាចយកមកប្រើដោយផ្ទាល់បានទេ ប៉ុន្តែវិធីសាស្ត្ររួមរបស់វាអាចយកមកអនុវត្តបានដោយតម្រូវឱ្យមានការប្រមូលទិន្នន័យដីក្នុងស្រុកមកបង្វឹកម៉ូដែលឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ Machine Learning និង SHAP នេះមានសក្តានុពលខ្ពស់សម្រាប់ជួយជំរុញវិស័យកសិកម្មច្បាស់លាស់ (Precision Agriculture) នៅកម្ពុជា។

សរុបមក អភិក្រមនេះអាចជួយធ្វើទំនើបកម្មប្រព័ន្ធវាយតម្លៃដីកសិកម្មនៅកម្ពុជា ដោយផ្លាស់ប្តូរពីការប៉ាន់ស្មានទូទៅ ទៅជាការផ្តល់ប្រឹក្សាផ្អែកលើទិន្នន័យនិងការពន្យល់បែបវិទ្យាសាស្ត្រច្បាស់លាស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូលសំណាក និងវិភាគដីក្នុងស្រុក: រៀបចំគម្រោងសហការជាមួយមន្ទីរកសិកម្មខេត្តដើម្បីប្រមូលសំណាកដីពីតំបន់កសិកម្មសំខាន់ៗ (ឧ. តំបន់ជុំវិញបឹងទន្លេសាប) រួចធ្វើការវិភាគរកធាតុគីមីស្នូលទាំង៧នៅមន្ទីរពិសោធន៍ CARDI ដើម្បីបង្កើតសំណុំទិន្នន័យកម្ពុជា។
  2. ការរៀបចំទិន្នន័យ និងសាងសង់ម៉ូដែលមូលដ្ឋាន: ប្រើប្រាស់កម្មវិធី Python ជាមួយបណ្ណាល័យ Scikit-learn និង TensorFlow ដើម្បីសម្អាតទិន្នន័យ និងចាប់ផ្តើមសាងសង់ម៉ូដែល Random Forest និង MLP ដោយធ្វើការបែងចែកទិន្នន័យ Training និង Testing ឱ្យបានត្រឹមត្រូវ។
  3. ការបកស្រាយលទ្ធផលដោយប្រើប្រាស់បច្ចេកវិទ្យា SHAP: បញ្ចូលបណ្ណាល័យ SHAP (DeepExplainer) ទៅក្នុងកូដដើម្បិវិភាគរកមើលថា តើកត្តាគីមីមួយណាមានឥទ្ធិពលខ្លាំងជាងគេ (ឧ. pH ឬកាបូនសរីរាង្គ) លើគុណភាពដីនៅកម្ពុជា ដើម្បីផ្តល់អំណះអំណាងច្បាស់លាស់ជូនអ្នកជំនាញ។
  4. ការធ្វើតេស្តសាកល្បងលើទិន្នន័យឯករាជ្យ (Independent Validation): ប្រមូលសំណាកដីពីតំបន់ថ្មីស្រឡាងមួយទៀតនៅក្នុងប្រទេសកម្ពុជា ដើម្បីយកមកធ្វើតេស្តភាពត្រឹមត្រូវរបស់ម៉ូដែល MLP និងធានាថាម៉ូដែលមិនមានបញ្ហា Overfitting មុននឹងយកទៅប្រើប្រាស់ជាក់ស្តែង។
  5. ការអភិវឌ្ឍកម្មវិធីផ្តល់ប្រឹក្សា (Web Application): បង្កើត Web App សាមញ្ញមួយដោយប្រើប្រាស់ Streamlit ដែលអនុញ្ញាតឱ្យមន្ត្រីកសិកម្មស្រុកបញ្ចូលទិន្នន័យគីមីដី ហើយប្រព័ន្ធនឹងបង្ហាញលទ្ធផលចំណាត់ថ្នាក់ដី រួមជាមួយក្រាហ្វពន្យល់ពីមូលហេតុ (SHAP Waterfall plot)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
SHAP (SHapley Additive exPlanations) ជាវិធីសាស្ត្រគណិតវិទ្យាដែលផ្អែកលើទ្រឹស្តីល្បែង (Game Theory) ដើម្បីជួយបកស្រាយលទ្ធផលរបស់ម៉ូដែល Machine Learning ដោយវាធ្វើការគណនាច្បាស់លាស់ថា តើកត្តាធាតុចូលនីមួយៗ (ឧ. កម្រិតអាស៊ីតដី ផូស្វ័រ) បានចូលរួមចំណែកប៉ុន្មានភាគរយក្នុងការជំរុញឱ្យម៉ូដែលសម្រេចចិត្តទស្សន៍ទាយលទ្ធផលណាមួយ។ ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករក្នុងក្រុមបាល់ទាត់ម្នាក់ៗ ដោយវាយតម្លៃច្បាស់លាស់ថាអ្នកណាទាត់បញ្ចូលទី អ្នកណាបោះបាល់ឱ្យ និងអ្នកណាការពារបានល្អ។
Multi-Layer Perceptron (MLP) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានស្រទាប់កណ្ដាល (Hidden layers) ជាច្រើនសម្រាប់ទទួលយកទិន្នន័យ គណនាទម្ងន់ទិន្នន័យ និងបញ្ជូនបន្តរហូតដល់ទទួលបានលទ្ធផលចុងក្រោយ ដោយវាពូកែក្នុងការស្វែងរកទំនាក់ទំនងស្មុគស្មាញនៃសមាសធាតុគីមីដែលរូបមន្តគណិតវិទ្យាធម្មតាមើលមិនឃើញ។ ដូចជារោងចក្រដែលមានច្រកត្រួតពិនិត្យគុណភាពច្រើនតង់ ដោយច្រកនីមួយៗចម្រាញ់ព័ត៌មានកាន់តែលម្អិតឡើងៗរហូតដល់ចេញជាការសម្រេចចិត្តដ៏ត្រឹមត្រូវ។
Random Forest ជាក្បួនដោះស្រាយ Machine Learning ដែលបង្កើតសំណុំនៃ "មែកធាងការសម្រេចចិត្ត" (Decision Trees) រាប់រយឬរាប់ពាន់ដាច់ដោយឡែកពីគ្នា រួចយកចម្លើយពីមែកធាងទាំងអស់នោះមកបោះឆ្នោតជ្រើសរើសយកចម្លើយដែលមានសំឡេងគាំទ្រច្រើនជាងគេបំផុត ដើម្បីកាត់បន្ថយកំហុសនិងភាពលម្អៀង។ ដូចជាការសួរសំណួរទៅកាន់ទីប្រឹក្សារាប់រយនាក់ក្នុងពេលតែមួយ ហើយសម្រេចចិត្តធ្វើតាមមតិភាគច្រើន ដើម្បីធានាថាការសម្រេចចិត្តនោះមិនមានការលម្អៀងពីបុគ្គលណាម្នាក់។
eXtreme Gradient Boosting (XGBoost) ជាវិធីសាស្ត្រ Machine Learning ដែលបង្កើតមែកធាងការសម្រេចចិត្តជាបន្តបន្ទាប់គ្នា ដោយមែកធាងថ្មីនីមួយៗត្រូវបានបង្វឹកនិងបង្កើតឡើងជាពិសេសដើម្បីផ្តោតលើការកែតម្រូវកំហុសដែលមែកធាងមុនៗបានធ្វើខុស ដែលជួយឱ្យម៉ូដែលនេះមានភាពមុតស្រួចនិងរៀនបានលឿន។ ដូចជាសិស្សដែលធ្វើលំហាត់ហើយពិនិត្យមើលកំហុសខ្លួនឯង រួចខិតខំរៀនផ្តោតតែលើចំណុចដែលខ្លួនធ្លាប់ធ្វើខុសនោះ ដើម្បីប្រឡងលើកក្រោយឱ្យបានពិន្ទុល្អជាងមុនជានិច្ច។
Precision-Recall curve ជាក្រាហ្វដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពម៉ូដែលក្នុងការថ្លឹងថ្លែងរវាង "ភាពសុក្រឹត ឬ Precision" (ទស្សន៍ទាយថាត្រូវ ហើយពិតជាត្រូវមែន) និង "ការចងចាំ ឬ Recall" (អាចរកឃើញករណីគោលដៅពិតប្រាកដបានប៉ុន្មានភាគរយ) ដែលវាមានសារៈសំខាន់ខ្លាំងនៅពេលទិន្នន័យមានចំនួនថ្នាក់មិនស្មើគ្នា។ ដូចជាការថ្លឹងថ្លែងរបស់ប៉ូលីសរវាងការព្យាយាមចាប់ចោរឱ្យបានទាំងអស់ (Recall) ប៉ុន្តែត្រូវប្រយ័ត្នគ្រប់ជំហានកុំឱ្យចាប់ខុសមនុស្សល្អ (Precision)។
Generalization capability គឺជាសមត្ថភាពរបស់ម៉ូដែលកុំព្យូទ័រក្នុងការរក្សាបាននូវភាពត្រឹមត្រូវដដែល ឬប្រហាក់ប្រហែល នៅពេលដែលវាត្រូវបានយកទៅអនុវត្តលើសំណុំទិន្នន័យថ្មីស្រឡាង (New Dataset) ដែលវាមិនធ្លាប់បានឃើញ ឬត្រូវបានបង្វឹកពីមុនមក។ ដូចជាសិស្សដែលរៀនយល់ពីមេរៀនពិតប្រាកដ អាចដោះស្រាយលំហាត់ថ្មីៗប្លែកៗក្នុងម៉ោងប្រឡងបានដោយមិនគិតតែពីទន្ទេញចាំមាត់នូវលំហាត់ចាស់ៗ។
Agrochemical indicators ជារង្វាស់នៃសមាសធាតុគីមីដែលមាននៅក្នុងដី ដូចជាកម្រិតជាតិអាស៊ីត (pH) កាបូនសរីរាង្គ (Corg) និងសារធាតុចិញ្ចឹមរុក្ខជាតិ (អាសូត ផូស្វ័រ ប៉ូតាស្យូម) ដែលគេយកមកប្រើប្រាស់ដើម្បីវាយតម្លៃកម្រិតភាពមានជីជាតិ និងសុខភាពទូទៅរបស់ដីសម្រាប់បម្រើដល់ការដាំដុះដំណាំ។ ដូចជាលទ្ធផលនៃការពិនិត្យឈាមរបស់មនុស្ស ដើម្បីដឹងថារាងកាយខ្វះវីតាមីនឬសារធាតុអ្វីខ្លះទើបអាចផ្សំថ្នាំប៉ូវបានត្រឹមត្រូវនិងចំគោលដៅ។
GridSearchCV ជាយន្តការសាកល្បងដោយស្វ័យប្រវត្តិដើម្បីស្វែងរកការកំណត់រចនាសម្ព័ន្ធ (Hyperparameters) ដែលល្អបំផុតសម្រាប់ម៉ូដែល Machine Learning ដោយវាធ្វើការសាកល្បងគ្រប់បន្សំទាំងអស់នៃជម្រើសដែលយើងបានកំណត់ រួចធ្វើការវាយតម្លៃរកមើលបន្សំណាដែលផ្តល់លទ្ធផលល្អជាងគេ។ ដូចជាការសាកល្បងមួលកាច់ប៉ុស្តិ៍វិទ្យុ និងកម្រិតសំឡេងជាច្រើនរបៀបខុសៗគ្នា រហូតទាល់តែរកឃើញរលកសញ្ញាដែលច្បាស់បំផុតគ្មានសម្លេងរំខាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖