បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវាយតម្លៃ និងចំណាត់ថ្នាក់គុណភាពដីដោយផ្អែកលើសូចនាករគីមីកសិកម្ម ដើម្បីគាំទ្រដល់ការប្រើប្រាស់ដីប្រកបដោយនិរន្តរភាព និងប្រព័ន្ធកសិកម្មច្បាស់លាស់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រមូលគំរូដីជាង ៧០០ គំរូ និងបានប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning ផ្សេងៗ ដើម្បីទស្សន៍ទាយចំណាត់ថ្នាក់គុណភាពដី ដោយរួមបញ្ចូលទាំងការបកស្រាយលទ្ធផលតាមរយៈវិធីសាស្ត្រ SHAP (SHapley Additive exPlanations)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Multi-Layer Perceptron (MLP) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត MLP |
មានស្ថិរភាពខ្ពស់បំផុត និងរក្សាបាននូវតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ (Accuracy) និងការចងចាំ (Recall) លើទិន្នន័យថ្មី។ អាចបកស្រាយបានស៊ីជម្រៅតាមរយៈ SHAP ដើម្បីមើលពីឥទ្ធិពលនៃកត្តាគីមីនីមួយៗ។ | ត្រូវការពេលវេលាបង្វឹកយូរ និងការកែសម្រួលប៉ារ៉ាម៉ែត្រស្មុគស្មាញ (Hyperparameter tuning) ច្រើនជាងម៉ូដែលទូទៅ ដោយសារតែមានស្រទាប់ Hidden layers ច្រើន។ | ទទួលបានតម្លៃ F1-score 0.884 (ថ្នាក់ទី១), 0.921 (ថ្នាក់ទី២) និង 0.773 (ថ្នាក់ទី៣) លើសំណុំទិន្នន័យសាកល្បងថ្មីឯករាជ្យ (192 គំរូ)។ |
| Random Forest (RF) ក្បួនដោះស្រាយ Random Forest |
មានភាពត្រឹមត្រូវខ្ពស់នៅលើទិន្នន័យតេស្តដំបូង និងមានស្ថិរភាពល្អក្នុងការចាត់ថ្នាក់ទិន្នន័យថ្មីភាគច្រើន ដោយមិនងាយជួបបញ្ហា Overfitting នោះទេ។ | ជួបប្រទះការលំបាកខ្លះក្នុងការបែងចែកគុណភាពដីកម្រិតមធ្យម (ថ្នាក់ទី២) នៅពេលអនុវត្តលើសំណុំទិន្នន័យថ្មី បើប្រៀបធៀបជាមួយ MLP។ | ទទួលបាន F1-score 0.9103 សម្រាប់ថ្នាក់ទី១ ប៉ុន្តែធ្លាក់ចុះមកត្រឹម 0.8783 សម្រាប់ថ្នាក់ទី២ លើទិន្នន័យថ្មី។ |
| eXtreme Gradient Boosting (XGBoost) ក្បួនដោះស្រាយ XGBoost |
ដំណើរការបានយ៉ាងល្អឥតខ្ចោះលើសំណុំទិន្នន័យតេស្តដំបូង (Accuracy 100%) ដោយសារការពង្រឹងរចនាសម្ព័ន្ធមែកធាងជាបន្តបន្ទាប់។ | ធ្លាក់ចុះសមត្ថភាពធ្វើទូទៅកម្ម (Generalization issue) យ៉ាងខ្លាំងនៅពេលអនុវត្តលើសំណុំទិន្នន័យថ្មី ជាពិសេសក្នុងការកំណត់ថ្នាក់ទី១។ | F1-score សម្រាប់ថ្នាក់ទី១ ធ្លាក់ចុះមកត្រឹម 0.6610 លើសំណុំទិន្នន័យថ្មី (Recall ទាបត្រឹមតែ 0.52 ប៉ុណ្ណោះ)។ |
| Logistic Regression (LR) តម្រែតម្រង់ឡូជីស្ទីក |
មានលក្ខណៈសាមញ្ញ ងាយស្រួលយល់ និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចតួចសម្រាប់ការគណនានិងការបណ្តុះបណ្តាល។ | មិនអាចចាប់យកទំនាក់ទំនងស្មុគស្មាញ (Non-linear relationships) រវាងកត្តាគីមីដីបានល្អនោះទេ ដែលធ្វើឱ្យមានកំហុសច្រើនក្នុងការធ្វើចំណាត់ថ្នាក់។ | មានកំហុសក្នុងការចាត់ថ្នាក់សំណាកដីថ្នាក់ទី២ ដោយមាន 8 សំណាកខុសទៅថ្នាក់ទី១ និង 4 សំណាកខុសទៅថ្នាក់ទី៣ លើទិន្នន័យតេស្ត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រនិងកម្មវិធី Software កម្រិតមធ្យមសម្រាប់ការវិភាគទិន្នន័យ ប៉ុន្តែទាមទារការចំណាយធនធានច្រើនលើការពិសោធន៍គីមីក្នុងមន្ទីរពិសោធន៍។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងតំបន់ Khmelnytskyi ប្រទេសអ៊ុយក្រែន ដែលផ្តោតលើប្រភេទដី podzolized chernozems ។ សម្រាប់ប្រទេសកម្ពុជា លក្ខខណ្ឌអាកាសធាតុត្រូពិច និងប្រភេទដី (ឧទាហរណ៍៖ ដីល្បាយខ្សាច់ ដីក្រហម ដីលិចទឹក) មានលក្ខណៈខុសគ្នាស្រឡះ។ ដូច្នេះ ម៉ូដែលនេះមិនអាចយកមកប្រើដោយផ្ទាល់បានទេ ប៉ុន្តែវិធីសាស្ត្ររួមរបស់វាអាចយកមកអនុវត្តបានដោយតម្រូវឱ្យមានការប្រមូលទិន្នន័យដីក្នុងស្រុកមកបង្វឹកម៉ូដែលឡើងវិញ។
វិធីសាស្ត្រនៃការប្រើប្រាស់ Machine Learning និង SHAP នេះមានសក្តានុពលខ្ពស់សម្រាប់ជួយជំរុញវិស័យកសិកម្មច្បាស់លាស់ (Precision Agriculture) នៅកម្ពុជា។
សរុបមក អភិក្រមនេះអាចជួយធ្វើទំនើបកម្មប្រព័ន្ធវាយតម្លៃដីកសិកម្មនៅកម្ពុជា ដោយផ្លាស់ប្តូរពីការប៉ាន់ស្មានទូទៅ ទៅជាការផ្តល់ប្រឹក្សាផ្អែកលើទិន្នន័យនិងការពន្យល់បែបវិទ្យាសាស្ត្រច្បាស់លាស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| SHAP (SHapley Additive exPlanations) | ជាវិធីសាស្ត្រគណិតវិទ្យាដែលផ្អែកលើទ្រឹស្តីល្បែង (Game Theory) ដើម្បីជួយបកស្រាយលទ្ធផលរបស់ម៉ូដែល Machine Learning ដោយវាធ្វើការគណនាច្បាស់លាស់ថា តើកត្តាធាតុចូលនីមួយៗ (ឧ. កម្រិតអាស៊ីតដី ផូស្វ័រ) បានចូលរួមចំណែកប៉ុន្មានភាគរយក្នុងការជំរុញឱ្យម៉ូដែលសម្រេចចិត្តទស្សន៍ទាយលទ្ធផលណាមួយ។ | ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់កីឡាករក្នុងក្រុមបាល់ទាត់ម្នាក់ៗ ដោយវាយតម្លៃច្បាស់លាស់ថាអ្នកណាទាត់បញ្ចូលទី អ្នកណាបោះបាល់ឱ្យ និងអ្នកណាការពារបានល្អ។ |
| Multi-Layer Perceptron (MLP) | ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានស្រទាប់កណ្ដាល (Hidden layers) ជាច្រើនសម្រាប់ទទួលយកទិន្នន័យ គណនាទម្ងន់ទិន្នន័យ និងបញ្ជូនបន្តរហូតដល់ទទួលបានលទ្ធផលចុងក្រោយ ដោយវាពូកែក្នុងការស្វែងរកទំនាក់ទំនងស្មុគស្មាញនៃសមាសធាតុគីមីដែលរូបមន្តគណិតវិទ្យាធម្មតាមើលមិនឃើញ។ | ដូចជារោងចក្រដែលមានច្រកត្រួតពិនិត្យគុណភាពច្រើនតង់ ដោយច្រកនីមួយៗចម្រាញ់ព័ត៌មានកាន់តែលម្អិតឡើងៗរហូតដល់ចេញជាការសម្រេចចិត្តដ៏ត្រឹមត្រូវ។ |
| Random Forest | ជាក្បួនដោះស្រាយ Machine Learning ដែលបង្កើតសំណុំនៃ "មែកធាងការសម្រេចចិត្ត" (Decision Trees) រាប់រយឬរាប់ពាន់ដាច់ដោយឡែកពីគ្នា រួចយកចម្លើយពីមែកធាងទាំងអស់នោះមកបោះឆ្នោតជ្រើសរើសយកចម្លើយដែលមានសំឡេងគាំទ្រច្រើនជាងគេបំផុត ដើម្បីកាត់បន្ថយកំហុសនិងភាពលម្អៀង។ | ដូចជាការសួរសំណួរទៅកាន់ទីប្រឹក្សារាប់រយនាក់ក្នុងពេលតែមួយ ហើយសម្រេចចិត្តធ្វើតាមមតិភាគច្រើន ដើម្បីធានាថាការសម្រេចចិត្តនោះមិនមានការលម្អៀងពីបុគ្គលណាម្នាក់។ |
| eXtreme Gradient Boosting (XGBoost) | ជាវិធីសាស្ត្រ Machine Learning ដែលបង្កើតមែកធាងការសម្រេចចិត្តជាបន្តបន្ទាប់គ្នា ដោយមែកធាងថ្មីនីមួយៗត្រូវបានបង្វឹកនិងបង្កើតឡើងជាពិសេសដើម្បីផ្តោតលើការកែតម្រូវកំហុសដែលមែកធាងមុនៗបានធ្វើខុស ដែលជួយឱ្យម៉ូដែលនេះមានភាពមុតស្រួចនិងរៀនបានលឿន។ | ដូចជាសិស្សដែលធ្វើលំហាត់ហើយពិនិត្យមើលកំហុសខ្លួនឯង រួចខិតខំរៀនផ្តោតតែលើចំណុចដែលខ្លួនធ្លាប់ធ្វើខុសនោះ ដើម្បីប្រឡងលើកក្រោយឱ្យបានពិន្ទុល្អជាងមុនជានិច្ច។ |
| Precision-Recall curve | ជាក្រាហ្វដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពម៉ូដែលក្នុងការថ្លឹងថ្លែងរវាង "ភាពសុក្រឹត ឬ Precision" (ទស្សន៍ទាយថាត្រូវ ហើយពិតជាត្រូវមែន) និង "ការចងចាំ ឬ Recall" (អាចរកឃើញករណីគោលដៅពិតប្រាកដបានប៉ុន្មានភាគរយ) ដែលវាមានសារៈសំខាន់ខ្លាំងនៅពេលទិន្នន័យមានចំនួនថ្នាក់មិនស្មើគ្នា។ | ដូចជាការថ្លឹងថ្លែងរបស់ប៉ូលីសរវាងការព្យាយាមចាប់ចោរឱ្យបានទាំងអស់ (Recall) ប៉ុន្តែត្រូវប្រយ័ត្នគ្រប់ជំហានកុំឱ្យចាប់ខុសមនុស្សល្អ (Precision)។ |
| Generalization capability | គឺជាសមត្ថភាពរបស់ម៉ូដែលកុំព្យូទ័រក្នុងការរក្សាបាននូវភាពត្រឹមត្រូវដដែល ឬប្រហាក់ប្រហែល នៅពេលដែលវាត្រូវបានយកទៅអនុវត្តលើសំណុំទិន្នន័យថ្មីស្រឡាង (New Dataset) ដែលវាមិនធ្លាប់បានឃើញ ឬត្រូវបានបង្វឹកពីមុនមក។ | ដូចជាសិស្សដែលរៀនយល់ពីមេរៀនពិតប្រាកដ អាចដោះស្រាយលំហាត់ថ្មីៗប្លែកៗក្នុងម៉ោងប្រឡងបានដោយមិនគិតតែពីទន្ទេញចាំមាត់នូវលំហាត់ចាស់ៗ។ |
| Agrochemical indicators | ជារង្វាស់នៃសមាសធាតុគីមីដែលមាននៅក្នុងដី ដូចជាកម្រិតជាតិអាស៊ីត (pH) កាបូនសរីរាង្គ (Corg) និងសារធាតុចិញ្ចឹមរុក្ខជាតិ (អាសូត ផូស្វ័រ ប៉ូតាស្យូម) ដែលគេយកមកប្រើប្រាស់ដើម្បីវាយតម្លៃកម្រិតភាពមានជីជាតិ និងសុខភាពទូទៅរបស់ដីសម្រាប់បម្រើដល់ការដាំដុះដំណាំ។ | ដូចជាលទ្ធផលនៃការពិនិត្យឈាមរបស់មនុស្ស ដើម្បីដឹងថារាងកាយខ្វះវីតាមីនឬសារធាតុអ្វីខ្លះទើបអាចផ្សំថ្នាំប៉ូវបានត្រឹមត្រូវនិងចំគោលដៅ។ |
| GridSearchCV | ជាយន្តការសាកល្បងដោយស្វ័យប្រវត្តិដើម្បីស្វែងរកការកំណត់រចនាសម្ព័ន្ធ (Hyperparameters) ដែលល្អបំផុតសម្រាប់ម៉ូដែល Machine Learning ដោយវាធ្វើការសាកល្បងគ្រប់បន្សំទាំងអស់នៃជម្រើសដែលយើងបានកំណត់ រួចធ្វើការវាយតម្លៃរកមើលបន្សំណាដែលផ្តល់លទ្ធផលល្អជាងគេ។ | ដូចជាការសាកល្បងមួលកាច់ប៉ុស្តិ៍វិទ្យុ និងកម្រិតសំឡេងជាច្រើនរបៀបខុសៗគ្នា រហូតទាល់តែរកឃើញរលកសញ្ញាដែលច្បាស់បំផុតគ្មានសម្លេងរំខាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖