Original Title: Exploring frogeye leaf spot disease severity in soybean based on hyperspectral data analysis and machine learning with Orange data mining
Source: doi.org/10.34044/j.anres.2025.59.2.01
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្វែងយល់ពីកម្រិតភាពធ្ងន់ធ្ងរនៃជំងឺចំណុចស្លឹកកង្កែបលើសណ្តែកសៀង ដោយផ្អែកលើការវិភាគទិន្នន័យលើសវិសាលគម និងការរៀនរបស់ម៉ាស៊ីនជាមួយនឹងកម្មវិធី Orange data mining

ចំណងជើងដើម៖ Exploring frogeye leaf spot disease severity in soybean based on hyperspectral data analysis and machine learning with Orange data mining

អ្នកនិពន្ធ៖ Yuhao Ang (Faculty of Sustainable Agriculture, Universiti Malaysia Sabah), Helmi Zulhaidi Mohd Shafri (Universiti Putra Malaysia), Mohammed Mustafa Al-Habshi (Universiti Putra Malaysia)

ឆ្នាំបោះពុម្ព៖ 2025 Agriculture and Natural Resources

វិស័យសិក្សា៖ Precision Agriculture

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺចំណុចស្លឹកកង្កែប (Frogeye leaf spot) បង្កដោយផ្សិត Cercospora sojina ធ្វើឱ្យទិន្នផលសណ្តែកសៀងធ្លាក់ចុះ ខណៈការវាយតម្លៃកម្រិតជំងឺដោយភ្នែកផ្ទាល់មានភាពលម្អៀង និងចំណាយកម្លាំងពលកម្មច្រើន។ ការសិក្សានេះស្វែងរកវិធីសាស្ត្រវាយតម្លៃជំងឺនេះប្រកបដោយភាពត្រឹមត្រូវ និងមិនបំផ្លាញដំណាំ ដោយប្រើប្រាស់បច្ចេកវិទ្យាពីចម្ងាយ និងកម្មវិធីវិភាគទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យចំណាំងផ្លាតលើសវិសាលគម (Hyperspectral reflectance data) ពីស្លឹកសណ្តែកសៀង និងអនុវត្តក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine learning) តាមរយៈកម្មវិធី Orange data mining ។

ការប្រមូលទិន្នន័យចំណាំងផ្លាតលើសវិសាលគមពីស្លឹកដែលមានសុខភាពល្អ និងស្លឹកមានជំងឺ (Hyperspectral reflectance data acquisition)
ការបំបាត់សំឡេងរំខាននៅក្នុងទិន្នន័យដោយប្រើតម្រង (Savitzky-Golay filtering technique)
ការជ្រើសរើសរលកពន្លឺសំខាន់ៗដោយក្បួនដោះស្រាយ (ReliefF feature selection algorithm)
ការចាត់ថ្នាក់ដោយម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine learning classification models)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលបណ្ដាញសរសៃប្រសាទ (Neural network) ទទួលបានភាពត្រឹមត្រូវទូទៅខ្ពស់ជាងគេរហូតដល់ ៩៨,៦% បន្ទាប់ពីអនុវត្តបច្ចេកទេសត្រងទិន្នន័យដេរីវេទី១ពេញលេញ។
ម៉ូដែល Gradient boosting និង Random forest រួមជាមួយនឹងបច្ចេកទេស ReliefF សម្រេចបានភាពត្រឹមត្រូវក្នុងការចាត់ថ្នាក់រហូតដល់ ៩៧,៤% និង ៩៦,៩% រៀងគ្នា។
កម្មវិធី Orange data mining គឺជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពមួយសម្រាប់ការវិភាគទិន្នន័យលើសវិសាលគម ដោយវាអនុញ្ញាតឱ្យអនុវត្តក្បួនចាត់ថ្នាក់ជំងឺដំណាំបានយ៉ាងងាយស្រួលដោយមិនតម្រូវឱ្យមានការសរសេរកូដ (Coding) ឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Neural Network បណ្ដាញសរសៃប្រសាទ (Neural Network)	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់ពីទំនាក់ទំនងរវាងរលកពន្លឺដ៏ស្មុគស្មាញដោយមិនចាំបាច់ប្រើបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស (Feature selection) ជាមុន។	ត្រូវការពេលវេលាហ្វឹកហាត់យូរ និងពិបាកក្នុងការពន្យល់ពីដំណើរការសម្រេចចិត្តខាងក្នុង (Black box) បើប្រៀបធៀបនឹងម៉ូដែលសាមញ្ញ។	ទទួលបានភាពត្រឹមត្រូវទូទៅខ្ពស់បំផុតរហូតដល់ ៩៨,៦% ដោយប្រើប្រាស់ជាមួយទិន្នន័យដេរីវេទី១ពេញលេញ។
Gradient Boosting ក្បួនដោះស្រាយ Gradient Boosting	ដំណើរការបានយ៉ាងល្អប្រសើរនៅពេលប្រើរួមគ្នាជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស ដែលជួយកាត់បន្ថយបន្ទុកនៃការគណនានិងបង្កើនប្រសិទ្ធភាព។	ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ច្រើននិងត្រឹមត្រូវ ដើម្បីជៀសវាងបញ្ហា Overfitting ។	ទទួលបានភាពត្រឹមត្រូវ ៩៧,៤% នៅពេលប្រើទិន្នន័យដេរីវេទី១រួមជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស ReliefF ។
Random Forest ក្បួនដោះស្រាយ Random Forest	មានស្ថិរភាពខ្ពស់ មិនងាយជួបបញ្ហា Overfitting និងអាចកាត់បន្ថយកំហុសបានល្អដោយប្រើប្រាស់ដើមឈើសម្រេចចិត្ត (Decision trees) ជាច្រើនបញ្ចូលគ្នា។	ភាពត្រឹមត្រូវមានកម្រិតទាបជាង Neural Network បន្តិចទោះបីជាបានធ្វើការកែសម្រួលទិន្នន័យយ៉ាងណាក្តី។	ទទួលបានភាពត្រឹមត្រូវ ៩៦,៩% សម្រាប់ទិន្នន័យដេរីវេទី១រួមជាមួយបច្ចេកទេស ReliefF ។
Stacking ក្បួនដោះស្រាយរួមបញ្ចូលគ្នា (Stacking)	អាចបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយដោយប្រើប្រាស់ម៉ូដែលមូលដ្ឋានផ្សេងៗគ្នា (KNN, Naïve Bayes, SVM) ធ្វើការរួមគ្នាបំពេញចំណុចខ្វះខាតឱ្យគ្នា។	ត្រូវការធនធានកុំព្យូទ័រច្រើន ចំណាយពេលយូរ និងស្មុគស្មាញក្នុងការរៀបចំជាងការប្រើម៉ូដែលទោល។	ទទួលបានភាពត្រឹមត្រូវ ៩៤,៩% សម្រាប់ទិន្នន័យដេរីវេទី១ ដែលបានជ្រើសរើសរួច។
Decision Tree ក្បួនដោះស្រាយដើមឈើសម្រេចចិត្ត (Decision Tree)	ងាយស្រួលយល់ ងាយស្រួលបកស្រាយពីដំណើរការនៃការសម្រេចចិត្ត និងមិនទាមទារការគណនាស្មុគស្មាញ។	មានភាពត្រឹមត្រូវទាបជាងគេបំផុតក្នុងចំណោមម៉ូដែលទាំងអស់ដែលបានសាកល្បង ទោះបីជាមានការកែច្នៃទិន្នន័យក៏ដោយ។	ទទួលបានភាពត្រឹមត្រូវទាបបំផុតត្រឹមតែ ៧៧,៦% ប៉ុណ្ណោះសម្រាប់ទិន្នន័យដេរីវេទី១ដែលបានជ្រើសរើស។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់លម្អិតពីទំហំថវិកាផ្ទាល់នោះទេ ប៉ុន្តែវាទាមទារឱ្យមានឧបករណ៍ចាប់សញ្ញាលើសវិសាលគមតម្លៃថ្លៃ និងកុំព្យូទ័រសម្រាប់ការវិភាគ។

Hardware: ទាមទារឧបករណ៍វាស់ស្ទង់វិសាលគម (FieldSpec® HandHeld 2 spectrometer) ដែលមានតម្លៃថ្លៃ សម្រាប់ប្រមូលទិន្នន័យចំណាំងផ្លាតពីស្លឹក។
Software: កម្មវិធី Orange data mining ដែលជាកម្មវិធីកូដបើកចំហ (Open-source) ឥតគិតថ្លៃ ងាយស្រួលប្រើដោយមិនបាច់សរសេរកូដ។
Dataset: សំណាកស្លឹកសណ្តែកសៀងចំនួន ៤៤០ សំណាក (ស្លឹកមានជំងឺ ៣៤០ និងស្លឹកល្អ ១០០) ដែលទាមទារកម្លាំងពលកម្មក្នុងការប្រមូលនិងធ្វើចំណាត់ថ្នាក់ដោយផ្ទាល់ភ្នែកជាមុន។
Hardware (Computing): កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ ដើម្បីដំណើរការម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine Learning) ជាពិសេសម៉ូដែលបណ្ដាញសរសៃប្រសាទ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើក្នុងការសិក្សានេះត្រូវបានប្រមូលដោយក្រុមអ្នកស្រាវជ្រាវមកពីសាកលវិទ្យាល័យនៅក្នុងប្រទេសចិន (Liu et al., 2021) ដែលឆ្លុះបញ្ចាំងពីស្ថានភាពអាកាសធាតុ ពូជសណ្តែកសៀង និងប្រភេទដីនៅតំបន់នោះ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តម៉ូដែលនេះដោយផ្ទាល់អាចនឹងជួបប្រទះភាពលម្អៀង (Bias) ដោយសារពូជសណ្តែកសៀង និងបរិស្ថានដាំដុះនៅក្នុងស្រុកមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីយកមកបង្ហាត់ម៉ូដែលឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យកសិកម្មឆ្លាតវៃនៅកម្ពុជា ជាពិសេសក្នុងការតាមដានសុខភាពដំណាំទ្រង់ទ្រាយធំដោយមិនបំផ្លាញរុក្ខជាតិ។

ចម្ការសណ្តែកសៀងនៅខេត្តបាត់ដំបង និងកំពង់ចាម: អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីរកឃើញជំងឺចំណុចស្លឹកកង្កែបតាំងពីដំណាក់កាលដំបូង ជួយកសិករកាត់បន្ថយការប្រើប្រាស់ថ្នាំគីមីហួសកម្រិត និងទប់ស្កាត់ការធ្លាក់ចុះទិន្នផល។
វិទ្យាស្ថានស្រាវជ្រាវ និងអភិវឌ្ឍន៍កសិកម្មកម្ពុជា (CARDI): អ្នកស្រាវជ្រាវអាចប្រើប្រាស់កម្មវិធី Orange ដែលមិនតម្រូវឱ្យមានជំនាញសរសេរកូដ ដើម្បីវិភាគទិន្នន័យជំងឺលើដំណាំសេដ្ឋកិច្ចផ្សេងៗទៀតដូចជា ស្រូវ ដំឡូងមី ឬស្វាយចន្ទី។
ការគ្រប់គ្រងជំងឺផ្សិត Cercospora លើដំណាំផ្សេងៗ: បច្ចេកទេសវិភាគលើសវិសាលគមនេះអាចត្រូវបានកែច្នៃដើម្បីត្រួតពិនិត្យជំងឺផ្សិតប្រភេទ Cercospora ស្រដៀងគ្នាដែលតែងតែវាយប្រហារដំណាំសេដ្ឋកិច្ចផ្សេងទៀតនៅក្នុងប្រទេស។

ការប្រើប្រាស់បច្ចេកវិទ្យាវិសាលគមរួមជាមួយកម្មវិធីកូដបើកចំហ (Open-source) ដូចជាកម្មវិធី Orange នឹងផ្តល់លទ្ធភាពដល់ស្ថាប័នកសិកម្មកម្ពុជាក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធតាមដានជំងឺដំណាំឱ្យកាន់តែមានភាពសុក្រឹតនិងរហ័ស។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ស្វែងយល់ពីកម្មវិធីវិភាគទិន្នន័យ: ទាញយកនិងដំឡើងកម្មវិធី Orange Data Mining រួចសាកល្បងប្រើប្រាស់មុខងារ Spectroscopy widget ជាមួយទិន្នន័យគំរូ (Sample data) ដើម្បីស្វែងយល់ពីលំហូរការងារ (Workflow) ដោយមិនចាំបាច់សរសេរកូដ។
ជំហានទី២៖ ការប្រមូលទិន្នន័យជាក់ស្តែង: ធ្វើដំណើរទៅកាន់ចម្ការគោលដៅ ប្រមូលសំណាកស្លឹកសណ្តែកសៀងទាំងស្លឹកល្អនិងស្លឹកមានជំងឺ រួចប្រើប្រាស់ឧបករណ៍ Spectrometer ដើម្បីចាប់យកទិន្នន័យចំណាំងផ្លាតលើសវិសាលគម (Hyperspectral reflectance)។
ជំហានទី៣៖ ការសម្អាតទិន្នន័យ (Pre-processing): នៅក្នុងកម្មវិធីគណនា សូមអនុវត្តបច្ចេកទេស Savitzky-Golay filtering ដើម្បីបំបាត់សំឡេងរំខាន (Noise) ពីប្រេកង់រលកពន្លឺ ដោយផ្តោតលើការទាញយកទិន្នន័យដេរីវេទី១ ដែលផ្តល់លទ្ធផលល្អជាងគេសម្រាប់ការចាត់ថ្នាក់។
ជំហានទី៤៖ ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តក្បួនដោះស្រាយ ReliefF feature selection ដើម្បីចម្រាញ់យកតែរលកពន្លឺសំខាន់ៗដែលមានសក្តានុពលខ្លាំងក្នុងការប្រាប់ពីភាពខុសគ្នានៃកម្រិតជំងឺ ដែលជួយកាត់បន្ថយទំហំទិន្នន័យ និងសន្សំពេលវេលាគណនា។
ជំហានទី៥៖ ការបង្ហាត់ម៉ូដែល និងវាយតម្លៃ: បញ្ចូលទិន្នន័យទៅក្នុងម៉ូដែល Neural Network និង Gradient Boosting ដើម្បីហ្វឹកហាត់ បន្ទាប់មកវាយតម្លៃភាពត្រឹមត្រូវដោយប្រើ Confusion matrix និង ROC curve ដើម្បីជ្រើសរើសម៉ូដែលល្អបំផុតយកទៅប្រើប្រាស់បន្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hyperspectral reflectance (ចំណាំងផ្លាតលើសវិសាលគម)	ការវាស់ស្ទង់បរិមាណពន្លឺដែលជះត្រឡប់ពីស្លឹករុក្ខជាតិក្នុងកម្រិតរលកពន្លឺតូចៗរាប់រយតំបន់ ដែលអាចចាប់យកព័ត៌មានលម្អិតពីគីមីសាស្ត្រ ជាតិទឹក និងរចនាសម្ព័ន្ធខាងក្នុងរបស់ស្លឹក ដែលភ្នែកមនុស្សមិនអាចមើលឃើញ។	ដូចជាការថតកាំរស្មីអ៊ិច (X-ray) ដែលអាចមើលធ្លុះដល់ខាងក្នុងរាងកាយ តែបច្ចេកទេសនេះប្រើចំណាំងពន្លឺដើម្បីមើលសុខភាពខាងក្នុងរបស់ស្លឹកឈើ។
Savitzky-Golay filter (តម្រង Savitzky-Golay)	បច្ចេកទេសគណិតវិទ្យាសម្រាប់ធ្វើឱ្យទិន្នន័យរលកពន្លឺរលោង (Smooth) និងកាត់បន្ថយសំឡេងរំខាន (Noise) ពីឧបករណ៍វាស់ស្ទង់ ដោយមិនធ្វើឱ្យបាត់បង់ទម្រង់ដើម និងលក្ខណៈសំខាន់ៗនៃទិន្នន័យ។	ដូចជាការប្រើមុខងារសម្រួលផ្ទៃមុខ (Beauty filter) ក្នុងកាមេរ៉ាទូរស័ព្ទដើម្បីបំបាត់ស្នាមអុចៗ តែនៅរក្សាទម្រង់មុខដើមឱ្យនៅដដែល។
ReliefF algorithm (ក្បួនដោះស្រាយ ReliefF)	ក្បួនដោះស្រាយរៀនរបស់ម៉ាស៊ីនដែលប្រើសម្រាប់ជ្រើសរើសលក្ខណៈពិសេស (Feature selection) ដោយវាយតម្លៃថាទិន្នន័យរលកពន្លឺណាមានប្រយោជន៍បំផុតក្នុងការបែងចែកកម្រិតជំងឺ ដើម្បីកាត់បន្ថយទំហំទិន្នន័យមិនចាំបាច់ និងបង្កើនល្បឿនគណនា។	ដូចជាគ្រូបង្រៀនដែលចម្រាញ់រើសយកតែមេរៀនសំខាន់ៗបំផុតមកចេញប្រឡង ដើម្បីកុំឱ្យសិស្សចំណាយពេលទន្ទេញមេរៀនដែលមិនចាំបាច់ច្រើនពេក។
Gradient boosting (ក្បួនដោះស្រាយ Gradient boosting)	វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីនដែលបណ្តុះបណ្តាលម៉ូដែលខ្សោយៗ (ដូចជាដើមឈើសម្រេចចិត្ត) ជាបន្តបន្ទាប់ ដោយម៉ូដែលក្រោយៗព្យាយាមកែតម្រូវកំហុសដែលបង្កើតឡើងដោយម៉ូដែលមុនៗ ដើម្បីទទួលបានលទ្ធផលទស្សន៍ទាយចុងក្រោយកាន់តែសុក្រឹត។	ដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដោយម្នាក់ធ្វើខុស ម្នាក់ទៀតមកជួយកែចំណុចខុសនោះបន្តបន្ទាប់រហូតទាល់តែចម្លើយនោះត្រូវឥតខ្ចោះ។
Neural network (បណ្ដាញសរសៃប្រសាទ)	ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានរចនាឡើងត្រាប់តាមដំណើរការនៃខួរក្បាលមនុស្ស មានសមត្ថភាពរៀនសូត្រពីទិន្នន័យដ៏ស្មុគស្មាញ និងស្វែងរកទំនាក់ទំនងលាក់កំបាំងរវាងអថេរផ្សេងៗ ទោះបីជាគ្មានការជ្រើសរើសលក្ខណៈពិសេសជាមុនក៏ដោយ។	ដូចជាខួរក្បាលក្មេងដែលរៀនចំណាំមុខមនុស្ស ដោយមើលឃើញញឹកញាប់ រហូតដល់អាចបែងចែកដឹងថាជានរណា ទោះបីជាពាក់ម៉ាស់ក៏ដោយ។
First derivative (ដេរីវេទី១)	ការអនុវត្តរូបមន្តគណិតវិទ្យាទៅលើទិន្នន័យវិសាលគម ដើម្បីលុបបំបាត់ឥទ្ធិពលនៃការប្រែប្រួលពន្លឺពីបរិស្ថានខាងក្រៅ និងជួយរំលេចចំណុចកំពូលនៃការប្រែប្រួលរបស់រលកពន្លឺ (Red-edge region) ឱ្យកាន់តែច្បាស់។	ដូចជាការផ្តោតភ្នែកមើលតែលើសន្ទុះនៃការកើនឡើងឬថយចុះនៃក្រាហ្វ ជាជាងការមើលតម្លៃធម្មតា ដើម្បីងាយស្រួលរកមើលភាពខុសប្រក្រតីយ៉ាងរហ័ស។
Relative operating characteristic (ខ្សែកោងលក្ខណៈប្រតិបត្តិការទាក់ទង - ROC)	រង្វាស់ក្រាហ្វិកសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចាត់ថ្នាក់ ដែលបង្ហាញពីទំនាក់ទំនងនិងតុល្យភាពរវាងអត្រាដែលម៉ូដែលទស្សន៍ទាយត្រូវ (True positive rate) និងអត្រាដែលវាទស្សន៍ទាយខុស (False positive rate) ក្នុងកម្រិតផ្សេងៗគ្នា។	ដូចជារបាយការណ៍ដែលប្រាប់យើងយ៉ាងច្បាស់ថា ពេទ្យម្នាក់នេះធ្វើរោគវិនិច្ឆ័យជំងឺត្រូវប៉ុន្មានដង និងច្រឡំប៉ុន្មានដង មុននឹងយើងសម្រេចចិត្តជឿទុកចិត្តគាត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖