Original Title: An effective approach to feature extraction for classification of plant diseases using machine learning
Source: doi.org/10.17485/IJST/v13i32.827
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រប្រកបដោយប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈសម្បត្តិសម្រាប់ចំណាត់ថ្នាក់ជំងឺរុក្ខជាតិដោយប្រើប្រាស់ម៉ាស៊ីនរៀនសូត្រ (Machine Learning)

ចំណងជើងដើម៖ An effective approach to feature extraction for classification of plant diseases using machine learning

អ្នកនិពន្ធ៖ S Jeyalakshmi (SDNB Vaishnav College for Women, Chennai, India), R Radha (SDNB Vaishnav College for Women, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2020, Indian Journal of Science and Technology

វិស័យសិក្សា៖ Computer Science / Agricultural Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញ និងធ្វើចំណាត់ថ្នាក់ជំងឺរុក្ខជាតិ (ជាក់ស្តែងគឺជំងឺលើស្លឹកដំឡូងបារាំង និងទំពាំងបាយជូរ) ឱ្យបានឆាប់រហ័ស ដើម្បីការពារការឆ្លងរាលដាល និងកាត់បន្ថយការខូចខាតទិន្នផលកសិកម្មដោយប្រើប្រាស់ម៉ាស៊ីនរៀនសូត្រ (Machine Learning)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់រូបភាពស្លឹករុក្ខជាតិចំនួនរាប់ពាន់សន្លឹកពីសំណុំទិន្នន័យ PlantVillage ដោយឆ្លងកាត់ដំណើរការកាត់ផ្តាច់រូបភាព ទាញយកលក្ខណៈសម្បត្តិសំខាន់ៗ និងប្រើប្រាស់ក្បួនចំណាត់ថ្នាក់។

ការលុបផ្ទៃខាងក្រោយ និងកំណត់តំបន់ដែលមានជំងឺដោយស្វ័យប្រវត្តិ ដោយប្រើប្រាស់ក្បួន (GrabCut Algorithm)
ការទាញយកលក្ខណៈពណ៌ (Color Features Extraction) ដោយផ្អែកលើប្រព័ន្ធពណ៌ RGB និងតម្លៃពណ៌ (Hue) នៃប្រព័ន្ធ HSV
ការទាញយកលក្ខណៈវាយនភាពរូបភាព (Texture Features) តាមរយៈម៉ាទ្រីស (Grey Level Co-occurrence Matrix / GLCM) និងការវិភាគអ៊ីស្តូក្រាម (Histogram Analysis)
ការប្រើប្រាស់ក្បួនចំណាត់ថ្នាក់ (Classifiers) ចំនួនបីរួមមាន៖ Naïve Bayes (NB), K-Nearest Neighbor (KNN), និង Support Vector Machine (SVM)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួន Support Vector Machine (SVM) ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការធ្វើចំណាត់ថ្នាក់ ពោលគឺរហូតដល់ ៩៦,៨៣% សម្រាប់ស្លឹកដំឡូងបារាំង និង ៩៦,០២% សម្រាប់ស្លឹកទំពាំងបាយជូរ។
ការរួមបញ្ចូលគ្នានូវលក្ខណៈពណ៌ (Color), អ៊ីស្តូក្រាម (Histogram) និងវាយនភាព (Texture) ជួយឱ្យក្បួនចំណាត់ថ្នាក់មានដំណើរការយ៉ាងល្អប្រសើរ និងមានភាពច្បាស់លាស់។
ការសិក្សាបានបង្ហាញថា វិធីសាស្ត្រដែលបានស្នើឡើងមានប្រសិទ្ធភាពខ្ពស់ និងអាចប្រកួតប្រជែងជាមួយលទ្ធផលនៃការស្រាវជ្រាវមុនៗ ក្នុងការបែងចែករវាងស្លឹករុក្ខជាតិដែលមានសុខភាពល្អ និងស្លឹកដែលមានជំងឺ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machine (SVM) ម៉ាស៊ីនរៀនសូត្រ Support Vector Machine (SVM)	ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងចំណោមក្បួនទាំងបី និងមានតម្លៃ Bias និង Variance ទាប ដែលស័ក្តិសមបំផុតសម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យនេះ។	ទាមទារការគណនាស្វែងរកបន្ទាត់ព្រំដែន (Optimal Hyperplane) ដែលអាចចំណាយពេលយូរជាងក្បួនសាមញ្ញនៅពេលទិន្នន័យមានទំហំធំ។	សម្រេចបានភាពត្រឹមត្រូវ ៩៦,៨៣% សម្រាប់ជំងឺស្លឹកដំឡូងបារាំង និង ៩៦,០២% សម្រាប់ជំងឺស្លឹកទំពាំងបាយជូរ។
K-Nearest Neighbor (KNN) ក្បួន K-Nearest Neighbor (KNN)	ងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលល្អប្រសើរដោយពឹងផ្អែកលើការវាស់ចម្ងាយ (Distance Measure) នៃទិន្នន័យ។	ទាមទារឱ្យមានការរក្សាទុកទិន្នន័យគំរូទាំងអស់ ដែលធ្វើឱ្យស៊ីទំហំអង្គចងចាំច្រើននៅពេលដាក់ឱ្យដំណើរការជាក់ស្តែង។	សម្រេចបានភាពត្រឹមត្រូវ ៩៤,០០% សម្រាប់ជំងឺស្លឹកដំឡូងបារាំង និង ៩៣,១០% សម្រាប់ជំងឺស្លឹកទំពាំងបាយជូរ។
Naïve Bayes (NB) ក្បួនចំណាត់ថ្នាក់ Naïve Bayes (NB)	ដំណើរការលឿនក្នុងការគណនា និងមិនសូវរងឥទ្ធិពលខ្លាំងពីការធ្វើកម្រិតទិន្នន័យ (Feature Normalization) ឡើយ។	ទទួលបានអត្រាភាពត្រឹមត្រូវទាបជាងគេ ដោយសារវាសន្មតថាលក្ខណៈសម្បត្តិទាំងអស់ឯករាជ្យពីគ្នាទាំងស្រុង ដែលជាក់ស្តែងមិនតែងតែត្រឹមត្រូវទេ។	សម្រេចបានភាពត្រឹមត្រូវ ៨៨,៦៧% សម្រាប់ជំងឺស្លឹកដំឡូងបារាំង និង ៨១,៨៧% សម្រាប់ជំងឺស្លឹកទំពាំងបាយជូរ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនបានបញ្ជាក់លម្អិតអំពីថ្លៃដើម ឬប្រភេទកុំព្យូទ័រដែលត្រូវប្រើនោះទេ ប៉ុន្តែវាទាមទារធនធានកុំព្យូទ័រជាមធ្យមសម្រាប់ការទាញយកលក្ខណៈរូបភាពដោយម៉ាទ្រីស GLCM និងដំណើរការម៉ាស៊ីនរៀនសូត្រ។

Dataset: ប្រើប្រាស់សំណុំទិន្នន័យ PlantVillage ចំនួន ៣០០០ រូបភាពសម្រាប់ដំឡូងបារាំង និង ៤២៧០ រូបភាពសម្រាប់ទំពាំងបាយជូរ ដែលទាមទារការរៀបចំទិន្នន័យជាមុន។
Hardware: កុំព្យូទ័រដែលមានកម្លាំង CPU និង RAM គ្រប់គ្រាន់សម្រាប់គណនាម៉ាទ្រីស GLCM ទំហំ 256x256 (ទោះបីអ្នកស្រាវជ្រាវបានបង្រួមមកត្រឹម 32x32 ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញក៏ដោយ)។
Software & Expertise: ទាមទារចំណេះដឹងផ្នែកកែច្នៃរូបភាព (Image Processing) និងការប្រើប្រាស់បណ្ណាល័យកូដដូចជា OpenCV និង Scikit-learn សម្រាប់ទាញយកលក្ខណៈ និងបង្កើនប្រសិទ្ធភាព Machine Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ PlantVillage ដែលភាគច្រើនគឺជារូបភាពថតនៅក្នុងមន្ទីរពិសោធន៍ មានផ្ទៃខាងក្រោយពណ៌ប្រផេះ ឬឯកសណ្ឋាន (Controlled Environment)។ នេះជាចំណុចខ្សោយមួយសម្រាប់ប្រទេសកម្ពុជា ព្រោះរូបភាពជាក់ស្តែងដែលកសិករថតនៅតាមចម្ការមានផ្ទៃខាងក្រោយស្មុគស្មាញ (ដី ស្មៅ ពន្លឺថ្ងៃមិនស្មើគ្នា) ដែលអាចធ្វើឱ្យក្បួនលុបផ្ទៃខាងក្រោយ (GrabCut Algorithm) ធ្លាក់ចុះប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រទាញយកលក្ខណៈរូបភាពនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យកសិកម្មឆ្លាតវៃ (Smart Agriculture) នៅប្រទេសកម្ពុជា។

ដំណាំយុទ្ធសាស្ត្រកម្ពុជា (ម្រេច និងស្វាយកន្ទី): តំបន់កសិកម្មនៅខេត្តកំពត កែប ឬកំពង់ចាម អាចកែច្នៃវិធីសាស្ត្រនេះដើម្បីសម្គាល់ជំងឺលើស្លឹកម្រេច ឬស្វាយ ដោយគ្រាន់តែប្តូរទិន្នន័យហ្វឹកហាត់ពីរូបភាពស្លឹកដំឡូង/ទំពាំងបាយជូរ មកជារូបភាពរុក្ខជាតិក្នុងស្រុកវិញ។
កម្មវិធីទូរស័ព្ទសម្រាប់កសិករ (Agri-tech Startups): សហគ្រាសបច្ចេកវិទ្យាកសិកម្មអាចយកក្បួន SVM នេះទៅបញ្ចូលក្នុងកម្មវិធីទូរស័ព្ទ (Mobile App) ដើម្បីឱ្យកសិករថតរូប និងទទួលរោគវិនិច្ឆ័យជំងឺបានភ្លាមៗដោយមិនបាច់ប្រើអ៊ិនធឺណិតកម្លាំងខ្លាំង ព្រោះវាស៊ីធនធានតិចជាង Deep Learning។

ទោះបីជាម៉ូដែលនេះមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែដើម្បីយកមកប្រើប្រាស់ជាក់ស្តែងប្រកបដោយជោគជ័យនៅកម្ពុជា គេចាំបាច់ត្រូវប្រមូលទិន្នន័យរូបភាពពីទីតាំងចម្ការផ្ទាល់ ទើបប្រព័ន្ធនេះមានភាពរឹងមាំចំពោះពន្លឺ និងផ្ទៃខាងក្រោយរូបភាពស្មុគស្មាញពិតប្រាកដ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការកែច្នៃ និងកាត់ផ្តាច់រូបភាព (Image Segmentation): ស្វែងយល់ពីរបៀបប្រើប្រាស់បណ្ណាល័យ OpenCV នៅក្នុង Python ដើម្បីបំប្លែងប្រព័ន្ធពណ៌រូបភាព (RGB ទៅ HSV) និងអនុវត្តក្បួន GrabCut Algorithm សម្រាប់លុបផ្ទៃខាងក្រោយរូបភាពស្លឹករុក្ខជាតិ។
អនុវត្តការទាញយកលក្ខណៈសម្បត្តិរូបភាព (Feature Extraction): សរសេរកូដទាញយកលក្ខណៈពណ៌ (Color Features), អ៊ីស្តូក្រាម (Histogram), និងជាពិសេសអនុវត្តការគណនាម៉ាទ្រីសវាយនភាព GLCM (Grey Level Co-occurrence Matrix) ពីកម្រិតពណ៌ Hue ដោយប្រើប្រាស់ scikit-image។
ការជ្រើសរើសលក្ខណៈ និងបង្ហាត់ម៉ូដែល (Feature Selection & Training): ប្រើប្រាស់ការធ្វើតេស្ត Chi-Square ឬ ANOVA ដើម្បីរក្សាតែលក្ខណៈសំខាន់ៗ រួចប្រើប្រាស់ Scikit-Learn ដើម្បីបង្ហាត់ម៉ូដែល SVM ដោយមិនភ្លេចធ្វើ Min-Max Scaling។
ការវាយតម្លៃម៉ូដែល (Model Evaluation): ធ្វើការវាស់ស្ទង់ប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកតាមរយៈ K-Fold Cross Validation និងការវិភាគ Confusion Matrix ដើម្បីធានាថាម៉ូដែលមិនជួបបញ្ហា Overfitting ឬ Underfitting។
ការប្រមូលទិន្នន័យក្នុងស្រុក (Local Data Collection): ចុះប្រមូលទិន្នន័យដោយថតរូបស្លឹករុក្ខជាតិដែលមានជំងឺ (ឧ. ដំឡូងមី ឬស្រូវ) នៅតាមចម្ការជាក់ស្តែងក្នុងប្រទេសកម្ពុជា រួចយកមកធ្វើតេស្តផ្ទឹមជាមួយម៉ូដែលដែលបានបង្កើតរួច ដើម្បីកែលម្អភាពសុក្រឹតនៅបរិយាកាសជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Grey level co-occurrence matrix (GLCM)	ជាម៉ាទ្រីសគណិតវិទ្យាដែលប្រើសម្រាប់ទាញយកលក្ខណៈវាយនភាព (Texture) នៃរូបភាព។ វាវាស់ស្ទង់ថាតើភីកសែល (Pixels) ដែលមានកម្រិតពណ៌ប្រផេះដូចគ្នា ឬប្រហាក់ប្រហែលគ្នា ស្ថិតនៅក្បែរគ្នាញឹកញាប់ប៉ុណ្ណាក្នុងទិសដៅ និងចម្ងាយជាក់លាក់ណាមួយ ដើម្បីកំណត់ថាតើផ្ទៃរូបភាពនោះរលោង ឬគ្រើម។	ដូចជាការសង្កេតមើលក្រណាត់មួយផ្ទាំង ដើម្បីដឹងថាវាជិតសាច់ល្អ (រលោង) ឬមានសរសៃអំបោះគម្លាតគ្នា (គ្រើម) ដោយរាប់ចំនួនសរសៃដែលនៅក្បែរៗគ្នា។
Support Vector Machine (SVM)	ជាក្បួនម៉ាស៊ីនរៀនសូត្រ (Machine Learning) ដែលប្រើសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ។ វាដំណើរការដោយការស្វែងរកបន្ទាត់ព្រំដែន (Optimal Hyperplane) ដ៏ល្អបំផុតដែលស្ថិតនៅចន្លោះកណ្តាល និងនៅឆ្ងាយជាងគេពីទិន្នន័យនៃក្រុមនីមួយៗ ដើម្បីបែងចែកពួកវាឱ្យបានដាច់ស្រឡះពីគ្នាប្រកបដោយភាពត្រឹមត្រូវខ្ពស់។	ដូចជាការគូសបន្ទាត់មួយនៅលើដី ដើម្បីបែងចែកក្មេងលេងបាល់ទាត់ និងក្មេងលេងបាល់ទះឱ្យនៅឆ្ងាយពីគ្នាបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីកុំឱ្យពួកគេរត់ប៉ះទង្គិចគ្នា។
Feature Extraction	ជាដំណើរការនៃការបំប្លែងទិន្នន័យដើម (ឧទាហរណ៍៖ រូបភាពស្លឹករុក្ខជាតិទាំងមូល) ទៅជាសំណុំនៃតម្លៃលេខ ឬលក្ខណៈសម្បត្តិសំខាន់ៗតំណាង (ដូចជាកម្រិតពណ៌ ភាពគ្រើម ឬរូបរាង) ដើម្បីឱ្យកុំព្យូទ័រអាចស្គាល់ និងយកទៅដំណើរការបន្តក្នុងការវាយតម្លៃជំងឺបានលឿនជាងមុន។	ដូចជាការសរសេរចំណុចសង្ខេបសំខាន់ៗពីសៀវភៅមួយក្បាលដ៏ក្រាស់ ដើម្បីឱ្យមិត្តភក្តិអានហើយយល់អត្ថន័យភ្លាមៗដោយមិនបាច់អានសៀវភៅទាំងមូលឡើងវិញ។
HSV color space	ជាប្រព័ន្ធពណ៌ដែលបំបែករូបភាពជាបីផ្នែក៖ H (Hue ឬពណ៌ពិត), S (Saturation ឬភាពឆ្អែតនៃពណ៌), និង V (Value ឬកម្រិតពន្លឺ)។ នៅក្នុងការស្រាវជ្រាវនេះ គេប្រើប្រាស់ផ្នែក Hue ព្រោះវាផ្ទុកព័ត៌មានពណ៌សុទ្ធសាធ ដែលជួយឱ្យប្រព័ន្ធចំណាត់ថ្នាក់មិនសូវរងឥទ្ធិពលពីពន្លឺជុំវិញ (ភ្លឺពេក ឬងងឹតពេក)។	ដូចជាការលាយថ្នាំពណ៌ ដោយបំបែកវាងាយៗជា ៣ ជំហាន៖ ជ្រើសរើសពណ៌គោល (Hue) បន្ថែមទឹកដើម្បីឱ្យពណ៌ស្រាលឬដិត (Saturation) និងបន្ថែមពណ៌សឬខ្មៅដើម្បីកំណត់ពន្លឺ (Value)។
K-Fold Cross Validation	ជាបច្ចេកទេសវាយតម្លៃក្បួនម៉ាស៊ីនរៀនសូត្រ ដោយបែងចែកសំណុំទិន្នន័យជា K ផ្នែក (Folds) ប៉ុនៗគ្នា។ ផ្នែកនីមួយៗនឹងត្រូវបានប្តូរវេនគ្នាធ្វើជាទិន្នន័យសាកល្បង (Test data) ខណៈផ្នែកដែលនៅសល់ត្រូវបានប្រើសម្រាប់បង្ហាត់ម៉ូដែល (Training data) ដើម្បីធានាថាម៉ូដែលពិតជាមានសមត្ថភាពទូទៅ (Generalized) និងមិនចេះតែទន្ទេញចាំទិន្នន័យចាស់ៗ (Overfitting)។	ដូចជាការបែងចែកសិស្សក្នុងថ្នាក់ជា ៥ ក្រុមតូចៗ រួចប្តូរវេនគ្នាឱ្យក្រុមនីមួយៗឡើងធ្វើវិញ្ញាសាប្រឡង ខណៈក្រុមផ្សេងទៀតរៀនសូត្រ ដើម្បីប្រាកដថាសិស្សទាំងអស់ពិតជាយល់មេរៀន មិនមែនគ្រាន់តែទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់។
Feature Normalization	ជាដំណើរការគណិតវិទ្យា (ឧ. Min-Max Scaling) ដើម្បីកែសម្រួលតម្លៃលេខនៃលក្ខណៈសម្បត្តិទាំងអស់ឱ្យស្ថិតនៅក្នុងជួរកម្រិតកំណត់មួយដូចគ្នា (ឧទាហរណ៍ ពី 0 ទៅ 1)។ ការធ្វើបែបនេះគឺដើម្បីកុំឱ្យលក្ខណៈដែលមានតម្លៃលេខធំជាង មានឥទ្ធិពលគ្របដណ្តប់លើលក្ខណៈដែលមានតម្លៃលេខតូចតាច នៅពេលក្បួនរៀនសូត្រធ្វើការវាស់ចម្ងាយ។	ដូចជាការប្តូរប្រាក់រៀល ប្រាក់បាត និងប្រាក់យេន ឱ្យទៅជារូបិយប័ណ្ណតែមួយ (ឧ. ដុល្លារ) មុននឹងយកមកប្រៀបធៀបគ្នា ដើម្បីកុំឱ្យច្រឡំថាលេខច្រើនមានតម្លៃធំជាង។
GrabCut algorithm	ជាក្បួនសម្រាប់កាត់ផ្តាច់រូបភាព (Image Segmentation) ដោយស្វ័យប្រវត្តិ។ វាដំណើរការដោយការប៉ាន់ស្មានផ្ទៃខាងមុខ (ឧ. ស្លឹករុក្ខជាតិ) និងផ្ទៃខាងក្រោយ បន្ទាប់មកគណនា និងកាត់យកតែវត្ថុសំខាន់ដោយបំបាត់ផ្ទៃខាងក្រោយ (ឧ. ដី ឬស្រមោលផ្សេងៗ) ចោល ដើម្បីកុំឱ្យមានសម្លេងរំខាន (Noise) ដល់ការទាញយកលក្ខណៈរូបភាព។	ដូចជាការប្រើកន្ត្រៃកាត់តាមរាងតួអង្គមនុស្សចេញពីរូបថតទេសភាពដ៏រញ៉េរញ៉ៃ ដើម្បីយកតែរូបមនុស្សនោះមកបិទលើក្រដាសសស្អាតមួយសន្លឹកទៀត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖