បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញ និងធ្វើចំណាត់ថ្នាក់ជំងឺរុក្ខជាតិ (ជាក់ស្តែងគឺជំងឺលើស្លឹកដំឡូងបារាំង និងទំពាំងបាយជូរ) ឱ្យបានឆាប់រហ័ស ដើម្បីការពារការឆ្លងរាលដាល និងកាត់បន្ថយការខូចខាតទិន្នផលកសិកម្មដោយប្រើប្រាស់ម៉ាស៊ីនរៀនសូត្រ (Machine Learning)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់រូបភាពស្លឹករុក្ខជាតិចំនួនរាប់ពាន់សន្លឹកពីសំណុំទិន្នន័យ PlantVillage ដោយឆ្លងកាត់ដំណើរការកាត់ផ្តាច់រូបភាព ទាញយកលក្ខណៈសម្បត្តិសំខាន់ៗ និងប្រើប្រាស់ក្បួនចំណាត់ថ្នាក់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machine (SVM) ម៉ាស៊ីនរៀនសូត្រ Support Vector Machine (SVM) |
ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងចំណោមក្បួនទាំងបី និងមានតម្លៃ Bias និង Variance ទាប ដែលស័ក្តិសមបំផុតសម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យនេះ។ | ទាមទារការគណនាស្វែងរកបន្ទាត់ព្រំដែន (Optimal Hyperplane) ដែលអាចចំណាយពេលយូរជាងក្បួនសាមញ្ញនៅពេលទិន្នន័យមានទំហំធំ។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៦,៨៣% សម្រាប់ជំងឺស្លឹកដំឡូងបារាំង និង ៩៦,០២% សម្រាប់ជំងឺស្លឹកទំពាំងបាយជូរ។ |
| K-Nearest Neighbor (KNN) ក្បួន K-Nearest Neighbor (KNN) |
ងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលល្អប្រសើរដោយពឹងផ្អែកលើការវាស់ចម្ងាយ (Distance Measure) នៃទិន្នន័យ។ | ទាមទារឱ្យមានការរក្សាទុកទិន្នន័យគំរូទាំងអស់ ដែលធ្វើឱ្យស៊ីទំហំអង្គចងចាំច្រើននៅពេលដាក់ឱ្យដំណើរការជាក់ស្តែង។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៤,០០% សម្រាប់ជំងឺស្លឹកដំឡូងបារាំង និង ៩៣,១០% សម្រាប់ជំងឺស្លឹកទំពាំងបាយជូរ។ |
| Naïve Bayes (NB) ក្បួនចំណាត់ថ្នាក់ Naïve Bayes (NB) |
ដំណើរការលឿនក្នុងការគណនា និងមិនសូវរងឥទ្ធិពលខ្លាំងពីការធ្វើកម្រិតទិន្នន័យ (Feature Normalization) ឡើយ។ | ទទួលបានអត្រាភាពត្រឹមត្រូវទាបជាងគេ ដោយសារវាសន្មតថាលក្ខណៈសម្បត្តិទាំងអស់ឯករាជ្យពីគ្នាទាំងស្រុង ដែលជាក់ស្តែងមិនតែងតែត្រឹមត្រូវទេ។ | សម្រេចបានភាពត្រឹមត្រូវ ៨៨,៦៧% សម្រាប់ជំងឺស្លឹកដំឡូងបារាំង និង ៨១,៨៧% សម្រាប់ជំងឺស្លឹកទំពាំងបាយជូរ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនបានបញ្ជាក់លម្អិតអំពីថ្លៃដើម ឬប្រភេទកុំព្យូទ័រដែលត្រូវប្រើនោះទេ ប៉ុន្តែវាទាមទារធនធានកុំព្យូទ័រជាមធ្យមសម្រាប់ការទាញយកលក្ខណៈរូបភាពដោយម៉ាទ្រីស GLCM និងដំណើរការម៉ាស៊ីនរៀនសូត្រ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ PlantVillage ដែលភាគច្រើនគឺជារូបភាពថតនៅក្នុងមន្ទីរពិសោធន៍ មានផ្ទៃខាងក្រោយពណ៌ប្រផេះ ឬឯកសណ្ឋាន (Controlled Environment)។ នេះជាចំណុចខ្សោយមួយសម្រាប់ប្រទេសកម្ពុជា ព្រោះរូបភាពជាក់ស្តែងដែលកសិករថតនៅតាមចម្ការមានផ្ទៃខាងក្រោយស្មុគស្មាញ (ដី ស្មៅ ពន្លឺថ្ងៃមិនស្មើគ្នា) ដែលអាចធ្វើឱ្យក្បួនលុបផ្ទៃខាងក្រោយ (GrabCut Algorithm) ធ្លាក់ចុះប្រសិទ្ធភាព។
វិធីសាស្ត្រទាញយកលក្ខណៈរូបភាពនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យកសិកម្មឆ្លាតវៃ (Smart Agriculture) នៅប្រទេសកម្ពុជា។
ទោះបីជាម៉ូដែលនេះមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែដើម្បីយកមកប្រើប្រាស់ជាក់ស្តែងប្រកបដោយជោគជ័យនៅកម្ពុជា គេចាំបាច់ត្រូវប្រមូលទិន្នន័យរូបភាពពីទីតាំងចម្ការផ្ទាល់ ទើបប្រព័ន្ធនេះមានភាពរឹងមាំចំពោះពន្លឺ និងផ្ទៃខាងក្រោយរូបភាពស្មុគស្មាញពិតប្រាកដ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Grey level co-occurrence matrix (GLCM) | ជាម៉ាទ្រីសគណិតវិទ្យាដែលប្រើសម្រាប់ទាញយកលក្ខណៈវាយនភាព (Texture) នៃរូបភាព។ វាវាស់ស្ទង់ថាតើភីកសែល (Pixels) ដែលមានកម្រិតពណ៌ប្រផេះដូចគ្នា ឬប្រហាក់ប្រហែលគ្នា ស្ថិតនៅក្បែរគ្នាញឹកញាប់ប៉ុណ្ណាក្នុងទិសដៅ និងចម្ងាយជាក់លាក់ណាមួយ ដើម្បីកំណត់ថាតើផ្ទៃរូបភាពនោះរលោង ឬគ្រើម។ | ដូចជាការសង្កេតមើលក្រណាត់មួយផ្ទាំង ដើម្បីដឹងថាវាជិតសាច់ល្អ (រលោង) ឬមានសរសៃអំបោះគម្លាតគ្នា (គ្រើម) ដោយរាប់ចំនួនសរសៃដែលនៅក្បែរៗគ្នា។ |
| Support Vector Machine (SVM) | ជាក្បួនម៉ាស៊ីនរៀនសូត្រ (Machine Learning) ដែលប្រើសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ។ វាដំណើរការដោយការស្វែងរកបន្ទាត់ព្រំដែន (Optimal Hyperplane) ដ៏ល្អបំផុតដែលស្ថិតនៅចន្លោះកណ្តាល និងនៅឆ្ងាយជាងគេពីទិន្នន័យនៃក្រុមនីមួយៗ ដើម្បីបែងចែកពួកវាឱ្យបានដាច់ស្រឡះពីគ្នាប្រកបដោយភាពត្រឹមត្រូវខ្ពស់។ | ដូចជាការគូសបន្ទាត់មួយនៅលើដី ដើម្បីបែងចែកក្មេងលេងបាល់ទាត់ និងក្មេងលេងបាល់ទះឱ្យនៅឆ្ងាយពីគ្នាបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីកុំឱ្យពួកគេរត់ប៉ះទង្គិចគ្នា។ |
| Feature Extraction | ជាដំណើរការនៃការបំប្លែងទិន្នន័យដើម (ឧទាហរណ៍៖ រូបភាពស្លឹករុក្ខជាតិទាំងមូល) ទៅជាសំណុំនៃតម្លៃលេខ ឬលក្ខណៈសម្បត្តិសំខាន់ៗតំណាង (ដូចជាកម្រិតពណ៌ ភាពគ្រើម ឬរូបរាង) ដើម្បីឱ្យកុំព្យូទ័រអាចស្គាល់ និងយកទៅដំណើរការបន្តក្នុងការវាយតម្លៃជំងឺបានលឿនជាងមុន។ | ដូចជាការសរសេរចំណុចសង្ខេបសំខាន់ៗពីសៀវភៅមួយក្បាលដ៏ក្រាស់ ដើម្បីឱ្យមិត្តភក្តិអានហើយយល់អត្ថន័យភ្លាមៗដោយមិនបាច់អានសៀវភៅទាំងមូលឡើងវិញ។ |
| HSV color space | ជាប្រព័ន្ធពណ៌ដែលបំបែករូបភាពជាបីផ្នែក៖ H (Hue ឬពណ៌ពិត), S (Saturation ឬភាពឆ្អែតនៃពណ៌), និង V (Value ឬកម្រិតពន្លឺ)។ នៅក្នុងការស្រាវជ្រាវនេះ គេប្រើប្រាស់ផ្នែក Hue ព្រោះវាផ្ទុកព័ត៌មានពណ៌សុទ្ធសាធ ដែលជួយឱ្យប្រព័ន្ធចំណាត់ថ្នាក់មិនសូវរងឥទ្ធិពលពីពន្លឺជុំវិញ (ភ្លឺពេក ឬងងឹតពេក)។ | ដូចជាការលាយថ្នាំពណ៌ ដោយបំបែកវាងាយៗជា ៣ ជំហាន៖ ជ្រើសរើសពណ៌គោល (Hue) បន្ថែមទឹកដើម្បីឱ្យពណ៌ស្រាលឬដិត (Saturation) និងបន្ថែមពណ៌សឬខ្មៅដើម្បីកំណត់ពន្លឺ (Value)។ |
| K-Fold Cross Validation | ជាបច្ចេកទេសវាយតម្លៃក្បួនម៉ាស៊ីនរៀនសូត្រ ដោយបែងចែកសំណុំទិន្នន័យជា K ផ្នែក (Folds) ប៉ុនៗគ្នា។ ផ្នែកនីមួយៗនឹងត្រូវបានប្តូរវេនគ្នាធ្វើជាទិន្នន័យសាកល្បង (Test data) ខណៈផ្នែកដែលនៅសល់ត្រូវបានប្រើសម្រាប់បង្ហាត់ម៉ូដែល (Training data) ដើម្បីធានាថាម៉ូដែលពិតជាមានសមត្ថភាពទូទៅ (Generalized) និងមិនចេះតែទន្ទេញចាំទិន្នន័យចាស់ៗ (Overfitting)។ | ដូចជាការបែងចែកសិស្សក្នុងថ្នាក់ជា ៥ ក្រុមតូចៗ រួចប្តូរវេនគ្នាឱ្យក្រុមនីមួយៗឡើងធ្វើវិញ្ញាសាប្រឡង ខណៈក្រុមផ្សេងទៀតរៀនសូត្រ ដើម្បីប្រាកដថាសិស្សទាំងអស់ពិតជាយល់មេរៀន មិនមែនគ្រាន់តែទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់។ |
| Feature Normalization | ជាដំណើរការគណិតវិទ្យា (ឧ. Min-Max Scaling) ដើម្បីកែសម្រួលតម្លៃលេខនៃលក្ខណៈសម្បត្តិទាំងអស់ឱ្យស្ថិតនៅក្នុងជួរកម្រិតកំណត់មួយដូចគ្នា (ឧទាហរណ៍ ពី 0 ទៅ 1)។ ការធ្វើបែបនេះគឺដើម្បីកុំឱ្យលក្ខណៈដែលមានតម្លៃលេខធំជាង មានឥទ្ធិពលគ្របដណ្តប់លើលក្ខណៈដែលមានតម្លៃលេខតូចតាច នៅពេលក្បួនរៀនសូត្រធ្វើការវាស់ចម្ងាយ។ | ដូចជាការប្តូរប្រាក់រៀល ប្រាក់បាត និងប្រាក់យេន ឱ្យទៅជារូបិយប័ណ្ណតែមួយ (ឧ. ដុល្លារ) មុននឹងយកមកប្រៀបធៀបគ្នា ដើម្បីកុំឱ្យច្រឡំថាលេខច្រើនមានតម្លៃធំជាង។ |
| GrabCut algorithm | ជាក្បួនសម្រាប់កាត់ផ្តាច់រូបភាព (Image Segmentation) ដោយស្វ័យប្រវត្តិ។ វាដំណើរការដោយការប៉ាន់ស្មានផ្ទៃខាងមុខ (ឧ. ស្លឹករុក្ខជាតិ) និងផ្ទៃខាងក្រោយ បន្ទាប់មកគណនា និងកាត់យកតែវត្ថុសំខាន់ដោយបំបាត់ផ្ទៃខាងក្រោយ (ឧ. ដី ឬស្រមោលផ្សេងៗ) ចោល ដើម្បីកុំឱ្យមានសម្លេងរំខាន (Noise) ដល់ការទាញយកលក្ខណៈរូបភាព។ | ដូចជាការប្រើកន្ត្រៃកាត់តាមរាងតួអង្គមនុស្សចេញពីរូបថតទេសភាពដ៏រញ៉េរញ៉ៃ ដើម្បីយកតែរូបមនុស្សនោះមកបិទលើក្រដាសសស្អាតមួយសន្លឹកទៀត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖