បញ្ហា (The Problem)៖ ជំងឺចំណុចស្លឹកកង្កែប (Frogeye leaf spot) បង្កដោយផ្សិត Cercospora sojina ធ្វើឱ្យទិន្នផលសណ្តែកសៀងធ្លាក់ចុះ ខណៈការវាយតម្លៃកម្រិតជំងឺដោយភ្នែកផ្ទាល់មានភាពលម្អៀង និងចំណាយកម្លាំងពលកម្មច្រើន។ ការសិក្សានេះស្វែងរកវិធីសាស្ត្រវាយតម្លៃជំងឺនេះប្រកបដោយភាពត្រឹមត្រូវ និងមិនបំផ្លាញដំណាំ ដោយប្រើប្រាស់បច្ចេកវិទ្យាពីចម្ងាយ និងកម្មវិធីវិភាគទិន្នន័យ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យចំណាំងផ្លាតលើសវិសាលគម (Hyperspectral reflectance data) ពីស្លឹកសណ្តែកសៀង និងអនុវត្តក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine learning) តាមរយៈកម្មវិធី Orange data mining ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Neural Network បណ្ដាញសរសៃប្រសាទ (Neural Network) |
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់ពីទំនាក់ទំនងរវាងរលកពន្លឺដ៏ស្មុគស្មាញដោយមិនចាំបាច់ប្រើបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស (Feature selection) ជាមុន។ | ត្រូវការពេលវេលាហ្វឹកហាត់យូរ និងពិបាកក្នុងការពន្យល់ពីដំណើរការសម្រេចចិត្តខាងក្នុង (Black box) បើប្រៀបធៀបនឹងម៉ូដែលសាមញ្ញ។ | ទទួលបានភាពត្រឹមត្រូវទូទៅខ្ពស់បំផុតរហូតដល់ ៩៨,៦% ដោយប្រើប្រាស់ជាមួយទិន្នន័យដេរីវេទី១ពេញលេញ។ |
| Gradient Boosting ក្បួនដោះស្រាយ Gradient Boosting |
ដំណើរការបានយ៉ាងល្អប្រសើរនៅពេលប្រើរួមគ្នាជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស ដែលជួយកាត់បន្ថយបន្ទុកនៃការគណនានិងបង្កើនប្រសិទ្ធភាព។ | ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ច្រើននិងត្រឹមត្រូវ ដើម្បីជៀសវាងបញ្ហា Overfitting ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៧,៤% នៅពេលប្រើទិន្នន័យដេរីវេទី១រួមជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស ReliefF ។ |
| Random Forest ក្បួនដោះស្រាយ Random Forest |
មានស្ថិរភាពខ្ពស់ មិនងាយជួបបញ្ហា Overfitting និងអាចកាត់បន្ថយកំហុសបានល្អដោយប្រើប្រាស់ដើមឈើសម្រេចចិត្ត (Decision trees) ជាច្រើនបញ្ចូលគ្នា។ | ភាពត្រឹមត្រូវមានកម្រិតទាបជាង Neural Network បន្តិចទោះបីជាបានធ្វើការកែសម្រួលទិន្នន័យយ៉ាងណាក្តី។ | ទទួលបានភាពត្រឹមត្រូវ ៩៦,៩% សម្រាប់ទិន្នន័យដេរីវេទី១រួមជាមួយបច្ចេកទេស ReliefF ។ |
| Stacking ក្បួនដោះស្រាយរួមបញ្ចូលគ្នា (Stacking) |
អាចបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយដោយប្រើប្រាស់ម៉ូដែលមូលដ្ឋានផ្សេងៗគ្នា (KNN, Naïve Bayes, SVM) ធ្វើការរួមគ្នាបំពេញចំណុចខ្វះខាតឱ្យគ្នា។ | ត្រូវការធនធានកុំព្យូទ័រច្រើន ចំណាយពេលយូរ និងស្មុគស្មាញក្នុងការរៀបចំជាងការប្រើម៉ូដែលទោល។ | ទទួលបានភាពត្រឹមត្រូវ ៩៤,៩% សម្រាប់ទិន្នន័យដេរីវេទី១ ដែលបានជ្រើសរើសរួច។ |
| Decision Tree ក្បួនដោះស្រាយដើមឈើសម្រេចចិត្ត (Decision Tree) |
ងាយស្រួលយល់ ងាយស្រួលបកស្រាយពីដំណើរការនៃការសម្រេចចិត្ត និងមិនទាមទារការគណនាស្មុគស្មាញ។ | មានភាពត្រឹមត្រូវទាបជាងគេបំផុតក្នុងចំណោមម៉ូដែលទាំងអស់ដែលបានសាកល្បង ទោះបីជាមានការកែច្នៃទិន្នន័យក៏ដោយ។ | ទទួលបានភាពត្រឹមត្រូវទាបបំផុតត្រឹមតែ ៧៧,៦% ប៉ុណ្ណោះសម្រាប់ទិន្នន័យដេរីវេទី១ដែលបានជ្រើសរើស។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់លម្អិតពីទំហំថវិកាផ្ទាល់នោះទេ ប៉ុន្តែវាទាមទារឱ្យមានឧបករណ៍ចាប់សញ្ញាលើសវិសាលគមតម្លៃថ្លៃ និងកុំព្យូទ័រសម្រាប់ការវិភាគ។
ទិន្នន័យដែលប្រើក្នុងការសិក្សានេះត្រូវបានប្រមូលដោយក្រុមអ្នកស្រាវជ្រាវមកពីសាកលវិទ្យាល័យនៅក្នុងប្រទេសចិន (Liu et al., 2021) ដែលឆ្លុះបញ្ចាំងពីស្ថានភាពអាកាសធាតុ ពូជសណ្តែកសៀង និងប្រភេទដីនៅតំបន់នោះ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តម៉ូដែលនេះដោយផ្ទាល់អាចនឹងជួបប្រទះភាពលម្អៀង (Bias) ដោយសារពូជសណ្តែកសៀង និងបរិស្ថានដាំដុះនៅក្នុងស្រុកមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីយកមកបង្ហាត់ម៉ូដែលឡើងវិញ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យកសិកម្មឆ្លាតវៃនៅកម្ពុជា ជាពិសេសក្នុងការតាមដានសុខភាពដំណាំទ្រង់ទ្រាយធំដោយមិនបំផ្លាញរុក្ខជាតិ។
ការប្រើប្រាស់បច្ចេកវិទ្យាវិសាលគមរួមជាមួយកម្មវិធីកូដបើកចំហ (Open-source) ដូចជាកម្មវិធី Orange នឹងផ្តល់លទ្ធភាពដល់ស្ថាប័នកសិកម្មកម្ពុជាក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធតាមដានជំងឺដំណាំឱ្យកាន់តែមានភាពសុក្រឹតនិងរហ័ស។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hyperspectral reflectance (ចំណាំងផ្លាតលើសវិសាលគម) | ការវាស់ស្ទង់បរិមាណពន្លឺដែលជះត្រឡប់ពីស្លឹករុក្ខជាតិក្នុងកម្រិតរលកពន្លឺតូចៗរាប់រយតំបន់ ដែលអាចចាប់យកព័ត៌មានលម្អិតពីគីមីសាស្ត្រ ជាតិទឹក និងរចនាសម្ព័ន្ធខាងក្នុងរបស់ស្លឹក ដែលភ្នែកមនុស្សមិនអាចមើលឃើញ។ | ដូចជាការថតកាំរស្មីអ៊ិច (X-ray) ដែលអាចមើលធ្លុះដល់ខាងក្នុងរាងកាយ តែបច្ចេកទេសនេះប្រើចំណាំងពន្លឺដើម្បីមើលសុខភាពខាងក្នុងរបស់ស្លឹកឈើ។ |
| Savitzky-Golay filter (តម្រង Savitzky-Golay) | បច្ចេកទេសគណិតវិទ្យាសម្រាប់ធ្វើឱ្យទិន្នន័យរលកពន្លឺរលោង (Smooth) និងកាត់បន្ថយសំឡេងរំខាន (Noise) ពីឧបករណ៍វាស់ស្ទង់ ដោយមិនធ្វើឱ្យបាត់បង់ទម្រង់ដើម និងលក្ខណៈសំខាន់ៗនៃទិន្នន័យ។ | ដូចជាការប្រើមុខងារសម្រួលផ្ទៃមុខ (Beauty filter) ក្នុងកាមេរ៉ាទូរស័ព្ទដើម្បីបំបាត់ស្នាមអុចៗ តែនៅរក្សាទម្រង់មុខដើមឱ្យនៅដដែល។ |
| ReliefF algorithm (ក្បួនដោះស្រាយ ReliefF) | ក្បួនដោះស្រាយរៀនរបស់ម៉ាស៊ីនដែលប្រើសម្រាប់ជ្រើសរើសលក្ខណៈពិសេស (Feature selection) ដោយវាយតម្លៃថាទិន្នន័យរលកពន្លឺណាមានប្រយោជន៍បំផុតក្នុងការបែងចែកកម្រិតជំងឺ ដើម្បីកាត់បន្ថយទំហំទិន្នន័យមិនចាំបាច់ និងបង្កើនល្បឿនគណនា។ | ដូចជាគ្រូបង្រៀនដែលចម្រាញ់រើសយកតែមេរៀនសំខាន់ៗបំផុតមកចេញប្រឡង ដើម្បីកុំឱ្យសិស្សចំណាយពេលទន្ទេញមេរៀនដែលមិនចាំបាច់ច្រើនពេក។ |
| Gradient boosting (ក្បួនដោះស្រាយ Gradient boosting) | វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីនដែលបណ្តុះបណ្តាលម៉ូដែលខ្សោយៗ (ដូចជាដើមឈើសម្រេចចិត្ត) ជាបន្តបន្ទាប់ ដោយម៉ូដែលក្រោយៗព្យាយាមកែតម្រូវកំហុសដែលបង្កើតឡើងដោយម៉ូដែលមុនៗ ដើម្បីទទួលបានលទ្ធផលទស្សន៍ទាយចុងក្រោយកាន់តែសុក្រឹត។ | ដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដោយម្នាក់ធ្វើខុស ម្នាក់ទៀតមកជួយកែចំណុចខុសនោះបន្តបន្ទាប់រហូតទាល់តែចម្លើយនោះត្រូវឥតខ្ចោះ។ |
| Neural network (បណ្ដាញសរសៃប្រសាទ) | ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានរចនាឡើងត្រាប់តាមដំណើរការនៃខួរក្បាលមនុស្ស មានសមត្ថភាពរៀនសូត្រពីទិន្នន័យដ៏ស្មុគស្មាញ និងស្វែងរកទំនាក់ទំនងលាក់កំបាំងរវាងអថេរផ្សេងៗ ទោះបីជាគ្មានការជ្រើសរើសលក្ខណៈពិសេសជាមុនក៏ដោយ។ | ដូចជាខួរក្បាលក្មេងដែលរៀនចំណាំមុខមនុស្ស ដោយមើលឃើញញឹកញាប់ រហូតដល់អាចបែងចែកដឹងថាជានរណា ទោះបីជាពាក់ម៉ាស់ក៏ដោយ។ |
| First derivative (ដេរីវេទី១) | ការអនុវត្តរូបមន្តគណិតវិទ្យាទៅលើទិន្នន័យវិសាលគម ដើម្បីលុបបំបាត់ឥទ្ធិពលនៃការប្រែប្រួលពន្លឺពីបរិស្ថានខាងក្រៅ និងជួយរំលេចចំណុចកំពូលនៃការប្រែប្រួលរបស់រលកពន្លឺ (Red-edge region) ឱ្យកាន់តែច្បាស់។ | ដូចជាការផ្តោតភ្នែកមើលតែលើសន្ទុះនៃការកើនឡើងឬថយចុះនៃក្រាហ្វ ជាជាងការមើលតម្លៃធម្មតា ដើម្បីងាយស្រួលរកមើលភាពខុសប្រក្រតីយ៉ាងរហ័ស។ |
| Relative operating characteristic (ខ្សែកោងលក្ខណៈប្រតិបត្តិការទាក់ទង - ROC) | រង្វាស់ក្រាហ្វិកសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចាត់ថ្នាក់ ដែលបង្ហាញពីទំនាក់ទំនងនិងតុល្យភាពរវាងអត្រាដែលម៉ូដែលទស្សន៍ទាយត្រូវ (True positive rate) និងអត្រាដែលវាទស្សន៍ទាយខុស (False positive rate) ក្នុងកម្រិតផ្សេងៗគ្នា។ | ដូចជារបាយការណ៍ដែលប្រាប់យើងយ៉ាងច្បាស់ថា ពេទ្យម្នាក់នេះធ្វើរោគវិនិច្ឆ័យជំងឺត្រូវប៉ុន្មានដង និងច្រឡំប៉ុន្មានដង មុននឹងយើងសម្រេចចិត្តជឿទុកចិត្តគាត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖