Original Title: Classification using Feature Extraction of Leaf Based on Neural Network Algorithm with K-Nearest Neighbor and Supervised Learning
Source: doi.org/10.5013/IJSSST.a.20.06.14
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើចំណាត់ថ្នាក់ដោយប្រើការទាញយកលក្ខណៈពិសេសនៃស្លឹកឈើផ្អែកលើក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទជាមួយ K-Nearest Neighbor និង Supervised Learning

ចំណងជើងដើម៖ Classification using Feature Extraction of Leaf Based on Neural Network Algorithm with K-Nearest Neighbor and Supervised Learning

អ្នកនិពន្ធ៖ Fauziah Nasir Fauziah (Faculty of Information and Communication Technology, Universitas Nasional, Indonesia), Faris Helmi

ឆ្នាំបោះពុម្ព៖ IJSSST

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកំណត់អត្តសញ្ញាណប្រភេទរុក្ខជាតិដោយផ្អែកលើស្លឹកមានសារៈសំខាន់ ប៉ុន្តែមនុស្សភាគច្រើនជួបការលំបាកក្នុងការបែងចែកប្រភេទរុក្ខជាតិដោយមើលផ្ទាល់ភ្នែក។ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានេះដោយបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិដើម្បីធ្វើចំណាត់ថ្នាក់ស្លឹកឈើដោយប្រើបច្ចេកវិទ្យាកុំព្យូទ័រ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ដំណើរការរូបភាព (Image Processing) និងក្បួនដោះស្រាយចំណាត់ថ្នាក់ K-Nearest Neighbor (K-NN) ដើម្បីកំណត់អត្តសញ្ញាណរុក្ខជាតិ។

ការកែច្នៃរូបភាពបឋម (Image Preprocessing) ដោយបំប្លែងរូបភាពពីពណ៌ RGB ទៅជាពណ៌ប្រផេះ (Grayscale) រួចបំប្លែងទៅជាទម្រង់គោលពីរ (Binary) សម្រាប់ការផ្ដាច់ផ្នែក (Segmentation)។
ការទាញយកលក្ខណៈពិសេស (Feature Extraction) ពីរូបភាពស្លឹកឈើ ដោយផ្តោតលើទំហំ (Area) បរិមាត្រ (Perimeter) ភាពវៀច (Eccentricity) និងម៉ែត្រ (Metric)។
ការប្រើប្រាស់ក្បួនដោះស្រាយ K-Nearest Neighbor (K-NN Algorithm) ដែលជាប្រភេទនៃការរៀនមានការត្រួតពិនិត្យ (Supervised Learning) ដើម្បីប្រៀបធៀប និងធ្វើចំណាត់ថ្នាក់ទិន្នន័យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

លទ្ធផលនៃការធ្វើតេស្តបានបង្ហាញពីភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៧.៧២% (97.72% Accuracy) ក្នុងការបែងចែកប្រភេទស្លឹកឈើ។
ការប្រើប្រាស់លក្ខណៈរូបសាស្ត្រនៃស្លឹកឈើ (Morphological features) ដូចជា ទំហំ បរិមាត្រ និងភាពវៀច គឺមានប្រសិទ្ធភាពក្នុងការធ្វើជាប៉ារ៉ាម៉ែត្រសម្គាល់។
ប្រព័ន្ធចំណុចប្រទាក់អ្នកប្រើប្រាស់ (User Interface) ត្រូវបានបង្កើតឡើងដោយជោគជ័យ ដើម្បីសម្រួលដល់ការបញ្ចូលរូបភាព ទាញយកលក្ខណៈពិសេស និងបង្ហាញលទ្ធផលចំណាត់ថ្នាក់យ៉ាងច្បាស់លាស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
K-Nearest Neighbor (K-NN) with Morphological Features ក្បួនដោះស្រាយ K-NN ដោយប្រើប្រាស់លក្ខណៈរូបសាស្ត្រ	មានភាពងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់នៅពេលប្រើប្រាស់ជាមួយទិន្នន័យលក្ខណៈពិសេស (Features) ដែលបានទាញយកយ៉ាងច្បាស់លាស់។	ទាមទារការប្រើប្រាស់អង្គចងចាំ (Memory) ច្រើននៅពេលទិន្នន័យមានទំហំធំ និងដំណើរការយឺតក្នុងដំណាក់កាលធ្វើតេស្ត ប្រសិនបើទិន្នន័យយោងមានច្រើនពេក។	ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៧.៧២% (97.72% Accuracy) ក្នុងការធ្វើចំណាត់ថ្នាក់។
SURF / FAST-SURF Feature Extraction ការទាញយកលក្ខណៈពិសេសដោយប្រើ SURF/FAST-SURF (យោងតាមឯកសារស្រាវជ្រាវមុនៗ)	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកចំណុចសំខាន់ៗនៃរូបភាព ទោះបីជារូបភាពមានការផ្លាស់ប្តូរទំហំ ឬបង្វិលក៏ដោយ។	ដំណើរការគណនាមានភាពស្មុគស្មាញ និងទាមទារធនធានកុំព្យូទ័រខ្ពស់ជាងការវាស់ទំហំស្លឹកធម្មតា។	ទទួលបានភាពត្រឹមត្រូវ ៩៥% សម្រាប់ម៉ូដែល SURF និង ៩១.២៥% សម្រាប់ FAST-SURF។
Probabilistic Neural Network (PNN) / Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (យោងតាមឯកសារស្រាវជ្រាវមុនៗ)	មានសមត្ថភាពក្នុងការរៀនពីលំនាំស្មុគស្មាញ (Complex patterns) ដូចជាសរសៃស្លឹក និងវាយនភាព (Texture) បានយ៉ាងល្អឥតខ្ចោះ។	ត្រូវការទិន្នន័យហ្វឹកហាត់ (Training data) ច្រើនសន្ធឹកសន្ធាប់ និងចំណាយពេលយូរក្នុងការបង្វឹកម៉ូដែល (Training time)។	ទទួលបានភាពត្រឹមត្រូវចន្លោះពី ៩០% ទៅ ៩៦.៥៣% អាស្រ័យលើប្រភេទនៃបណ្តាញនិងទិន្នន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះមិនតម្រូវឱ្យមានធនធានផ្នែករឹងកុំព្យូទ័រធំដុំនោះទេ ប៉ុន្តែទាមទារឱ្យមានសំណុំទិន្នន័យរូបភាពច្បាស់លាស់ និងកម្មវិធីសម្រាប់កែច្នៃរូបភាព។

Hardware: កុំព្យូទ័រផ្ទាល់ខ្លួន (PC) ធម្មតាដែលមានសមត្ថភាពដំណើរការកម្មវិធីមូលដ្ឋាន និងម៉ាស៊ីនថតកាមេរ៉ា ឬទូរស័ព្ទដៃសម្រាប់ថតរូបភាពស្លឹកឈើ។
Software: បរិស្ថានសម្រាប់សរសេរកម្មវិធីកែច្នៃរូបភាព និងចំណុចប្រទាក់អ្នកប្រើប្រាស់ (User Interface) ដូចជា MATLAB ឬ Python។
Dataset: បណ្តុំរូបភាពស្លឹកឈើ (Leaf Image Dataset) ដែលបានរក្សាទុកក្នុងទម្រង់ JPEG រួមបញ្ចូលទាំងទិន្នន័យសម្រាប់ហ្វឹកហាត់ (Training) និងទិន្នន័យសម្រាប់ធ្វើតេស្ត (Testing)។
Expertise: ចំណេះដឹងផ្នែកកែច្នៃរូបភាពឌីជីថល (Digital Image Processing) ការទាញយកលក្ខណៈពិសេស (Feature Extraction) និងក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវនៅប្រទេសឥណ្ឌូនេស៊ី ដោយប្រើប្រាស់សំណុំទិន្នន័យស្លឹកឈើប្រភេទជាក់លាក់មួយចំនួន (ដូចជា Aesculus californica ជាដើម)។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យទាំងនេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ ព្រោះរុក្ខជាតិក្នុងស្រុកមានលក្ខណៈរូបសាស្ត្រ និងពូជខុសៗគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យស្លឹកឈើនៅកម្ពុជាផ្ទាល់ដើម្បីបង្វឹកម៉ូដែលឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងអាចយកមកកែច្នៃអនុវត្តនៅប្រទេសកម្ពុជាបាន ជាពិសេសក្នុងការគ្រប់គ្រងធនធានធម្មជាតិ និងកសិកម្ម។

វិស័យកសិកម្ម (ខេត្តបាត់ដំបង និងកំពង់ចាម): អាចប្រើដើម្បីជួយកសិករ ឬមន្ត្រីកសិកម្មក្នុងការកំណត់អត្តសញ្ញាណប្រភេទស្មៅចង្រៃ ឬសញ្ញានៃជំងឺលើស្លឹកដំណាំបានយ៉ាងឆាប់រហ័ស។
ការអភិរក្សព្រៃឈើ (ជួរភ្នំក្រវាញ និងតំបន់កែវសីមា): ជួយដល់មន្ត្រីបរិស្ថាន (Ministry of Environment) ក្នុងការកត់ត្រា សម្គាល់ និងតាមដានប្រភេទរុក្ខជាតិកម្រនៅក្នុងតំបន់ការពារនានា។
ការសិក្សាពីឱសថបុរាណ (Traditional Medicine): គាំទ្រដល់និស្សិតពេទ្យ និងអ្នកស្រាវជ្រាវក្នុងការបង្កើតប្រព័ន្ធទិន្នន័យឌីជីថល ដើម្បីសម្គាល់ប្រភេទរុក្ខជាតិដែលអាចប្រើជាឱសថបុរាណក្នុងស្រុកឱ្យបានត្រឹមត្រូវ។

ការអភិវឌ្ឍប្រព័ន្ធនេះជាទម្រង់កម្មវិធីទូរស័ព្ទដៃ (Mobile App) ដោយបង្វឹកវាជាមួយរុក្ខជាតិក្នុងស្រុក នឹងជួយសម្រួលដល់ប្រជាជនកម្ពុជា និងអ្នកស្រាវជ្រាវក្នុងការស្វែងយល់ពីរុក្ខជាតិជុំវិញខ្លួនបានយ៉ាងងាយស្រួល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃការកែច្នៃរូបភាព: ចាប់ផ្តើមរៀនពីរបៀបនាំចូលរូបភាព និងបំប្លែងរូបភាពទៅជាពណ៌ប្រផេះ (Grayscale) និងទម្រង់គោលពីរ (Binary) សម្រាប់ការផ្ដាច់ផ្នែករូបភាព (Segmentation) ដោយប្រើប្រាស់បណ្ណាល័យ OpenCV នៅក្នុង Python។
ជំហានទី២៖ អនុវត្តការទាញយកលក្ខណៈពិសេស (Feature Extraction): សរសេរកូដដើម្បីគណនានិងទាញយកទំហំ (Area) បរិមាត្រ (Perimeter) និងភាពវៀច (Eccentricity) ពីរូបភាពស្លឹកដែលបានកាត់ផ្ទៃខាងក្រោយរួច ដោយប្រើប្រាស់កញ្ចប់កម្មវិធី scikit-image។
ជំហានទី៣៖ អនុវត្តក្បួនដោះស្រាយ K-NN: ប្រើប្រាស់បណ្ណាល័យ scikit-learn ដើម្បីបង្កើតម៉ូដែល K-Nearest Neighbor (K-NN Classifier) រួចធ្វើការបង្វឹក (Train) និងសាកល្បង (Test) ម៉ូដែលជាមួយទិន្នន័យតារាងលក្ខណៈពិសេសដែលបានទាញយក។
ជំហានទី៤៖ ប្រមូលទិន្នន័យរុក្ខជាតិក្នុងស្រុកកម្ពុជា: រៀបចំយុទ្ធនាការប្រមូលទិន្នន័យដោយចុះថតរូបស្លឹកឈើពិតៗ (ឧទាហរណ៍៖ រុក្ខជាតិនៅឧទ្យានជាតិគិរីរម្យ ឬសួនរុក្ខជាតិ) ហើយធ្វើចំណាត់ថ្នាក់ និងរក្សាទុកក្នុងថតឯកសារ (Folder) ដាច់ដោយឡែកពីគ្នាដើម្បីធ្វើជា Dataset។
ជំហានទី៥៖ បង្កើតចំណុចប្រទាក់អ្នកប្រើប្រាស់ (User Interface): អភិវឌ្ឍកម្មវិធីដែលមានភាពងាយស្រួលប្រើប្រាស់ដោយប្រើ Streamlit ឬ PyQt ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់បញ្ចូលរូបភាពស្លឹកឈើ និងបង្ហាញលទ្ធផលនៃឈ្មោះរុក្ខជាតិដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Feature Extraction	គឺជាដំណើរការទាញយកលក្ខណៈសម្គាល់ពិសេសៗ (ដូចជាពណ៌ រាង ទំហំ ឬវាយនភាព) ពីរូបភាពដើម ដើម្បីកាត់បន្ថយទំហំទិន្នន័យ តែនៅរក្សាទុកព័ត៌មានសំខាន់ៗសម្រាប់ឱ្យកុំព្យូទ័រងាយស្រួលវិភាគ និងចំណាត់ថ្នាក់ដោយស្វ័យប្រវត្តិ។	ដូចជាពេលយើងប្រាប់ប៉ូលីសពីភិនភាគចោរ ដោយរៀបរាប់តែចំណុចសំខាន់ៗ (កម្ពស់ សម្បុរ ស្លាកស្នាម) ជំនួសឱ្យការពណ៌នាគ្រប់រោមសរសៃទាំងអស់។
K-Nearest Neighbor (K-NN)	គឺជាក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យថ្មី ដោយផ្អែកលើការស្វែងរកទិន្នន័យចាស់ចំនួន K (ឧទាហរណ៍ ៥ ឬ ១០) ដែលមានលក្ខណៈស្រដៀងវាជាងគេ (នៅជិតបំផុត) ហើយចាត់ទុកថាវាស្ថិតក្នុងក្រុមដែលមានសមាជិកភាគច្រើនក្នុងចំណោមអ្នកជិតខាងទាំងនោះ។	ដូចជាសុភាសិត "សេពគប់ពាល គឺពាល សេពគប់បណ្ឌិត គឺបណ្ឌិត" បើយើងចង់ដឹងថាមនុស្សម្នាក់ជាអ្នកណា យើងគ្រាន់តែមើលមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់។
Supervised Learning	ជាវិធីសាស្ត្របង្រៀនកុំព្យូទ័រ (Machine Learning) ដែលតម្រូវឱ្យមនុស្សផ្តល់ទិន្នន័យគំរូដែលមានចម្លើយ ឬឈ្មោះត្រឹមត្រូវរួចជាស្រេច (Labeled data) ដើម្បីឱ្យកុំព្យូទ័ររៀនស្គាល់លំនាំ ហើយអាចទាយចម្លើយសម្រាប់ទិន្នន័យថ្មីៗនៅពេលក្រោយ។	ដូចជាគ្រូបង្រៀនសិស្សដោយបង្ហាញរូបភាពសត្វឆ្កែ ហើយប្រាប់ផ្ទាល់មាត់ថា "នេះគឺជាសត្វឆ្កែ" រហូតដល់សិស្សចាំ និងអាចស្គាល់ឆ្កែផ្សេងទៀតដោយខ្លួនឯង។
Eccentricity	គឺជារង្វាស់គណិតវិទ្យាដែលប្រើក្នុងដំណើរការកែច្នៃរូបភាព ដើម្បីវាស់ថាតើរូបរាងមួយមានសណ្ឋានទ្រវែងប៉ុណ្ណា។ តម្លៃរបស់វាស្ថិតនៅចន្លោះពី ០ (រាងមូលកង់) ដល់ ១ (រាងជាបន្ទាត់ត្រង់) ដែលជាប៉ារ៉ាម៉ែត្រជួយកុំព្យូទ័របែងចែករាងស្លឹកឈើ។	ដូចជាការវាស់ភាពវៀចរបស់កង់ឡាន បើកង់មូលល្អគឺលេខ ០ តែបើកង់នោះវៀចទ្រវែងដូចស៊ុតគឺលេខកៀកនឹង ១។
Segmentation	គឺជាការកាត់ផ្តាច់រូបភាពជាផ្នែកៗ ដើម្បីបំបែកវត្ថុគោលដៅ (ឧទាហរណ៍៖ ស្លឹកឈើ) ចេញពីផ្ទៃខាងក្រោយ (Background) ដែលធ្វើឱ្យកុំព្យូទ័រអាចផ្តោតការទាញយកទិន្នន័យតែលើវត្ថុដែលយើងចង់បានប៉ុណ្ណោះ ដោយមិនមានការរំខានពីរូបភាពជុំវិញ។	ដូចជាការប្រើកន្ត្រៃកាត់រូបភាពមនុស្សចេញពីទស្សនាវដ្តី ដើម្បីយកទៅបិទលើក្រដាសស ទើបងាយស្រួលមើល និងមិនរញ៉េរញ៉ៃជាមួយរូបភាពផ្សេងទៀត។
Artificial Neural Network (NN)	គឺជាប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានសរសេរកូដឡើងដោយយកគំរូតាមបណ្តាញកោសិកាសរសៃប្រសាទក្នុងខួរក្បាលមនុស្ស វាមានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីកំហុស កត់សម្គាល់លំនាំ និងធ្វើការសម្រេចចិត្តលើទិន្នន័យរូបភាពស្មុគស្មាញ។	ដូចជាការសាងសង់ខួរក្បាលសិប្បនិម្មិតតូចមួយឱ្យកុំព្យូទ័រ ដើម្បីឱ្យវាអាចគិត សង្កេត និងរៀនសូត្រចំណាំអ្វីៗបានដូចជាកូនក្មេង។
Morphology	នៅក្នុងបរិបទនៃការសិក្សានេះ វាសំដៅទៅលើការសិក្សាអំពីរូបរាង និងរចនាសម្ព័ន្ធខាងក្រៅរបស់ស្លឹកឈើ (ដូចជា ទ្រង់ទ្រាយ គែមសន្លឹក ទំហំ និងទម្រង់សរសៃស្លឹក) ដើម្បីយកមកធ្វើជាទិន្នន័យគោលសម្រាប់កំណត់អត្តសញ្ញាណប្រភេទរុក្ខជាតិ។	ដូចជាការរៀនសម្គាល់មុខមាត់ កម្ពស់ និងទម្រង់មុខរបស់មនុស្សម្នាក់ៗ ដើម្បីងាយស្រួលចំណាំថានរណាជានរណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖