Original Title: TREE CROWN EXTRACTION FROM AERIAL IMAGERY USING DEEP LEARNING
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកមកុដដើមឈើពីរូបភាពពីលើអាកាសដោយប្រើប្រាស់ការរៀនស៊ីជម្រៅ (Deep Learning)

ចំណងជើងដើម៖ TREE CROWN EXTRACTION FROM AERIAL IMAGERY USING DEEP LEARNING

អ្នកនិពន្ធ៖ Mamita Kalita (Department of Botany, Gauhati University), Avinash Chouhan (North Eastern Space Applications Centre, NESAC)

ឆ្នាំបោះពុម្ព៖ Advances in Plant Science Volume II

វិស័យសិក្សា៖ Remote Sensing and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការងារស្រាវជ្រាវផ្ទាល់សម្រាប់ការធ្វើផែនទីគម្របមកុដដើមឈើចំណាយពេលច្រើន និងហត់នឿយ ខណៈដែលរូបភាពផ្កាយរណបជារឿយៗខ្វះកម្រិតភាពច្បាស់ខ្ពស់សម្រាប់ការទាញយកមកុដដើមឈើនីមួយៗឱ្យបានច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់វិធីសាស្រ្តរៀនស៊ីជម្រៅ (Deep Learning) ដោយប្រើរូបភាពពណ៌ (RGB) កម្រិតច្បាស់ខ្ពស់បំផុតថតដោយដ្រូន (UAV) ដើម្បីធ្វើស្វ័យប្រវត្តិកម្មការបែងចែកមកុដដើមឈើ។

ការប្រមូលទិន្នន័យរូបភាពពីលើអាកាស (UAV Data Acquisition): ការប្រើប្រាស់ដ្រូន (Hex copter UAV) ថតរូបភាព RGB កម្រិតច្បាស់ ៥សង់ទីម៉ែត្រ នៅតំបន់ East Khasi Hills រដ្ឋ Meghalaya ប្រទេសឥណ្ឌា។
ការពង្រាយទិន្នន័យ និងរៀបចំសំណុំទិន្នន័យ (Data Pre-processing & Dataset Preparation): ការបង្កើតរូបភាព Orthomosaic និងការបំបែកជារូបភាពតូចៗទំហំ 512x512 ភិចសែល សម្រាប់ធ្វើជាសំណុំទិន្នន័យហ្វឹកហាត់ (Training Dataset) ចំនួន ៨០០រូបភាព។
ស្ថាបត្យកម្មគំរូ (Model Architecture): ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទកុំព្យូទ័រ (CNN) ផ្អែកលើទម្រង់ VGG Style Encoder-Decoder សម្រាប់ការធ្វើចំណាត់ថ្នាក់កម្រិតភិចសែល (Pixel-wise Classification Layer) និងពង្រីកទិន្នន័យ (Transposed Convolutions)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ Deep Learning ទទួលបានជោគជ័យដោយបង្ហាញពីភាពត្រឹមត្រូវនៃការទាញយកទិន្នន័យគម្របព្រៃឈើ (Accuracy) រហូតដល់ ៨៦.០២%។
សន្ទស្សន៍នៃការត្រួតស៊ីគ្នា (Intersection over Union - IOU) ទទួលបាន ៧៧.៣% លើសំណុំទិន្នន័យហ្វឹកហាត់ (Training Datasets)។
ការប្រើប្រាស់បច្ចេកវិទ្យា UAV រួមបញ្ចូលជាមួយក្បួនដោះស្រាយ Deep Learning ផ្តល់នូវដំណោះស្រាយដ៏មានប្រសិទ្ធភាព ចំណាយតិច និងងាយស្រួលសម្រាប់ការវាយតម្លៃរចនាសម្ព័ន្ធព្រៃឈើ ការបាត់បង់ព្រៃឈើ និងដង់ស៊ីតេដើមឈើ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
CNN Encoder-Decoder (Deep Learning) បណ្តាញសរសៃប្រសាទកុំព្យូទ័រប្រភេទ Encoder-Decoder (CNN)	មានសមត្ថភាពធ្វើស្វ័យប្រវត្តិកម្មខ្ពស់ និងមានប្រសិទ្ធភាពសម្រាប់ទាញយកទិន្នន័យពីរូបភាពកម្រិតច្បាស់ខ្ពស់ (VHR) របស់ដ្រូន។ មិនត្រូវការកម្លាំងពលកម្មច្រើនក្នុងការគូសចំណាំ។	ទាមទារការពឹងផ្អែកលើម៉ាស៊ីនកុំព្យូទ័រដែលមានក្រាហ្វិកកាត (GPU) ខ្លាំង និងត្រូវការទិន្នន័យដែលបានគូសចំណាំ (Ground truth) ច្រើនដើម្បីហ្វឹកហាត់។	ទទួលបានភាពត្រឹមត្រូវនៃការទាញយកទិន្នន័យគម្របព្រៃឈើ ៨៦.០២% និងអត្រាត្រួតស៊ីគ្នា IOU ៧៧.៣%។
Manual Digitization & OBIA ការគូសចំណាំដោយដៃ និងការវិភាគរូបភាពផ្អែកលើវត្ថុ (OBIA)	ងាយស្រួលយល់ និងមិនសូវពឹងផ្អែកលើក្បួនដោះស្រាយសាំញ៉ាំ ឬកុំព្យូទ័រល្បឿនលឿនសម្រាប់វិធីសាស្រ្ត Manual។	ចំណាយពេលច្រើន ត្រូវការកម្លាំងពលកម្មច្រើន នឿយហត់ និងមិនស័ក្តិសមសម្រាប់ការអនុវត្តលើផ្ទៃដីទំហំធំ ឬរូបភាពរាប់រយសន្លឹក។	ខ្វះសមត្ថភាពនិងប្រសិទ្ធភាពពេលវេលា ក្នុងការធ្វើផែនទីគម្របមកុដដើមឈើពីរូបភាពកម្រិតច្បាស់ខ្ពស់រាប់ពាន់សន្លឹកធៀបនឹង AI។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្រ្តនេះទាមទារការវិនិយោគលើឧបករណ៍ដ្រូនកម្រិតបច្ចេកទេស កម្មវិធីបង្កើតផែនទី និងកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការរៀនស៊ីជម្រៅ (Deep Learning)។

Hardware (UAV Equipment): ដ្រូនប្រភេទ Hex copter (ឧទាហរណ៍ DJI Matrice 600) ដែលមានសមត្ថភាពហោះហើរបានយូរ និងបំពាក់កាមេរ៉ា RGB កម្រិតច្បាស់ខ្ពស់ (៥សង់ទីម៉ែត្រ/ភិចសែល)។
Hardware (Computing Power): កុំព្យូទ័រដែលមានក្រាហ្វិកកាត (GPU) យ៉ាងតិច 6 GB របស់ក្រុមហ៊ុន Nvidia សម្រាប់ការហ្វឹកហាត់ម៉ូដែល។
Software: កម្មវិធីសម្រាប់បង្កើតរូបភាព Orthomosaic (ដូចជា Pix4D ឬ WebODM) និងកម្មវិធី GIS ដូចជា ArcGIS ព្រមទាំងបណ្ណាល័យ Deep Learning។
Dataset: ទិន្នន័យរូបភាពដ្រូនដែលត្រូវបានបំបែកជាបំណែកតូចៗទំហំ 512x512 ភិចសែល ចំនួនយ៉ាងតិច ៨០០សន្លឹក ដែលមានការគូសចំណាំ (Annotated) រួចរាល់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ East Khasi Hills រដ្ឋ Meghalaya ប្រទេសឥណ្ឌា ដែលជាតំបន់ព្រៃភ្នំមានអាកាសធាតុត្រូពិច។ ដោយសារប្រភេទព្រៃឈើនៅទីនោះមានលក្ខណៈស្រដៀងនឹងតំបន់មួយចំនួននៅកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចប្រឈមនឹងបញ្ហាលំអៀងទិន្នន័យបន្តិចបន្តួច (Data Bias) ដូច្នេះទាមទារឱ្យមានការហ្វឹកហាត់បន្ថែមជាមួយរូបភាពព្រៃឈើជាក់ស្តែងនៅកម្ពុជា (Transfer Learning)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ក្នុងការគ្រប់គ្រងធនធានធម្មជាតិ កសិកម្ម និងការរៀបចំដែនដីដោយសន្សំសំចៃខ្ពស់។

តំបន់ការពារព្រៃឡង់ និងជួរភ្នំក្រវាញ (Forestry Conservation): អាចប្រើសម្រាប់ត្រួតពិនិត្យដង់ស៊ីតេព្រៃឈើ តាមដានការបាត់បង់គម្របព្រៃឈើ និងវាយតម្លៃជីវម៉ាស (Biomass) ដើម្បីគាំទ្រគម្រោងឥណទានកាបូន (Carbon Credit)។
ចម្ការកៅស៊ូ និងស្វាយចន្ទី (Plantation Management): ជួយម្ចាស់ចម្ការនៅខេត្តកំពង់ចាម ត្បូងឃ្មុំ ឬរតនគិរី ក្នុងការរាប់ចំនួនដើមឈើ និងវាយតម្លៃទំហំមកុដដើមឈើ ដើម្បីប៉ាន់ស្មានទិន្នផល និងសុខភាពដំណាំដោយស្វ័យប្រវត្តិ។
ការរៀបចំក្រុងភ្នំពេញ និងខេត្តសៀមរាប (Urban Green Space Planning): ជួយអាជ្ញាធរក្រុងក្នុងការគូសផែនទីគម្របពណ៌បៃតង (Canopy Covers) និងតាមដានការអភិវឌ្ឍតំបន់ក្រុងប្រកបដោយចីរភាព។

ការរួមបញ្ចូលគ្នារវាងបច្ចេកវិទ្យាដ្រូនពាណិជ្ជកម្ម និងក្បួនដោះស្រាយ Deep Learning ផ្តល់នូវដំណោះស្រាយទំនើបដែលជួយសន្សំសំចៃពេលវេលា និងថវិកា សម្រាប់ការតាមដានបរិស្ថាន និងកសិកម្មនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះកុំព្យូទ័រចក្ខុ (Computer Vision): ចាប់ផ្តើមរៀនភាសា Python និងបណ្ណាល័យ Deep Learning ដូចជា PyTorch ឬ TensorFlow សម្រាប់ការបែងចែករូបភាព (Semantic Segmentation) តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬ Fast.ai។
ការប្រមូល និងដំណើរការទិន្នន័យដ្រូន (Drone Photogrammetry): រៀនពីការហោះហើរដ្រូន (ឧទាហរណ៍ DJI) និងប្រើប្រាស់កម្មវិធីសូហ្វវែរដូចជា Pix4D ឬកម្មវិធីឥតគិតថ្លៃ WebODM ដើម្បីបំប្លែងរូបភាពដ្រូនរាប់រយសន្លឹកទៅជាផែនទី Orthomosaic ធំមួយ។
ការរៀបចំសំណុំទិន្នន័យហ្វឹកហាត់ (Dataset Preparation): កាត់រូបភាព Orthomosaic ជាបំណែកតូចៗ (ឧ. 512x512) រួចប្រើប្រាស់ឧបករណ៍គូសចំណាំរូបភាពដូចជា CVAT ឬ LabelImg ដើម្បីគូសប្លង់មកុដដើមឈើបង្កើតជាទិន្នន័យហ្វឹកហាត់។
ការហ្វឹកហាត់ម៉ូដែល និងការវាយតម្លៃ (Model Training): អនុវត្តការហ្វឹកហាត់ម៉ូដែលតាមទម្រង់ U-Net ឬ VGG-style Encoder-Decoder ដោយប្រើប្រាស់ Google Colab ដែលមាន GPU ឥតគិតថ្លៃ រួចវាស់ស្ទង់ប្រសិទ្ធភាពម៉ូដែលដោយប្រើសូចនាករ IOU និង Accuracy។
ការធ្វើសមាហរណកម្មប្រព័ន្ធ GIS: នាំចេញលទ្ធផលដែលម៉ូដែលទស្សន៍ទាយបាន (Prediction Masks) ចូលទៅក្នុងកម្មវិធី QGIS ឬ ArcGIS ដើម្បីធ្វើការវិភាគទំហំផ្ទៃដី បំប្លែងទៅជាទម្រង់ Vector និងបង្កើតផែនទីព្រៃឈើជាក់ស្តែងសម្រាប់ការសម្រេចចិត្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deep Learning	ជាផ្នែកមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើប្រាស់បណ្ដាញសរសៃប្រសាទកុំព្យូទ័រមានរចនាសម្ព័ន្ធច្រើនស្រទាប់ ដើម្បីរៀននិងទាញយកលក្ខណៈសម្បត្តិពីទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ដោយស្វ័យប្រវត្តិ។	ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបភាពសត្វឆ្កែរាប់ពាន់សន្លឹក រហូតដល់គេអាចចំណាំនិងបែងចែកវាបានដោយខ្លួនឯង។
UAV	ជាអក្សរកាត់នៃ Unmanned Aerial Vehicle ដែលសំដៅលើយានយន្តហោះគ្មានមនុស្សបើកបរផ្ទាល់ (ដ្រូន) ប្រើសម្រាប់ថតរូបភាពកម្រិតច្បាស់ពីលើអាកាសក្នុងការស្រាវជ្រាវ និងការធ្វើផែនទី។	ដូចជាកាមេរ៉ាហោះដែលអាចបញ្ជាពីចម្ងាយ ដើម្បីថតមើលទិដ្ឋភាពពីលើអាកាស។
Semantic segmentation	ជាបច្ចេកទេសកុំព្យូទ័រចក្ខុ (Computer Vision) ដែលបែងចែកនិងកំណត់អត្តសញ្ញាណវត្ថុនៅក្នុងរូបភាពដោយផ្ដល់ចំណាត់ថ្នាក់ប្រភេទ (Class) ទៅឱ្យភិចសែល (Pixel) នីមួយៗនៃរូបភាពនោះ។	ដូចជាការផាត់ពណ៌លើរូបភាពសខ្មៅ ដោយកំណត់ថាពណ៌បៃតងជាដើមឈើ ពណ៌ខៀវជាទឹក និងពណ៌ត្នោតជាដី។
Encoder-Decoder	ជាទម្រង់ស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទកុំព្យូទ័រ (CNN) ដែលផ្នែក Encoder បង្រួមទំហំរូបភាពដើម្បីទាញយកលក្ខណៈសំខាន់ៗ រីឯផ្នែក Decoder ពង្រីកទិន្នន័យនោះមកវិញដើម្បីបង្កើតជារូបភាពបែងចែកលម្អិត។	ដូចជាការបកប្រែអត្ថបទវែងមួយឱ្យខ្លីដើម្បីយល់ន័យរួម (Encoder) រួចពង្រីកន័យនោះមកជារូបភាពលម្អិតថ្មីមួយទៀត (Decoder)។
Intersection over Union (IOU)	ជារង្វាស់ម៉ាទ្រីកសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល AI ក្នុងការកំណត់ទីតាំងវត្ថុ ដោយគណនាផលធៀបរវាងផ្ទៃដែលត្រួតស៊ីគ្នា និងផ្ទៃសរុបរវាងការទាយរបស់ AI និងទិន្នន័យជាក់ស្ដែង។	ដូចជាការប្រៀបធៀបគំនូសរង្វង់ដែលអ្នកគូស ទៅនឹងគំនូសរង្វង់ដើម ថាតើវាត្រួតស៊ីគ្នាបានប៉ុន្មានភាគរយ។
Orthomosaic	ជារូបភាពផែនទីរួមមួយដែលបង្កើតឡើងដោយការផ្គុំរូបភាពថតពីលើអាកាស (ដ្រូន) ជាច្រើនសន្លឹកបញ្ចូលគ្នា និងកែតម្រូវភាពវៀចទ្រេតដើម្បីឱ្យវាមានមាត្រដ្ឋានត្រឹមត្រូវដូចផែនទីពិត។	ដូចជាការយកកម្ទេចរូបភាពតូចៗ (Jigsaw puzzle) មកតម្រៀបផ្គុំគ្នាបង្កើតជារូបភាពផ្ទាំងធំមួយដ៏ត្រឹមត្រូវ។
Ground truth	ជាទិន្នន័យជាក់ស្តែងដែលប្រមូលបានដោយផ្ទាល់ពីទីតាំង ឬត្រូវបានគូសចំណាំដោយមនុស្សផ្ទាល់ ដើម្បីយកទៅប្រើជាគោលសម្រាប់ហ្វឹកហាត់ម៉ូដែល ឬផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវរបស់ម៉ូដែល AI។	ដូចជា "សន្លឹកចម្លើយត្រឹមត្រូវ" ដែលគ្រូទុកសម្រាប់ផ្ទៀងផ្ទាត់កិច្ចការសិស្ស។
Spatial resolution	ជាកម្រិតនៃភាពលម្អិតដែលរូបភាពមួយអាចបង្ហាញបាន ដោយគិតជាទំហំនៃផ្ទៃដីពិតប្រាកដដែលតំណាងដោយភិចសែលមួយ (ឧទាហរណ៍ ៥សង់ទីម៉ែត្រក្នុងមួយភិចសែលមានន័យថារូបភាពកាន់តែច្បាស់)។	ដូចជាទំហំប្រឡោះតូចៗលើអេក្រង់ទូរទស្សន៍ បើប្រឡោះកាន់តែតូច រូបភាពកាន់តែច្បាស់ល្អ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖