Original Title: TREE CROWN EXTRACTION FROM AERIAL IMAGERY USING DEEP LEARNING
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកមកុដដើមឈើពីរូបភាពពីលើអាកាសដោយប្រើប្រាស់ការរៀនស៊ីជម្រៅ (Deep Learning)

ចំណងជើងដើម៖ TREE CROWN EXTRACTION FROM AERIAL IMAGERY USING DEEP LEARNING

អ្នកនិពន្ធ៖ Mamita Kalita (Department of Botany, Gauhati University), Avinash Chouhan (North Eastern Space Applications Centre, NESAC)

ឆ្នាំបោះពុម្ព៖ Advances in Plant Science Volume II

វិស័យសិក្សា៖ Remote Sensing and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការងារស្រាវជ្រាវផ្ទាល់សម្រាប់ការធ្វើផែនទីគម្របមកុដដើមឈើចំណាយពេលច្រើន និងហត់នឿយ ខណៈដែលរូបភាពផ្កាយរណបជារឿយៗខ្វះកម្រិតភាពច្បាស់ខ្ពស់សម្រាប់ការទាញយកមកុដដើមឈើនីមួយៗឱ្យបានច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់វិធីសាស្រ្តរៀនស៊ីជម្រៅ (Deep Learning) ដោយប្រើរូបភាពពណ៌ (RGB) កម្រិតច្បាស់ខ្ពស់បំផុតថតដោយដ្រូន (UAV) ដើម្បីធ្វើស្វ័យប្រវត្តិកម្មការបែងចែកមកុដដើមឈើ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
CNN Encoder-Decoder (Deep Learning)
បណ្តាញសរសៃប្រសាទកុំព្យូទ័រប្រភេទ Encoder-Decoder (CNN)
មានសមត្ថភាពធ្វើស្វ័យប្រវត្តិកម្មខ្ពស់ និងមានប្រសិទ្ធភាពសម្រាប់ទាញយកទិន្នន័យពីរូបភាពកម្រិតច្បាស់ខ្ពស់ (VHR) របស់ដ្រូន។ មិនត្រូវការកម្លាំងពលកម្មច្រើនក្នុងការគូសចំណាំ។ ទាមទារការពឹងផ្អែកលើម៉ាស៊ីនកុំព្យូទ័រដែលមានក្រាហ្វិកកាត (GPU) ខ្លាំង និងត្រូវការទិន្នន័យដែលបានគូសចំណាំ (Ground truth) ច្រើនដើម្បីហ្វឹកហាត់។ ទទួលបានភាពត្រឹមត្រូវនៃការទាញយកទិន្នន័យគម្របព្រៃឈើ ៨៦.០២% និងអត្រាត្រួតស៊ីគ្នា IOU ៧៧.៣%។
Manual Digitization & OBIA
ការគូសចំណាំដោយដៃ និងការវិភាគរូបភាពផ្អែកលើវត្ថុ (OBIA)
ងាយស្រួលយល់ និងមិនសូវពឹងផ្អែកលើក្បួនដោះស្រាយសាំញ៉ាំ ឬកុំព្យូទ័រល្បឿនលឿនសម្រាប់វិធីសាស្រ្ត Manual។ ចំណាយពេលច្រើន ត្រូវការកម្លាំងពលកម្មច្រើន នឿយហត់ និងមិនស័ក្តិសមសម្រាប់ការអនុវត្តលើផ្ទៃដីទំហំធំ ឬរូបភាពរាប់រយសន្លឹក។ ខ្វះសមត្ថភាពនិងប្រសិទ្ធភាពពេលវេលា ក្នុងការធ្វើផែនទីគម្របមកុដដើមឈើពីរូបភាពកម្រិតច្បាស់ខ្ពស់រាប់ពាន់សន្លឹកធៀបនឹង AI។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្រ្តនេះទាមទារការវិនិយោគលើឧបករណ៍ដ្រូនកម្រិតបច្ចេកទេស កម្មវិធីបង្កើតផែនទី និងកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការរៀនស៊ីជម្រៅ (Deep Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ East Khasi Hills រដ្ឋ Meghalaya ប្រទេសឥណ្ឌា ដែលជាតំបន់ព្រៃភ្នំមានអាកាសធាតុត្រូពិច។ ដោយសារប្រភេទព្រៃឈើនៅទីនោះមានលក្ខណៈស្រដៀងនឹងតំបន់មួយចំនួននៅកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចប្រឈមនឹងបញ្ហាលំអៀងទិន្នន័យបន្តិចបន្តួច (Data Bias) ដូច្នេះទាមទារឱ្យមានការហ្វឹកហាត់បន្ថែមជាមួយរូបភាពព្រៃឈើជាក់ស្តែងនៅកម្ពុជា (Transfer Learning)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ក្នុងការគ្រប់គ្រងធនធានធម្មជាតិ កសិកម្ម និងការរៀបចំដែនដីដោយសន្សំសំចៃខ្ពស់។

ការរួមបញ្ចូលគ្នារវាងបច្ចេកវិទ្យាដ្រូនពាណិជ្ជកម្ម និងក្បួនដោះស្រាយ Deep Learning ផ្តល់នូវដំណោះស្រាយទំនើបដែលជួយសន្សំសំចៃពេលវេលា និងថវិកា សម្រាប់ការតាមដានបរិស្ថាន និងកសិកម្មនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះកុំព្យូទ័រចក្ខុ (Computer Vision): ចាប់ផ្តើមរៀនភាសា Python និងបណ្ណាល័យ Deep Learning ដូចជា PyTorch ឬ TensorFlow សម្រាប់ការបែងចែករូបភាព (Semantic Segmentation) តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬ Fast.ai។
  2. ការប្រមូល និងដំណើរការទិន្នន័យដ្រូន (Drone Photogrammetry): រៀនពីការហោះហើរដ្រូន (ឧទាហរណ៍ DJI) និងប្រើប្រាស់កម្មវិធីសូហ្វវែរដូចជា Pix4D ឬកម្មវិធីឥតគិតថ្លៃ WebODM ដើម្បីបំប្លែងរូបភាពដ្រូនរាប់រយសន្លឹកទៅជាផែនទី Orthomosaic ធំមួយ។
  3. ការរៀបចំសំណុំទិន្នន័យហ្វឹកហាត់ (Dataset Preparation): កាត់រូបភាព Orthomosaic ជាបំណែកតូចៗ (ឧ. 512x512) រួចប្រើប្រាស់ឧបករណ៍គូសចំណាំរូបភាពដូចជា CVAT ឬ LabelImg ដើម្បីគូសប្លង់មកុដដើមឈើបង្កើតជាទិន្នន័យហ្វឹកហាត់។
  4. ការហ្វឹកហាត់ម៉ូដែល និងការវាយតម្លៃ (Model Training): អនុវត្តការហ្វឹកហាត់ម៉ូដែលតាមទម្រង់ U-Net ឬ VGG-style Encoder-Decoder ដោយប្រើប្រាស់ Google Colab ដែលមាន GPU ឥតគិតថ្លៃ រួចវាស់ស្ទង់ប្រសិទ្ធភាពម៉ូដែលដោយប្រើសូចនាករ IOU និង Accuracy។
  5. ការធ្វើសមាហរណកម្មប្រព័ន្ធ GIS: នាំចេញលទ្ធផលដែលម៉ូដែលទស្សន៍ទាយបាន (Prediction Masks) ចូលទៅក្នុងកម្មវិធី QGIS ឬ ArcGIS ដើម្បីធ្វើការវិភាគទំហំផ្ទៃដី បំប្លែងទៅជាទម្រង់ Vector និងបង្កើតផែនទីព្រៃឈើជាក់ស្តែងសម្រាប់ការសម្រេចចិត្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Deep Learning ជាផ្នែកមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើប្រាស់បណ្ដាញសរសៃប្រសាទកុំព្យូទ័រមានរចនាសម្ព័ន្ធច្រើនស្រទាប់ ដើម្បីរៀននិងទាញយកលក្ខណៈសម្បត្តិពីទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ដោយស្វ័យប្រវត្តិ។ ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបភាពសត្វឆ្កែរាប់ពាន់សន្លឹក រហូតដល់គេអាចចំណាំនិងបែងចែកវាបានដោយខ្លួនឯង។
UAV ជាអក្សរកាត់នៃ Unmanned Aerial Vehicle ដែលសំដៅលើយានយន្តហោះគ្មានមនុស្សបើកបរផ្ទាល់ (ដ្រូន) ប្រើសម្រាប់ថតរូបភាពកម្រិតច្បាស់ពីលើអាកាសក្នុងការស្រាវជ្រាវ និងការធ្វើផែនទី។ ដូចជាកាមេរ៉ាហោះដែលអាចបញ្ជាពីចម្ងាយ ដើម្បីថតមើលទិដ្ឋភាពពីលើអាកាស។
Semantic segmentation ជាបច្ចេកទេសកុំព្យូទ័រចក្ខុ (Computer Vision) ដែលបែងចែកនិងកំណត់អត្តសញ្ញាណវត្ថុនៅក្នុងរូបភាពដោយផ្ដល់ចំណាត់ថ្នាក់ប្រភេទ (Class) ទៅឱ្យភិចសែល (Pixel) នីមួយៗនៃរូបភាពនោះ។ ដូចជាការផាត់ពណ៌លើរូបភាពសខ្មៅ ដោយកំណត់ថាពណ៌បៃតងជាដើមឈើ ពណ៌ខៀវជាទឹក និងពណ៌ត្នោតជាដី។
Encoder-Decoder ជាទម្រង់ស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទកុំព្យូទ័រ (CNN) ដែលផ្នែក Encoder បង្រួមទំហំរូបភាពដើម្បីទាញយកលក្ខណៈសំខាន់ៗ រីឯផ្នែក Decoder ពង្រីកទិន្នន័យនោះមកវិញដើម្បីបង្កើតជារូបភាពបែងចែកលម្អិត។ ដូចជាការបកប្រែអត្ថបទវែងមួយឱ្យខ្លីដើម្បីយល់ន័យរួម (Encoder) រួចពង្រីកន័យនោះមកជារូបភាពលម្អិតថ្មីមួយទៀត (Decoder)។
Intersection over Union (IOU) ជារង្វាស់ម៉ាទ្រីកសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល AI ក្នុងការកំណត់ទីតាំងវត្ថុ ដោយគណនាផលធៀបរវាងផ្ទៃដែលត្រួតស៊ីគ្នា និងផ្ទៃសរុបរវាងការទាយរបស់ AI និងទិន្នន័យជាក់ស្ដែង។ ដូចជាការប្រៀបធៀបគំនូសរង្វង់ដែលអ្នកគូស ទៅនឹងគំនូសរង្វង់ដើម ថាតើវាត្រួតស៊ីគ្នាបានប៉ុន្មានភាគរយ។
Orthomosaic ជារូបភាពផែនទីរួមមួយដែលបង្កើតឡើងដោយការផ្គុំរូបភាពថតពីលើអាកាស (ដ្រូន) ជាច្រើនសន្លឹកបញ្ចូលគ្នា និងកែតម្រូវភាពវៀចទ្រេតដើម្បីឱ្យវាមានមាត្រដ្ឋានត្រឹមត្រូវដូចផែនទីពិត។ ដូចជាការយកកម្ទេចរូបភាពតូចៗ (Jigsaw puzzle) មកតម្រៀបផ្គុំគ្នាបង្កើតជារូបភាពផ្ទាំងធំមួយដ៏ត្រឹមត្រូវ។
Ground truth ជាទិន្នន័យជាក់ស្តែងដែលប្រមូលបានដោយផ្ទាល់ពីទីតាំង ឬត្រូវបានគូសចំណាំដោយមនុស្សផ្ទាល់ ដើម្បីយកទៅប្រើជាគោលសម្រាប់ហ្វឹកហាត់ម៉ូដែល ឬផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវរបស់ម៉ូដែល AI។ ដូចជា "សន្លឹកចម្លើយត្រឹមត្រូវ" ដែលគ្រូទុកសម្រាប់ផ្ទៀងផ្ទាត់កិច្ចការសិស្ស។
Spatial resolution ជាកម្រិតនៃភាពលម្អិតដែលរូបភាពមួយអាចបង្ហាញបាន ដោយគិតជាទំហំនៃផ្ទៃដីពិតប្រាកដដែលតំណាងដោយភិចសែលមួយ (ឧទាហរណ៍ ៥សង់ទីម៉ែត្រក្នុងមួយភិចសែលមានន័យថារូបភាពកាន់តែច្បាស់)។ ដូចជាទំហំប្រឡោះតូចៗលើអេក្រង់ទូរទស្សន៍ បើប្រឡោះកាន់តែតូច រូបភាពកាន់តែច្បាស់ល្អ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖