Original Title: Identification of tree species and the estimation of aboveground biomass in an urban forest using multi-period airborne LiDAR with hyperspectral datasets
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកំណត់អត្តសញ្ញាណប្រភេទដើមឈើ និងការប៉ាន់ប្រមាណជីវម៉ាសលើដីនៅក្នុងព្រៃទីក្រុង ដោយប្រើប្រាស់ទិន្នន័យ LiDAR ផ្លូវអាកាសពហុរយៈពេល និងទិន្នន័យ Hyperspectral

ចំណងជើងដើម៖ Identification of tree species and the estimation of aboveground biomass in an urban forest using multi-period airborne LiDAR with hyperspectral datasets

អ្នកនិពន្ធ៖ Dae Yeol Kim

ឆ្នាំបោះពុម្ព៖ 2023 Seoul National University

វិស័យសិក្សា៖ Landscape Architecture and Remote Sensing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការប្រែប្រួលអាកាសធាតុទាមទារឱ្យមានការចាត់ថ្នាក់ប្រភេទដើមឈើឱ្យបានច្បាស់លាស់ ដើម្បីគណនាអត្ថប្រយោជន៍នៃព្រៃឈើក្នុងទីក្រុង និងការស្រូបយកកាបូន។ វិធីសាស្រ្តអង្កេតបែបប្រពៃណីចំណាយពេលច្រើន និងមិនអាចចាប់យករចនាសម្ព័ន្ធបញ្ឈររបស់រុក្ខជាតិបាននោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបូកបញ្ចូលទិន្នន័យ LiDAR និងរូបភាព Hyperspectral (AHI) ផ្លូវអាកាសក្នុងរដូវកាលពីរផ្សេងគ្នា (រដូវមានស្លឹក និងរដូវជ្រុះស្លឹក) ដោយប្រើប្រាស់ក្បួនម៉ាស៊ីនរៀន (Machine Learning) ចំនួន ៥ ដើម្បីចាត់ថ្នាក់ប្រភេទឈើធំៗចំនួន ១០ និងប៉ាន់ស្មានជីវម៉ាសរបស់វា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Forest (RF)
ក្បួនម៉ាស៊ីនរៀន Random Forest
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចការពារបញ្ហា Overfitting បានល្អនៅពេលប្រើប្រាស់ជាមួយអថេរច្រើន (High-dimensional data)។ ដំណើរការយឺតនៅពេលទិន្នន័យមានទំហំធំខ្លាំង និងពិបាកក្នុងការបកស្រាយដំណើរការសម្រេចចិត្តខាងក្នុង (Black box)។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៨៣,៣% (Kappa: 0.80) លើទិន្នន័យចម្រុះពហុរយៈពេល។
Light Gradient Boosting Machine (LGBM)
ក្បួនម៉ាស៊ីនរៀន LightGBM
មានល្បឿនលឿនក្នុងការទាញយកលទ្ធផល ប្រើប្រាស់អង្គចងចាំ (Memory) តិច និងមានភាពត្រឹមត្រូវខ្ពស់បន្ទាប់ពី RF។ ងាយនឹងជួបបញ្ហា Over-aggregation ប្រសិនបើទិន្នន័យបណ្តុះបណ្តាលមានទំហំតូច (ត្រូវការយ៉ាងហោចណាស់ ១០.០០០ ជួរ)។ ទទួលបានភាពត្រឹមត្រូវទីពីរក្នុងកម្រិត ៨១,០% លើទិន្នន័យចម្រុះពហុរយៈពេល។
Support Vector Machine (SVM)
ក្បួនម៉ាស៊ីនរៀន SVM
មានប្រសិទ្ធភាពក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលមានវិមាត្រច្រើន និងកាត់បន្ថយផលប៉ះពាល់ពីទិន្នន័យខុសប្រក្រតី (Error data)។ ទាមទារការកំណត់ Hyperparameter ច្រើនដង ស៊ីពេលយូរ និងមានភាពស្មុគស្មាញក្នុងការបកស្រាយលទ្ធផល។ ទទួលបានភាពត្រឹមត្រូវ ៧៦,០% ដែលស្ថិតនៅកម្រិតមធ្យមធៀបនឹងក្បួនដទៃ។
Decision Tree (DT)
ក្បួនម៉ាស៊ីនរៀន Decision Tree
មានរចនាសម្ព័ន្ធងាយស្រួលយល់ និងបកស្រាយ ព្រមទាំងអាចកំណត់អត្តសញ្ញាណអថេរដែលសំខាន់ៗបានលឿន។ មានភាពមិនប្រក្រតី (Unstable) និងងាយនឹងធ្លាក់ចុះភាពត្រឹមត្រូវនៅពេលជួបបញ្ហា Overfitting។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៦៨,០% ប៉ុណ្ណោះសម្រាប់ទិន្នន័យរួមបញ្ចូលគ្នា។
Logistic Regression (LR)
ការវិភាគតំរែតំរង់ Logistic
ងាយស្រួលប្រើប្រាស់ និងអាចទាញរកទំនាក់ទំនងរវាងអថេរឯករាជ្យនិងអថេរអាស្រ័យបានយ៉ាងសាមញ្ញ។ មិនស័ក្តិសមសម្រាប់ទិន្នន័យស្មុគស្មាញ និងមានអថេរច្រើនដូចជាទិន្នន័យ LiDAR និង Hyperspectral នោះទេ។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុតគឺត្រឹមតែ ៤៧,០% ក្នុងការចាត់ថ្នាក់ទិន្នន័យសរុប។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារការចំណាយធនធានខ្ពស់ខ្លាំង ទាំងឧបករណ៍សេនស័រផ្លូវអាកាស កម្លាំងកុំព្យូទ័រសម្រាប់គណនា និងអ្នកជំនាញកម្រិតខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងនៅតំបន់អាកាសធាតុត្រជាក់ (Gwacheon ប្រទេសកូរ៉េខាងត្បូង) ដែលមានបម្រែបម្រួលរដូវកាលច្បាស់លាស់ (រដូវមានស្លឹក និងជ្រុះស្លឹកទាំងស្រុង)។ កត្តានេះអាចជាភាពលម្អៀង និងជាបញ្ហាប្រឈមធំប្រសិនបើចង់យកមកអនុវត្តនៅកម្ពុជា ព្រោះព្រៃឈើកម្ពុជាជាព្រៃត្រូពិច (Tropical forest) ដែលមិនមានការជ្រុះស្លឹកព្រមគ្នាច្បាស់លាស់ឡើយ ធ្វើឱ្យអថេរផ្អែកលើរដូវកាល (Seasonality metrics) អាចនឹងមិនមានប្រសិទ្ធភាពខ្ពស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នាខាងកត្តាភូមិសាស្ត្រនិងអាកាសធាតុ ក៏វិធីសាស្ត្ររួមបញ្ចូលទិន្នន័យ 3D នេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យបរិស្ថាននៅកម្ពុជា។

ជារួម ដើម្បីអនុវត្តក្បួននេះឱ្យមានប្រសិទ្ធភាពនៅកម្ពុជា អ្នកស្រាវជ្រាវចាំបាច់ត្រូវបង្កើតរូបមន្តគណនាទំហំដើមឈើ (Allometric equations) ថ្មីដែលស្របនឹងពូជឈើក្នុងតំបន់ត្រូពិចសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យ 3D ព្រៃឈើ: ចាប់ផ្តើមដោយការស្វែងយល់អំពីទិន្នន័យ LiDAR Point Cloud និងវិធីបំបែកវាទៅជា Digital Surface Model (DSM) និង Digital Elevation Model (DEM) ដោយប្រើប្រាស់កម្មវិធី QGIS (LAStools)CloudCompare កម្រិតដំបូង។
  2. ហ្វឹកហាត់ការទាញយកសន្ទស្សន៍រុក្ខជាតិពីកាមេរ៉ាវិសាលគម: រៀនគណនាសន្ទស្សន៍រុក្ខជាតិ (Vegetation Indices) ដូចជា NDVI, PRI និង ARI ពីទិន្នន័យរូបភាព Multispectral / Hyperspectral ដោយប្រើប្រាស់កម្មវិធី ENVI។ អាចសាកល្បងជាមួយទិន្នន័យផ្កាយរណបឥតគិតថ្លៃដូចជា Sentinel-2 ជាមុន។
  3. អភិវឌ្ឍជំនាញ Machine Learning ជាមួយ Python: ហ្វឹកហាត់ការសរសេរកូដ Python ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn ដើម្បីបង្កើតទម្រង់ចំណាត់ថ្នាក់ដូចជា Random Forest និង LightGBM ដោយប្រើប្រាស់ទិន្នន័យគំរូ។ រៀនពីរបៀបធ្វើកូដ Hyperparameter Tuning (GridSearchCV) ដើម្បីបង្កើនភាពត្រឹមត្រូវ។
  4. អនុវត្តគម្រោងខ្នាតតូចដោយប្រើបច្ចេកវិទ្យា Drone (UAV): ចាប់ផ្តើមគម្រោងវាស់ស្ទង់ជីវម៉ាសខ្នាតតូច ឧទាហរណ៍នៅក្នុងបរិវេណសាកលវិទ្យាល័យ ឬព្រៃសហគមន៍ ដោយប្រើប្រាស់ Drone-based Photogrammetry ដើម្បីបង្កើត Canopy Height Model (CHM) ជំនួសការប្រើ Airborne LiDAR ដែលមានតម្លៃថ្លៃ រួចប្រើ Machine Learning ដើម្បីប្រមាណទំហំជីវម៉ាស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Airborne LiDAR បច្ចេកវិទ្យាដែលប្រើប្រាស់ម៉ាស៊ីនបញ្ចេញពន្លឺឡាស៊ែរពីលើយន្តហោះទៅលើផ្ទៃដី រួចវាស់រយៈពេលដែលពន្លឺនោះចំណាយពេលចំណាំងផ្លាតត្រលប់មកវិញ ដើម្បីស្ទាបស្ទង់និងបង្កើតជារចនាសម្ព័ន្ធ 3D នៃកម្ពស់និងទម្រង់ដើមឈើ។ ដូចជាសត្វប្រចៀវបញ្ចេញសំឡេងហើយស្តាប់អេកូត្រលប់មកវិញ ដើម្បីដឹងពីទីតាំងនិងទំហំរបស់វត្ថុនៅពីមុខវាយ៉ាងច្បាស់។
Hyperspectral Imaging ការថតរូបភាពដែលអាចបំបែកពន្លឺជាក្រុមតូចៗរាប់រយរលកពន្លឺ (Bands) ដើម្បីចាប់យកព័ត៌មានលម្អិតដូចជា កម្រិតជាតិពណ៌ ឬសុខភាពរបស់ស្លឹកឈើ ដែលកាមេរ៉ាធម្មតា ឬភ្នែកមនុស្សមិនអាចមើលឃើញ។ ដូចជាវ៉ែនតាវេទមន្តដែលអាចមើលធ្លុះដល់រចនាសម្ព័ន្ធគីមីនិងសារធាតុចិញ្ចឹមដែលលាក់កំបាំងនៅខាងក្នុងស្លឹកឈើ។
Aboveground Biomass (AGB) ទម្ងន់សរុបនៃរាល់ផ្នែកទាំងអស់របស់ដើមឈើដែលដុះនៅលិចលើដី (ដូចជា ដើម មែក និងស្លឹក) ដែលត្រូវបានគេប្រើប្រាស់ជាខ្នាតសម្រាប់គណនាបរិមាណកាបូនដែលព្រៃឈើអាចស្រូបយកពីបរិយាកាសបាន។ ដូចជាការថ្លឹងទម្ងន់មនុស្សដើម្បីដឹងពីទំហំរាងកាយសរុប តែសម្រាប់ដើមឈើគេវាស់ដើម្បីដឹងថាតើវាស្តុកទុកឧស្ម័នកាបូនិកបានប៉ុន្មាន។
Canopy Height Model (CHM) ទម្រង់គំរូជាលក្ខណៈ 3D ដែលបង្ហាញតែកម្ពស់របស់មកុដដើមឈើសុទ្ធសាធ ដោយដកចេញនូវកម្ពស់នៃផ្ទៃដីធម្មជាតិខាងក្រោមចេញ ដើម្បីងាយស្រួលវាស់កម្ពស់ដើមឈើជាក់ស្តែង។ ដូចជាការវាស់កម្ពស់ពិតប្រាកដរបស់មនុស្សម្នាក់ ដោយដកចេញនូវកម្ពស់របស់កៅអីដែលគេកំពុងឈរពីលើ។
Random Forest (RF) ក្បួនម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើតម៉ូដែល "មែកធាងសម្រេចចិត្ត" (Decision Trees) តូចៗជាច្រើនដោយចៃដន្យ រួចប្រមូលលទ្ធផលពីម៉ូដែលទាំងអស់នោះមកបោះឆ្នោត ដើម្បីទាញយកលទ្ធផលចុងក្រោយមួយដែលត្រឹមត្រូវនិងសុក្រឹតបំផុត។ ដូចជាការប្រមូលអ្នកជំនាញ១០០នាក់ឲ្យវាយតម្លៃឯករាជ្យរៀងៗខ្លួន រួចយកមតិភាគច្រើនដើម្បីសម្រេចរកចម្លើយដែលត្រឹមត្រូវបំផុតតែមួយ។
Allometric equations រូបមន្តគណិតវិទ្យាដែលប្រើសម្រាប់ប៉ាន់ស្មានទំហំសរុប ឬទម្ងន់ជីវម៉ាសរបស់ដើមឈើ ដោយផ្អែកលើការវាស់វែងផ្នែកងាយស្រួលណាមួយរបស់វា ដូចជាអង្កត់ផ្ចិតគល់ដើម ឬកម្ពស់ដើម ដោយមិនចាំបាច់កាប់រំលំដើមឈើនោះទេ។ ដូចជាការទាយទម្ងន់មនុស្សម្នាក់ឱ្យបានជិតត្រឹមត្រូវ ដោយគ្រាន់តែដឹងពីទំហំចង្កេះនិងកម្ពស់របស់ពួកគេ។
Point Cloud បណ្តុំនៃចំណុចទិន្នន័យ 3D រាប់លានចំណុចនៅក្នុងលំហ ដែលទទួលបានពីសេនស័រឡាស៊ែរ (LiDAR) ដែលចំណុចនីមួយៗតំណាងឱ្យទីតាំងកូអរដោនេ (X, Y, Z) នៃផ្ទៃវត្ថុ ផ្ដុំគ្នាបង្កើតបានជារូបរាងដើមឈើឬសណ្ឋានដី។ ដូចជាការគូររូបភាពទម្រង់ 3D មួយ ដោយប្រើការចុចចំណុចអុចៗរាប់លានផ្ដុំគ្នាបង្កើតជារូបរាងវត្ថុ។
Local Maxima Filtering ក្បួនដំណើរការទិន្នន័យដើម្បីស្វែងរកចំណុចដែលខ្ពស់ជាងគេបំផុតនៅក្នុងតំបន់តូចៗនីមួយៗនៃទិន្នន័យ 3D ដែលចំណុចខ្ពស់បំផុតទាំងនោះត្រូវបានកុំព្យូទ័រចាត់ទុកថាជា "កំពូលនៃដើមឈើ" នីមួយៗសម្រាប់ការរាប់ចំនួនដើមឈើ។ ដូចជាការប្រើកែវយឹតរកមើលតែកំពូលភ្នំដែលខ្ពស់ជាងគេបំផុតនៅក្នុងតំបន់ជួរភ្នំមួយ ដើម្បីរាប់ថាតើមានភ្នំប៉ុន្មាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖