Original Title: Prediction of Canopy Heights over a Large Region Using Heterogeneous Lidar Datasets: Efficacy and Challenges
Source: doi.org/10.3390/rs70911036
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទស្សន៍ទាយកម្ពស់ដំបូលព្រៃឈើលើតំបន់ធំទូលាយដោយប្រើប្រាស់សំណុំទិន្នន័យ Lidar ចម្រុះ៖ ប្រសិទ្ធភាព និងបញ្ហាប្រឈម

ចំណងជើងដើម៖ Prediction of Canopy Heights over a Large Region Using Heterogeneous Lidar Datasets: Efficacy and Challenges

អ្នកនិពន្ធ៖ Ranjith Gopalakrishnan, Virginia Tech, Valerie A. Thomas, Virginia Tech, John W. Coulston, USDA Forest Service, Randolph H. Wynne, Virginia Tech

ឆ្នាំបោះពុម្ព៖ 2015, Remote Sensing

វិស័យសិក្សា៖ Forestry and Remote Sensing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើការស្រាវជ្រាវថាតើគេអាចទស្សន៍ទាយកម្ពស់ដំបូលព្រៃឈើ (canopy heights) លើផ្ទៃដីធំទូលាយបានដោយសុក្រឹតដែរឬទេ ដោយប្រើប្រាស់ប្រភពទិន្នន័យ Lidar តាមយន្តហោះដែលប្រមូលបានពីគម្រោងផ្សេងៗគ្នា និងមានប៉ារ៉ាម៉ែត្រមិនដូចគ្នា។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់វិធីសាស្ត្រផ្អែកលើតំបន់ (Area-based approach) ដោយរៀបចំម៉ូដែលទស្សន៍ទាយប្រៀបធៀបទិន្នន័យ Lidar ចម្រុះជាមួយនឹងទិន្នន័យវាស់វែងផ្ទាល់ពីដី។

ការប្រមូលផ្តុំទិន្នន័យ Lidar ចម្រុះ (Heterogeneous Lidar Datasets) ពីគម្រោងចំនួន ៧៦ ផ្សេងៗគ្នា
ការប្រើប្រាស់ទិន្នន័យវាស់វែងផ្ទាល់ពីរង្វាស់ដី (Forest Inventory and Analysis - FIA) ចំនួនប្រមាណ ១៨០០ ប្លង់
ការបង្កើតម៉ូដែលតំរែតំរង់លីនេអ៊ែរ (Linear Regression Model) ដើម្បីទាក់ទងភាគរយទី ៨៥ នៃកម្ពស់ Lidar ទៅនឹងកម្ពស់ដើមឈើ
ការវិភាគតាមរយៈក្បួនដោះស្រាយ Random Forest ដើម្បីវាយតម្លៃសារៈសំខាន់នៃកត្តាផ្សេងៗ (Variable Importance)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានបង្កើតអាចទស្សន៍ទាយកម្ពស់ដើមឈើបានយ៉ាងល្អដោយមានអត្រា R^2 = 0.74 និងកម្រិតលម្អៀង (RMSE) = 3.0 ម៉ែត្រ។
កត្តាដែលជះឥទ្ធិពលខ្លាំងដល់ភាពសុក្រឹតនៃការទស្សន៍ទាយរួមមាន ភាពខុសគ្នានៃរចនាសម្ព័ន្ធរុក្ខជាតិ (Heterogeneity of vegetation) ដង់ស៊ីតេចំណុច Lidar និងប្រភេទព្រៃឈើ (Hardwoods or Softwoods)។
ការជ្រើសរើសយកតែតំបន់មានរចនាសម្ព័ន្ធព្រៃឈើប្រហាក់ប្រហែលគ្នា (Coefficient of variation < 0.2) អាចកាត់បន្ថយកម្រិតលម្អៀងនៃការទស្សន៍ទាយ (RMSE) ពី ៣.០ ម៉ែត្រ មកត្រឹម ២.៤ ម៉ែត្រ ឬកាត់បន្ថយបានប្រមាណ ២០%។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Ordinary Least Squares (OLS) Linear Regression តំរែតំរង់លីនេអ៊ែរ OLS (ម៉ូដែលចម្បង)	មានលក្ខណៈសាមញ្ញ ងាយស្រួលបកស្រាយ និងមិនសូវរងគ្រោះដោយបញ្ហា Overfitting ដែលធ្វើឲ្យវាស័ក្តិសមសម្រាប់ការអនុវត្តលើផ្ទៃដីធំទូលាយ។	សន្មតថាទិន្នន័យមានទំនាក់ទំនងជាបន្ទាត់ត្រង់ (Linear) ដែលអាចនឹងមិនចាប់យកអន្តរកម្មស្មុគស្មាញរវាងកត្តាផ្សេងៗបានល្អនោះទេ។	ទទួលបានតម្លៃ R^2 = 0.74 និងកម្រិតលម្អៀង RMSE = 3.0 ម៉ែត្រ។
Random Forest (RF) Regression ក្បួនដោះស្រាយ Random Forest	មានភាពរឹងមាំក្នុងការគ្រប់គ្រងអថេរច្រើន អាចចាប់យកទំនាក់ទំនងស្មុគស្មាញ និងល្អប្រសើរសម្រាប់ការវិភាគរកសារៈសំខាន់នៃអថេរ (Variable Importance)។	មានលក្ខណៈជា "ប្រអប់ខ្មៅ" ដែលពិបាកបកស្រាយជាងសមីការលីនេអ៊ែរ និងទាមទារកម្លាំងម៉ាស៊ីនគណនាខ្ពស់ជាង។	ទទួលបានកម្រិតលម្អៀងតូចជាងបន្តិច គឺ RMSE = 2.87 ម៉ែត្រ។
Subset Model (High Homogeneity: CV < 0.2) ម៉ូដែល OLS លើតំបន់មានភាពស្មើគ្នាខ្ពស់ (CV < 0.2)	កាត់បន្ថយកំហុសឆ្គងបានយ៉ាងច្រើន (ប្រមាណ ២០%) និងមានភាពសុក្រឹតខ្ពស់បំផុតសម្រាប់តំបន់ព្រៃដែលមានរចនាសម្ព័ន្ធស្មើគ្នាល្អ។	អាចអនុវត្តបានតែលើសំណុំទិន្នន័យមួយផ្នែកប៉ុណ្ណោះ ដែលធ្វើឲ្យទំហំនៃការគ្របដណ្តប់រួមមានការថយចុះ។	ទទួលបានតម្លៃ R^2 = 0.84 និងកម្រិតលម្អៀង RMSE = 2.44 ម៉ែត្រ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដោយសារត្រូវដំណើរការសំណុំទិន្នន័យកម្រិតខ្ពស់ និងគ្របដណ្តប់លើផ្ទៃដីធំ។

Hardware: កុំព្យូទ័រមានសមត្ថភាពគណនាខ្ពស់ និងទំហំផ្ទុកធំ (Storage) សម្រាប់ដំណើរការទិន្នន័យ Lidar Point Cloud ដែលមានទំហំរហូតដល់ ៧ តេរ៉ាបៃ (7 TB)។
Software: កម្មវិធីកូដបើកចំហ LAStools សម្រាប់រៀបចំទិន្នន័យ Lidar និងកម្មវិធី R (កញ្ចប់ randomForest) សម្រាប់វិភាគម៉ូដែលស្ថិតិ។
Dataset: សំណុំទិន្នន័យ Lidar តាមយន្តហោះ (ALS) ពីគម្រោងចម្រុះ និងទិន្នន័យវាស់វែងផ្ទាល់ពីដី (Forest Inventory Data) ដែលមានលក្ខណៈស្តង់ដារចំនួនរាប់ពាន់ប្លង់។
Expertise: អ្នកជំនាញកម្រិតខ្ពស់ផ្នែកប្រព័ន្ធព័ត៌មានភូមិសាស្ត្រ (GIS), Remote Sensing, និងការអភិវឌ្ឍម៉ូដែលទស្សន៍ទាយ (Predictive Modeling)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ភាគអាគ្នេយ៍នៃសហរដ្ឋអាមេរិក ដោយប្រើប្រាស់ទិន្នន័យ Lidar ដែលភាគច្រើនប្រមូលនៅរដូវស្លឹកឈើជ្រុះ (Leaf-off conditions)។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈព្រៃឈើភាគច្រើនជាព្រៃត្រូពិច និងមានស្លឹកខៀវស្រងាត់ពេញមួយឆ្នាំ (Leaf-on) ដែលអាចធ្វើឲ្យការជ្រៀតចូលនៃកាំរស្មី Lidar ដល់ដីមានភាពខុសគ្នា និងទាមទារការកែសម្រួលម៉ូដែលប្រមាណកម្មឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការចងក្រងទិន្នន័យ Lidar បែកខ្ញែកនេះ គឺមានប្រយោជន៍ និងស័ក្តិសមខ្លាំងណាស់សម្រាប់បរិបទប្រទេសកម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាកង្វះខាតទិន្នន័យពេញលេញទូទាំងប្រទេស។

គម្រោង REDD+ នៅក្នុងតំបន់ព្រៃឡង់ និងជួរភ្នំក្រវាញ: អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីវាយតម្លៃកម្ពស់ដើមឈើ និងប៉ាន់ស្មានបរិមាណកាបូន (Biomass/Carbon Stock) ដោយប្រមូលផ្តុំទិន្នន័យ Lidar ដែលធ្លាប់ថតដោយអង្គការក្រៅរដ្ឋាភិបាល ឬគម្រោងផ្សេងៗបញ្ចូលគ្នា។
ក្រសួងបរិស្ថាន និងរដ្ឋបាលព្រៃឈើ: ជួយក្នុងការបង្កើតផែនទីរចនាសម្ព័ន្ធព្រៃឈើកម្រិតខ្ពស់ ដើម្បីវាយតម្លៃការផ្លាស់ប្តូរទីជម្រកសត្វព្រៃ និងប្រសិទ្ធភាពនៃការគ្រប់គ្រងតំបន់ការពារធម្មជាតិ។
ការគ្រប់គ្រងហានិភ័យភ្លើងព្រៃនៅភាគខាងជើង និងខាងកើត: អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីវាយតម្លៃបរិមាណប្រេងឥន្ធនៈជីវៈ (Canopy fuel load) នៅតំបន់ព្រៃល្បោះជ្រុះស្លឹក ដែលងាយរងគ្រោះដោយភ្លើងព្រៃនារដូវប្រាំង។

ការទាញយកអត្ថប្រយោជន៍ពីទិន្នន័យ Lidar ដែលមានស្រាប់ពីស្ថាប័នចម្រុះ គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃ និងសន្សំសំចៃខ្ពស់ក្នុងការធ្វើបញ្ជីសារពើភ័ណ្ឌព្រៃឈើទំនើបនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះស្តីពីការរៀបចំទិន្នន័យ Lidar: ចាប់ផ្តើមរៀនប្រើប្រាស់កញ្ចប់កម្មវិធីទិន្នន័យដូចជា LAStools ឬ PDAL ដើម្បីរៀនចាត់ថ្នាក់ដី និងទាញយកកម្ពស់ដើមឈើពីទិន្នន័យ LiDAR Point Clouds ព្រមទាំងប្រើប្រាស់កម្មវិធី QGIS សម្រាប់បង្ហាញទិន្នន័យ។
អភិវឌ្ឍជំនាញវិភាគស្ថិតិ និងសរសេរកូដ: ហ្វឹកហាត់ភាសាកម្មវិធី R ឬ Python ដោយផ្តោតលើការសរសេរកូដសម្រាប់ម៉ូដែល Linear Regression និងកញ្ចប់សិក្សាដូចជា randomForest ឬ scikit-learn សម្រាប់ទស្សន៍ទាយកម្ពស់។
ស្វែងរក និងធ្វើស្តង់ដារទិន្នន័យដែលមានស្រាប់: ទាក់ទងអង្គការ WCS, WWF, Conservation International ឬគម្រោងរ៉ែផ្សេងៗនៅកម្ពុជា ដើម្បីស្នើសុំសំណុំទិន្នន័យ LiDAR តាមតំបន់ រួចរៀបចំវាឲ្យចូលជាស្តង់ដារតែមួយ ទោះបីជាប៉ារ៉ាម៉ែត្រនៃការហោះហើរខុសគ្នាក៏ដោយ។
ការប្រមូលទិន្នន័យដី និងការផ្ទៀងផ្ទាត់ (Calibration): ចុះវាស់វែងកម្ពស់ដើមឈើដោយផ្ទាល់នៅតំបន់សិក្សាដោយប្រើឧបករណ៍ Clinometer រួចយកទីតាំងប្លង់ដី (GPS Locations) មកតម្រួតស៊ីគ្នាជាមួយនឹងប្លង់ LiDAR (ទំហំ 120x120m) ដើម្បីបង្រៀនម៉ូដែលរបស់អ្នក។
បង្កើតផែនទី និងវាយតម្លៃភាពត្រឹមត្រូវ: អនុវត្តម៉ូដែលដែលបានបង្រៀនរួចទៅលើក្រឡា Grid Cells នៅទូទាំងតំបន់សិក្សា រួចបង្កើតជាផែនទីគម្របកម្ពស់ព្រៃឈើ (Wall-to-wall map) ហើយប្រើប្រាស់សន្ទស្សន៍ RMSE ដើម្បីវាយតម្លៃភាពសុក្រឹតនៃការទស្សន៍ទាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Airborne Lidar	បច្ចេកវិទ្យាប្រើប្រាស់ការបាញ់ពន្លឺឡាស៊ែរពីលើយន្តហោះចុះមកផ្ទៃដី ដើម្បីវាស់ចម្ងាយនៃការចំណាំងផ្លាតត្រឡប់មកវិញ រួចបង្កើតជារូបភាពត្រីមាត្រ (3D) ដែលបង្ហាញពីរចនាសម្ព័ន្ធកម្ពស់ព្រៃឈើ និងដី។	ដូចជាសត្វប្រចៀវបញ្ចេញសំឡេងខ្ទាតត្រឡប់មកវិញដើម្បីដឹងពីទីតាំងឧបសគ្គនៅខាងមុខ តែបច្ចេកវិទ្យានេះប្រើពន្លឺឡាស៊ែរជំនួសវិញ។
Area-based approach	វិធីសាស្ត្រគណនាទិន្នន័យព្រៃឈើ ដោយបង្កើតទំនាក់ទំនងស្ថិតិរវាងទិន្នន័យក្នុងប្លង់ដីតូចៗដែលវាស់ផ្ទាល់ និងទិន្នន័យ Lidar រួចយកទំនាក់ទំនងនោះទៅអនុវត្តដើម្បីទស្សន៍ទាយលើផ្ទៃដីព្រៃធំទាំងមូល។	ដូចជាការភ្លក់ទឹកស៊ុបមួយស្លាបព្រា ដើម្បីដឹងពីរសជាតិនៃទឹកស៊ុបមួយឆ្នាំងធំទាំងមូល។
Wall-to-wall maps	ការបង្កើតផែនទីឌីជីថលដែលបង្ហាញពីព័ត៌មានជាក់លាក់ណាមួយ (ដូចជាកម្ពស់ដើមឈើ) គ្របដណ្តប់លើផ្ទៃដីតំបន់ណាមួយទាំងស្រុង និងបន្តជាប់គ្នាដោយគ្មានចន្លោះប្រហោង។	ដូចជាការលាបថ្នាំពណ៌លើជញ្ជាំងផ្ទះឱ្យជិតទាំងអស់ដោយមិនបន្សល់ទុកកន្លែងទំនេរ សូម្បីតែមួយសង់ទីម៉ែត្រ។
Distributional metrics	រង្វាស់ស្ថិតិដែលបង្ហាញពីរបាយកម្ពស់នៃចំណុច Lidar ទាំងអស់។ នៅក្នុងការសិក្សានេះ គេប្រើភាគរយទី ៨៥ (85th percentile) ដែលតំណាងឲ្យកម្ពស់ចំណុច Lidar ជិតដល់កំពូលដើមឈើ ដើម្បីទស្សន៍ទាយកម្ពស់ព្រៃ។	ប្រសិនបើយើងតម្រៀបសិស្ស ១០០ នាក់តាមកម្ពស់ សិស្សទី ៨៥ គឺជាតំណាងកម្ពស់របស់ក្រុមសិស្សដែលខ្ពស់ៗ។
Random Forest	ក្បួនដោះស្រាយបញ្ញាសិប្បនិម្មិត (Machine Learning) ដែលបង្កើតក្បួនកាត់សេចក្តីឬដើមឈើការសម្រេចចិត្ត (Decision Trees) ជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលឱ្យកាន់តែសុក្រឹត និងរកមើលកត្តាដែលជះឥទ្ធិពលខ្លាំងជាងគេ។	ដូចជាការសួរសំណួរទៅកាន់ទីប្រឹក្សា ១០០ នាក់ រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ដើម្បីសម្រេចចិត្តចុងក្រោយ ជាជាងជឿលើមនុស្សតែម្នាក់។
Co-registration error	កំហុសឆ្គងដែលកើតឡើងនៅពេលទីតាំងកូអរដោនេផែនដី (GPS) នៃប្លង់វាស់វែងផ្ទាល់នៅទីវាល និងទីតាំងទិន្នន័យ Lidar លើប្រព័ន្ធកុំព្យូទ័រ មិនត្រួតស៊ីគ្នាបេះបិទ ដែលធ្វើឲ្យការបង្រៀនម៉ូដែលខុសគោលដៅ។	ដូចជាការពាក់អាវដែលឡេវនិងរន្ធឡេវមិនចំគ្នា ធ្វើឱ្យខុសទម្រង់ដើម និងវៀចវេរ។
Coefficient of variation	រង្វាស់គណិតវិទ្យា (តាងដោយ CV) ប្រើសម្រាប់វាស់កម្រិតនៃភាពខុសគ្នា ឬភាពមិនស្មើគ្នានៃកម្ពស់រុក្ខជាតិនៅក្នុងប្លង់ដីមួយ។ តម្លៃ CV តូច មានន័យថាព្រៃមានកម្ពស់ស្មើៗគ្នា។	ដូចជាការវាស់ស្ទង់មើលថាតើសក់នៅលើក្បាលមនុស្សម្នាក់មានប្រវែងស្មើគ្នា (ម៉ូដសក់ទាហាន) ឬខ្លីវែងរញ៉េរញ៉ៃ (សក់មិនបានកាត់)។
Discrete-return	ប្រព័ន្ធម៉ាស៊ីន Lidar ដែលកត់ត្រាការចំណាំងផ្លាតនៃពន្លឺត្រឡប់មកវិញជាចំណុចដាច់ៗពីគ្នា (ឧទាហរណ៍ ពន្លឺមួយខ្សែបាញ់ប៉ះស្លឹកឈើខាងលើប៉ះមែកឈើកណ្តាល និងប៉ះដី នោះវានឹងកត់ត្រាជាចំណុច ៣ ផ្សេងគ្នា)។	ដូចជាការគប់គ្រាប់បាល់កាត់សំណាញ់ ៣ ជាន់ ដែលយើងលឺសំឡេង "ប៉ឹប" ចំនួន ៣ ដងនៅពេលវាទម្លុះកាត់សំណាញ់នីមួយៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖