Original Title: Assessing the Effectiveness of a Ridge Regression Model for Estimating Chlorophyll-A Content from Sentinel-3 Olci Images in Vietnamese Coastal Water
Source: doi.org/10.29227/IM-2025-02-40
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល Ridge Regression សម្រាប់ការប៉ាន់ស្មានបរិមាណ Chlorophyll-A ពីរូបភាព Sentinel-3 OLCI នៅក្នុងតំបន់ឆ្នេរសមុទ្រវៀតណាម

ចំណងជើងដើម៖ Assessing the Effectiveness of a Ridge Regression Model for Estimating Chlorophyll-A Content from Sentinel-3 Olci Images in Vietnamese Coastal Water

អ្នកនិពន្ធ៖ TRAN Thanh Ha (Hanoi University of Mining and Geology), NGUYEN Minh Hai (Hanoi University of Mining and Geology), TRAN Thi Hoa (Hanoi University of Mining and Geology), NGUYEN Minh Ngoc (Vietnam National Space Centre), PHAN Viet Son (Hanoi University of Mining and Geology)

ឆ្នាំបោះពុម្ព៖ 2025 Journal of the Polish Mineral Engineering Society

វិស័យសិក្សា៖ Environmental Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការត្រួតពិនិត្យគុណភាពទឹកតាមតំបន់ឆ្នេរជាពិសេសកំហាប់ Chlorophyll-a តាមរយៈការវាស់វែងផ្ទាល់មានតម្លៃថ្លៃនិងចំណាយពេលយូរ ខណៈដែលបច្ចេកវិទ្យាពីចម្ងាយ (Remote Sensing) ច្រើនតែជួបប្រទះបញ្ហាកម្រិតភាពត្រឹមត្រូវទាប និងបញ្ហាអន្តរទំនាក់ទំនងនៃអថេរ (Multicollinearity)។ ឯកសារនេះដោះស្រាយបញ្ហាទាំងនេះដោយស្នើវិធីសាស្ត្រគណនាថ្មីសម្រាប់តំបន់ឆ្នេរសមុទ្រភាគខាងត្បូងប្រទេសវៀតណាម។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យពីឧបករណ៍ផ្កាយរណប Sentinel-3 OLCI និងទិន្នន័យវាស់វែងផ្ទាល់ ដើម្បីបង្កើតម៉ូដែល Ridge Regression (RR) សម្រាប់ប៉ាន់ស្មានកំហាប់ Chlorophyll-a។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Ridge Regression Model (Proposed)
ម៉ូដែល Ridge Regression (RR)
អាចដោះស្រាយបញ្ហាអន្តរទំនាក់ទំនងនៃអថេរ (Multicollinearity) បានយ៉ាងមានប្រសិទ្ធភាព និងប្រើប្រាស់ព័ត៌មានពីគ្រប់ Band នៃផ្កាយរណបបានពេញលេញដោយមិនលុបវាចោល។ ទាមទារការកំណត់តម្លៃ Parameter λ ឱ្យបានត្រឹមត្រូវ និងនៅតែមិនអាចដោះស្រាយបញ្ហាស្រមោលពពកនៅលើរូបភាពបានទាំងស្រុង។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ដោយមានមេគុណ R² = 0.811 និង RMSE = 0.456 mg/m³។
Ocean Color 2 & 3 (OC2, OC3)
ក្បួនដោះស្រាយ Ocean Color (OC2, OC3)
ជាក្បួនខ្នាតស្តង់ដាររបស់អង្គការ NASA ដែលងាយស្រួលប្រើប្រាស់ និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់សមុទ្រទឹកថ្លា (Case-1 waters)។ ភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលអនុវត្តក្នុងតំបន់ឆ្នេរដែលមានកករនិងភាពល្អក់ច្រើន (Case-2 waters)។ ទទួលបានភាពត្រឹមត្រូវទាប ដោយ OC2 មាន R² = 0.22 និង OC3 មាន R² = 0.11។
Normalized Difference Chlorophyll Index (NDCI)
សន្ទស្សន៍ NDCI
ជាក្បួនដោះស្រាយដែលផ្តោតជាពិសេសសម្រាប់តំបន់ក្បែរមាត់សមុទ្រ និងតំបន់ទឹកប្រៃដោយផ្អែកលើ Red/NIR ratio។ មិនអាចផ្តល់លទ្ធផលត្រឹមត្រូវគ្រប់គ្រាន់នៅពេលមានការប្រែប្រួលបរិស្ថានទឹកស្មុគស្មាញ និងទាមទារការផ្សំជាមួយអថេរផ្សេងទៀត។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុតទីពីរ ដោយមានមេគុណ R² = 0.12។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារការរួមបញ្ចូលគ្នានូវទិន្នន័យផ្កាយរណបឥតគិតថ្លៃ ឧបករណ៍វាស់វែងនៅទីវាល និងចំណេះដឹងផ្នែកកុំព្យូទ័រសម្រាប់ការវិភាគទិន្នន័យ (Machine Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅតំបន់ឆ្នេរសមុទ្រភាគខាងត្បូងនៃប្រទេសវៀតណាម (ពីខេត្តបារៀ-វុងតាវ ដល់វីញឡុង) ដោយប្រើប្រាស់សំណាកទិន្នន័យវាស់វែងផ្ទាល់ចំនួន ២៨ កន្លែងក្នុងរដូវប្រាំង។ ទិន្នន័យនេះមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ដោយសារតំបន់ឆ្នេរសមុទ្រកម្ពុជា (ឈូងសមុទ្រថៃ) មានលក្ខណៈប្រព័ន្ធអេកូឡូស៊ី និងកម្រិតភាពល្អក់នៃទឹក (Case-2 waters) ស្រដៀងគ្នា ដែលធ្វើឱ្យក្បួនដោះស្រាយនេះអាចយកមកកែច្នៃប្រើប្រាស់បានយ៉ាងមានប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Ridge Regression នេះមានសក្តានុពលយ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ក្នុងការកាត់បន្ថយការចំណាយថវិកានិងពេលវេលាលើការត្រួតពិនិត្យគុណភាពទឹកតាមទំហំផ្ទៃធំៗ។

ការបន្សាំវិធីសាស្ត្រនេះមកប្រើនៅកម្ពុជា នឹងជួយពង្រឹងសមត្ថភាពតាមដានសុខភាពបរិស្ថានទឹកកម្រិតថ្នាក់ជាតិបានកាន់តែទូលំទូលាយ និងទាន់ពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ទាញយក និងកែច្នៃទិន្នន័យផ្កាយរណបបឋម: និស្សិតត្រូវរៀនពីរបៀបទាញយកទិន្នន័យ Sentinel-3 OLCI ពីគេហទំព័រ Copernicus និងប្រើប្រាស់កម្មវិធី SNAP ឬ SeaDAS ដើម្បីធ្វើកំណែទម្រង់បរិយាកាស (Atmospheric Correction) តាមរយៈក្បួនដោះស្រាយ C2RCC ។
  2. ការចុះប្រមូលទិន្នន័យផ្ទៀងផ្ទាត់ (In-situ Data): សហការជាមួយមន្ទីរពិសោធន៍ដើម្បីចុះវាស់កំហាប់ Chlorophyll-a ផ្ទាល់នៅទីតាំងគោលដៅ (ឧ. ឆ្នេរកែប) ដោយប្រើប្រាស់ឧបករណ៍ Spectrophotometer ដើម្បីយកទិន្នន័យមកបង្វឹកម៉ូដែលកុំព្យូទ័រ។
  3. អភិវឌ្ឍម៉ូដែល Machine Learning: ប្រើប្រាស់ភាសា Python ជាមួយបណ្ណាល័យ scikit-learn ដើម្បីសរសេរកូដបង្កើតម៉ូដែល Ridge Regression។ ត្រូវផ្តោតលើការកែតម្រូវតម្លៃ Penalty Parameter (λ) ដើម្បីធានាថា VIF < 5 និងជៀសវាងការចងចាំទិន្នន័យហួសកម្រិត (Overfitting)។
  4. វាយតម្លៃ និងបង្កើតផែនទីចែកចាយ: វាស់វែងភាពត្រឹមត្រូវនៃម៉ូដែលដោយប្រើ R² និង RMSE រួចប្រើប្រាស់បណ្ណាល័យ Python (ដូចជា Rasterio, Matplotlib) ឬកម្មវិធី QGIS ដើម្បីបំប្លែងលទ្ធផលទស្សន៍ទាយទៅជាផែនទីបង្ហាញពីការចែកចាយនៃកំហាប់ Chlorophyll-a ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Ridge Regression ជាបច្ចេកទេសមួយនៃ Machine Learning ស្ថិតក្នុងអម្បូរ Linear Regression ដែលបន្ថែមតម្លៃពិន័យ (Penalty term ឫ L2 regularization) ទៅលើមេគុណអថេរ ដើម្បីកាត់បន្ថយការចងចាំទិន្នន័យហួសកម្រិត (Overfitting) និងដោះស្រាយបញ្ហាអថេរដែលទាក់ទងគ្នាខ្លាំងពេក។ ដូចជាការដាក់ទម្ងន់ទប់លំនឹងលើជញ្ជីងមិនឱ្យវាលំអៀងខ្លាំងពេកទៅម្ខាង ពេលដែលមានរបស់ច្រើនប្រភេទនិងស្រដៀងៗគ្នាដាក់លើវា។
Multicollinearity ជាបាតុភូតនៅក្នុងស្ថិតិដែលអថេរឯករាជ្យ (Independent variables) ពីរ ឬច្រើនមានទំនាក់ទំនងគ្នាខ្លាំង ដែលធ្វើឱ្យម៉ូដែលពិបាកបែងចែកថាតើអថេរមួយណាពិតជាមានឥទ្ធិពលលើលទ្ធផល។ ក្នុងបរិបទនេះ គឺការជាន់គ្នានៃរលកពន្លឺ (Spectral bands) របស់ផ្កាយរណប។ ដូចជាមានមនុស្សពីរនាក់ច្រៀងបទតែមួយព្រមគ្នាដោយសំឡេងស្រដៀងគ្នា ដែលធ្វើឱ្យយើងពិបាកស្តាប់ដឹងថាអ្នកណាជាអ្នកច្រៀងពិតប្រាកដ។
Sentinel-3 OLCI ជាឧបករណ៍ចាប់សញ្ញា (Sensor) បំពាក់លើផ្កាយរណប Sentinel-3 របស់ទីភ្នាក់ងារអវកាសអឺរ៉ុប (ESA) ដែលមានសមត្ថភាពចាប់យករូបភាពពណ៌នៃមហាសមុទ្រ និងដីគោកដោយប្រើប្រាស់រលកពន្លឺ ២១ ផ្សេងៗគ្នា ដើម្បីតាមដានគុណភាពទឹក។ ដូចជាកាមេរ៉ាទំនើបមួយនៅលើមេឃដែលអាចថតរូបភាពផ្ទៃទឹក ហើយវិភាគប្រាប់យើងពីពណ៌ពិតប្រាកដ និងសមាសធាតុដែលរលាយក្នងទឹកនោះ។
Variance Inflation Factor (VIF) ជារង្វាស់ស្ថិតិមួយប្រើសម្រាប់កំណត់ថាតើមានបញ្ហា Multicollinearity នៅក្នុងម៉ូដែល Regression ដែរឬទេ (ជាទូទៅបើ VIF < 5 គឺអាចទទួលយកបាន)។ វាវាស់វែងថាភាពប្រែប្រួលនៃមេគុណប៉ាន់ស្មានកើនឡើងប៉ុន្មានដោយសារតែទំនាក់ទំនងរវាងអថេរ។ ដូចជាឧបករណ៍វាស់កម្រិតសម្លេងរំខាន ប្រសិនបើវាលោតលេខខ្ពស់ពេក មានន័យថាសម្លេងរំខាន (អថេរដែលជាន់គ្នា) មានច្រើនពេកហើយដែលធ្វើឱ្យម៉ូដែលមិនច្បាស់លាស់។
In-situ measurements ដំណើរការប្រមូលសំណាក និងវាស់វែងទិន្នន័យដោយផ្ទាល់នៅទីតាំងគោលដៅជាក់ស្តែង (ដូចជាការដួសទឹកសមុទ្រមកវាស់ក្នុងមន្ទីរពិសោធន៍) ជាជាងការប្រើប្រាស់រូបភាពពីចម្ងាយ។ ទិន្នន័យនេះត្រូវបានប្រើដើម្បីផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវនៃទិន្នន័យផ្កាយរណប។ ដូចជាការចុះទៅភ្លក់រសជាតិម្ហូបដោយផ្ទាល់មាត់ ជាជាងការគ្រាន់តែមើលរូបថតម្ហូបនោះដើម្បីទាយរសជាតិ។
Case 2 waters ជាប្រភេទទឹក (ជាទូទៅនៅតាមតំបន់ឆ្នេរ ឬទន្លេ) ដែលលក្ខណៈអុបទិក (ការចំណាំងពន្លឺ) របស់វាមានភាពស្មុគស្មាញដោយសារមានផ្ទុកសារធាតុចម្រុះដូចជា កករល្អិត (Sediment) សារធាតុសរីរាង្គរលាយ (CDOM) និង សារាយសមុទ្រ ខុសពីទឹកសមុទ្រថ្លា (Case 1) ដែលអាស្រ័យតែលើសារាយសមុទ្រ។ ដូចជាទឹកស៊ុបដែលមានលាយគ្រឿងផ្សំច្រើនមុខធ្វើឱ្យយើងពិបាកមើលឃើញបាតឆ្នាំង ខុសពីទឹកតែថ្លាដែលមានតែពណ៌តែមួយមុខ។
Chlorophyll-a ជាសារធាតុពណ៌បៃតងដ៏សំខាន់នៅក្នុងសារាយសមុទ្រនិងរុក្ខជាតិទឹក ដែលស្រូបយកពន្លឺព្រះអាទិត្យសម្រាប់ធ្វើរស្មីសំយោគ។ កំហាប់របស់វាត្រូវបានប្រើជាសូចនាករចម្បងដើម្បីវាយតម្លៃគុណភាពទឹក និងកម្រិតជីវជាតិនៅក្នុងប្រព័ន្ធអេកូឡូស៊ី។ ដូចជារោងចក្រផលិតថាមពលពណ៌បៃតងតូចៗនៅក្នុងទឹក បើមានវាច្រើនពេកបញ្ជាក់ថាទឹកនោះសម្បូរជីជាតិជ្រុល (កខ្វក់) ដែលអាចសម្លាប់ត្រីបាន។
Atmospheric correction ជាដំណើរការកែសម្រួលទិន្នន័យរូបភាពផ្កាយរណបតាមរយៈក្បួនគណិតវិទ្យា (ឧ. C2RCC) ដើម្បីដកចេញនូវឥទ្ធិពលរំខានពីបរិយាកាសផែនដី (ដូចជា ចំហាយទឹក ធូលី ពពកកម្រិតស្តើង) មុននឹងទាញយកទិន្នន័យចំណាំងផ្លាតពន្លឺពិតប្រាកដពីផ្ទៃទឹក។ ដូចជាការជូតកញ្ចក់វ៉ែនតាដែលមានធូលីដីចេញ ដើម្បីឱ្យយើងអាចមើលឃើញទេសភាពខាងក្រៅបានច្បាស់ពណ៌ពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖