Original Title: Earth System Model Evaluation Tool (ESMValTool) v2.0 – technical overview
Source: doi.org/10.5194/gmd-13-1179-2020
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឧបករណ៍វាយតម្លៃគំរូប្រព័ន្ធផែនដី (ESMValTool) កំណែ ២.០ – ទិដ្ឋភាពបច្ចេកទេសទូទៅ

ចំណងជើងដើម៖ Earth System Model Evaluation Tool (ESMValTool) v2.0 – technical overview

អ្នកនិពន្ធ៖ Mattia Righi (DLR, Germany), Bouwe Andela (Netherlands eScience Center), Veronika Eyring (DLR/University of Bremen), Axel Lauer (DLR), Valeriu Predoi (University of Reading), Manuel Schlund (DLR)

ឆ្នាំបោះពុម្ព៖ 2020 (Geosci. Model Dev.)

វិស័យសិក្សា៖ Earth System Science / Climate Modelling

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកើនឡើងយ៉ាងខ្លាំងនៃបរិមាណទិន្នន័យពីគម្រោង CMIP6 និងគំរូប្រព័ន្ធផែនដី (ESMs) ដែលមានគុណភាពបង្ហាញខ្ពស់ បានបង្កជាបញ្ហាប្រឈមធ្ងន់ធ្ងរដល់ការវិភាគ និងការវាយតម្លៃ ដែលធ្វើឱ្យឧបករណ៍ជំនាន់មុន (v1.0) មានដំណើរការយឺតយ៉ាវ និងមិនអាចឆ្លើយតបនឹងតម្រូវការ។

វិធីសាស្ត្រ (The Methodology)៖ ក្រុមអ្នកស្រាវជ្រាវបានរចនាឧបករណ៍នេះឡើងវិញទាំងស្រុងដោយប្រើភាសា Python និងបណ្ណាល័យ Iris ដើម្បីប្រមូលផ្តុំប្រតិបត្តិការរៀបចំទិន្នន័យ (Preprocessing) និងអនុញ្ញាតឱ្យមានការប្រតិបត្តិការងារស្របគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
ESMValTool v1.0 (Serial Execution)
កំណែចាស់ v1.0 (ដំណើរការជាលំដាប់ដោយគ្មានមុខងារ Parallel)
មានមូលដ្ឋានកូដដែលអ្នកប្រើប្រាស់ចាស់ធ្លាប់ស្គាល់ ប៉ុន្តែដំណើរការលើទិន្នន័យ CMIP5 បានល្អក្នុងកម្រិតមួយ។ ការរៀបចំទិន្នន័យ (Preprocessing) មានភាពយឺតយ៉ាវខ្លាំង ពិបាកដំឡើង និងមិនអាចប្រើប្រាស់ធនធានកុំព្យូទ័របានពេញលេញ។ ចំណាយពេល ៥៣៤.១ នាទី សម្រាប់ការរត់តេស្តស្តង់ដារ (Benchmark Recipe)។
ESMValTool v2.0 (Serial Mode)
កំណែថ្មី v2.0 (ដំណើរការជាលំដាប់ដោយប្រើ Preprocessor ថ្មី)
មានការរចនាកូដថ្មីដោយប្រើ Python និង Iris library ដែលធ្វើឱ្យការរៀបចំទិន្នន័យមានប្រសិទ្ធភាពជាងមុន និងងាយស្រួលដំឡើង។ នៅតែត្រូវបានកំណត់ដោយល្បឿននៃ CPU តែមួយគ្រាប់ (Single core) បើទោះបីជាលឿនជាងកំណែមុនក៏ដោយ។ ចំណាយពេល ១៧៧.១ នាទី (លឿនជាងកំណែមុនប្រហែល ៣ ដង)។
ESMValTool v2.0 (Parallel Mode)
កំណែថ្មី v2.0 (ដំណើរការស្របគ្នា/Parallelization)
អាចបែងចែកការងារទៅឱ្យ CPU ច្រើនធ្វើការព្រមគ្នា ដែលកាត់បន្ថយពេលវេលាយ៉ាងខ្លាំងសម្រាប់ការវិភាគទិន្នន័យធំៗ។ តម្រូវឱ្យមានអង្គចងចាំ (RAM) ខ្ពស់ខ្លាំង (រហូតដល់ ៧៥ GB ក្នុងការពិសោធន៍) ដែលអាចជាឧបសគ្គសម្រាប់កុំព្យូទ័រធម្មតា។ ចំណាយពេលត្រឹមតែ ១៦.២ នាទី (លឿនជាងកំណែមុនជាង ៣០ ដង នៅពេលប្រើ ៦៨ tasks)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការប្រើប្រាស់ឧបករណ៍នេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ ជាពិសេសប្រសិនបើចង់ប្រើប្រាស់មុខងារ Parallelization ដើម្បីវិភាគទិន្នន័យច្រើន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសកល (CMIP5/CMIP6) និងធ្វើតេស្តនៅលើ Supercomputer នៅប្រទេសអាល្លឺម៉ង់ (DKRZ)។ សម្រាប់កម្ពុជា ការប្រើប្រាស់គំរូសកល (Global Models) អាចមានកម្រិតលំអៀង (Bias) ក្នុងការបង្ហាញទិន្នន័យទឹកភ្លៀងតំបន់ត្រូពិច ដូច្នេះចាំបាច់ត្រូវមានការផ្ទៀងផ្ទាត់ជាមួយទិន្នន័យអង្កេតក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ឧបករណ៍នេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ក្នុងការវាយតម្លៃការព្យាករណ៍អាកាសធាតុរយៈពេលវែង និងការប្រែប្រួលអាកាសធាតុ។

ESMValTool v2.0 ជួយកាត់បន្ថយភាពស្មុគស្មាញផ្នែកបច្ចេកទេស ដោយអនុញ្ញាតឱ្យអ្នកស្រាវជ្រាវកម្ពុជាអាចផ្តោតលើការវិភាគលទ្ធផលវិទ្យាសាស្ត្រ ជាជាងចំណាយពេលសរសេរកូដរៀបចំទិន្នន័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ ការរៀបចំប្រព័ន្ធកុំព្យូទ័រ: ដំឡើង Anaconda ឬ Miniconda និងបង្កើត environment សម្រាប់ Python 3 ដើម្បីត្រៀមដំឡើង ESMValTool ។
  2. ជំហានទី ២៖ ការដំឡើង និងកំណត់រចនាសម្ព័ន្ធ: ដំឡើង ESMValTool v2.0 តាមរយៈ Conda និងរៀបចំឯកសារ config-user.yml ដើម្បីកំណត់ទីតាំងរក្សាទុកទិន្នន័យ។
  3. ជំហានទី ៣៖ ការទទួលបានទិន្នន័យគំរូ: ចុះឈ្មោះបង្កើតគណនីនៅលើ ESGF (Earth System Grid Federation) ដើម្បីទាញយកទិន្នន័យ CMIP6 មួយចំនួនតូចសម្រាប់ការសាកល្បង។
  4. ជំហានទី ៤៖ ការរត់សាកល្បង Recipe ដំបូង: សាកល្បងរត់ recipe_python.yml ដែលជាឧទាហរណ៍មានស្រាប់ ដើម្បីយល់ពីដំណើរការ Preprocessor និងការបង្កើតក្រាហ្វិក។
  5. ជំហានទី ៥៖ ការអនុវត្តសម្រាប់តំបន់កម្ពុជា: កែប្រែ Recipe ដោយប្រើមុខងារ extract_region ដើម្បីកាត់យកតែទិន្នន័យរយៈបណ្តោយ និងរយៈទទឹងដែលគ្របដណ្តប់ប្រទេសកម្ពុជា និងតំបន់មេគង្គ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Coupled Model Intercomparison Project (CMIP) ជាគម្រោងសហប្រតិបត្តិការអន្តរជាតិដ៏ធំមួយ ដែលកំណត់ស្តង់ដារសម្រាប់ក្រុមអ្នកវិទ្យាសាស្ត្រទូទាំងពិភពលោក ក្នុងការបង្កើតនិងដំណើរការគំរូអាកាសធាតុ (Climate Models) ដើម្បីឱ្យលទ្ធផលអាចយកមកប្រៀបធៀបគ្នាបានយ៉ាងត្រឹមត្រូវ។ ប្រៀបដូចជាការកំណត់វិញ្ញាសាប្រឡងរួមមួយសម្រាប់សិស្សទូទាំងប្រទេស ដើម្បីដឹងថាសិស្ស (ឬគំរូអាកាសធាតុ) ណាខ្លាំងត្រង់ចំណុចណា។
Preprocessor ជាផ្នែកមួយនៃកម្មវិធីកុំព្យូទ័រដែលមានតួនាទីរៀបចំ សម្អាត កែសម្រួល និងផ្លាស់ប្តូរទម្រង់ទិន្នន័យឆៅ (Raw Data) ឱ្យទៅជាទម្រង់ស្តង់ដារ មុននឹងបញ្ជូនទិន្នន័យនោះទៅធ្វើការវិភាគលម្អិត ឬគូរជាក្រាហ្វិក។ ប្រៀបដូចជាចុងភៅដែលត្រូវលាងបន្លែ និងកាប់សាច់ឱ្យស្អាតសិន (Pre-processing) មុននឹងចាប់ផ្តើមចម្អិនម្ហូបជាក់ស្តែង (Analysis)។
Regridding ជាបច្ចេកទេសនៃការផ្លាស់ប្តូរទំហំ ឬរចនាសម្ព័ន្ធនៃក្រឡាចក្រ (Grid) របស់ទិន្នន័យផែនទីមួយ ឱ្យស្របគ្នាទៅនឹងផែនទីមួយទៀត ដើម្បីអាចយកទិន្នន័យពីប្រភពផ្សេងគ្នា (ឧទាហរណ៍៖ ទិន្នន័យផ្កាយរណប និងទិន្នន័យគំរូកុំព្យូទ័រ) មកប្រៀបធៀបគ្នាបាន។ ប្រៀបដូចជាការគូសក្រឡាការ៉ូថ្មីនៅលើរូបភាពមួយ ដើម្បីឱ្យវាមានចំនួនក្រឡាស្មើនឹងរូបភាពមួយទៀត ទើបអាចដាក់ត្រួតលើគ្នាដើម្បីផ្ទៀងផ្ទាត់បាន។
Lazy evaluation ជាយុទ្ធសាស្ត្រនៃការគណនាក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រ ដែលកម្មវិធីនឹងមិនទាន់ធ្វើការគណនាភ្លាមៗនោះទេ រហូតទាល់តែលទ្ធផលនោះត្រូវបានត្រូវការជាចាំបាច់។ វិធីនេះជួយសន្សំសំចៃអង្គចងចាំ (RAM) យ៉ាងខ្លាំងនៅពេលធ្វើការជាមួយទិន្នន័យធំៗ។ ប្រៀបដូចជាអ្នកបម្រើនៅភោជនីយដ្ឋាន ដែលមិនទាន់ប្រាប់ចុងភៅឱ្យធ្វើម្ហូប រហូតទាល់តែភ្ញៀវមកដល់ហើយកុម្ម៉ង់ជាក់ស្តែង ទើបចាប់ផ្តើមធ្វើ ដើម្បីកុំឱ្យសល់ម្ហូបចោល។
Provenance ជាប្រវត្តិ ឬកំណត់ត្រាលម្អិតអំពីប្រភពដើមនៃទិន្នន័យ និងរាល់ជំហាននៃការកែប្រែដែលបានធ្វើឡើងលើទិន្នន័យនោះ តាំងពីដើមរហូតដល់ចប់។ វាមានសារៈសំខាន់ណាស់ដើម្បីធានាថា អ្នកផ្សេងអាចយកការពិសោធន៍នោះមកធ្វើឡើងវិញ (Reproducibility) បានត្រឹមត្រូវ។ ប្រៀបដូចជា "សំបុត្រកំណើត" និង "ប្រវត្តិរូប" នៃទិន្នន័យ ដែលប្រាប់ថាវាមានប្រភពមកពីណា និងអ្នកណាបានយកវាទៅធ្វើអ្វីខ្លះ។
Multi-model statistics ជាការប្រើប្រាស់វិធីសាស្ត្រស្ថិតិ (ដូចជា មធ្យមភាគ ឬ មេដ្យាន) លើលទ្ធផលដែលបានមកពីគំរូអាកាសធាតុជាច្រើនផ្សេងៗគ្នា ដើម្បីកាត់បន្ថយភាពមិនប្រាកដប្រជា និងទទួលបានការព្យាករណ៍ដែលគួរឱ្យទុកចិត្តជាងការប្រើគំរូតែមួយ។ ប្រៀបដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញច្រើននាក់ ដើម្បីប្រាកដថាការព្យាបាលមួយណាដែលត្រឹមត្រូវបំផុត ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។
YAML (YAML Ain't Markup Language) ជាទម្រង់នៃភាសាកុំព្យូទ័រដែលត្រូវបានរចនាឡើងឱ្យងាយស្រួលសម្រាប់មនុស្សអាន និងសរសេរ។ នៅក្នុង ESMValTool វាត្រូវបានប្រើសម្រាប់បង្កើត "Recipe" ឬបញ្ជីនៃការណែនាំ ដើម្បីប្រាប់កម្មវិធីឱ្យដឹងថាត្រូវយកទិន្នន័យអ្វីមកវិភាគ និងវិភាគតាមរបៀបណា។ ប្រៀបដូចជាការសរសេរ "បញ្ជីមុខម្ហូប" និង "របៀបធ្វើ" ដាក់លើក្រដាសយ៉ាងច្បាស់លាស់ ដើម្បីឱ្យចុងភៅ (កុំព្យូទ័រ) ធ្វើតាម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖