Original Title: GeoCC-ConvLSTM: a Model for Nationwide Air Quality Forecasting
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

GeoCC-ConvLSTM: គំរូសម្រាប់ការព្យាករណ៍គុណភាពខ្យល់ទូទាំងប្រទេស

ចំណងជើងដើម៖ GeoCC-ConvLSTM: a Model for Nationwide Air Quality Forecasting

អ្នកនិពន្ធ៖ Marc Semper (University of Alicante), Manuel Curado (University of Alicante), Jose F. Vicent (University of Alicante)

ឆ្នាំបោះពុម្ព៖ 2024 ICPR

វិស័យសិក្សា៖ Machine Learning / Environmental Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការវាយតម្លៃ និងការព្យាករណ៍កម្រិតនៃការបំពុលខ្យល់ ដោយសង្កត់ធ្ងន់លើតម្រូវការនៃគំរូដែលអាចចាប់យកទំនាក់ទំនងលំហ និងពេលវេលាដ៏ស្មុគស្មាញនៅកម្រិតទូទាំងប្រទេស។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគំរូ Deep Learning បែបកូនកាត់ដែលរួមបញ្ចូលគ្នានូវបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដើម្បីវិភាគទិន្នន័យចម្រុះសម្រាប់ការតាក់តែងគំរូព្យាករណ៍។

ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទវាយតម្លៃលំហ (2D and 3D Convolutions) សម្រាប់ទាញយកទំនាក់ទំនងទីតាំងរូបវន្ត។
ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទវាយតម្លៃពេលវេលា (LSTM - Long Short-Term Memory) សម្រាប់ចាប់យកទំនាក់ទំនងបរិបទនៃពេលវេលារយៈពេលវែង។
ការធ្វើសមាហរណកម្មទិន្នន័យភូមិសាស្ត្រ អាកាសធាតុ (ERA5/CAMS) និងបរិបទរបស់ស្ថានីយ៍វាស់វែងគុណភាពខ្យល់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ GeoCC-Conv3DLSTM ទទួលបានលទ្ធផលល្អជាងគេ ដោយកាត់បន្ថយកំហុស RMSE បាន 77.87% និងកំហុស MAE បាន 52.48% បើប្រៀបធៀបទៅនឹងគំរូស្រដៀងគ្នាផ្សេងទៀតនៅប្រទេសអេស្ប៉ាញ។
គំរូនេះក៏បង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការធ្វើទូទៅកម្ម (Generalization) លើសំណុំទិន្នន័យនៃប្រទេសឥណ្ឌា ដែលមានលក្ខខណ្ឌអាកាសធាតុ និងការបំពុលខុសគ្នាស្រឡះ។
ការរួមបញ្ចូលទិន្នន័យអាកាសធាតុបន្ថែម និងការរៀបចំរចនាសម្ព័ន្ធទិន្នន័យជាទម្រង់ 3D Tensors ជួយឱ្យគំរូចាប់យកលំនាំស្មុគស្មាញបានយ៉ាងល្អប្រសើរ និងបង្កើនភាពសុក្រឹតនៃការទស្សន៍ទាយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GeoCC-Conv3DLSTM គំរូ 3D Convolution រួមបញ្ចូលជាមួយ LSTM	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកលំនាំលំហនិងពេលវេលាដ៏ស្មុគស្មាញ និងផ្តល់លទ្ធផលព្យាករណ៍សុក្រឹតបំផុតសម្រាប់សារធាតុបំពុលស្ទើរតែទាំងអស់។ មានដំណើរការល្អសូម្បីតែក្នងស្ថានភាពខ្វះខាតទិន្នន័យ (ដូចជានៅប្រទេសឥណ្ឌា)។	ត្រូវការកម្លាំងម៉ាស៊ីនគណនា (Computing power) ខ្ពស់ជាងគំរូ 2D ហើយទទួលបានលទ្ធផលទាបជាងគំរូ 2D បន្តិចសម្រាប់តែសារធាតុ CO ប៉ុណ្ណោះ។	កាត់បន្ថយកំហុស RMSE បាន ៧៧.៨៧% និង MAE បាន ៥២.៤៨% បើធៀបនឹងគំរូ GAT+LSTM ព្រមទាំងទទួលបាន RMSE មធ្យម ០.៥៤៩ នៅប្រទេសឥណ្ឌា។
GeoCC-Conv2DLSTM គំរូ 2D Convolution រួមបញ្ចូលជាមួយ LSTM	មានដំណើរការល្អបំផុតក្នុងការទស្សន៍ទាយសារធាតុបំពុលដែលមានការសាយភាយស្មើគ្នាល្អ ដូចជាឧស្ម័នកាបូនម៉ូណូអុកស៊ីត (CO) និងចំណាយធនធានកុំព្យូទ័រតិចជាង 3D។	មិនសូវមានប្រសិទ្ធភាពក្នុងការចាប់យកទំនាក់ទំនងលំហនិងពេលវេលាដែលមានភាពស្មុគស្មាញខ្លាំង ដូចទៅនឹងគំរូប្រភេទ 3D នោះទេ។	ទទួលបានលទ្ធផលល្អជាងគេបំផុតសម្រាប់តែការទស្សន៍ទាយកម្រិតឧស្ម័នកាបូនម៉ូណូអុកស៊ីត (CO) ដោយមានកំហុស RMSE ត្រឹមតែ ០.០៨៣។
GAT(GCN)+LSTM គំរូក្រាហ្វ Graph Attention/Convolutional Networks បូកជាមួយ LSTM	ជាវិធីសាស្ត្រទំនើប (State-of-the-art) ដែលស័ក្តិសមសម្រាប់ការរៀបចំទិន្នន័យជាទម្រង់បណ្តាញ (Graph network) នៃស្ថានីយ៍វាស់វែង។	មិនអាចចាប់យកទំនាក់ទំនងនៃអាកាសធាតុ បរិបទ និងកត្តាភូមិសាស្ត្រផ្សេងៗបានល្អដូចវិធីសាស្ត្រ CNN-LSTM នោះទេ ដែលបណ្តាលឱ្យមានកំហុសខ្ពស់ជាង។	មានអត្រាកំហុសខ្ពស់ជាងគេបំផុតក្នុងចំណោមគំរូទាំងបី ទាំងទៅលើរង្វាស់ RMSE (០.៩៥១ សម្រាប់ SO2) និង MAE សម្រាប់គ្រប់សារធាតុបំពុល។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង (Hardware) និងពេលវេលាដែលត្រូវប្រើប្រាស់សម្រាប់ការហ្វឹកហាត់គំរូ។

Hardware: កុំព្យូទ័រផ្ទាល់ខ្លួនដែលបំពាក់ដោយក្រាហ្វិកកាត (GPU) ប្រភេទ GTX 4070 និងអង្គគណនា (CPU) i9-13900KF។
Time: ដំណើរការហ្វឹកហាត់គំរូ (Training) ចំណាយពេលប្រហែល ២ម៉ោង (២០០ epochs) និងចំណាយពេលតិចជាង ២នាទី សម្រាប់ការទស្សន៍ទាយលទ្ធផលជាក់ស្តែង។
Software: ប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ (Library) PyTorch លើប្រព័ន្ធប្រតិបត្តិការ Windows។
Dataset: ទិន្នន័យគុណភាពខ្យល់អេស្ប៉ាញ (៥ ឆ្នាំ ពីឆ្នាំ២០១៨-២០២២ ស្មើនឹង ១៦.៧លានកំណត់ត្រា), ទិន្នន័យអាកាសធាតុ ERA5, និងទិន្នន័យរណប CAMS សម្រាប់វាយតម្លៃនៅប្រទេសឥណ្ឌា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យគុណភាពខ្យល់ពីប្រទេសអេស្ប៉ាញ និងទិន្នន័យកែច្នៃ CAMS ពីប្រទេសឥណ្ឌា ដែលសុទ្ធសឹងជាតំបន់មានបណ្តាញតាមដានទូលំទូលាយ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើស្ថានីយ៍ដីផ្ទាល់អាចជាបញ្ហាដោយសារកង្វះខាតស្ថានីយ៍ ប៉ុន្តែការប្រើប្រាស់ទិន្នន័យផ្កាយរណប CAMS ក្នុងករណីប្រទេសឥណ្ឌា បង្ហាញពីលទ្ធភាពខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជាទោះបីខ្វះទិន្នន័យក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនិងគំរូនេះពិតជាមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តដើម្បីដោះស្រាយបញ្ហាការបំពុលខ្យល់នៅប្រទេសកម្ពុជា។

រាជធានីភ្នំពេញ (Phnom Penh Capital): អាចប្រើប្រាស់គំរូនេះដើម្បីតាមដាន និងព្យាករណ៍ការបំពុលខ្យល់ដែលបង្កឡើងដោយចរាចរណ៍កកស្ទះ ការដ្ឋានសំណង់ និងឧស្សាហកម្មនានាជុំវិញក្រុង។
តំបន់កសិកម្ម និងជុំវិញបឹងទន្លេសាប (Agricultural & Tonle Sap Regions): ប្រើសម្រាប់តាមដានការសាយភាយនៃភាគល្អិត PM2.5 ដែលបណ្តាលមកពីការដុតសំណល់កសិកម្ម និងភ្លើងព្រៃនារដូវប្រាំង ដែលតែងតែជះឥទ្ធិពលដល់ខេត្តជិតខាង។
ក្រសួងបរិស្ថាន (Ministry of Environment): អាចរួមបញ្ចូលទិន្នន័យផ្កាយរណបបរិយាកាស (ដូចជា ERA5 និង CAMS) ជាមួយទិន្នន័យស្ថានីយ៍របស់ក្រសួង ដើម្បីបង្កើតប្រព័ន្ធប្រកាសអាសន្នគុណភាពខ្យល់កម្រិតជាតិប្រកបដោយភាពសុក្រឹត។

ជារួម គំរូ GeoCC-Conv3DLSTM ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំមួយដែលអាចជួយឲ្យរដ្ឋាភិបាលកម្ពុជាព្យាករណ៍គុណភាពខ្យល់ទូទាំងប្រទេសបាន ទោះបីជាស្ថិតក្នុងស្ថានភាពខ្វះខាតស្ថានីយ៍វាស់វែងតាមដីក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Spatiotemporal Deep Learning: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីការប្រើប្រាស់បណ្ណាល័យ PyTorch ជាពិសេសការសរសេរកូដសម្រាប់ Convolutional Neural Networks (2D និង 3D CNNs) និង Long Short-Term Memory (LSTM)។
ប្រមូល និងធ្វើសមាហរណកម្មទិន្នន័យ (Data Collection & Integration): ទាញយកទិន្នន័យអាកាសធាតុពី ERA5 ឬ ទិន្នន័យតាមដានបរិយាកាសពី CAMS (Copernicus Atmosphere Monitoring Service) រួចប្រើប្រាស់វិធីសាស្ត្រ KD-tree ដើម្បីភ្ជាប់វាជាមួយទិន្នន័យកម្រិតការបំពុលក្នុងស្រុក។
រៀបចំរចនាសម្ព័ន្ធទិន្នន័យជាទម្រង់ 3D Tensor: រៀបចំទិន្នន័យតាមលំដាប់លំដោយដោយប្រើ Haversine distance សម្រាប់ទីតាំងភូមិសាស្ត្រ និង Pearson correlation សម្រាប់ពេលវេលា រួចបញ្ចូលវាទៅក្នុងទម្រង់ 3D Array ដើម្បីត្រៀមបញ្ចូលទៅក្នុងគំរូ។
អភិវឌ្ឍ និងហ្វឹកហាត់គំរូ GeoCC-Conv3DLSTM: សរសេរកូដបង្កើតរចនាសម្ព័ន្ធគំរូដោយមានស្រទាប់ Conv3D បន្តដោយ BatchNorm3D និង ReLU ហើយបញ្ជូនលទ្ធផលទៅកាន់ស្រទាប់ LSTM (Hidden layers: 90) រួចប្រើប្រាស់ AdamW optimizer ជាមួយកម្រិត Learning rate 0.01 ដើម្បីហ្វឹកហាត់ (Train) ម៉ូដែល។
វាយតម្លៃ និងកែសម្រួលគំរូ (Model Evaluation): ធ្វើតេស្តគំរូជាមួយទិន្នន័យដែលបានកាត់ទុក (Test dataset) ដោយប្រើប្រាស់រង្វាស់ RMSE និង MAE ដើម្បីវាស់ស្ទង់កម្រិតលម្អៀង ហើយកែសម្រួល Hyperparameters បន្ថែមដើម្បីកាត់បន្ថយកំហុសឱ្យនៅទាបបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំទិន្នន័យចាស់ៗក្នុងរយៈពេលយូរ និងប្រើវាដើម្បីទស្សន៍ទាយទិន្នន័យក្នុងពេលអនាគត (ឧទាហរណ៍ និន្នាការនៃការបំពុលខ្យល់តាមពេលវេលា)។	ដូចជាសៀវភៅកំណត់ហេតុប្រចាំថ្ងៃដែលជួយឱ្យយើងចងចាំព្រឹត្តិការណ៍សំខាន់ៗកាលពីខែមុន ដើម្បីត្រៀមខ្លួនសម្រាប់ខែនេះ ដោយមិនចាំបាច់ចងចាំរឿងកំប៉ិកកំប៉ុកនោះទេ។
3D Convolution	ជាបច្ចេកទេសគណិតវិទ្យាក្នុងការរៀនស៊ីជម្រៅ (Deep Learning) ដែលវិភាគទិន្នន័យមិនត្រឹមតែតាមវិមាត្រលំហ (បណ្ដោយ និងទទឹង) ប៉ុណ្ណោះទេ តែថែមទាំងរួមបញ្ចូលវិមាត្រទី៣ គឺ "ពេលវេលា" ដើម្បីទាញយកទំនាក់ទំនងស្មុគស្មាញនៃបាតុភូតអ្វីមួយ។	ដូចជាការមើលវីដេអូដែលមានចលនា (3D) ជាជាងការមើលរូបថតធ្លាប់តែមួយសន្លឹក (2D) ដែលអនុញ្ញាតឱ្យយើងយល់ពីសកម្មភាពផ្លាស់ប្តូរទាំងមូលបានច្បាស់ជាង។
Haversine distance	ជារូបមន្តគណិតវិទ្យាសម្រាប់គណនាចម្ងាយខ្លីបំផុតរវាងចំណុចពីរនៅលើផ្ទៃរាងស្វ៊ែរ (ដូចជាផែនដី) ដោយផ្អែកលើកូអរដោនេរយៈទទឹង (Latitude) និងរយៈបណ្ដោយ (Longitude) ដើម្បីវាស់ចម្ងាយពិតប្រាកដរវាងស្ថានីយ៍។	ដូចជាការវាស់ចម្ងាយហោះហើររបស់យន្តហោះកាត់តាមកោងនៃផែនដី ជាជាងការវាស់ចម្ងាយតាមបន្ទាត់ត្រង់លើផែនទីក្រដាសរាបស្មើ។
Graph Neural Networks (GNN)	ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងជាពិសេសដើម្បីដំណើរការទិន្នន័យដែលតំណាងជា "ក្រាហ្វ" (ចំណុចនីមួយៗតភ្ជាប់គ្នាជាបណ្តាញ) ដូចជាបណ្តាញទំនាក់ទំនងនៃស្ថានីយ៍វាស់វែងគុណភាពខ្យល់ដែលនៅក្បែរៗគ្នា។	ដូចជាការសិក្សាពីឥទ្ធិពល និងអត្តចរិតរបស់មនុស្សម្នាក់ដោយមើលទៅលើមិត្តភក្តិទាំងអស់ដែលគេរាប់អាន ជាជាងការវាយតម្លៃមនុស្សនោះតែម្នាក់ឯង។
k-dimensional tree (KD-tree)	ជារចនាសម្ព័ន្ធទិន្នន័យ (Data structure) ដែលរៀបចំចំណុចកូអរដោនេក្នុងលំហ ដើម្បីឱ្យកុំព្យូទ័រអាចស្វែងរកទីតាំងស្ថានីយ៍អាកាសធាតុដែលនៅជិតបំផុតបានយ៉ាងឆាប់រហ័សសម្រាប់ធ្វើការផ្គូផ្គងទិន្នន័យ។	ដូចជាការរៀបចំសៀវភៅក្នុងបណ្ណាល័យតាមផ្នែក តាមជួរ និងតាមធ្នើរ ដែលជួយឱ្យអ្នកបណ្ណារក្សអាចស្វែងរកសៀវភៅមួយក្បាលបានភ្លាមៗ ដោយមិនបាច់ដើររកមើលគ្រប់សៀវភៅទាំងអស់។
One Hot Encoding	ជាបច្ចេកទេសបំប្លែងទិន្នន័យប្រភេទអក្សរ ឬប្រភេទក្រុម (ឧទាហរណ៍៖ ប្រភេទទីតាំងស្ថានីយ៍) ទៅជាទម្រង់លេខកូដសូន្យនិងមួយ (Binary) ដើម្បីឱ្យកុំព្យូទ័រអាចយកទៅធ្វើការគណនាក្នុងម៉ូដែលកុំព្យូទ័របាន។	ដូចជាការប្តូរឈ្មោះពណ៌ (ក្រហម ខៀវ លឿង) ទៅជាកុងតាក់ភ្លើង ៣ ផ្សេងគ្នា។ បើចង់បានពណ៌ក្រហម កុងតាក់ទី១ត្រូវបើក (១) ឯកុងតាក់២ទៀតត្រូវបិទ (០)។
Time series decomposition (STL method)	ជាវិធីសាស្ត្រស្ថិតិដែលបំបែកទិន្នន័យប្រែប្រួលតាមពេលវេលា ទៅជាផ្នែកដាច់ដោយឡែកពីគ្នាដូចជា៖ និន្នាការទូទៅ (Trend) លំនាំតាមរដូវកាល (Seasonality) និងកត្តាប្រែប្រួលចៃដន្យ (Residual) ដើម្បីងាយស្រួលឱ្យម៉ូដែលយល់ពីប្រភពនៃការប្រែប្រួលទិន្នន័យ។	ដូចជាការញែកសំឡេងភ្លេងចម្រុះចេញពីគ្នា ទៅជាសំឡេងស្គរ សំឡេងហ្គីតា និងសំឡេងអ្នកច្រៀង ដើម្បីងាយស្រួលស្តាប់ចំណុចពិសេសនៃឧបករណ៍នីមួយៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖