បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការវាយតម្លៃ និងការព្យាករណ៍កម្រិតនៃការបំពុលខ្យល់ ដោយសង្កត់ធ្ងន់លើតម្រូវការនៃគំរូដែលអាចចាប់យកទំនាក់ទំនងលំហ និងពេលវេលាដ៏ស្មុគស្មាញនៅកម្រិតទូទាំងប្រទេស។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគំរូ Deep Learning បែបកូនកាត់ដែលរួមបញ្ចូលគ្នានូវបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដើម្បីវិភាគទិន្នន័យចម្រុះសម្រាប់ការតាក់តែងគំរូព្យាករណ៍។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| GeoCC-Conv3DLSTM គំរូ 3D Convolution រួមបញ្ចូលជាមួយ LSTM |
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកលំនាំលំហនិងពេលវេលាដ៏ស្មុគស្មាញ និងផ្តល់លទ្ធផលព្យាករណ៍សុក្រឹតបំផុតសម្រាប់សារធាតុបំពុលស្ទើរតែទាំងអស់។ មានដំណើរការល្អសូម្បីតែក្នងស្ថានភាពខ្វះខាតទិន្នន័យ (ដូចជានៅប្រទេសឥណ្ឌា)។ | ត្រូវការកម្លាំងម៉ាស៊ីនគណនា (Computing power) ខ្ពស់ជាងគំរូ 2D ហើយទទួលបានលទ្ធផលទាបជាងគំរូ 2D បន្តិចសម្រាប់តែសារធាតុ CO ប៉ុណ្ណោះ។ | កាត់បន្ថយកំហុស RMSE បាន ៧៧.៨៧% និង MAE បាន ៥២.៤៨% បើធៀបនឹងគំរូ GAT+LSTM ព្រមទាំងទទួលបាន RMSE មធ្យម ០.៥៤៩ នៅប្រទេសឥណ្ឌា។ |
| GeoCC-Conv2DLSTM គំរូ 2D Convolution រួមបញ្ចូលជាមួយ LSTM |
មានដំណើរការល្អបំផុតក្នុងការទស្សន៍ទាយសារធាតុបំពុលដែលមានការសាយភាយស្មើគ្នាល្អ ដូចជាឧស្ម័នកាបូនម៉ូណូអុកស៊ីត (CO) និងចំណាយធនធានកុំព្យូទ័រតិចជាង 3D។ | មិនសូវមានប្រសិទ្ធភាពក្នុងការចាប់យកទំនាក់ទំនងលំហនិងពេលវេលាដែលមានភាពស្មុគស្មាញខ្លាំង ដូចទៅនឹងគំរូប្រភេទ 3D នោះទេ។ | ទទួលបានលទ្ធផលល្អជាងគេបំផុតសម្រាប់តែការទស្សន៍ទាយកម្រិតឧស្ម័នកាបូនម៉ូណូអុកស៊ីត (CO) ដោយមានកំហុស RMSE ត្រឹមតែ ០.០៨៣។ |
| GAT(GCN)+LSTM គំរូក្រាហ្វ Graph Attention/Convolutional Networks បូកជាមួយ LSTM |
ជាវិធីសាស្ត្រទំនើប (State-of-the-art) ដែលស័ក្តិសមសម្រាប់ការរៀបចំទិន្នន័យជាទម្រង់បណ្តាញ (Graph network) នៃស្ថានីយ៍វាស់វែង។ | មិនអាចចាប់យកទំនាក់ទំនងនៃអាកាសធាតុ បរិបទ និងកត្តាភូមិសាស្ត្រផ្សេងៗបានល្អដូចវិធីសាស្ត្រ CNN-LSTM នោះទេ ដែលបណ្តាលឱ្យមានកំហុសខ្ពស់ជាង។ | មានអត្រាកំហុសខ្ពស់ជាងគេបំផុតក្នុងចំណោមគំរូទាំងបី ទាំងទៅលើរង្វាស់ RMSE (០.៩៥១ សម្រាប់ SO2) និង MAE សម្រាប់គ្រប់សារធាតុបំពុល។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង (Hardware) និងពេលវេលាដែលត្រូវប្រើប្រាស់សម្រាប់ការហ្វឹកហាត់គំរូ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យគុណភាពខ្យល់ពីប្រទេសអេស្ប៉ាញ និងទិន្នន័យកែច្នៃ CAMS ពីប្រទេសឥណ្ឌា ដែលសុទ្ធសឹងជាតំបន់មានបណ្តាញតាមដានទូលំទូលាយ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើស្ថានីយ៍ដីផ្ទាល់អាចជាបញ្ហាដោយសារកង្វះខាតស្ថានីយ៍ ប៉ុន្តែការប្រើប្រាស់ទិន្នន័យផ្កាយរណប CAMS ក្នុងករណីប្រទេសឥណ្ឌា បង្ហាញពីលទ្ធភាពខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជាទោះបីខ្វះទិន្នន័យក៏ដោយ។
វិធីសាស្ត្រនិងគំរូនេះពិតជាមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តដើម្បីដោះស្រាយបញ្ហាការបំពុលខ្យល់នៅប្រទេសកម្ពុជា។
ជារួម គំរូ GeoCC-Conv3DLSTM ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំមួយដែលអាចជួយឲ្យរដ្ឋាភិបាលកម្ពុជាព្យាករណ៍គុណភាពខ្យល់ទូទាំងប្រទេសបាន ទោះបីជាស្ថិតក្នុងស្ថានភាពខ្វះខាតស្ថានីយ៍វាស់វែងតាមដីក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Long Short-Term Memory (LSTM) | ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំទិន្នន័យចាស់ៗក្នុងរយៈពេលយូរ និងប្រើវាដើម្បីទស្សន៍ទាយទិន្នន័យក្នុងពេលអនាគត (ឧទាហរណ៍ និន្នាការនៃការបំពុលខ្យល់តាមពេលវេលា)។ | ដូចជាសៀវភៅកំណត់ហេតុប្រចាំថ្ងៃដែលជួយឱ្យយើងចងចាំព្រឹត្តិការណ៍សំខាន់ៗកាលពីខែមុន ដើម្បីត្រៀមខ្លួនសម្រាប់ខែនេះ ដោយមិនចាំបាច់ចងចាំរឿងកំប៉ិកកំប៉ុកនោះទេ។ |
| 3D Convolution | ជាបច្ចេកទេសគណិតវិទ្យាក្នុងការរៀនស៊ីជម្រៅ (Deep Learning) ដែលវិភាគទិន្នន័យមិនត្រឹមតែតាមវិមាត្រលំហ (បណ្ដោយ និងទទឹង) ប៉ុណ្ណោះទេ តែថែមទាំងរួមបញ្ចូលវិមាត្រទី៣ គឺ "ពេលវេលា" ដើម្បីទាញយកទំនាក់ទំនងស្មុគស្មាញនៃបាតុភូតអ្វីមួយ។ | ដូចជាការមើលវីដេអូដែលមានចលនា (3D) ជាជាងការមើលរូបថតធ្លាប់តែមួយសន្លឹក (2D) ដែលអនុញ្ញាតឱ្យយើងយល់ពីសកម្មភាពផ្លាស់ប្តូរទាំងមូលបានច្បាស់ជាង។ |
| Haversine distance | ជារូបមន្តគណិតវិទ្យាសម្រាប់គណនាចម្ងាយខ្លីបំផុតរវាងចំណុចពីរនៅលើផ្ទៃរាងស្វ៊ែរ (ដូចជាផែនដី) ដោយផ្អែកលើកូអរដោនេរយៈទទឹង (Latitude) និងរយៈបណ្ដោយ (Longitude) ដើម្បីវាស់ចម្ងាយពិតប្រាកដរវាងស្ថានីយ៍។ | ដូចជាការវាស់ចម្ងាយហោះហើររបស់យន្តហោះកាត់តាមកោងនៃផែនដី ជាជាងការវាស់ចម្ងាយតាមបន្ទាត់ត្រង់លើផែនទីក្រដាសរាបស្មើ។ |
| Graph Neural Networks (GNN) | ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងជាពិសេសដើម្បីដំណើរការទិន្នន័យដែលតំណាងជា "ក្រាហ្វ" (ចំណុចនីមួយៗតភ្ជាប់គ្នាជាបណ្តាញ) ដូចជាបណ្តាញទំនាក់ទំនងនៃស្ថានីយ៍វាស់វែងគុណភាពខ្យល់ដែលនៅក្បែរៗគ្នា។ | ដូចជាការសិក្សាពីឥទ្ធិពល និងអត្តចរិតរបស់មនុស្សម្នាក់ដោយមើលទៅលើមិត្តភក្តិទាំងអស់ដែលគេរាប់អាន ជាជាងការវាយតម្លៃមនុស្សនោះតែម្នាក់ឯង។ |
| k-dimensional tree (KD-tree) | ជារចនាសម្ព័ន្ធទិន្នន័យ (Data structure) ដែលរៀបចំចំណុចកូអរដោនេក្នុងលំហ ដើម្បីឱ្យកុំព្យូទ័រអាចស្វែងរកទីតាំងស្ថានីយ៍អាកាសធាតុដែលនៅជិតបំផុតបានយ៉ាងឆាប់រហ័សសម្រាប់ធ្វើការផ្គូផ្គងទិន្នន័យ។ | ដូចជាការរៀបចំសៀវភៅក្នុងបណ្ណាល័យតាមផ្នែក តាមជួរ និងតាមធ្នើរ ដែលជួយឱ្យអ្នកបណ្ណារក្សអាចស្វែងរកសៀវភៅមួយក្បាលបានភ្លាមៗ ដោយមិនបាច់ដើររកមើលគ្រប់សៀវភៅទាំងអស់។ |
| One Hot Encoding | ជាបច្ចេកទេសបំប្លែងទិន្នន័យប្រភេទអក្សរ ឬប្រភេទក្រុម (ឧទាហរណ៍៖ ប្រភេទទីតាំងស្ថានីយ៍) ទៅជាទម្រង់លេខកូដសូន្យនិងមួយ (Binary) ដើម្បីឱ្យកុំព្យូទ័រអាចយកទៅធ្វើការគណនាក្នុងម៉ូដែលកុំព្យូទ័របាន។ | ដូចជាការប្តូរឈ្មោះពណ៌ (ក្រហម ខៀវ លឿង) ទៅជាកុងតាក់ភ្លើង ៣ ផ្សេងគ្នា។ បើចង់បានពណ៌ក្រហម កុងតាក់ទី១ត្រូវបើក (១) ឯកុងតាក់២ទៀតត្រូវបិទ (០)។ |
| Time series decomposition (STL method) | ជាវិធីសាស្ត្រស្ថិតិដែលបំបែកទិន្នន័យប្រែប្រួលតាមពេលវេលា ទៅជាផ្នែកដាច់ដោយឡែកពីគ្នាដូចជា៖ និន្នាការទូទៅ (Trend) លំនាំតាមរដូវកាល (Seasonality) និងកត្តាប្រែប្រួលចៃដន្យ (Residual) ដើម្បីងាយស្រួលឱ្យម៉ូដែលយល់ពីប្រភពនៃការប្រែប្រួលទិន្នន័យ។ | ដូចជាការញែកសំឡេងភ្លេងចម្រុះចេញពីគ្នា ទៅជាសំឡេងស្គរ សំឡេងហ្គីតា និងសំឡេងអ្នកច្រៀង ដើម្បីងាយស្រួលស្តាប់ចំណុចពិសេសនៃឧបករណ៍នីមួយៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖