Original Title: A Framework Based on Data Triangulation and Machine Learning Techniques to Fill Missing Data in Weather Time Series
Source: www.ufsj.edu.br
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ក្របខ័ណ្ឌផ្អែកលើការធ្វើត្រីកោណមាត្រទិន្នន័យ និងបច្ចេកទេស Machine Learning ដើម្បីបំពេញទិន្នន័យដែលបាត់បង់ក្នុងស៊េរីពេលវេលាអាកាសធាតុ

ចំណងជើងដើម៖ A Framework Based on Data Triangulation and Machine Learning Techniques to Fill Missing Data in Weather Time Series

អ្នកនិពន្ធ៖ Vinícius H. C. Lima (Universidade Federal de São João del-Rei), Marconi A. Pereira (Universidade Federal de São João del-Rei)

ឆ្នាំបោះពុម្ព៖ Preprint submitted to Elsevier

វិស័យសិក្សា៖ Climatology and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ស៊េរីពេលវេលានៃទិន្នន័យអាកាសធាតុជាញឹកញាប់ជួបប្រទះបញ្ហាបាត់បង់ទិន្នន័យ ដែលកាត់បន្ថយគុណភាពនៃការវិភាគ និងការព្យាករណ៍អាកាសធាតុ។ ឯកសារនេះដោះស្រាយបញ្ហានេះដោយស្នើឡើងនូវគំរូកូនកាត់ដើម្បីប៉ាន់ស្មាននិងបំពេញទិន្នន័យសីតុណ្ហភាពដែលបាត់ដោយមានអត្រាកំហុសទាបបំផុត។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតក្របខ័ណ្ឌពីរដំណាក់កាលដោយរួមបញ្ចូលវិធីសាស្ត្រធ្វើត្រីកោណមាត្រតាមគណិតវិទ្យា (Triangulation methods) ជាមួយនឹងបច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine learning) សម្រាប់វាយតម្លៃស្ថានីយអាកាសធាតុប្រេស៊ីលចំនួន៤០។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Neural Network with Modified IDW / Regional Weight (Models 8 & 10)
បណ្តាញសរសៃប្រសាទរួមបញ្ចូលជាមួយវិធីសាស្ត្រ MIDW ឬ Regional Weight
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត និងអត្រាកំហុស (NRMSE) ទាបបំផុតនៅគ្រប់តំបន់អាកាសធាតុ។ វាអាចរៀនពីទំនាក់ទំនងស្មុគស្មាញរវាងទិន្នន័យស្ថានីយជិតខាង។ ទាមទារពេលវេលាក្នុងការបង្ហាត់ម៉ូដែល និងការកំណត់រចនាសម្ព័ន្ធបណ្តាញ (ឧ. កំណត់ 10 hidden layers) បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រធម្មតា។ ទទួលបានចំណាត់ថ្នាក់លេខ១ ជាម៉ូដែលដែលល្អដាច់គេ ឬស្ថិតក្នុងចំណោមម៉ូដែលល្អបំផុតនៅគ្រប់តំបន់សិក្សាទាំង១០ ផ្អែកលើការធ្វើតេស្ត ANOVA និ​ង Tukey។
Regional Weight (Model 5 - Triangulation Only)
ការថ្លឹងទម្ងន់តាមតំបន់ (វិធីសាស្ត្រត្រីកោណមាត្រតែមួយមុខ)
ងាយស្រួលអនុវត្ត មិនត្រូវការថាមពលកុំព្យូទ័រខ្ពស់ក្នុងការបង្ហាត់ និងមិនត្រូវការទិន្នន័យបណ្តុះបណ្តាល (Training data)។ មានភាពសុក្រឹតទាបជាងម៉ូដែលកូនកាត់ដែលប្រើ Machine Learning នៅពេលដែលទិន្នន័យមានបម្រែបម្រួលខ្លាំង។ ទទួលបានលទ្ធផលល្អគួរឱ្យកត់សម្គាល់ និងជាជម្រើសដ៏ល្អបំផុតក្នុងករណីដែលមិនអាចប្រើប្រាស់បច្ចេកទេស Machine Learning បាន។
Support Vector Machine (SVM) Hybrids
ម៉ូដែលកូនកាត់ Support Vector Machine
ដំណើរការបានល្អជាងវិធីសាស្ត្រត្រីកោណមាត្រធម្មតា និងមានសមត្ថភាពល្អក្នុងការដោះស្រាយទិន្នន័យដែលមិនមានទំនាក់ទំនងជាបន្ទាត់ត្រង់ (Non-linear) ដោយប្រើ Gaussian Kernel។ លទ្ធផលនៅមានកម្រិត និងចាញ់ប្រៀបម៉ូដែល Neural Network ខណៈពេលដែលនៅតែទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រស្មុគស្មាញ។ ជាប់ចំណាត់ថ្នាក់កម្រិតមធ្យម ពោលគឺល្អជាង Regression Trees តែមិនអាចយកឈ្នះ Neural Network នោះទេ។
Regression Trees & Bagged Trees Hybrids
ម៉ូដែលកូនកាត់ Regression Trees និង Bagged Trees
បច្ចេកទេស Bagging ជួយកាត់បន្ថយបញ្ហា Overfitting និងភាពប្រែប្រួលនៃលទ្ធផល (Variance) បើធៀបនឹងការប្រើ Regression Tree តែមួយ។ ទិន្នន័យព្យាករណ៍អាចមានភាពមិនច្បាស់លាស់ខ្ពស់ ដោយសារបំរែបំរួលនៅតាម Nodes ហើយផ្តល់អត្រាកំហុសខ្ពស់ជាងគេក្នុងចំណោមវិធីសាស្ត្រ Machine Learning។ ផ្តល់អត្រាកំហុស NRMSE ខ្ពស់ជាងគេ និងស្ថិតនៅចំណាត់ថ្នាក់ចុងក្រោយក្នុងចំណោមម៉ូដែល Machine Learning ទាំងអស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់យ៉ាងច្បាស់ពីការចំណាយលើផ្នែករឹង (Hardware) ក៏ដោយ ក៏ការអនុវត្តក្របខ័ណ្ឌនេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រជាមូលដ្ឋានសម្រាប់ការគណនា និងការបង្ហាត់ម៉ូដែលកូនកាត់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីស្ថានីយអាកាសធាតុនៅតំបន់ចំនួន១០ នៃប្រទេសប្រេស៊ីល (ពីឆ្នាំ២០០៨ ដល់ ២០១៧) ដែលតំណាងឱ្យអាកាសធាតុចម្រុះជាច្រើនរួមមាន តំបន់អេក្វាទ័រ និងពាក់កណ្តាលស្ងួត។ សម្រាប់ប្រទេសកម្ពុជាដែលមានអាកាសធាតុត្រូពិចមូសុង ការអនុវត្តម៉ូដែលនេះចាំបាច់ត្រូវមានការធ្វើតេស្តឡើងវិញ ព្រោះរបាយនៃស្ថានីយអាកាសធាតុ និងលក្ខណៈភូមិសាស្ត្ររបស់យើងមានភាពខុសគ្នា ដែលអាចជះឥទ្ធិពលដល់វិធីសាស្ត្រវាស់ចម្ងាយ (IDW)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកូនកាត់នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់កម្ពុជា ក្នុងការដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យអាកាសធាតុ ដែលតែងតែកើតមានដោយសារការខូចខាតឧបករណ៍ ឬកង្វះការថែទាំ។

ជារួម ការច្របាច់បញ្ចូលគ្នានូវរង្វាស់ភូមិសាស្ត្រ និងបញ្ញាសិប្បនិម្មិត នឹងជួយកម្ពុជាកសាងបាននូវឃ្លាំងទិន្នន័យអាកាសធាតុដ៏រឹងមាំមួយ ដែលជាឆ្អឹងខ្នងសម្រាប់ការអភិវឌ្ឍប្រកបដោយចីរភាព និងការទប់ទល់នឹងការប្រែប្រួលអាកាសធាតុ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងរៀបចំទិន្នន័យជាមុន (Data Collection & Preprocessing): ប្រមូលទិន្នន័យអាកាសធាតុពីស្ថានីយក្នុងស្រុកយ៉ាងហោចណាស់៤ (ស្ថានីយគោលដៅ១ និងស្ថានីយជិតខាង៣) ក្នុងរយៈពេល៥-១០ឆ្នាំចុងក្រោយ។ ប្រើប្រាស់ Pandas ក្នុង Python ដើម្បីច្រោះយកតែទិន្នន័យដែលមានថ្ងៃខែត្រួតគ្នានៅតាមស្ថានីយជិតខាង និងកំណត់អត្តសញ្ញាណទិន្នន័យដែលបាត់បង់។
  2. អនុវត្តវិធីសាស្ត្រធ្វើត្រីកោណមាត្រ (Apply Triangulation Methods - Phase 1): ប្រើប្រាស់កូដ NumPySciPy ដើម្បីគណនាចម្ងាយ (Haversine distance) និងប៉ាន់ស្មានតម្លៃទិន្នន័យដែលបាត់ដោយប្រើវិធីសាស្ត្រ Modified Inverse Distance Weighted (MIDW) និង Regional Weight (RW) ជាទិន្នន័យមូលដ្ឋាន។
  3. បង្ហាត់ម៉ូដែលបញ្ញាសិប្បនិម្មិត (Train Machine Learning Models - Phase 2): បែងចែកទិន្នន័យជា ៧០% សម្រាប់ Training និង ៣០% សម្រាប់ Testing។ ប្រើប្រាស់ Scikit-LearnTensorFlow/Keras ដើម្បីបង្កើតម៉ូដែល Neural Network ដែលមាន 10 hidden layers ដោយបញ្ចូលលទ្ធផលពីដំណាក់កាលទី១ ធ្វើជា Input features។
  4. វាយតម្លៃ និងវិភាគផ្នែកស្ថិតិ (Evaluate & Statistical Comparison): គណនាតម្លៃ NRMSE ដើម្បីវាស់ស្ទង់កម្រិតកំហុស។ បន្ទាប់មកប្រើប្រាស់ Statsmodels ដើម្បីធ្វើតេស្ត ANOVA និង Tukey's test ដោយផ្អែកលើ p-value < 0.05 ដើម្បីបញ្ជាក់តាមបែបវិទ្យាសាស្ត្រថា តើម៉ូដែលណាមួយមានដំណើរការល្អដាច់គេ។
  5. ដាក់ពង្រាយជាប្រព័ន្ធស្វ័យប្រវត្តិ (Deploy and Dashboarding): អភិវឌ្ឍន៍ផ្ទាំងគ្រប់គ្រង (Dashboard) តាមរយៈ StreamlitDash ដើម្បីអនុញ្ញាតឱ្យអ្នកពាក់ព័ន្ធអាចបញ្ចូលទិន្នន័យស្ថានីយដែលមានចន្លោះខ្វះខាត និងទទួលបានទិន្នន័យដែលត្រូវបានបំពេញរួចរាល់ដោយស្វ័យប្រវត្តិដើម្បីយកទៅប្រើប្រាស់បន្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
data imputation ដំណើរការនៃការប៉ាន់ស្មាន ឬបំពេញទិន្នន័យដែលបាត់បង់នៅក្នុងសំណុំទិន្នន័យ ដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់ ដើម្បីឱ្យការវិភាគឬការចងក្រងម៉ូដែលអាចដំណើរការបានដោយរលូន។ ដូចជាការសរសេរបំពេញចន្លោះអក្សរដែលបាត់ក្នុងប្រយោគមួយ ដោយទាយតាមអត្ថន័យនៃពាក្យជុំវិញវា។
triangulation វិធីសាស្ត្រគណិតវិទ្យាក្នុងការកំណត់តម្លៃ ឬទីតាំងមួយដែលមិនស្គាល់ ដោយផ្អែកលើទិន្នន័យពីចំណុចយោង (ស្ថានីយ) ដែលនៅជុំវិញវា ដើម្បីទាញរកតម្លៃកណ្តាល។ ដូចជាការស្វែងរកទីតាំងរបស់ទូរសព្ទដែលបាត់ ដោយវាស់ចម្ងាយពីអង់តែនទូរសព្ទចំនួន៣ដែលនៅជិតបំផុត។
Inverse Distance Weighted បច្ចេកទេសប៉ាន់ស្មានទិន្នន័យ ដែលផ្តល់តម្លៃ (ទម្ងន់) ខ្ពស់ទៅឱ្យស្ថានីយដែលនៅជិតទីតាំងគោលដៅជាងស្ថានីយដែលនៅឆ្ងាយ ដោយសន្មត់ថាទីតាំងជិតគ្នាមានលក្ខណៈអាកាសធាតុស្រដៀងគ្នា។ ដូចជាការស្តាប់មតិអ្នកជិតខាងផ្ទះទល់មុខគ្នា ដោយឱ្យតម្លៃខ្ពស់ជាងមតិអ្នកដែលរស់នៅម្ខាងទៀតនៃភូមិ ពេលចង់ដឹងពីសភាពការណ៍ក្នុងភូមិ។
Neural Network ប្រព័ន្ធក្បួនដោះស្រាយ (Machine Learning) ដែលត្រូវបានរចនាឡើងដោយត្រាប់តាមបណ្តាញសរសៃប្រសាទខួរក្បាលមនុស្ស ដើម្បីរៀននិងស្វែងយល់ពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៃទិន្នន័យបញ្ចូលគ្នាច្រើន។ ដូចជាក្មេងម្នាក់ដែលរៀនចំណាំមុខសត្វឆ្កែនិងឆ្មា តាមរយៈការមើលរូបភាពច្រើនដងរហូតដល់អាចបែងចែកដាច់ដោយខ្លួនឯង។
Support Vector Machine ក្បួនដោះស្រាយ Machine Learning ដែលបែងចែកទិន្នន័យជាក្រុមៗ ដោយស្វែងរកបន្ទាត់ ឬព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីកាត់ផ្តាច់រវាងចំណាត់ថ្នាក់នៃទិន្នន័យទាំងនោះ។ ដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីបែងចែកផ្លែប៉ោមពណ៌ក្រហម និងផ្លែប៉ោមពណ៌ខៀវឱ្យនៅដាច់ពីគ្នាដោយសុវត្ថិភាពបំផុត។
Bagged Trees ការប្រមូលផ្តុំម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Trees) តូចៗជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយរួមមួយ ដែលជួយកាត់បន្ថយកំហុសប្រភេទ Overfitting និងកាត់បន្ថយភាពប្រែប្រួលនៃទិន្នន័យ។ ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ១០នាក់ផ្សេងគ្នា ហើយយកចម្លើយរួមមួយដែលភាគច្រើនយល់ស្រប ជំនួសឱ្យការជឿគ្រូពេទ្យតែម្នាក់ឯង។
normalized root mean-squared error (NRMSE) រង្វាស់ស្ថិតិដែលប្រើសម្រាប់វាស់ស្ទង់កម្រិតកំហុសនៃម៉ូដែលទស្សន៍ទាយ ដោយប្រៀបធៀបភាពខុសគ្នារវាងទិន្នន័យជាក់ស្តែង និងទិន្នន័យដែលម៉ូដែលបានទាយ រួចធ្វើការធ្វើឱ្យមានស្តង់ដាររួម (Normalize)។ ដូចជាការដាក់ពិន្ទុឱ្យអ្នកបាញ់ធ្នូ ដោយវាស់ចម្ងាយសរុបដែលព្រួញឃ្លាតឆ្ងាយពីចំណុចកណ្តាលនៃគោលដៅ។
analysis of variance (ANOVA) វិធីសាស្ត្រស្ថិតិដែលប្រើដើម្បីប្រៀបធៀបមធ្យមភាគនៃក្រុមទិន្នន័យច្រើនជាងពីរ ដើម្បីរកមើលថាតើម៉ូដែលមួយណាល្អជាងគេដាច់ ឬគ្រាន់តែមានភាពខុសគ្នាតាមលក្ខណៈចៃដន្យ។ ដូចជាការប្រកួតរត់ប្រណាំងច្រើនដង ដើម្បីបញ្ជាក់ថាអ្នកឈ្នះពិតជាលឿនជាងគេមែន ឬគ្រាន់តែសំណាងល្អក្នុងវគ្គទីមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖