Original Title: Air Quality Index Prediction with Meteorological Data Using Feature Based Weighted Xgboost
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទស្សន៍ទាយសន្ទស្សន៍គុណភាពខ្យល់ជាមួយនឹងទិន្នន័យឧតុនិយមដោយប្រើប្រាស់ Feature Based Weighted XGBoost

ចំណងជើងដើម៖ Air Quality Index Prediction with Meteorological Data Using Feature Based Weighted Xgboost

អ្នកនិពន្ធ៖ NandigalaVenkatAnurag (SRMIST, Chennai, India), YagnavalkBurra (SRMIST, Chennai, India), S.Sharanya (SRMIST, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2019 International Journal of Recent Technology and Engineering (IJRTE)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការបំពុលខ្យល់គឺជាការគំរាមកំហែងយ៉ាងធ្ងន់ធ្ងរដល់សុខភាពមនុស្ស។ ឯកសារនេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយគុណភាពខ្យល់ ដោយការរួមបញ្ចូលទិន្នន័យកម្រិតជាតិពុល និងកត្តាឧតុនិយមដែលជារឿយៗត្រូវបានមើលរំលងក្នុងម៉ូដែលទស្សន៍ទាយទូទៅ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវម៉ូដែល Feature Based Weighted XGBoost ដើម្បីទស្សន៍ទាយសន្ទស្សន៍គុណភាពខ្យល់ (AQI) ដោយផ្អែកលើទិន្នន័យពីស្ថានីយពាណិជ្ជកម្មនៅតំបន់ Velachery ប្រទេសឥណ្ឌា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Feature based Weighted XGBoost (Proposed)
ម៉ូដែលដើមឈើសម្រេចចិត្តមានទម្ងន់រួមបញ្ចូលគ្នា (XGBoost ដែលស្នើឡើង)
ផ្តល់អត្រាកំហុសទាបបំផុត អាចវាយតម្លៃកត្តាឧតុនិយមតាមទម្ងន់នៃសារៈសំខាន់របស់វា និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល។ តម្រូវឱ្យមានការគណនា gradient លំដាប់ទីមួយ ដែលអាចមានការលះបង់បន្តិចបន្តួចទៅលើល្បឿននៃការជួបប្រសព្វ (convergence speed)។ ទទួលបានតម្លៃ RMSE ទាបបំផុតគឺ 15.97។
Decision Tree
ម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Tree)
មានភាពសាមញ្ញ ងាយស្រួលយល់ និងអាចបង្ហាញពីលំហូរនៃការសម្រេចចិត្តបានច្បាស់លាស់។ ងាយរងគ្រោះដោយបញ្ហា Overfitting លើទិន្នន័យថ្មី បើប្រៀបធៀបជាមួយវិធីសាស្ត្របន្សំ (Ensemble)។ ទទួលបានតម្លៃ RMSE ស្មើនឹង 16.84។
Multiple Linear Regression
តម្រែតម្រង់លីនេអ៊ែរចម្រុះ (Multiple Linear Regression)
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងលីនេអ៊ែរច្បាស់លាស់។ មិនសូវមានភាពបត់បែនគ្រប់គ្រាន់សម្រាប់ចាប់យកទំនាក់ទំនងស្មុគស្មាញរវាងអថេរឧតុនិយម និងកម្រិតជាតិពុលនោះទេ។ ទទួលបានតម្លៃ RMSE ស្មើនឹង 18.72។
Neural Networks
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks)
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីលំនាំស្មុគស្មាញ និងទំនាក់ទំនងដែលមិនមែនជាលីនេអ៊ែរនៅក្នុងទិន្នន័យធំៗ។ ម៉ូដែលអាចនឹងផ្តល់ទម្ងន់លើស ឬខកខានក្នុងការចាប់យកលក្ខណៈពិសេសសំខាន់ៗ (Over/Under weigh features) ហើយមានកំហុសខ្ពស់ជាងគេក្នុងការធ្វើតេស្តនេះ។ ទទួលបានតម្លៃ RMSE ខ្ពស់ជាងគេគឺ 24.14។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែជាទូទៅការអនុវត្ត XGBoost ទាមទារធនធានកុំព្យូទ័រមធ្យម និងទិន្នន័យដែលមានគុណភាព។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យពីស្ថានីយពាណិជ្ជកម្ម Velachery ក្នុងរដ្ឋ Tamil Nadu ប្រទេសឥណ្ឌា។ ទោះបីជាបរិបទនៃការកកស្ទះចរាចរណ៍អាចមានភាពស្រដៀងគ្នានឹងទីក្រុងធំៗមួយចំនួន ប៉ុន្តែលក្ខខណ្ឌអាកាសធាតុ និងប្រភេទនៃប្រភពបំពុលអាចមានភាពខុសគ្នាពីប្រទេសកម្ពុជា។ ហេតុនេះ ការយកម៉ូដែលនេះមកអនុវត្តនៅកម្ពុជា តម្រូវឱ្យមានការបណ្តុះបណ្តាលសារជាថ្មី (Retraining) ជាមួយនឹងទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រទស្សន៍ទាយដែលប្រើប្រាស់កត្តាឧតុនិយមនេះ មានភាពជាក់ស្តែង និងអាចផ្តល់ប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការគ្រប់គ្រងគុណភាពខ្យល់នៅកម្ពុជា។

ជារួម ការរួមបញ្ចូលទិន្នន័យអាកាសធាតុទៅក្នុងការទស្សន៍ទាយ AQI តាមរយៈ XGBoost គឺជាដំណោះស្រាយដែលមានប្រសិទ្ធភាពចំណាយខ្ពស់ ដើម្បីលើកកម្ពស់សុខុមាលភាពសាធារណៈនៅប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងរៀបចំទិន្នន័យបឋម (Data Collection & Preprocessing): សិស្សត្រូវប្រមូលទិន្នន័យសន្ទស្សន៍គុណភាពខ្យល់ (AQI) ពីឧបករណ៍វាស់ជាក់ស្តែង និងទិន្នន័យអាកាសធាតុប្រចាំថ្ងៃ។ បន្ទាប់មក ប្រើប្រាស់ Pandas ក្នុង Python ដើម្បីសម្អាតទិន្នន័យ (Data Cleansing) ដូចជាការលុបបំបាត់តម្លៃទិន្នន័យដែលបាត់បង់ (NaN values) និងទិន្នន័យខុសប្រក្រតី (Outliers) ដូចដែលបានបង្ហាញក្នុងរូបភាពទី១ នៃឯកសារ។
  2. វិភាគទិន្នន័យស្វែងយល់ (Exploratory Data Analysis - EDA): អនុវត្តការវិភាគ EDA ដោយប្រើប្រាស់ Matplotlib ឬ Seaborn ដើម្បីគូរក្រាហ្វ និងស្វែងយល់ពីទំនាក់ទំនងរវាងកម្រិតជាតិពុល និងកត្តាឧតុនិយម។ សង្កេតមើលជាពិសេសទៅលើឥទ្ធិពលនៃល្បឿនខ្យល់ និងសីតុណ្ហភាព ទៅលើបំរែបំរួលនៃសន្ទស្សន៍ AQI។
  3. អនុវត្តការផ្តល់ចំណាត់ថ្នាក់លក្ខណៈពិសេស (Feature Ranking): ប្រើប្រាស់បច្ចេកទេសវាយតម្លៃដូចជា Roulette Wheel Selection ឬមុខងារ Feature Importance របស់បណ្ណាល័យ XGBoost ដើម្បីផ្តល់ទម្ងន់ និងរៀបចំលំដាប់សារៈសំខាន់នៃអថេរឧតុនិយមនីមួយៗក្នុងការរួមចំណែកបង្កើតការបំពុលខ្យល់។
  4. បណ្តុះបណ្តាល និងធ្វើតេស្តម៉ូដែល (Model Training & Evaluation): បែងចែកទិន្នន័យជាពីរផ្នែក (ឧ. 80% សម្រាប់ Train និង 20% សម្រាប់ Test)។ សរសេរកូដដើម្បីដំណើរការម៉ូដែល XGBoost Regressor រួចធ្វើការវាយតម្លៃភាពត្រឹមត្រូវដោយប្រើរង្វាស់ Root Mean Square Error (RMSE) ដោយប្រៀបធៀបវាជាមួយវិធីសាស្ត្រផ្សេងទៀតដូចជា Decision Tree។
  5. ដាក់ពង្រាយជាប្រព័ន្ធតាមដានជាក់ស្តែង (Dashboard Deployment): ប្រើប្រាស់ Frameworks ដូចជា Streamlit ឬ Flask ដើម្បីបង្កើតផ្ទាំងគ្រប់គ្រង (Dashboard) ដែលអាចទាញយកទិន្នន័យអាកាសធាតុក្នុងពេលជាក់ស្តែង (Real-time API) មកបញ្ចូលក្នុងម៉ូដែលរបស់អ្នក ដើម្បីទស្សន៍ទាយ និងបង្ហាញកម្រិត AQI ឱ្យសាធារណជនងាយស្រួលមើល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
XGBoost ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning algorithm) ដ៏មានឥទ្ធិពលមួយ ដែលបង្កើតឡើងដោយការប្រមូលផ្តុំដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយទិន្នន័យបានយ៉ាងរហ័ស និងអាចចាប់យកលំនាំស្មុគស្មាញនៃទិន្នន័យកម្រិតជាតិពុលបានយ៉ាងមានប្រសិទ្ធភាព។ ដូចជាការប្រមូលអ្នកជំនាញជាច្រើននាក់មកប្រជុំគ្នាដើម្បីទាយលទ្ធផលអ្វីមួយ ដោយអ្នកដែលទាយត្រូវច្រើនជាងគេពីមុនៗ នឹងមានសិទ្ធិសម្រេចធំជាងគេនៅពេលក្រោយ។
Air Quality Index (AQI) ជាសន្ទស្សន៍ស្តង់ដារដែលប្រើសម្រាប់វាស់ស្ទង់ និងរាយការណ៍ពីកម្រិតនៃការបំពុលខ្យល់ប្រចាំថ្ងៃ ដើម្បីប្រាប់ពីកម្រិតហានិភ័យនៃផលប៉ះពាល់ដល់សុខភាពមនុស្សនៅពេលដែលយើងដកដង្ហើមបញ្ចូលខ្យល់ទាំងនោះ។ ដូចជាសៀវភៅតាមដានពិន្ទុប្រចាំខែរបស់បរិស្ថានអញ្ចឹង បើពិន្ទុកាន់តែខ្ពស់ មានន័យថាខ្យល់កាន់តែកខ្វក់ និងគ្រោះថ្នាក់ខ្លាំងដល់សុខភាព។
Particulate Matter(P.M 2.5) ជាភាគល្អិតធូលីតូចៗបំផុតដែលមានទំហំអង្កត់ផ្ចិតតូចជាង ឬស្មើ ២.៥ មីក្រូម៉ែត្រ ដែលកើតចេញពីចំហេះមិនសព្វ (ដូចជាផ្សែងឡាន ផ្សែងរោងចក្រ) ដែលអាចអណ្តែតក្នុងខ្យល់ និងងាយស្រួលជ្រៀតចូលយ៉ាងជ្រៅទៅក្នុងសួតនិងសរសៃឈាមរបស់មនុស្ស។ ដូចជាគ្រាប់ខ្សាច់ដ៏ល្អិតបំផុតដែលតូចជាងសរសៃសក់មនុស្សដល់ទៅ ៣០ ដង ដែលភ្នែកទទេមិនអាចមើលឃើញ តែវាអាចហោះចូលទៅបំផ្លាញសួតយើងបានយ៉ាងងាយ។
Exploratory Data Analysis (EDA) គឺជាដំណើរការនៃការត្រួតពិនិត្យ ស្វែងយល់ និងគូរក្រាហ្វពីទិន្នន័យបឋម ដើម្បីស្វែងរកលំនាំ ទំនាក់ទំនងរវាងអថេរ (ឧ. ទំនាក់ទំនងរវាងល្បឿនខ្យល់ និងកម្រិតជាតិពុល) និងភាពខុសប្រក្រតី មុននឹងយកទិន្នន័យនោះទៅបង្រៀនម៉ាស៊ីន។ ដូចជាការសង្កេតមើលគ្រឿងផ្សំ និងភ្លក់រសជាតិមុនពេលចាប់ផ្តើមចម្អិនម្ហូបដ៏ធំមួយ ដើម្បីដឹងថាត្រូវថែម ឬថយគ្រឿងទេសអ្វីខ្លះទើបឆ្ងាញ់។
Ensembling model ជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត ដែលគេយកម៉ូដែលទស្សន៍ទាយតូចៗជាច្រើនមកបូកបញ្ចូលគ្នា ដើម្បីបង្កើតបានជាម៉ូដែលរួមមួយដែលអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវ និងទប់ស្កាត់កំហុសឆ្គងបានល្អជាងការប្រើប្រាស់ម៉ូដែលតែមួយឯកឯង។ ដូចជាការធ្វើការងារជាក្រុមអញ្ចឹង មនុស្សម្នាក់អាចនឹងគិតខុស តែបើយើងយកគំនិតមនុស្ស ១០ នាក់មកបូកបញ្ចូលគ្នា ការសម្រេចចិត្តនឹងមានភាពត្រឹមត្រូវខ្ពស់ជាង។
Roulette wheel method ជាវិធីសាស្ត្រជ្រើសរើសដោយផ្អែកលើប្រូបាប៊ីលីតេ ដែលនៅក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីផ្តល់ទម្ងន់ (តម្លៃ) ទៅលើកត្តាឧតុនិយមនានា ដោយកត្តាណាដែលមានឥទ្ធិពលខ្លាំងជាងគេទៅលើគុណភាពខ្យល់ នឹងទទួលបានចំណែកធំជាងគេក្នុងការវាយតម្លៃ។ ដូចជាការបង្វិលកងផ្សងសំណាង (កងរ៉ូឡែត) ដែលក្រឡាពណ៌ណាមានទំហំធំជាងគេ (តំណាងឱ្យកត្តាដែលសំខាន់ជាងគេ) នោះវាមានឱកាសខ្ពស់បំផុតដែលម្ជុលនឹងចង្អុលចំ។
Root Mean Square Error (RMSE) ជារង្វាស់គណិតវិទ្យាស្តង់ដារដែលប្រើសម្រាប់គណនាគម្លាតកំហុសរវាង "តម្លៃដែលម៉ូដែលទាយបាន" និង "តម្លៃពិតប្រាកដជាក់ស្តែង" នៅក្នុងសំណុំទិន្នន័យ។ បើតម្លៃ RMSE កាន់តែតូច មានន័យថាម៉ូដែលទស្សន៍ទាយកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។ ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងគោលដៅអញ្ចឹង RMSE គឺជារង្វាស់ប្រាប់យើងថា តើព្រួញរបស់យើងបាញ់ខុសពីចំណុចកណ្តាលប៉ុន្មានសង់ទីម៉ែត្រជាមធ្យម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖