Original Title: Air Quality Index Prediction with Meteorological Data Using Feature Based Weighted Xgboost
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទស្សន៍ទាយសន្ទស្សន៍គុណភាពខ្យល់ជាមួយនឹងទិន្នន័យឧតុនិយមដោយប្រើប្រាស់ Feature Based Weighted XGBoost

ចំណងជើងដើម៖ Air Quality Index Prediction with Meteorological Data Using Feature Based Weighted Xgboost

អ្នកនិពន្ធ៖ NandigalaVenkatAnurag (SRMIST, Chennai, India), YagnavalkBurra (SRMIST, Chennai, India), S.Sharanya (SRMIST, Chennai, India)

ឆ្នាំបោះពុម្ព៖ 2019 International Journal of Recent Technology and Engineering (IJRTE)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការបំពុលខ្យល់គឺជាការគំរាមកំហែងយ៉ាងធ្ងន់ធ្ងរដល់សុខភាពមនុស្ស។ ឯកសារនេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយគុណភាពខ្យល់ ដោយការរួមបញ្ចូលទិន្នន័យកម្រិតជាតិពុល និងកត្តាឧតុនិយមដែលជារឿយៗត្រូវបានមើលរំលងក្នុងម៉ូដែលទស្សន៍ទាយទូទៅ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវម៉ូដែល Feature Based Weighted XGBoost ដើម្បីទស្សន៍ទាយសន្ទស្សន៍គុណភាពខ្យល់ (AQI) ដោយផ្អែកលើទិន្នន័យពីស្ថានីយពាណិជ្ជកម្មនៅតំបន់ Velachery ប្រទេសឥណ្ឌា។

ការប្រមូលនិងសម្អាតទិន្នន័យ (Data Collection and Cleansing): ការរៀបចំទិន្នន័យជាតិពុលដូចជា PM2.5 និងទិន្នន័យឧតុនិយម ដោយលុបបំបាត់តម្លៃទិន្នន័យដែលបាត់បង់ (Missing values) និងទិន្នន័យខុសប្រក្រតី (Outliers)។
ការវិភាគទិន្នន័យស្វែងយល់ (Exploratory Data Analysis - EDA): ការស្វែងយល់ពីទំនាក់ទំនងរវាងកម្រិតជាតិពុល និងកត្តាឧតុនិយមនានា។
ការកំណត់ចំណាត់ថ្នាក់លក្ខណៈពិសេស (Feature Ranking): ការប្រើប្រាស់វិធីសាស្ត្រ Roulette Wheel ដើម្បីផ្តល់ទម្ងន់ (Weights) ដល់ប៉ារ៉ាម៉ែត្រឧតុនិយមដោយផ្អែកលើសារៈសំខាន់របស់វា។
ការទស្សន៍ទាយដោយប្រើ XGBoost (XGBoost Prediction): ការបណ្តុះបណ្តាលម៉ូដែលដើមឈើសម្រេចចិត្តដែលមានទម្ងន់រួមបញ្ចូលគ្នា (Ensemble model) ដើម្បីទស្សន៍ទាយ AQI ចុងក្រោយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Feature Based Weighted XGBoost ទទួលបានអត្រាកំហុស (RMSE) ទាបត្រឹមតែ 15.97 ដែលបង្ហាញពីភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks - 24.14), តម្រែតម្រង់លីនេអ៊ែរចម្រុះ (Multiple Linear Regression - 18.72) និងដើមឈើសម្រេចចិត្ត (Decision Tree - 16.84)។
ល្បឿនខ្យល់ (Wind speed) ត្រូវបានរកឃើញថាជាកត្តាឧតុនិយមដែលមានឥទ្ធិពលខ្លាំងជាងគេបំផុតទៅលើគុណភាពខ្យល់ (នៅពេលល្បឿនខ្យល់កើនឡើង សន្ទស្សន៍ AQI ថយចុះ) បន្ទាប់មកគឺកត្តាសីតុណ្ហភាព។
ម៉ូដែលនេះមានភាពស័ក្តិសមសម្រាប់ការទស្សន៍ទាយ AQI ក្នុងពេលវេលាជាក់ស្តែង (Real-time prediction) ហើយអាចពង្រីកវិសាលភាពទៅកាន់តំបន់ភូមិសាស្ត្រធំៗផ្សេងទៀតបានដោយគ្រាន់តែបន្ថែមនូវកត្តាពាក់ព័ន្ធថ្មីៗ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Feature based Weighted XGBoost (Proposed) ម៉ូដែលដើមឈើសម្រេចចិត្តមានទម្ងន់រួមបញ្ចូលគ្នា (XGBoost ដែលស្នើឡើង)	ផ្តល់អត្រាកំហុសទាបបំផុត អាចវាយតម្លៃកត្តាឧតុនិយមតាមទម្ងន់នៃសារៈសំខាន់របស់វា និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល។	តម្រូវឱ្យមានការគណនា gradient លំដាប់ទីមួយ ដែលអាចមានការលះបង់បន្តិចបន្តួចទៅលើល្បឿននៃការជួបប្រសព្វ (convergence speed)។	ទទួលបានតម្លៃ RMSE ទាបបំផុតគឺ 15.97។
Decision Tree ម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Tree)	មានភាពសាមញ្ញ ងាយស្រួលយល់ និងអាចបង្ហាញពីលំហូរនៃការសម្រេចចិត្តបានច្បាស់លាស់។	ងាយរងគ្រោះដោយបញ្ហា Overfitting លើទិន្នន័យថ្មី បើប្រៀបធៀបជាមួយវិធីសាស្ត្របន្សំ (Ensemble)។	ទទួលបានតម្លៃ RMSE ស្មើនឹង 16.84។
Multiple Linear Regression តម្រែតម្រង់លីនេអ៊ែរចម្រុះ (Multiple Linear Regression)	ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងលីនេអ៊ែរច្បាស់លាស់។	មិនសូវមានភាពបត់បែនគ្រប់គ្រាន់សម្រាប់ចាប់យកទំនាក់ទំនងស្មុគស្មាញរវាងអថេរឧតុនិយម និងកម្រិតជាតិពុលនោះទេ។	ទទួលបានតម្លៃ RMSE ស្មើនឹង 18.72។
Neural Networks បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks)	មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីលំនាំស្មុគស្មាញ និងទំនាក់ទំនងដែលមិនមែនជាលីនេអ៊ែរនៅក្នុងទិន្នន័យធំៗ។	ម៉ូដែលអាចនឹងផ្តល់ទម្ងន់លើស ឬខកខានក្នុងការចាប់យកលក្ខណៈពិសេសសំខាន់ៗ (Over/Under weigh features) ហើយមានកំហុសខ្ពស់ជាងគេក្នុងការធ្វើតេស្តនេះ។	ទទួលបានតម្លៃ RMSE ខ្ពស់ជាងគេគឺ 24.14។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែជាទូទៅការអនុវត្ត XGBoost ទាមទារធនធានកុំព្យូទ័រមធ្យម និងទិន្នន័យដែលមានគុណភាព។

Dataset: ទិន្នន័យកម្រិតជាតិពុលក្នុងខ្យល់ (CO, NOx, PM2.5, SO2, ល។) និងទិន្នន័យឧតុនិយមរៀងរាល់ម៉ោង (ល្បឿនខ្យល់ សីតុណ្ហភាព សំណើម) ដែលមានទំហំគ្រប់គ្រាន់សម្រាប់ការបែងចែក 80% សម្រាប់បណ្តុះបណ្តាល និង 20% សម្រាប់ធ្វើតេស្ត។
Software & Tools: បរិស្ថានសម្រាប់សរសេរកូដ Machine Learning (ឧទាហរណ៍ Python រួមជាមួយបណ្ណាល័យ XGBoost, Pandas សម្រាប់ការសម្អាតទិន្នន័យ និង Scikit-learn)។
Expertise: ចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ ជាពិសេសជំនាញក្នុងការធ្វើ Exploratory Data Analysis (EDA), ការសម្អាតទិន្នន័យ (Data Cleansing) និងការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យពីស្ថានីយពាណិជ្ជកម្ម Velachery ក្នុងរដ្ឋ Tamil Nadu ប្រទេសឥណ្ឌា។ ទោះបីជាបរិបទនៃការកកស្ទះចរាចរណ៍អាចមានភាពស្រដៀងគ្នានឹងទីក្រុងធំៗមួយចំនួន ប៉ុន្តែលក្ខខណ្ឌអាកាសធាតុ និងប្រភេទនៃប្រភពបំពុលអាចមានភាពខុសគ្នាពីប្រទេសកម្ពុជា។ ហេតុនេះ ការយកម៉ូដែលនេះមកអនុវត្តនៅកម្ពុជា តម្រូវឱ្យមានការបណ្តុះបណ្តាលសារជាថ្មី (Retraining) ជាមួយនឹងទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រទស្សន៍ទាយដែលប្រើប្រាស់កត្តាឧតុនិយមនេះ មានភាពជាក់ស្តែង និងអាចផ្តល់ប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការគ្រប់គ្រងគុណភាពខ្យល់នៅកម្ពុជា។

រាជធានីភ្នំពេញ (Phnom Penh): ជាតំបន់ដែលមានការដ្ឋានសំណង់ច្រើន និងចរាចរណ៍កកស្ទះ ការប្រើម៉ូដែលនេះដើម្បីទស្សន៍ទាយកម្រិត PM2.5 តាមម៉ោង នឹងជួយប្រជាពលរដ្ឋឱ្យមានការប្រុងប្រយ័ត្ន ជាពិសេសនៅម៉ោងកកស្ទះ (៩ ព្រឹក ដល់ ៥ ល្ងាច)។
ក្រសួងបរិស្ថានកម្ពុជា (Ministry of Environment): អាចប្រើប្រាស់ក្បួនដោះស្រាយនេះជាស្នូលនៃប្រព័ន្ធប្រកាសអាសន្នទាន់ពេលវេលា (Early Warning System) ដោយភ្ជាប់ជាមួយស្ថានីយត្រួតពិនិត្យខ្យល់ដែលមានស្រាប់នៅតាមបណ្តាខេត្ត។
វិស័យសុខាភិបាលសាធារណៈ (Public Health Sector): មន្ទីរពេទ្យ និងស្ថាប័នសុខាភិបាលអាចប្រើប្រាស់លទ្ធផលទស្សន៍ទាយ AQI ដើម្បីត្រៀមលក្ខណៈ និងផ្សព្វផ្សាយសារអប់រំដល់ក្រុមជនងាយរងគ្រោះមុនពេលស្ថានភាពខ្យល់ធ្លាក់ចុះដល់កម្រិតគ្រោះថ្នាក់។

ជារួម ការរួមបញ្ចូលទិន្នន័យអាកាសធាតុទៅក្នុងការទស្សន៍ទាយ AQI តាមរយៈ XGBoost គឺជាដំណោះស្រាយដែលមានប្រសិទ្ធភាពចំណាយខ្ពស់ ដើម្បីលើកកម្ពស់សុខុមាលភាពសាធារណៈនៅប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងរៀបចំទិន្នន័យបឋម (Data Collection & Preprocessing): សិស្សត្រូវប្រមូលទិន្នន័យសន្ទស្សន៍គុណភាពខ្យល់ (AQI) ពីឧបករណ៍វាស់ជាក់ស្តែង និងទិន្នន័យអាកាសធាតុប្រចាំថ្ងៃ។ បន្ទាប់មក ប្រើប្រាស់ Pandas ក្នុង Python ដើម្បីសម្អាតទិន្នន័យ (Data Cleansing) ដូចជាការលុបបំបាត់តម្លៃទិន្នន័យដែលបាត់បង់ (NaN values) និងទិន្នន័យខុសប្រក្រតី (Outliers) ដូចដែលបានបង្ហាញក្នុងរូបភាពទី១ នៃឯកសារ។
វិភាគទិន្នន័យស្វែងយល់ (Exploratory Data Analysis - EDA): អនុវត្តការវិភាគ EDA ដោយប្រើប្រាស់ Matplotlib ឬ Seaborn ដើម្បីគូរក្រាហ្វ និងស្វែងយល់ពីទំនាក់ទំនងរវាងកម្រិតជាតិពុល និងកត្តាឧតុនិយម។ សង្កេតមើលជាពិសេសទៅលើឥទ្ធិពលនៃល្បឿនខ្យល់ និងសីតុណ្ហភាព ទៅលើបំរែបំរួលនៃសន្ទស្សន៍ AQI។
អនុវត្តការផ្តល់ចំណាត់ថ្នាក់លក្ខណៈពិសេស (Feature Ranking): ប្រើប្រាស់បច្ចេកទេសវាយតម្លៃដូចជា Roulette Wheel Selection ឬមុខងារ Feature Importance របស់បណ្ណាល័យ XGBoost ដើម្បីផ្តល់ទម្ងន់ និងរៀបចំលំដាប់សារៈសំខាន់នៃអថេរឧតុនិយមនីមួយៗក្នុងការរួមចំណែកបង្កើតការបំពុលខ្យល់។
បណ្តុះបណ្តាល និងធ្វើតេស្តម៉ូដែល (Model Training & Evaluation): បែងចែកទិន្នន័យជាពីរផ្នែក (ឧ. 80% សម្រាប់ Train និង 20% សម្រាប់ Test)។ សរសេរកូដដើម្បីដំណើរការម៉ូដែល XGBoost Regressor រួចធ្វើការវាយតម្លៃភាពត្រឹមត្រូវដោយប្រើរង្វាស់ Root Mean Square Error (RMSE) ដោយប្រៀបធៀបវាជាមួយវិធីសាស្ត្រផ្សេងទៀតដូចជា Decision Tree។
ដាក់ពង្រាយជាប្រព័ន្ធតាមដានជាក់ស្តែង (Dashboard Deployment): ប្រើប្រាស់ Frameworks ដូចជា Streamlit ឬ Flask ដើម្បីបង្កើតផ្ទាំងគ្រប់គ្រង (Dashboard) ដែលអាចទាញយកទិន្នន័យអាកាសធាតុក្នុងពេលជាក់ស្តែង (Real-time API) មកបញ្ចូលក្នុងម៉ូដែលរបស់អ្នក ដើម្បីទស្សន៍ទាយ និងបង្ហាញកម្រិត AQI ឱ្យសាធារណជនងាយស្រួលមើល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
XGBoost	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning algorithm) ដ៏មានឥទ្ធិពលមួយ ដែលបង្កើតឡើងដោយការប្រមូលផ្តុំដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយទិន្នន័យបានយ៉ាងរហ័ស និងអាចចាប់យកលំនាំស្មុគស្មាញនៃទិន្នន័យកម្រិតជាតិពុលបានយ៉ាងមានប្រសិទ្ធភាព។	ដូចជាការប្រមូលអ្នកជំនាញជាច្រើននាក់មកប្រជុំគ្នាដើម្បីទាយលទ្ធផលអ្វីមួយ ដោយអ្នកដែលទាយត្រូវច្រើនជាងគេពីមុនៗ នឹងមានសិទ្ធិសម្រេចធំជាងគេនៅពេលក្រោយ។
Air Quality Index (AQI)	ជាសន្ទស្សន៍ស្តង់ដារដែលប្រើសម្រាប់វាស់ស្ទង់ និងរាយការណ៍ពីកម្រិតនៃការបំពុលខ្យល់ប្រចាំថ្ងៃ ដើម្បីប្រាប់ពីកម្រិតហានិភ័យនៃផលប៉ះពាល់ដល់សុខភាពមនុស្សនៅពេលដែលយើងដកដង្ហើមបញ្ចូលខ្យល់ទាំងនោះ។	ដូចជាសៀវភៅតាមដានពិន្ទុប្រចាំខែរបស់បរិស្ថានអញ្ចឹង បើពិន្ទុកាន់តែខ្ពស់ មានន័យថាខ្យល់កាន់តែកខ្វក់ និងគ្រោះថ្នាក់ខ្លាំងដល់សុខភាព។
Particulate Matter(P.M 2.5)	ជាភាគល្អិតធូលីតូចៗបំផុតដែលមានទំហំអង្កត់ផ្ចិតតូចជាង ឬស្មើ ២.៥ មីក្រូម៉ែត្រ ដែលកើតចេញពីចំហេះមិនសព្វ (ដូចជាផ្សែងឡាន ផ្សែងរោងចក្រ) ដែលអាចអណ្តែតក្នុងខ្យល់ និងងាយស្រួលជ្រៀតចូលយ៉ាងជ្រៅទៅក្នុងសួតនិងសរសៃឈាមរបស់មនុស្ស។	ដូចជាគ្រាប់ខ្សាច់ដ៏ល្អិតបំផុតដែលតូចជាងសរសៃសក់មនុស្សដល់ទៅ ៣០ ដង ដែលភ្នែកទទេមិនអាចមើលឃើញ តែវាអាចហោះចូលទៅបំផ្លាញសួតយើងបានយ៉ាងងាយ។
Exploratory Data Analysis (EDA)	គឺជាដំណើរការនៃការត្រួតពិនិត្យ ស្វែងយល់ និងគូរក្រាហ្វពីទិន្នន័យបឋម ដើម្បីស្វែងរកលំនាំ ទំនាក់ទំនងរវាងអថេរ (ឧ. ទំនាក់ទំនងរវាងល្បឿនខ្យល់ និងកម្រិតជាតិពុល) និងភាពខុសប្រក្រតី មុននឹងយកទិន្នន័យនោះទៅបង្រៀនម៉ាស៊ីន។	ដូចជាការសង្កេតមើលគ្រឿងផ្សំ និងភ្លក់រសជាតិមុនពេលចាប់ផ្តើមចម្អិនម្ហូបដ៏ធំមួយ ដើម្បីដឹងថាត្រូវថែម ឬថយគ្រឿងទេសអ្វីខ្លះទើបឆ្ងាញ់។
Ensembling model	ជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត ដែលគេយកម៉ូដែលទស្សន៍ទាយតូចៗជាច្រើនមកបូកបញ្ចូលគ្នា ដើម្បីបង្កើតបានជាម៉ូដែលរួមមួយដែលអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវ និងទប់ស្កាត់កំហុសឆ្គងបានល្អជាងការប្រើប្រាស់ម៉ូដែលតែមួយឯកឯង។	ដូចជាការធ្វើការងារជាក្រុមអញ្ចឹង មនុស្សម្នាក់អាចនឹងគិតខុស តែបើយើងយកគំនិតមនុស្ស ១០ នាក់មកបូកបញ្ចូលគ្នា ការសម្រេចចិត្តនឹងមានភាពត្រឹមត្រូវខ្ពស់ជាង។
Roulette wheel method	ជាវិធីសាស្ត្រជ្រើសរើសដោយផ្អែកលើប្រូបាប៊ីលីតេ ដែលនៅក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីផ្តល់ទម្ងន់ (តម្លៃ) ទៅលើកត្តាឧតុនិយមនានា ដោយកត្តាណាដែលមានឥទ្ធិពលខ្លាំងជាងគេទៅលើគុណភាពខ្យល់ នឹងទទួលបានចំណែកធំជាងគេក្នុងការវាយតម្លៃ។	ដូចជាការបង្វិលកងផ្សងសំណាង (កងរ៉ូឡែត) ដែលក្រឡាពណ៌ណាមានទំហំធំជាងគេ (តំណាងឱ្យកត្តាដែលសំខាន់ជាងគេ) នោះវាមានឱកាសខ្ពស់បំផុតដែលម្ជុលនឹងចង្អុលចំ។
Root Mean Square Error (RMSE)	ជារង្វាស់គណិតវិទ្យាស្តង់ដារដែលប្រើសម្រាប់គណនាគម្លាតកំហុសរវាង "តម្លៃដែលម៉ូដែលទាយបាន" និង "តម្លៃពិតប្រាកដជាក់ស្តែង" នៅក្នុងសំណុំទិន្នន័យ។ បើតម្លៃ RMSE កាន់តែតូច មានន័យថាម៉ូដែលទស្សន៍ទាយកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។	ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងគោលដៅអញ្ចឹង RMSE គឺជារង្វាស់ប្រាប់យើងថា តើព្រួញរបស់យើងបាញ់ខុសពីចំណុចកណ្តាលប៉ុន្មានសង់ទីម៉ែត្រជាមធ្យម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖