Original Title: Forecasting the Municipal Solid Waste Using GSO-XGBoost Model
Source: doi.org/10.32604/iasc.2023.037823
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍សំណល់រឹងទីក្រុងដោយប្រើប្រាស់ម៉ូដែល GSO-XGBoost

ចំណងជើងដើម៖ Forecasting the Municipal Solid Waste Using GSO-XGBoost Model

អ្នកនិពន្ធ៖ Vaishnavi Jayaraman (B.S. Abdur Rahman Crescent Institute of Science and Technology), Arun Raj Lakshminarayanan (B.S. Abdur Rahman Crescent Institute of Science and Technology), Saravanan Parthasarathy (B.S. Abdur Rahman Crescent Institute of Science and Technology), A. Suganthy (Pondicherry University)

ឆ្នាំបោះពុម្ព៖ 2023, Intelligent Automation & Soft Computing

វិស័យសិក្សា៖ Machine Learning / Environmental Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃការបង្កើតសំណល់ដោយសារកំណើនប្រជាជននិងនគរូបនីយកម្ម កំពុងគំរាមកំហែងដល់សមត្ថភាពទីលានចាក់សំរាម (ឧទាហរណ៍ ទីលានចាក់សំរាម Semakau របស់ប្រទេសសិង្ហបុរីនឹងពេញនៅឆ្នាំ២០៣៥) ដែលទាមទារឱ្យមានការព្យាករណ៍បរិមាណសំណល់ច្បាស់លាស់ដើម្បីរៀបចំហេដ្ឋារចនាសម្ព័ន្ធប្រកបដោយចីរភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្បួនដោះស្រាយយន្តការរៀន (Machine Learning algorithms) ជាច្រើន ដោយផ្តោតជាពិសេសលើការធ្វើឱ្យប្រសើរឡើងនូវម៉ូដែល XGBoost ជាមួយនឹងវិធីសាស្ត្រ Grid Search Optimization ដើម្បីព្យាករណ៍ការបង្កើតប្រភេទសំណល់ធំៗចំនួនបីគឺ ក្រដាសនិងក្រដាសកាតុង ប្លាស្ទិក និងសំណល់អាហារ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
GSO-XGBoost
ម៉ូដែល XGBoost ដែលបានកែលម្អប៉ារ៉ាម៉ែត្រដោយ Grid Search Optimization
ផ្តល់លទ្ធផលព្យាករណ៍បានច្បាស់លាស់បំផុត និងមានអត្រាកំហុសទាបបំផុតសម្រាប់គ្រប់ប្រភេទសំណល់ ដោយសារការស្វែងរកប៉ារ៉ាម៉ែត្រប្រសើរបំផុត (Optimal hyperparameters)។ ទាមទារពេលវេលាគណនាយូរជាងម៉ូដែលដើម ដោយសារវាត្រូវសាកល្បងរាល់បន្សំនៃប៉ារ៉ាម៉ែត្រ (Grid Search)។ អត្រាកំហុសជាមធ្យម (MAPE) ទាបបំផុត: ៤.៩៣ (ក្រដាស), ៦.៧៩ (ប្លាស្ទិក), ៥.៩៦ (អាហារ)។
XGBoost (Default)
ម៉ូដែល XGBoost ដើម (មិនកែប្រែប៉ារ៉ាម៉ែត្រ)
ដំណើរការលឿន មានប្រសិទ្ធភាពខ្ពស់ក្នុងការរៀនពីទិន្នន័យ (Gradient descent framework) និងមានលទ្ធផលល្អប្រសើរជាងម៉ូដែលប្រពៃណីផ្សេងទៀត។ នៅមានកម្រិតកំហុសខ្ពស់ជាងម៉ូដែលដែលបានធ្វើ GSO (Optimization) ព្រោះប៉ារ៉ាម៉ែត្រដើមអាចមិនស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យជាក់លាក់នេះ។ អត្រាកំហុសជាមធ្យម (MAPE): ៨.៣០ (ក្រដាស), ៨.៣២ (ប្លាស្ទិក), ៦.៩៤ (អាហារ)។
ExtraTrees
ម៉ូដែលដើមឈើសម្រេចចិត្តច្រើន (Extremely Randomized Trees)
មានសមត្ថភាពល្អក្នុងការចាប់យកទម្រង់ទិន្នន័យសំណល់ប្លាស្ទិក និងអាហារ ដោយទទួលបានចំណាត់ថ្នាក់ទី២ ក្នុងការទស្សន៍ទាយ។ ប្រសិទ្ធភាពធ្លាក់ចុះនៅពេលជួបប្រទះទិន្នន័យដែលមានភាពស្មុគស្មាញ និងប្រែប្រួលខ្លាំងដូចជាសំណល់ក្រដាស។ អត្រាកំហុសជាមធ្យម (MAPE): ១០.៤៦ (ក្រដាស), ៨.៤១ (ប្លាស្ទិក), ៧.០៥ (អាហារ)។
SVR (Support Vector Regressor)
ការតំរែតំរង់វ៉ិចទ័រគាំទ្រ
មានស្ថិរភាពគួរសមសម្រាប់ការទស្សន៍ទាយទិន្នន័យសំណល់អាហារ ដែលមានទម្រង់ចែកចាយជាក់លាក់។ ដំណើរការខ្សោយបំផុតសម្រាប់ទិន្នន័យសំណល់ក្រដាសដែលមានភាពស្មុគស្មាញ និងមានអត្រាកំហុសខ្ពស់ជាងគេ។ អត្រាកំហុសជាមធ្យម (MAPE): ១៩.៧៧ (ក្រដាស), ១០.៥៨ (ប្លាស្ទិក), ៧.៥៣ (អាហារ)។
KNN (k-Nearest Neighbors)
ក្បួនដោះស្រាយអ្នកជិតខាង k
ងាយស្រួលយល់ និងអនុវត្តដោយមិនចាំបាច់មានការកំណត់រចនាសម្ព័ន្ធស្មុគស្មាញច្រើន។ ផ្តល់លទ្ធផលខ្សោយបំផុតជាទូទៅ ពិសេសលើសំណល់ប្លាស្ទិក និងអាហារ ព្រោះវាមិនសូវពូកែទាញយកលក្ខណៈពិសេសនៃទិន្នន័យ Time-series។ អត្រាកំហុសជាមធ្យម (MAPE): ១៣.៤៤ (ក្រដាស), ១៥.០៩ (ប្លាស្ទិក), ១០.៧០ (អាហារ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតពីធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់នោះទេ ប៉ុន្តែដោយផ្អែកលើទំហំទិន្នន័យ និងវិធីសាស្ត្រ វាអាចត្រូវបានដំណើរការលើកុំព្យូទ័រធម្មតាបាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីទីភ្នាក់ងារបរិស្ថានជាតិសិង្ហបុរី (NEA) ដែលជាប្រទេសអភិវឌ្ឍន៍ មានប្រព័ន្ធប្រមូលសំរាម និងកែច្នៃស្តង់ដារខ្ពស់កម្រិតពិភពលោក។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈប្រជាសាស្ត្រ ការបែងចែកសំរាមនៅប្រភពដើម និងអត្រាកែច្នៃមានភាពខុសគ្នាស្រឡះ (ភាគច្រើនជាសំណល់សរីរាង្គ និងមានអ្នករើសអេតចាយក្រៅផ្លូវការ) ដែលធ្វើឱ្យការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចមានគម្លាតប្រសិទ្ធភាពបើសិនមិនប្រើទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រ GSO-XGBoost នេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ការគ្រប់គ្រងសំណល់នៅកម្ពុជា។

ការអនុវត្តវិធីសាស្ត្រ Machine Learning នេះដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងរបស់កម្ពុជា នឹងជួយពន្យារអាយុកាលទីលានចាក់សំរាម និងជំរុញការគ្រប់គ្រងបរិស្ថានប្រកបដោយចីរភាពកាន់តែប្រសើរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ការប្រមូល និងសម្អាតទិន្នន័យសំណល់ (Data Collection & Preprocessing): និស្សិតត្រូវស្វែងរកទិន្នន័យសំណល់រឹងពីក្រសួងបរិស្ថាន ឬរដ្ឋបាលរាជធានី-ខេត្ត រួចប្រើប្រាស់ Pandas ក្នុង Python ដើម្បីសម្អាតទិន្នន័យ (Missing values) និងបែងចែកទិន្នន័យជា Training និង Testing sets។
  2. ជំហានទី២៖ សិក្សាពីក្បួនដោះស្រាយ XGBoost (Mastering XGBoost): ចាប់ផ្តើមអនុវត្តម៉ូដែល XGBRegressor ដោយប្រើប្រាស់ប៉ារ៉ាម៉ែត្រដើម (Default) ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលរៀនពីទិន្នន័យ (Gradient descent) និងវាយតម្លៃលទ្ធផលបឋម។
  3. ជំហានទី៣៖ ការធ្វើឱ្យប្រសើរឡើងដោយ Grid Search Optimization (Hyperparameter Tuning): ប្រើប្រាស់ឧបករណ៍ GridSearchCV ពីបណ្ណាល័យ Scikit-learn ដើម្បីកំណត់ជួរនៃប៉ារ៉ាម៉ែត្រ (ឧទាហរណ៍: max_depth=3 ដល់ 6, n_estimators=50 ដល់ 200) រួចស្វែងរកបន្សំដែលល្អបំផុតសម្រាប់ទិន្នន័យកម្ពុជា។
  4. ជំហានទី៤៖ ការវាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាពម៉ូដែល (Model Evaluation): វាស់ស្ទង់សមត្ថភាពម៉ូដែល GSO-XGBoost ធៀបជាមួយម៉ូដែលផ្សេងៗ (ដូចជា SVR, Random Forest) ដោយប្រើប្រាស់រង្វាស់ស្តង់ដារដូចជា MAPE, MAE, និង RMSE តាមរយៈកូដ Python។
  5. ជំហានទី៥៖ បង្កើត Dashboard ទស្សន៍ទាយ (Visualization & Deployment): ប្រើប្រាស់ StreamlitDash ដើម្បីសង់ជាផ្ទាំងគ្រប់គ្រង (Dashboard) ដែលអនុញ្ញាតឱ្យអាជ្ញាធរអាចមើលឃើញក្រាហ្វិកព្យាករណ៍បរិមាណសំរាមនាពេលអនាគត និងជួយសម្រួលដល់ការធ្វើសេចក្តីសម្រេចចិត្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
XGBoost (eXtreme Gradient Boosting) ជាក្បួនដោះស្រាយយន្តការរៀន (Machine Learning) ដ៏មានឥទ្ធិពលដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនបន្តបន្ទាប់គ្នា ដោយដើមឈើថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលដើមឈើចាស់បានធ្វើ ដើម្បីទទួលបានលទ្ធផលព្យាករណ៍ចុងក្រោយមួយដែលសុក្រឹតបំផុត។ ដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដែលសិស្សទី២ កែរាល់កំហុសរបស់សិស្សទី១ ហើយសិស្សទី៣ កែកំហុសបន្តពីសិស្សទី២ រហូតដល់លំហាត់នោះត្រឹមត្រូវល្អឥតខ្ចោះ។
Grid Search Optimization (GSO) ជាវិធីសាស្ត្រក្នុងការស្វែងរកតម្លៃល្អបំផុតសម្រាប់ប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែល ដោយវាធ្វើការសាកល្បងរាល់បន្សំ (Combinations) នៃប៉ារ៉ាម៉ែត្រទាំងអស់ដែលមានក្នុងបញ្ជី រហូតដល់រកឃើញបន្សំមួយណាដែលផ្តល់លទ្ធផលព្យាករណ៍ត្រឹមត្រូវជាងគេបំផុត។ ដូចជាការសាកល្បងចាក់សោរលេខកូដវ៉ាលី ដោយយើងសាកល្បងរាល់លេខទាំងអស់ពី 000 ដល់ 999 ម្តងមួយៗ រហូតដល់រកឃើញលេខកូដដែលត្រឹមត្រូវអាចបើកវ៉ាលីបាន។
Hyperparameters គឺជាការកំណត់រចនាសម្ព័ន្ធ (Settings) ជាមុនដែលយើងត្រូវផ្តល់ឱ្យម៉ូដែល Machine Learning មុនពេលវាចាប់ផ្តើមរៀនពីទិន្នន័យ (ឧទាហរណ៍ កំណត់ចំនួនដើមឈើ ឬជម្រៅរបស់វា) ដែលវាជួយគ្រប់គ្រងរបៀបនិងល្បឿនដែលម៉ូដែលនោះដំណើរការ។ ដូចជាការកំណត់កម្ដៅ និងពេលវេលានៅលើម៉ាស៊ីនដុតនំប៉័ង មុនពេលយើងដាក់នំប៉័ងចូលដុត។
Municipal Solid Waste (MSW) ជាសំណល់រឹង ឬសំរាមទូទៅដែលត្រូវបានបង្កើតឡើងដោយប្រជាជននៅតាមលំនៅដ្ឋាន សាលារៀន អាជីវកម្មដ្ឋាន និងទីកន្លែងសាធារណៈនានា ដែលអាជ្ញាធរត្រូវប្រមូលយកទៅកែច្នៃ ឬចោលនៅទីលានចាក់សំរាម។ គឺជា "សំរាម" គ្រប់ប្រភេទដែលយើងតែងតែបោះចោលក្នុងធុងសំរាមរាល់ថ្ងៃនៅផ្ទះ ឬកន្លែងធ្វើការ។
Mean Absolute Percentage Error (MAPE) ជារង្វាស់ស្ថិតិដែលគេប្រើដើម្បីវាយតម្លៃភាពសុក្រឹតនៃម៉ូដែលព្យាករណ៍ ដោយវាគណនាគម្លាតរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃពិតប្រាកដ រួចបំប្លែងវាទៅជាភាគរយនៃកំហុសជាមធ្យម។ តួលេខ MAPE កាន់តែតូច បញ្ជាក់ថាម៉ូដែលកាន់តែពូកែ។ ដូចជាការប្រឡងបាញ់ធ្នូ បើសិនជាអ្នកបាញ់ខុសចំកណ្តាលស៊ីបគិតជាភាគរយប្រហែល ៥% នោះ ៥% នេះគឺជាតម្លៃកំហុស MAPE។
Classification and Regression Tree (CART) ជាទម្រង់នៃម៉ូដែលរៀនពីទិន្នន័យដែលបំបែកទិន្នន័យជាមែកធាងជាច្រើនដំណាក់កាលដោយផ្អែកលើលក្ខខណ្ឌ ដើម្បីធ្វើការចាត់ថ្នាក់ទិន្នន័យ (Classification) ឬទស្សន៍ទាយជាតួលេខបន្តបន្ទាប់ (Regression) ដែលវាជាធាតុផ្សំមូលដ្ឋានរបស់ម៉ូដែល XGBoost។ ដូចជាការលេងហ្គេមសួរសំណួរ "តើវាជាសត្វ ឬរុក្ខជាតិ?" "តើវាចេះហោះទេ?" ដែលសំណួរនីមួយៗជួយបំបែកចម្លើយជាមែកធាងរហូតដល់រកឃើញចម្លើយត្រឹមត្រូវនៅចុងបញ្ចប់។
Overfitting ជាបញ្ហាក្នុង Machine Learning នៅពេលដែលម៉ូដែលរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ច្បាស់លាស់ពេក រហូតដល់ចងចាំទាំងចំណុចខុសឆ្គង (Noise) ដែលធ្វើឱ្យវាមិនអាចធ្វើការទស្សន៍ទាយបានល្អនៅពេលជួបប្រទះទិន្នន័យថ្មីដែលវាមិនធ្លាប់ស្គាល់។ ដូចជាសិស្សដែលខំទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗគ្រប់ម៉ាត់រហូតចាំស្ទាត់ ប៉ុន្តែពេលប្រឡងជួបវិញ្ញាសាថ្មីដែលប្តូរលេខសោះ បែរជាធ្វើមិនចេញទាល់តែសោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖