Original Title: Forecasting the Municipal Solid Waste Using GSO-XGBoost Model
Source: doi.org/10.32604/iasc.2023.037823
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍សំណល់រឹងទីក្រុងដោយប្រើប្រាស់ម៉ូដែល GSO-XGBoost

ចំណងជើងដើម៖ Forecasting the Municipal Solid Waste Using GSO-XGBoost Model

អ្នកនិពន្ធ៖ Vaishnavi Jayaraman (B.S. Abdur Rahman Crescent Institute of Science and Technology), Arun Raj Lakshminarayanan (B.S. Abdur Rahman Crescent Institute of Science and Technology), Saravanan Parthasarathy (B.S. Abdur Rahman Crescent Institute of Science and Technology), A. Suganthy (Pondicherry University)

ឆ្នាំបោះពុម្ព៖ 2023, Intelligent Automation & Soft Computing

វិស័យសិក្សា៖ Machine Learning / Environmental Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃការបង្កើតសំណល់ដោយសារកំណើនប្រជាជននិងនគរូបនីយកម្ម កំពុងគំរាមកំហែងដល់សមត្ថភាពទីលានចាក់សំរាម (ឧទាហរណ៍ ទីលានចាក់សំរាម Semakau របស់ប្រទេសសិង្ហបុរីនឹងពេញនៅឆ្នាំ២០៣៥) ដែលទាមទារឱ្យមានការព្យាករណ៍បរិមាណសំណល់ច្បាស់លាស់ដើម្បីរៀបចំហេដ្ឋារចនាសម្ព័ន្ធប្រកបដោយចីរភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្បួនដោះស្រាយយន្តការរៀន (Machine Learning algorithms) ជាច្រើន ដោយផ្តោតជាពិសេសលើការធ្វើឱ្យប្រសើរឡើងនូវម៉ូដែល XGBoost ជាមួយនឹងវិធីសាស្ត្រ Grid Search Optimization ដើម្បីព្យាករណ៍ការបង្កើតប្រភេទសំណល់ធំៗចំនួនបីគឺ ក្រដាសនិងក្រដាសកាតុង ប្លាស្ទិក និងសំណល់អាហារ។

ការប្រមូលនិងរៀបចំទិន្នន័យសំណល់រឹងសិង្ហបុរីពីឆ្នាំ ២០០៣ ដល់ ២០២១ (Singapore solid waste dataset)
ការប្រើប្រាស់ម៉ូដែលព្យាករណ៍មូលដ្ឋានរួមមាន KNN, SVR, ExtraTrees, និង CatBoost (Baseline ML models)
ការអនុវត្តនិងការកែលម្អម៉ូដែលព្យាករណ៍កម្រិតខ្ពស់ eXtreme Gradient Boosting (XGBoost)
ការប្រើប្រាស់វិធីសាស្ត្រស្វែងរកប្រសិទ្ធភាពអតិបរមា Grid Search Optimization (GSO) ដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុត (Hyperparameter tuning)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល XGBoost ដើម (Default parameters) បានផ្តល់លទ្ធផលល្អជាងម៉ូដែលផ្សេងទៀត ជាមួយនឹងអត្រាកំហុសជាមធ្យម (MAPE) ៨.៣០៩៣ សម្រាប់សំណល់ក្រដាស ៨.៣២១៧ សម្រាប់សំណល់ប្លាស្ទិក និង ៦.៩៤៩៥ សម្រាប់សំណល់អាហារ។
ការធ្វើឱ្យប្រសើរឡើងដោយប្រើម៉ូដែល GSO-XGBoost បានកាត់បន្ថយអត្រាកំហុសបន្ថែមទៀត ដោយទទួលបាន MAPE ទាបបំផុតត្រឹម ៤.៩៣៤៩ (ក្រដាស) ៦.៧៩៦៧ (ប្លាស្ទិក) និង ៥.៩៦២៦ (អាហារ)។
ការសិក្សាបង្ហាញថាយន្តការរៀនដែលត្រូវបានកែលម្អប៉ារ៉ាម៉ែត្រ (Optimized ML models) ផ្តល់នូវប្រសិទ្ធភាពខ្ពស់ក្នុងការគាំទ្រដល់អាជ្ញាធរសម្រាប់ការធ្វើសេចក្តីសម្រេចចិត្ត និងការគ្រប់គ្រងសំណល់រឹងប្រកបដោយចីរភាពនាពេលអនាគត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GSO-XGBoost ម៉ូដែល XGBoost ដែលបានកែលម្អប៉ារ៉ាម៉ែត្រដោយ Grid Search Optimization	ផ្តល់លទ្ធផលព្យាករណ៍បានច្បាស់លាស់បំផុត និងមានអត្រាកំហុសទាបបំផុតសម្រាប់គ្រប់ប្រភេទសំណល់ ដោយសារការស្វែងរកប៉ារ៉ាម៉ែត្រប្រសើរបំផុត (Optimal hyperparameters)។	ទាមទារពេលវេលាគណនាយូរជាងម៉ូដែលដើម ដោយសារវាត្រូវសាកល្បងរាល់បន្សំនៃប៉ារ៉ាម៉ែត្រ (Grid Search)។	អត្រាកំហុសជាមធ្យម (MAPE) ទាបបំផុត: ៤.៩៣ (ក្រដាស), ៦.៧៩ (ប្លាស្ទិក), ៥.៩៦ (អាហារ)។
XGBoost (Default) ម៉ូដែល XGBoost ដើម (មិនកែប្រែប៉ារ៉ាម៉ែត្រ)	ដំណើរការលឿន មានប្រសិទ្ធភាពខ្ពស់ក្នុងការរៀនពីទិន្នន័យ (Gradient descent framework) និងមានលទ្ធផលល្អប្រសើរជាងម៉ូដែលប្រពៃណីផ្សេងទៀត។	នៅមានកម្រិតកំហុសខ្ពស់ជាងម៉ូដែលដែលបានធ្វើ GSO (Optimization) ព្រោះប៉ារ៉ាម៉ែត្រដើមអាចមិនស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យជាក់លាក់នេះ។	អត្រាកំហុសជាមធ្យម (MAPE): ៨.៣០ (ក្រដាស), ៨.៣២ (ប្លាស្ទិក), ៦.៩៤ (អាហារ)។
ExtraTrees ម៉ូដែលដើមឈើសម្រេចចិត្តច្រើន (Extremely Randomized Trees)	មានសមត្ថភាពល្អក្នុងការចាប់យកទម្រង់ទិន្នន័យសំណល់ប្លាស្ទិក និងអាហារ ដោយទទួលបានចំណាត់ថ្នាក់ទី២ ក្នុងការទស្សន៍ទាយ។	ប្រសិទ្ធភាពធ្លាក់ចុះនៅពេលជួបប្រទះទិន្នន័យដែលមានភាពស្មុគស្មាញ និងប្រែប្រួលខ្លាំងដូចជាសំណល់ក្រដាស។	អត្រាកំហុសជាមធ្យម (MAPE): ១០.៤៦ (ក្រដាស), ៨.៤១ (ប្លាស្ទិក), ៧.០៥ (អាហារ)។
SVR (Support Vector Regressor) ការតំរែតំរង់វ៉ិចទ័រគាំទ្រ	មានស្ថិរភាពគួរសមសម្រាប់ការទស្សន៍ទាយទិន្នន័យសំណល់អាហារ ដែលមានទម្រង់ចែកចាយជាក់លាក់។	ដំណើរការខ្សោយបំផុតសម្រាប់ទិន្នន័យសំណល់ក្រដាសដែលមានភាពស្មុគស្មាញ និងមានអត្រាកំហុសខ្ពស់ជាងគេ។	អត្រាកំហុសជាមធ្យម (MAPE): ១៩.៧៧ (ក្រដាស), ១០.៥៨ (ប្លាស្ទិក), ៧.៥៣ (អាហារ)។
KNN (k-Nearest Neighbors) ក្បួនដោះស្រាយអ្នកជិតខាង k	ងាយស្រួលយល់ និងអនុវត្តដោយមិនចាំបាច់មានការកំណត់រចនាសម្ព័ន្ធស្មុគស្មាញច្រើន។	ផ្តល់លទ្ធផលខ្សោយបំផុតជាទូទៅ ពិសេសលើសំណល់ប្លាស្ទិក និងអាហារ ព្រោះវាមិនសូវពូកែទាញយកលក្ខណៈពិសេសនៃទិន្នន័យ Time-series។	អត្រាកំហុសជាមធ្យម (MAPE): ១៣.៤៤ (ក្រដាស), ១៥.០៩ (ប្លាស្ទិក), ១០.៧០ (អាហារ)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតពីធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់នោះទេ ប៉ុន្តែដោយផ្អែកលើទំហំទិន្នន័យ និងវិធីសាស្ត្រ វាអាចត្រូវបានដំណើរការលើកុំព្យូទ័រធម្មតាបាន។

Dataset: ទិន្នន័យប្រវត្តិសំណល់រឹងសិង្ហបុរីរយៈពេល ១៨ ឆ្នាំ (២០០៣-២០២១) ដែលមានទំហំតូចនិងងាយស្រួលផ្ទុក។
Software: ភាសាកូដ Python រួមជាមួយបណ្ណាល័យ Machine Learning ដូចជា Scikit-learn, XGBoost និង CatBoost សម្រាប់ការបង្កើតម៉ូដែល។
Hardware: កុំព្យូទ័រធម្មតា (Standard PC/Laptop) ដែលមាន CPU និង RAM មធ្យមគឺគ្រប់គ្រាន់ មិនចាំបាច់ប្រើ GPU ធំដុំនោះទេ លើកលែងតែពេលដំណើរការ Grid Search អាចប្រើពេលគណនាបន្តិច។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីទីភ្នាក់ងារបរិស្ថានជាតិសិង្ហបុរី (NEA) ដែលជាប្រទេសអភិវឌ្ឍន៍ មានប្រព័ន្ធប្រមូលសំរាម និងកែច្នៃស្តង់ដារខ្ពស់កម្រិតពិភពលោក។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈប្រជាសាស្ត្រ ការបែងចែកសំរាមនៅប្រភពដើម និងអត្រាកែច្នៃមានភាពខុសគ្នាស្រឡះ (ភាគច្រើនជាសំណល់សរីរាង្គ និងមានអ្នករើសអេតចាយក្រៅផ្លូវការ) ដែលធ្វើឱ្យការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចមានគម្លាតប្រសិទ្ធភាពបើសិនមិនប្រើទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រ GSO-XGBoost នេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ការគ្រប់គ្រងសំណល់នៅកម្ពុជា។

រាជធានីភ្នំពេញ (Phnom Penh Municipality): អាចប្រើម៉ូដែលនេះជាមួយទិន្នន័យរបស់ក្រុមហ៊ុនប្រមូលសំរាម (ដូចជា Cintri, Mizuda, 800 Super) ដើម្បីទស្សន៍ទាយបរិមាណសំរាមប្រចាំថ្ងៃ និងរៀបចំផ្លូវប្រមូលសំរាម (Route optimization) ក៏ដូចជាកាត់បន្ថយការកកស្ទះនៅទីលានចាក់សំរាមដង្កោ ឬទីលានថ្មី។
ខេត្តទេសចរណ៍ (Siem Reap & Preah Sihanouk): ទស្សន៍ទាយការកើនឡើងនៃសំណល់ប្លាស្ទិក និងសំណល់អាហារក្នុងរដូវកាលទេសចរណ៍ (High season) ដើម្បីត្រៀមរៀបចំធុងសំរាម និងរថយន្តដឹកជញ្ជូនឱ្យបានគ្រប់គ្រាន់។
ក្រសួងបរិស្ថាន (Ministry of Environment): ប្រើប្រាស់ការទស្សន៍ទាយរយៈពេលវែងសម្រាប់ធ្វើសេចក្តីសម្រេចចិត្តក្នុងការកសាងរោងចក្រដុតសំរាមយកថាមពល (Waste-to-Energy) និងកំណត់គោលដៅកែច្នៃសំណល់រឹងថ្នាក់ជាតិ។

ការអនុវត្តវិធីសាស្ត្រ Machine Learning នេះដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងរបស់កម្ពុជា នឹងជួយពន្យារអាយុកាលទីលានចាក់សំរាម និងជំរុញការគ្រប់គ្រងបរិស្ថានប្រកបដោយចីរភាពកាន់តែប្រសើរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ ការប្រមូល និងសម្អាតទិន្នន័យសំណល់ (Data Collection & Preprocessing): និស្សិតត្រូវស្វែងរកទិន្នន័យសំណល់រឹងពីក្រសួងបរិស្ថាន ឬរដ្ឋបាលរាជធានី-ខេត្ត រួចប្រើប្រាស់ Pandas ក្នុង Python ដើម្បីសម្អាតទិន្នន័យ (Missing values) និងបែងចែកទិន្នន័យជា Training និង Testing sets។
ជំហានទី២៖ សិក្សាពីក្បួនដោះស្រាយ XGBoost (Mastering XGBoost): ចាប់ផ្តើមអនុវត្តម៉ូដែល XGBRegressor ដោយប្រើប្រាស់ប៉ារ៉ាម៉ែត្រដើម (Default) ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលរៀនពីទិន្នន័យ (Gradient descent) និងវាយតម្លៃលទ្ធផលបឋម។
ជំហានទី៣៖ ការធ្វើឱ្យប្រសើរឡើងដោយ Grid Search Optimization (Hyperparameter Tuning): ប្រើប្រាស់ឧបករណ៍ GridSearchCV ពីបណ្ណាល័យ Scikit-learn ដើម្បីកំណត់ជួរនៃប៉ារ៉ាម៉ែត្រ (ឧទាហរណ៍: max_depth=3 ដល់ 6, n_estimators=50 ដល់ 200) រួចស្វែងរកបន្សំដែលល្អបំផុតសម្រាប់ទិន្នន័យកម្ពុជា។
ជំហានទី៤៖ ការវាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាពម៉ូដែល (Model Evaluation): វាស់ស្ទង់សមត្ថភាពម៉ូដែល GSO-XGBoost ធៀបជាមួយម៉ូដែលផ្សេងៗ (ដូចជា SVR, Random Forest) ដោយប្រើប្រាស់រង្វាស់ស្តង់ដារដូចជា MAPE, MAE, និង RMSE តាមរយៈកូដ Python។
ជំហានទី៥៖ បង្កើត Dashboard ទស្សន៍ទាយ (Visualization & Deployment): ប្រើប្រាស់ Streamlit ឬ Dash ដើម្បីសង់ជាផ្ទាំងគ្រប់គ្រង (Dashboard) ដែលអនុញ្ញាតឱ្យអាជ្ញាធរអាចមើលឃើញក្រាហ្វិកព្យាករណ៍បរិមាណសំរាមនាពេលអនាគត និងជួយសម្រួលដល់ការធ្វើសេចក្តីសម្រេចចិត្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
XGBoost (eXtreme Gradient Boosting)	ជាក្បួនដោះស្រាយយន្តការរៀន (Machine Learning) ដ៏មានឥទ្ធិពលដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនបន្តបន្ទាប់គ្នា ដោយដើមឈើថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលដើមឈើចាស់បានធ្វើ ដើម្បីទទួលបានលទ្ធផលព្យាករណ៍ចុងក្រោយមួយដែលសុក្រឹតបំផុត។	ដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដែលសិស្សទី២ កែរាល់កំហុសរបស់សិស្សទី១ ហើយសិស្សទី៣ កែកំហុសបន្តពីសិស្សទី២ រហូតដល់លំហាត់នោះត្រឹមត្រូវល្អឥតខ្ចោះ។
Grid Search Optimization (GSO)	ជាវិធីសាស្ត្រក្នុងការស្វែងរកតម្លៃល្អបំផុតសម្រាប់ប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែល ដោយវាធ្វើការសាកល្បងរាល់បន្សំ (Combinations) នៃប៉ារ៉ាម៉ែត្រទាំងអស់ដែលមានក្នុងបញ្ជី រហូតដល់រកឃើញបន្សំមួយណាដែលផ្តល់លទ្ធផលព្យាករណ៍ត្រឹមត្រូវជាងគេបំផុត។	ដូចជាការសាកល្បងចាក់សោរលេខកូដវ៉ាលី ដោយយើងសាកល្បងរាល់លេខទាំងអស់ពី 000 ដល់ 999 ម្តងមួយៗ រហូតដល់រកឃើញលេខកូដដែលត្រឹមត្រូវអាចបើកវ៉ាលីបាន។
Hyperparameters	គឺជាការកំណត់រចនាសម្ព័ន្ធ (Settings) ជាមុនដែលយើងត្រូវផ្តល់ឱ្យម៉ូដែល Machine Learning មុនពេលវាចាប់ផ្តើមរៀនពីទិន្នន័យ (ឧទាហរណ៍ កំណត់ចំនួនដើមឈើ ឬជម្រៅរបស់វា) ដែលវាជួយគ្រប់គ្រងរបៀបនិងល្បឿនដែលម៉ូដែលនោះដំណើរការ។	ដូចជាការកំណត់កម្ដៅ និងពេលវេលានៅលើម៉ាស៊ីនដុតនំប៉័ង មុនពេលយើងដាក់នំប៉័ងចូលដុត។
Municipal Solid Waste (MSW)	ជាសំណល់រឹង ឬសំរាមទូទៅដែលត្រូវបានបង្កើតឡើងដោយប្រជាជននៅតាមលំនៅដ្ឋាន សាលារៀន អាជីវកម្មដ្ឋាន និងទីកន្លែងសាធារណៈនានា ដែលអាជ្ញាធរត្រូវប្រមូលយកទៅកែច្នៃ ឬចោលនៅទីលានចាក់សំរាម។	គឺជា "សំរាម" គ្រប់ប្រភេទដែលយើងតែងតែបោះចោលក្នុងធុងសំរាមរាល់ថ្ងៃនៅផ្ទះ ឬកន្លែងធ្វើការ។
Mean Absolute Percentage Error (MAPE)	ជារង្វាស់ស្ថិតិដែលគេប្រើដើម្បីវាយតម្លៃភាពសុក្រឹតនៃម៉ូដែលព្យាករណ៍ ដោយវាគណនាគម្លាតរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃពិតប្រាកដ រួចបំប្លែងវាទៅជាភាគរយនៃកំហុសជាមធ្យម។ តួលេខ MAPE កាន់តែតូច បញ្ជាក់ថាម៉ូដែលកាន់តែពូកែ។	ដូចជាការប្រឡងបាញ់ធ្នូ បើសិនជាអ្នកបាញ់ខុសចំកណ្តាលស៊ីបគិតជាភាគរយប្រហែល ៥% នោះ ៥% នេះគឺជាតម្លៃកំហុស MAPE។
Classification and Regression Tree (CART)	ជាទម្រង់នៃម៉ូដែលរៀនពីទិន្នន័យដែលបំបែកទិន្នន័យជាមែកធាងជាច្រើនដំណាក់កាលដោយផ្អែកលើលក្ខខណ្ឌ ដើម្បីធ្វើការចាត់ថ្នាក់ទិន្នន័យ (Classification) ឬទស្សន៍ទាយជាតួលេខបន្តបន្ទាប់ (Regression) ដែលវាជាធាតុផ្សំមូលដ្ឋានរបស់ម៉ូដែល XGBoost។	ដូចជាការលេងហ្គេមសួរសំណួរ "តើវាជាសត្វ ឬរុក្ខជាតិ?" "តើវាចេះហោះទេ?" ដែលសំណួរនីមួយៗជួយបំបែកចម្លើយជាមែកធាងរហូតដល់រកឃើញចម្លើយត្រឹមត្រូវនៅចុងបញ្ចប់។
Overfitting	ជាបញ្ហាក្នុង Machine Learning នៅពេលដែលម៉ូដែលរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ច្បាស់លាស់ពេក រហូតដល់ចងចាំទាំងចំណុចខុសឆ្គង (Noise) ដែលធ្វើឱ្យវាមិនអាចធ្វើការទស្សន៍ទាយបានល្អនៅពេលជួបប្រទះទិន្នន័យថ្មីដែលវាមិនធ្លាប់ស្គាល់។	ដូចជាសិស្សដែលខំទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗគ្រប់ម៉ាត់រហូតចាំស្ទាត់ ប៉ុន្តែពេលប្រឡងជួបវិញ្ញាសាថ្មីដែលប្តូរលេខសោះ បែរជាធ្វើមិនចេញទាល់តែសោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖