បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃការបង្កើតសំណល់ដោយសារកំណើនប្រជាជននិងនគរូបនីយកម្ម កំពុងគំរាមកំហែងដល់សមត្ថភាពទីលានចាក់សំរាម (ឧទាហរណ៍ ទីលានចាក់សំរាម Semakau របស់ប្រទេសសិង្ហបុរីនឹងពេញនៅឆ្នាំ២០៣៥) ដែលទាមទារឱ្យមានការព្យាករណ៍បរិមាណសំណល់ច្បាស់លាស់ដើម្បីរៀបចំហេដ្ឋារចនាសម្ព័ន្ធប្រកបដោយចីរភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្បួនដោះស្រាយយន្តការរៀន (Machine Learning algorithms) ជាច្រើន ដោយផ្តោតជាពិសេសលើការធ្វើឱ្យប្រសើរឡើងនូវម៉ូដែល XGBoost ជាមួយនឹងវិធីសាស្ត្រ Grid Search Optimization ដើម្បីព្យាករណ៍ការបង្កើតប្រភេទសំណល់ធំៗចំនួនបីគឺ ក្រដាសនិងក្រដាសកាតុង ប្លាស្ទិក និងសំណល់អាហារ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| GSO-XGBoost ម៉ូដែល XGBoost ដែលបានកែលម្អប៉ារ៉ាម៉ែត្រដោយ Grid Search Optimization |
ផ្តល់លទ្ធផលព្យាករណ៍បានច្បាស់លាស់បំផុត និងមានអត្រាកំហុសទាបបំផុតសម្រាប់គ្រប់ប្រភេទសំណល់ ដោយសារការស្វែងរកប៉ារ៉ាម៉ែត្រប្រសើរបំផុត (Optimal hyperparameters)។ | ទាមទារពេលវេលាគណនាយូរជាងម៉ូដែលដើម ដោយសារវាត្រូវសាកល្បងរាល់បន្សំនៃប៉ារ៉ាម៉ែត្រ (Grid Search)។ | អត្រាកំហុសជាមធ្យម (MAPE) ទាបបំផុត: ៤.៩៣ (ក្រដាស), ៦.៧៩ (ប្លាស្ទិក), ៥.៩៦ (អាហារ)។ |
| XGBoost (Default) ម៉ូដែល XGBoost ដើម (មិនកែប្រែប៉ារ៉ាម៉ែត្រ) |
ដំណើរការលឿន មានប្រសិទ្ធភាពខ្ពស់ក្នុងការរៀនពីទិន្នន័យ (Gradient descent framework) និងមានលទ្ធផលល្អប្រសើរជាងម៉ូដែលប្រពៃណីផ្សេងទៀត។ | នៅមានកម្រិតកំហុសខ្ពស់ជាងម៉ូដែលដែលបានធ្វើ GSO (Optimization) ព្រោះប៉ារ៉ាម៉ែត្រដើមអាចមិនស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យជាក់លាក់នេះ។ | អត្រាកំហុសជាមធ្យម (MAPE): ៨.៣០ (ក្រដាស), ៨.៣២ (ប្លាស្ទិក), ៦.៩៤ (អាហារ)។ |
| ExtraTrees ម៉ូដែលដើមឈើសម្រេចចិត្តច្រើន (Extremely Randomized Trees) |
មានសមត្ថភាពល្អក្នុងការចាប់យកទម្រង់ទិន្នន័យសំណល់ប្លាស្ទិក និងអាហារ ដោយទទួលបានចំណាត់ថ្នាក់ទី២ ក្នុងការទស្សន៍ទាយ។ | ប្រសិទ្ធភាពធ្លាក់ចុះនៅពេលជួបប្រទះទិន្នន័យដែលមានភាពស្មុគស្មាញ និងប្រែប្រួលខ្លាំងដូចជាសំណល់ក្រដាស។ | អត្រាកំហុសជាមធ្យម (MAPE): ១០.៤៦ (ក្រដាស), ៨.៤១ (ប្លាស្ទិក), ៧.០៥ (អាហារ)។ |
| SVR (Support Vector Regressor) ការតំរែតំរង់វ៉ិចទ័រគាំទ្រ |
មានស្ថិរភាពគួរសមសម្រាប់ការទស្សន៍ទាយទិន្នន័យសំណល់អាហារ ដែលមានទម្រង់ចែកចាយជាក់លាក់។ | ដំណើរការខ្សោយបំផុតសម្រាប់ទិន្នន័យសំណល់ក្រដាសដែលមានភាពស្មុគស្មាញ និងមានអត្រាកំហុសខ្ពស់ជាងគេ។ | អត្រាកំហុសជាមធ្យម (MAPE): ១៩.៧៧ (ក្រដាស), ១០.៥៨ (ប្លាស្ទិក), ៧.៥៣ (អាហារ)។ |
| KNN (k-Nearest Neighbors) ក្បួនដោះស្រាយអ្នកជិតខាង k |
ងាយស្រួលយល់ និងអនុវត្តដោយមិនចាំបាច់មានការកំណត់រចនាសម្ព័ន្ធស្មុគស្មាញច្រើន។ | ផ្តល់លទ្ធផលខ្សោយបំផុតជាទូទៅ ពិសេសលើសំណល់ប្លាស្ទិក និងអាហារ ព្រោះវាមិនសូវពូកែទាញយកលក្ខណៈពិសេសនៃទិន្នន័យ Time-series។ | អត្រាកំហុសជាមធ្យម (MAPE): ១៣.៤៤ (ក្រដាស), ១៥.០៩ (ប្លាស្ទិក), ១០.៧០ (អាហារ)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតពីធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់នោះទេ ប៉ុន្តែដោយផ្អែកលើទំហំទិន្នន័យ និងវិធីសាស្ត្រ វាអាចត្រូវបានដំណើរការលើកុំព្យូទ័រធម្មតាបាន។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីទីភ្នាក់ងារបរិស្ថានជាតិសិង្ហបុរី (NEA) ដែលជាប្រទេសអភិវឌ្ឍន៍ មានប្រព័ន្ធប្រមូលសំរាម និងកែច្នៃស្តង់ដារខ្ពស់កម្រិតពិភពលោក។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈប្រជាសាស្ត្រ ការបែងចែកសំរាមនៅប្រភពដើម និងអត្រាកែច្នៃមានភាពខុសគ្នាស្រឡះ (ភាគច្រើនជាសំណល់សរីរាង្គ និងមានអ្នករើសអេតចាយក្រៅផ្លូវការ) ដែលធ្វើឱ្យការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចមានគម្លាតប្រសិទ្ធភាពបើសិនមិនប្រើទិន្នន័យក្នុងស្រុក។
ទោះបីជាទិន្នន័យមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រ GSO-XGBoost នេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ការគ្រប់គ្រងសំណល់នៅកម្ពុជា។
ការអនុវត្តវិធីសាស្ត្រ Machine Learning នេះដោយប្រើប្រាស់ទិន្នន័យជាក់ស្តែងរបស់កម្ពុជា នឹងជួយពន្យារអាយុកាលទីលានចាក់សំរាម និងជំរុញការគ្រប់គ្រងបរិស្ថានប្រកបដោយចីរភាពកាន់តែប្រសើរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| XGBoost (eXtreme Gradient Boosting) | ជាក្បួនដោះស្រាយយន្តការរៀន (Machine Learning) ដ៏មានឥទ្ធិពលដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនបន្តបន្ទាប់គ្នា ដោយដើមឈើថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលដើមឈើចាស់បានធ្វើ ដើម្បីទទួលបានលទ្ធផលព្យាករណ៍ចុងក្រោយមួយដែលសុក្រឹតបំផុត។ | ដូចជាក្រុមសិស្សធ្វើលំហាត់រួមគ្នា ដែលសិស្សទី២ កែរាល់កំហុសរបស់សិស្សទី១ ហើយសិស្សទី៣ កែកំហុសបន្តពីសិស្សទី២ រហូតដល់លំហាត់នោះត្រឹមត្រូវល្អឥតខ្ចោះ។ |
| Grid Search Optimization (GSO) | ជាវិធីសាស្ត្រក្នុងការស្វែងរកតម្លៃល្អបំផុតសម្រាប់ប៉ារ៉ាម៉ែត្ររបស់ម៉ូដែល ដោយវាធ្វើការសាកល្បងរាល់បន្សំ (Combinations) នៃប៉ារ៉ាម៉ែត្រទាំងអស់ដែលមានក្នុងបញ្ជី រហូតដល់រកឃើញបន្សំមួយណាដែលផ្តល់លទ្ធផលព្យាករណ៍ត្រឹមត្រូវជាងគេបំផុត។ | ដូចជាការសាកល្បងចាក់សោរលេខកូដវ៉ាលី ដោយយើងសាកល្បងរាល់លេខទាំងអស់ពី 000 ដល់ 999 ម្តងមួយៗ រហូតដល់រកឃើញលេខកូដដែលត្រឹមត្រូវអាចបើកវ៉ាលីបាន។ |
| Hyperparameters | គឺជាការកំណត់រចនាសម្ព័ន្ធ (Settings) ជាមុនដែលយើងត្រូវផ្តល់ឱ្យម៉ូដែល Machine Learning មុនពេលវាចាប់ផ្តើមរៀនពីទិន្នន័យ (ឧទាហរណ៍ កំណត់ចំនួនដើមឈើ ឬជម្រៅរបស់វា) ដែលវាជួយគ្រប់គ្រងរបៀបនិងល្បឿនដែលម៉ូដែលនោះដំណើរការ។ | ដូចជាការកំណត់កម្ដៅ និងពេលវេលានៅលើម៉ាស៊ីនដុតនំប៉័ង មុនពេលយើងដាក់នំប៉័ងចូលដុត។ |
| Municipal Solid Waste (MSW) | ជាសំណល់រឹង ឬសំរាមទូទៅដែលត្រូវបានបង្កើតឡើងដោយប្រជាជននៅតាមលំនៅដ្ឋាន សាលារៀន អាជីវកម្មដ្ឋាន និងទីកន្លែងសាធារណៈនានា ដែលអាជ្ញាធរត្រូវប្រមូលយកទៅកែច្នៃ ឬចោលនៅទីលានចាក់សំរាម។ | គឺជា "សំរាម" គ្រប់ប្រភេទដែលយើងតែងតែបោះចោលក្នុងធុងសំរាមរាល់ថ្ងៃនៅផ្ទះ ឬកន្លែងធ្វើការ។ |
| Mean Absolute Percentage Error (MAPE) | ជារង្វាស់ស្ថិតិដែលគេប្រើដើម្បីវាយតម្លៃភាពសុក្រឹតនៃម៉ូដែលព្យាករណ៍ ដោយវាគណនាគម្លាតរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃពិតប្រាកដ រួចបំប្លែងវាទៅជាភាគរយនៃកំហុសជាមធ្យម។ តួលេខ MAPE កាន់តែតូច បញ្ជាក់ថាម៉ូដែលកាន់តែពូកែ។ | ដូចជាការប្រឡងបាញ់ធ្នូ បើសិនជាអ្នកបាញ់ខុសចំកណ្តាលស៊ីបគិតជាភាគរយប្រហែល ៥% នោះ ៥% នេះគឺជាតម្លៃកំហុស MAPE។ |
| Classification and Regression Tree (CART) | ជាទម្រង់នៃម៉ូដែលរៀនពីទិន្នន័យដែលបំបែកទិន្នន័យជាមែកធាងជាច្រើនដំណាក់កាលដោយផ្អែកលើលក្ខខណ្ឌ ដើម្បីធ្វើការចាត់ថ្នាក់ទិន្នន័យ (Classification) ឬទស្សន៍ទាយជាតួលេខបន្តបន្ទាប់ (Regression) ដែលវាជាធាតុផ្សំមូលដ្ឋានរបស់ម៉ូដែល XGBoost។ | ដូចជាការលេងហ្គេមសួរសំណួរ "តើវាជាសត្វ ឬរុក្ខជាតិ?" "តើវាចេះហោះទេ?" ដែលសំណួរនីមួយៗជួយបំបែកចម្លើយជាមែកធាងរហូតដល់រកឃើញចម្លើយត្រឹមត្រូវនៅចុងបញ្ចប់។ |
| Overfitting | ជាបញ្ហាក្នុង Machine Learning នៅពេលដែលម៉ូដែលរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ច្បាស់លាស់ពេក រហូតដល់ចងចាំទាំងចំណុចខុសឆ្គង (Noise) ដែលធ្វើឱ្យវាមិនអាចធ្វើការទស្សន៍ទាយបានល្អនៅពេលជួបប្រទះទិន្នន័យថ្មីដែលវាមិនធ្លាប់ស្គាល់។ | ដូចជាសិស្សដែលខំទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗគ្រប់ម៉ាត់រហូតចាំស្ទាត់ ប៉ុន្តែពេលប្រឡងជួបវិញ្ញាសាថ្មីដែលប្តូរលេខសោះ បែរជាធ្វើមិនចេញទាល់តែសោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖