បញ្ហា (The Problem)៖ ការបំពុលខ្យល់គឺជាការគំរាមកំហែងយ៉ាងធ្ងន់ធ្ងរដល់សុខភាពមនុស្ស។ ឯកសារនេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយគុណភាពខ្យល់ ដោយការរួមបញ្ចូលទិន្នន័យកម្រិតជាតិពុល និងកត្តាឧតុនិយមដែលជារឿយៗត្រូវបានមើលរំលងក្នុងម៉ូដែលទស្សន៍ទាយទូទៅ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវម៉ូដែល Feature Based Weighted XGBoost ដើម្បីទស្សន៍ទាយសន្ទស្សន៍គុណភាពខ្យល់ (AQI) ដោយផ្អែកលើទិន្នន័យពីស្ថានីយពាណិជ្ជកម្មនៅតំបន់ Velachery ប្រទេសឥណ្ឌា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Feature based Weighted XGBoost (Proposed) ម៉ូដែលដើមឈើសម្រេចចិត្តមានទម្ងន់រួមបញ្ចូលគ្នា (XGBoost ដែលស្នើឡើង) |
ផ្តល់អត្រាកំហុសទាបបំផុត អាចវាយតម្លៃកត្តាឧតុនិយមតាមទម្ងន់នៃសារៈសំខាន់របស់វា និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល។ | តម្រូវឱ្យមានការគណនា gradient លំដាប់ទីមួយ ដែលអាចមានការលះបង់បន្តិចបន្តួចទៅលើល្បឿននៃការជួបប្រសព្វ (convergence speed)។ | ទទួលបានតម្លៃ RMSE ទាបបំផុតគឺ 15.97។ |
| Decision Tree ម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Tree) |
មានភាពសាមញ្ញ ងាយស្រួលយល់ និងអាចបង្ហាញពីលំហូរនៃការសម្រេចចិត្តបានច្បាស់លាស់។ | ងាយរងគ្រោះដោយបញ្ហា Overfitting លើទិន្នន័យថ្មី បើប្រៀបធៀបជាមួយវិធីសាស្ត្របន្សំ (Ensemble)។ | ទទួលបានតម្លៃ RMSE ស្មើនឹង 16.84។ |
| Multiple Linear Regression តម្រែតម្រង់លីនេអ៊ែរចម្រុះ (Multiple Linear Regression) |
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងលីនេអ៊ែរច្បាស់លាស់។ | មិនសូវមានភាពបត់បែនគ្រប់គ្រាន់សម្រាប់ចាប់យកទំនាក់ទំនងស្មុគស្មាញរវាងអថេរឧតុនិយម និងកម្រិតជាតិពុលនោះទេ។ | ទទួលបានតម្លៃ RMSE ស្មើនឹង 18.72។ |
| Neural Networks បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks) |
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីលំនាំស្មុគស្មាញ និងទំនាក់ទំនងដែលមិនមែនជាលីនេអ៊ែរនៅក្នុងទិន្នន័យធំៗ។ | ម៉ូដែលអាចនឹងផ្តល់ទម្ងន់លើស ឬខកខានក្នុងការចាប់យកលក្ខណៈពិសេសសំខាន់ៗ (Over/Under weigh features) ហើយមានកំហុសខ្ពស់ជាងគេក្នុងការធ្វើតេស្តនេះ។ | ទទួលបានតម្លៃ RMSE ខ្ពស់ជាងគេគឺ 24.14។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែជាទូទៅការអនុវត្ត XGBoost ទាមទារធនធានកុំព្យូទ័រមធ្យម និងទិន្នន័យដែលមានគុណភាព។
ការសិក្សានេះប្រមូលទិន្នន័យពីស្ថានីយពាណិជ្ជកម្ម Velachery ក្នុងរដ្ឋ Tamil Nadu ប្រទេសឥណ្ឌា។ ទោះបីជាបរិបទនៃការកកស្ទះចរាចរណ៍អាចមានភាពស្រដៀងគ្នានឹងទីក្រុងធំៗមួយចំនួន ប៉ុន្តែលក្ខខណ្ឌអាកាសធាតុ និងប្រភេទនៃប្រភពបំពុលអាចមានភាពខុសគ្នាពីប្រទេសកម្ពុជា។ ហេតុនេះ ការយកម៉ូដែលនេះមកអនុវត្តនៅកម្ពុជា តម្រូវឱ្យមានការបណ្តុះបណ្តាលសារជាថ្មី (Retraining) ជាមួយនឹងទិន្នន័យក្នុងស្រុក។
វិធីសាស្ត្រទស្សន៍ទាយដែលប្រើប្រាស់កត្តាឧតុនិយមនេះ មានភាពជាក់ស្តែង និងអាចផ្តល់ប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការគ្រប់គ្រងគុណភាពខ្យល់នៅកម្ពុជា។
ជារួម ការរួមបញ្ចូលទិន្នន័យអាកាសធាតុទៅក្នុងការទស្សន៍ទាយ AQI តាមរយៈ XGBoost គឺជាដំណោះស្រាយដែលមានប្រសិទ្ធភាពចំណាយខ្ពស់ ដើម្បីលើកកម្ពស់សុខុមាលភាពសាធារណៈនៅប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| XGBoost | ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning algorithm) ដ៏មានឥទ្ធិពលមួយ ដែលបង្កើតឡើងដោយការប្រមូលផ្តុំដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយទិន្នន័យបានយ៉ាងរហ័ស និងអាចចាប់យកលំនាំស្មុគស្មាញនៃទិន្នន័យកម្រិតជាតិពុលបានយ៉ាងមានប្រសិទ្ធភាព។ | ដូចជាការប្រមូលអ្នកជំនាញជាច្រើននាក់មកប្រជុំគ្នាដើម្បីទាយលទ្ធផលអ្វីមួយ ដោយអ្នកដែលទាយត្រូវច្រើនជាងគេពីមុនៗ នឹងមានសិទ្ធិសម្រេចធំជាងគេនៅពេលក្រោយ។ |
| Air Quality Index (AQI) | ជាសន្ទស្សន៍ស្តង់ដារដែលប្រើសម្រាប់វាស់ស្ទង់ និងរាយការណ៍ពីកម្រិតនៃការបំពុលខ្យល់ប្រចាំថ្ងៃ ដើម្បីប្រាប់ពីកម្រិតហានិភ័យនៃផលប៉ះពាល់ដល់សុខភាពមនុស្សនៅពេលដែលយើងដកដង្ហើមបញ្ចូលខ្យល់ទាំងនោះ។ | ដូចជាសៀវភៅតាមដានពិន្ទុប្រចាំខែរបស់បរិស្ថានអញ្ចឹង បើពិន្ទុកាន់តែខ្ពស់ មានន័យថាខ្យល់កាន់តែកខ្វក់ និងគ្រោះថ្នាក់ខ្លាំងដល់សុខភាព។ |
| Particulate Matter(P.M 2.5) | ជាភាគល្អិតធូលីតូចៗបំផុតដែលមានទំហំអង្កត់ផ្ចិតតូចជាង ឬស្មើ ២.៥ មីក្រូម៉ែត្រ ដែលកើតចេញពីចំហេះមិនសព្វ (ដូចជាផ្សែងឡាន ផ្សែងរោងចក្រ) ដែលអាចអណ្តែតក្នុងខ្យល់ និងងាយស្រួលជ្រៀតចូលយ៉ាងជ្រៅទៅក្នុងសួតនិងសរសៃឈាមរបស់មនុស្ស។ | ដូចជាគ្រាប់ខ្សាច់ដ៏ល្អិតបំផុតដែលតូចជាងសរសៃសក់មនុស្សដល់ទៅ ៣០ ដង ដែលភ្នែកទទេមិនអាចមើលឃើញ តែវាអាចហោះចូលទៅបំផ្លាញសួតយើងបានយ៉ាងងាយ។ |
| Exploratory Data Analysis (EDA) | គឺជាដំណើរការនៃការត្រួតពិនិត្យ ស្វែងយល់ និងគូរក្រាហ្វពីទិន្នន័យបឋម ដើម្បីស្វែងរកលំនាំ ទំនាក់ទំនងរវាងអថេរ (ឧ. ទំនាក់ទំនងរវាងល្បឿនខ្យល់ និងកម្រិតជាតិពុល) និងភាពខុសប្រក្រតី មុននឹងយកទិន្នន័យនោះទៅបង្រៀនម៉ាស៊ីន។ | ដូចជាការសង្កេតមើលគ្រឿងផ្សំ និងភ្លក់រសជាតិមុនពេលចាប់ផ្តើមចម្អិនម្ហូបដ៏ធំមួយ ដើម្បីដឹងថាត្រូវថែម ឬថយគ្រឿងទេសអ្វីខ្លះទើបឆ្ងាញ់។ |
| Ensembling model | ជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិត ដែលគេយកម៉ូដែលទស្សន៍ទាយតូចៗជាច្រើនមកបូកបញ្ចូលគ្នា ដើម្បីបង្កើតបានជាម៉ូដែលរួមមួយដែលអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវ និងទប់ស្កាត់កំហុសឆ្គងបានល្អជាងការប្រើប្រាស់ម៉ូដែលតែមួយឯកឯង។ | ដូចជាការធ្វើការងារជាក្រុមអញ្ចឹង មនុស្សម្នាក់អាចនឹងគិតខុស តែបើយើងយកគំនិតមនុស្ស ១០ នាក់មកបូកបញ្ចូលគ្នា ការសម្រេចចិត្តនឹងមានភាពត្រឹមត្រូវខ្ពស់ជាង។ |
| Roulette wheel method | ជាវិធីសាស្ត្រជ្រើសរើសដោយផ្អែកលើប្រូបាប៊ីលីតេ ដែលនៅក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីផ្តល់ទម្ងន់ (តម្លៃ) ទៅលើកត្តាឧតុនិយមនានា ដោយកត្តាណាដែលមានឥទ្ធិពលខ្លាំងជាងគេទៅលើគុណភាពខ្យល់ នឹងទទួលបានចំណែកធំជាងគេក្នុងការវាយតម្លៃ។ | ដូចជាការបង្វិលកងផ្សងសំណាង (កងរ៉ូឡែត) ដែលក្រឡាពណ៌ណាមានទំហំធំជាងគេ (តំណាងឱ្យកត្តាដែលសំខាន់ជាងគេ) នោះវាមានឱកាសខ្ពស់បំផុតដែលម្ជុលនឹងចង្អុលចំ។ |
| Root Mean Square Error (RMSE) | ជារង្វាស់គណិតវិទ្យាស្តង់ដារដែលប្រើសម្រាប់គណនាគម្លាតកំហុសរវាង "តម្លៃដែលម៉ូដែលទាយបាន" និង "តម្លៃពិតប្រាកដជាក់ស្តែង" នៅក្នុងសំណុំទិន្នន័យ។ បើតម្លៃ RMSE កាន់តែតូច មានន័យថាម៉ូដែលទស្សន៍ទាយកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។ | ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងគោលដៅអញ្ចឹង RMSE គឺជារង្វាស់ប្រាប់យើងថា តើព្រួញរបស់យើងបាញ់ខុសពីចំណុចកណ្តាលប៉ុន្មានសង់ទីម៉ែត្រជាមធ្យម។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖