បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់នៅក្នុងការវាស់ស្ទង់គុណភាពខ្យល់ (កំហាប់ PM10 និង O3) ដែលតែងតែកើតមានដោយសារការខូចម៉ាស៊ីន ឬកំហុសបច្ចេកទេស ដែលអាចប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃការវិភាគទិន្នន័យបរិស្ថាន។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការក្លែងបន្លំទិន្នន័យបាត់បង់ក្នុងអត្រា ១០%, ២០% និង ៣០% រួចសាកល្បងវិធីសាស្ត្រប៉ាន់ស្មាន (Imputation) ចំនួន ៨ ផ្សេងគ្នា ដើម្បីប្រៀបធៀបប្រសិទ្ធភាពរបស់វាដោយប្រើសូចនាករស្ដង់ដារ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Linear Interpolation (LINT) វិធីសាស្ត្រ Linear Interpolation |
មានភាពសាមញ្ញ និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យប្រភេទស៊េរីពេលវេលា (Time Series) ដែលការពឹងផ្អែកលើទិន្នន័យមុននិងក្រោយមានកម្រិតខ្ពស់។ | អាចមានភាពលំអៀង ឬមិនសុក្រឹត ប្រសិនបើមានចន្លោះនៃការបាត់បង់ទិន្នន័យធំ ឬវែងពេកដោយគ្មានទិន្នន័យយោងនៅក្បែរនោះ។ | ផ្តល់លទ្ធផលល្អដាច់គេបំផុត (ឧ. R2=0.822, RMSE=15.14, MAE=8.33 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។ |
| Exponential Weighted Moving Average (EWMA) វិធីសាស្ត្រមធ្យមភាគផ្លាស់ទីផ្តល់ទម្ងន់អិចស្ប៉ូណង់ស្យែល |
ផ្តល់ទម្ងន់ទៅលើទិន្នន័យសង្កេតដែលនៅក្បែរចន្លោះបាត់បង់ច្រើនជាងទិន្នន័យនៅឆ្ងាយ ដែលធ្វើឱ្យការប៉ាន់ស្មានកាន់តែមានភាពប្រាកដនិយម។ | ទាមទារការកំណត់ទំហំផ្ទាំងវីនដូ (Window Size) និងកត្តាផ្តល់ទម្ងន់ឱ្យបានត្រឹមត្រូវ ដើម្បីទទួលបានប្រសិទ្ធភាពខ្ពស់។ | ជាប់ចំណាត់ថ្នាក់ទី២ ក្នុងការផ្តល់លទ្ធផលត្រឹមត្រូវ (ឧ. R2=0.808, RMSE=15.64 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។ |
| K-Nearest Neighbor (KNN) វិធីសាស្ត្រ K-Nearest Neighbor |
ងាយស្រួលយល់ និងប្រើប្រាស់ចំណុចចុងសងខាងនៃចន្លោះទិន្នន័យដែលបាត់ ដើម្បីទាញយកតម្លៃប៉ាន់ស្មានបានយ៉ាងរហ័ស។ | ប្រសិទ្ធភាពអាចធ្លាក់ចុះ ប្រសិនបើទិន្នន័យជិតខាងមានការប្រែប្រួលឡើងចុះខ្លាំងមិនប្រក្រតី។ | មានដំណើរការល្អគួរជាទីគាប់ចិត្ត និងស្ថិតក្នុងលំដាប់ទី៣ (ឧ. R2=0.777, RMSE=16.85 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។ |
| Predictive Mean Matching (PMM) វិធីសាស្ត្រ Predictive Mean Matching |
ធានាថាតម្លៃដែលប៉ាន់ស្មានបាននឹងស្ថិតក្នុងចន្លោះទិន្នន័យជាក់ស្តែងជានិច្ច ដោយមិនបង្កើតតម្លៃដែលមិនអាចកើតមានឡើយ។ | មិនស័ក្តិសមសោះសម្រាប់ទិន្នន័យជាស៊េរីពេលវេលា (Time Series) ទោះបីជាមានការបន្ថែមអថេរពេលវេលា និងទីតាំងភូមិសាស្ត្រក៏ដោយ។ | ផ្តល់លទ្ធផលខ្សោយបំផុតក្នុងការសាកល្បងទាំងអស់ (ឧ. R2=0.052, RMSE=37.71 សម្រាប់ការបាត់បង់ទិន្នន័យ PM10 ចំនួន ២០%)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនទាមទារធនធានកុំព្យូទ័រ (Supercomputer) ធំដុំនោះទេ ប៉ុន្តែត្រូវការកម្មវិធីស្ថិតិ និងកញ្ចប់កូដជាក់លាក់។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យកំហាប់ PM10 និង O3 ពីស្ថានីយត្រួតពិនិត្យនៅទីក្រុង Tabriz ប្រទេសអ៊ីរ៉ង់ ក្នុងឆ្នាំ២០១៧ ដោយមានការដកចេញនូវទិន្នន័យរដូវក្តៅ និងរដូវរងា។ ទោះបីជាអាកាសធាតុអ៊ីរ៉ង់ខុសពីកម្ពុជាក៏ដោយ ប៉ុន្តែលក្ខណៈគណិតវិទ្យានៃទិន្នន័យខ្យល់បំពុលជា 'ស៊េរីពេលវេលា (Time Series)' គឺដូចគ្នា ដែលធ្វើឱ្យស្ថាប័នកម្ពុជាអាចយកវិធីសាស្ត្រទាំងនេះមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពខ្ពស់ដោយមិនបារម្ភពីភាពលម្អៀង។
វិធីសាស្ត្រប៉ាន់ស្មានទិន្នន័យ (Imputation methods) ទាំងនេះពិតជាមានភាពចាំបាច់ និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ស្ថាប័នគ្រប់គ្រងបរិស្ថាននៅកម្ពុជា។
ជារួម សម្រាប់ទិន្នន័យបរិស្ថានកម្ពុជា ការជ្រើសរើសវិធីសាស្ត្រសាមញ្ញដែលពឹងផ្អែកលើព័ត៌មាន 'មុននិងក្រោយ' (ដូចជា Linear Interpolation និង Moving Average) គឺជាជម្រើសដ៏ល្អបំផុត និងចំណាយធនធានតិចជាងការប្រើក្បួន Machine Learning ស្មុគស្មាញ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imputation | ការប៉ាន់ស្មាន ឬការបំពេញតម្លៃទិន្នន័យដែលបាត់បង់ដោយប្រើប្រាស់វិធីសាស្ត្រស្ថិតិ ឬក្បួនដោះស្រាយផ្សេងៗ ដោយផ្អែកលើទិន្នន័យដែលនៅសេសសល់ ដើម្បីកុំឱ្យខូចខាតដល់ការវិភាគទាំងមូល។ | ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយដោយមើលអត្ថន័យនៃពាក្យនៅខាងមុខ និងខាងក្រោយវា។ |
| Interpolation | វិធីសាស្ត្រគណិតវិទ្យាក្នុងការបង្កើតចំណុចទិន្នន័យថ្មីនៅចន្លោះចំណុចទិន្នន័យដែលគេស្គាល់មុននិងក្រោយ ជាពិសេសមានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់សម្រាប់ទិន្នន័យស៊េរីពេលវេលា។ | ដូចជាការគូសបន្ទាត់ត្រង់ភ្ជាប់ពីចុងម្ខាងនៃស្ពានដែលបាក់ទៅចុងម្ខាងទៀត ដើម្បីប៉ាន់ស្មានថាតើស្ពាននោះមានរាងយ៉ាងម៉េចនៅកន្លែងដែលបាក់។ |
| Moving average | ការគណនាមធ្យមភាគនៃសំណុំទិន្នន័យរងតាមលំដាប់លំដោយពេលវេលា ដើម្បីរំលេចនិន្នាការទិន្នន័យ និងបំពេញទិន្នន័យដែលបាត់ដោយផ្អែកលើតម្លៃដែលនៅក្បែរៗនោះបំផុត។ | ដូចជាការសួរមិត្តភក្តិ ២ ឬ ៣ នាក់ដែលអង្គុយជិតអ្នកបំផុតពីពិន្ទុប្រឡងរបស់ពួកគេ ដើម្បីយកមកទាយពីពិន្ទុប្រឡងរបស់អ្នកដែលគ្រូមិនទាន់ប្រាប់។ |
| K-Nearest Neighbor (KNN) | ក្បួនដោះស្រាយទស្សន៍ទាយតម្លៃដោយផ្អែកលើចំណុចទិន្នន័យដែលនៅជិតវា ឬស្រដៀងវាបំផុតចំនួន K ដែលជាទូទៅវាប្រើចំណុចចុងសងខាងនៃចន្លោះទិន្នន័យដែលបាត់។ | ដូចជាការទស្សន៍ទាយថាបុគ្គលម្នាក់ចូលចិត្តញ៉ាំអ្វី ដោយមើលទៅលើចំណូលចិត្តរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ចំនួន ៣ ទៅ ៥ នាក់។ |
| Predictive mean matching (PMM) | វិធីសាស្ត្របំពេញទិន្នន័យដែលដំណើរការដោយការស្វែងរកតម្លៃប៉ាន់ស្មានតាមរយៈម៉ូដែល តែកាលណាទាយបានហើយ វានឹងទៅចាប់យកតម្លៃពិតប្រាកដណាមួយពីទិន្នន័យសង្កេតដែលមានតម្លៃស្រដៀងគ្នាមកជំនួសវិញ។ | ដូចជាការរកអ្នកជំនួសតួសម្តែងដែលឈឺ ដោយជ្រើសរើសយកតួផ្សេងទៀតក្នុងក្រុមដែលមានកម្ពស់និងមុខមាត់ស្រដៀងគាត់បំផុតមកលេងជំនួស។ |
| Missing at random (MAR) | យន្តការដែលប្រូបាប៊ីលីតេនៃការបាត់បង់ទិន្នន័យអាស្រ័យតែលើអថេរដែលបានសង្កេតឃើញរួចហើយ (ដូចជាពេលវេលា ឬទីតាំង) ប៉ុន្តែមិនអាស្រ័យលើតម្លៃនៃទិន្នន័យដែលបាត់នោះទេ។ | ដូចជាសិស្សអវត្តមានប្រឡងដោយសារតែថ្ងៃនោះមានភ្លៀងធ្លាក់ខ្លាំង (ជាកត្តាខាងក្រៅដែលយើងដឹង) មិនមែនអវត្តមានដោយសារតែគាត់រៀនខ្សោយហើយខ្លាចធ្លាក់នោះទេ។ |
| Root mean square error (RMSE) | រង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃកម្រិតនៃកំហុសរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃជាក់ស្តែង ដោយតម្លៃកំហុសកាន់តែតូចបញ្ជាក់ថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវខ្ពស់។ | ដូចជាការវាស់ចម្ងាយសរុបនៃព្រួញទាំងអស់ដែលអ្នកបាញ់ខុសពីចំណុចកណ្តាលនៃផ្ទាំងស៊ីប កាលណាចម្ងាយសរុបកាន់តែខ្លី មានន័យថាអ្នកបាញ់កាន់តែចំគោលដៅ។ |
| EM algorithm | ក្បួនដោះស្រាយ Expectation-Maximization គឺជាវិធីសាស្ត្រគណនាដែលធ្វើការប៉ាន់ស្មានតម្លៃប៉ារ៉ាម៉ែត្រម្តងហើយម្តងទៀតជាវដ្ត ដើម្បីរកតម្លៃអតិបរមានៃលទ្ធភាពទិន្នន័យដែលបាត់ ដោយពឹងផ្អែកលើការចែកចាយស្ថិតិ។ | ដូចជាការលៃតម្រូវប៊ូតុងរលកវិទ្យុចុះឡើងៗបន្តិចម្តងៗ រហូតទាល់តែអ្នកស្តាប់លឺសំឡេងចម្រៀងបានច្បាស់បំផុតដោយគ្មានសម្លេងរំខាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖