បញ្ហា (The Problem)៖ ស៊េរីពេលវេលាម៉េតេអូសាស្ត្រ (Meteorological time series) ជាញឹកញាប់ជួបប្រទះបញ្ហាចន្លោះប្រហោងនៃទិន្នន័យ ដែលបណ្តាលមកពីការបាត់បង់ ឬកំហុសនៃទិន្នន័យ ដែលរាំងស្ទះដល់ការវិភាគ និងការធ្វើគំរូអាកាសធាតុ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះណែនាំពីការប្រើប្រាស់វិធីសាស្ត្រម៉ាស៊ីនរៀនឈ្មោះ Gradient Boosting (gb) ដើម្បីបំពេញចន្លោះប្រហោងទិន្នន័យ ដោយធ្វើការប្រៀបធៀបប្រសិទ្ធភាពរបស់វាជាមួយនឹងវិធីសាស្ត្របណ្តាញសរសៃប្រសាទ (Neural Networks) និងតម្រែតម្រង់លីនេអ៊ែរ (Linear Regression)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Gradient Boosting (xgb) ការប្រើប្រាស់បច្ចេកទេស Gradient Boosting |
មានល្បឿនគណនាលឿនបំផុត អាចដោះស្រាយទិន្នន័យដែលបាត់នៅក្នុងអថេរព្យាករណ៍ (Predictors) ដោយមិនចាំបាច់កែសម្រួលជាមុន និងមានភាពត្រឹមត្រូវខ្ពស់។ | ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameters) ឱ្យបានត្រឹមត្រូវដើម្បីទទួលបានលទ្ធផលល្អបំផុត។ | មានកំហុសទាបបំផុត (RMSE 1.42°C) និងប្រើពេលត្រឹមតែ 1.4 នាទីប៉ុណ្ណោះសម្រាប់ការគណនា (លឿនជាងវិធីសាស្ត្រផ្សេងទៀតរាប់រយដង)។ |
| Neural Networks (nn) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត |
មានសមត្ថភាពចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear relationships) បានល្អ។ | ប្រើប្រាស់ពេលវេលាគណនាយូរខ្លាំង (900 នាទី) និងទាមទារឱ្យមានទិន្នន័យពេញលេញសម្រាប់អថេរព្យាករណ៍។ | កំហុសមធ្យម (RMSE 1.57°C) ប៉ុន្តែមានប្រសិទ្ធភាពទាបជាង xgb ទាំងផ្នែកល្បឿន និងភាពត្រឹមត្រូវ។ |
| Multiple Linear Regression (mlr) តម្រែតម្រង់លីនេអ៊ែរពហុគុណ |
ជាវិធីសាស្ត្រស្តង់ដារដែលងាយស្រួលយល់ និងអនុវត្ត។ | ប្រសិទ្ធភាពធ្លាក់ចុះនៅពេលទិន្នន័យមានភាពស្មុគស្មាញ ហើយការគណនាអាចយឺតខ្លាំង (Exponential scale) នៅពេលមានអថេរច្រើន។ | កំហុសខ្ពស់បំផុត (RMSE 2.09°C) និងប្រើពេលគណនា 470 នាទី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រនេះមានប្រសិទ្ធភាពខ្ពស់ផ្នែកធនធាន ដោយអាចដំណើរការបានលើកុំព្យូទ័រការិយាល័យធម្មតា ដោយមិនចាំបាច់មាន Supercomputer ឡើយ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីប្រទេសអាល្លឺម៉ង់ (អាកាសធាតុក្តៅល្មម/Temperate Climate) ដែលមានលក្ខណៈខុសគ្នាពីអាកាសធាតុមូសុងនៅកម្ពុជា។ ទោះយ៉ាងណា បច្ចេកទេសគណិតវិទ្យានៃការបំពេញចន្លោះប្រហោងនេះ គឺអាចអនុវត្តជាសកលបាន ឱ្យតែមានទិន្នន័យប្រវត្តិសាស្ត្រគ្រប់គ្រាន់។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដោយសារយើងមានទិន្នន័យអាកាសធាតុប្រវត្តិសាស្ត្រដែលដាច់ដោយដុំៗ ឬបាត់បង់ដោយសារសង្គ្រាម និងកង្វះការថែទាំ។
ដោយសារវាត្រូវការធនធានកុំព្យូទ័រតិច និងមានល្បឿនលឿន វាសាកសមបំផុតសម្រាប់ការប្រើប្រាស់នៅក្នុងស្ថាប័នរដ្ឋ ឬសាកលវិទ្យាល័យនៅកម្ពុជាដែលមានធនធានកំណត់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Gradient Boosting | ជាបច្ចេកទេសនៃវិធីសាស្ត្រម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើតម៉ូដែលព្យាករណ៍តូចៗជាច្រើនបន្តបន្ទាប់គ្នា ដើម្បីកែតម្រូវកំហុសរបស់ម៉ូដែលមុនៗ រហូតដល់ទទួលបានលទ្ធផលដែលមានភាពសុក្រឹតខ្ពស់បំផុត។ | ដូចជាការសហការគ្នារបស់ក្រុមសិស្សដោះស្រាយលំហាត់ ដោយសិស្សម្នាក់ៗជួយកែចំណុចខ្វះខាតរបស់សិស្សមុន ដើម្បីឱ្យចម្លើយចុងក្រោយត្រឹមត្រូវបំផុត។ |
| Gap filling | ដំណើរការបច្ចេកទេសក្នុងការប៉ាន់ប្រមាណ និងជំនួសទិន្នន័យដែលបាត់បង់នៅក្នុងស៊េរីទិន្នន័យ ដោយប្រើប្រាស់ទំនាក់ទំនងគណិតវិទ្យាជាមួយទិន្នន័យដែលមានស្រាប់ ឬទិន្នន័យពីស្ថានីយ៍ជិតខាង។ | ដូចជាការទស្សន៍ទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើពាក្យ និងអត្ថន័យដែលនៅជុំវិញវា។ |
| Regression trees | រចនាសម្ព័ន្ធនៃការសម្រេចចិត្តបែបមែកធាង ដែលបំបែកទិន្នន័យជាផ្នែកតូចៗតាមលក្ខខណ្ឌជាក់លាក់ ដើម្បីស្វែងរកតម្លៃលេខ (ដូចជាសីតុណ្ហភាព) សម្រាប់ក្រុមទិន្នន័យនីមួយៗ។ | ដូចជាតារាងលំហូរ (Flowchart) ដែលសួរសំណួរ "បាទ/ទេ" ជាច្រើនដំណាក់កាល ដើម្បីឈានទៅរកចម្លើយចុងក្រោយ។ |
| Root Mean Square Error (RMSE) | រង្វាស់ស្ថិតិសម្រាប់វាស់វែងកម្រិតនៃកំហុសរវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ RMSE កាន់តែតូច បង្ហាញថាម៉ូដែលកាន់តែមានភាពសុក្រឹត។ | ដូចជាការវាស់ចម្ងាយថា តើគ្រាប់ព្រួញដែលបាញ់ទៅនោះ ឃ្លាតឆ្ងាយពីគោលដៅកណ្ដាលប៉ុន្មានជាមធ្យម។ |
| Time series | បណ្ុំទិន្នន័យដែលត្រូវបានកត់ត្រាទុកតាមលំដាប់លំដោយនៃពេលវេលាជាក់លាក់ (ឧទាហរណ៍៖ ទិន្នន័យសីតុណ្ហភាពដែលវាស់ជារៀងរាល់ម៉ោង ឬរៀងរាល់ថ្ងៃ)។ | ដូចជាកំណត់ហេតុប្រចាំថ្ងៃ ដែលកត់ត្រាតម្លៃអ្វីមួយជារៀងរាល់ថ្ងៃតាមលំដាប់ថ្ងៃខែ។ |
| Cross validation | វិធីសាស្ត្រវាយតម្លៃម៉ូដែល ដោយបែងចែកទិន្នន័យជាផ្នែកៗ ដើម្បីយកទៅបង្រៀនម៉ូដែលខ្លះ និងយកទៅសាកល្បងខ្លះ ក្នុងគោលបំណងធានាថាម៉ូដែលនោះអាចដំណើរការបានល្អជាមួយទិន្នន័យថ្មីដែលមិនធ្លាប់ជួប។ | ដូចជាការហ្វឹកហាត់ប្រឡងដោយប្រើវិញ្ញាសាចាស់ៗ ប៉ុន្តែទុកវិញ្ញាសាមួយឆ្នាំចុងក្រោយដោយសម្ងាត់ ដើម្បីសាកល្បងសមត្ថភាពពិតប្រាកដនៅពេលក្រោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖