បញ្ហា (The Problem)៖ ស៊េរីពេលវេលានៃទិន្នន័យអាកាសធាតុជាញឹកញាប់ជួបប្រទះបញ្ហាបាត់បង់ទិន្នន័យ ដែលកាត់បន្ថយគុណភាពនៃការវិភាគ និងការព្យាករណ៍អាកាសធាតុ។ ឯកសារនេះដោះស្រាយបញ្ហានេះដោយស្នើឡើងនូវគំរូកូនកាត់ដើម្បីប៉ាន់ស្មាននិងបំពេញទិន្នន័យសីតុណ្ហភាពដែលបាត់ដោយមានអត្រាកំហុសទាបបំផុត។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតក្របខ័ណ្ឌពីរដំណាក់កាលដោយរួមបញ្ចូលវិធីសាស្ត្រធ្វើត្រីកោណមាត្រតាមគណិតវិទ្យា (Triangulation methods) ជាមួយនឹងបច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine learning) សម្រាប់វាយតម្លៃស្ថានីយអាកាសធាតុប្រេស៊ីលចំនួន៤០។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Neural Network with Modified IDW / Regional Weight (Models 8 & 10) បណ្តាញសរសៃប្រសាទរួមបញ្ចូលជាមួយវិធីសាស្ត្រ MIDW ឬ Regional Weight |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត និងអត្រាកំហុស (NRMSE) ទាបបំផុតនៅគ្រប់តំបន់អាកាសធាតុ។ វាអាចរៀនពីទំនាក់ទំនងស្មុគស្មាញរវាងទិន្នន័យស្ថានីយជិតខាង។ | ទាមទារពេលវេលាក្នុងការបង្ហាត់ម៉ូដែល និងការកំណត់រចនាសម្ព័ន្ធបណ្តាញ (ឧ. កំណត់ 10 hidden layers) បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រធម្មតា។ | ទទួលបានចំណាត់ថ្នាក់លេខ១ ជាម៉ូដែលដែលល្អដាច់គេ ឬស្ថិតក្នុងចំណោមម៉ូដែលល្អបំផុតនៅគ្រប់តំបន់សិក្សាទាំង១០ ផ្អែកលើការធ្វើតេស្ត ANOVA និង Tukey។ |
| Regional Weight (Model 5 - Triangulation Only) ការថ្លឹងទម្ងន់តាមតំបន់ (វិធីសាស្ត្រត្រីកោណមាត្រតែមួយមុខ) |
ងាយស្រួលអនុវត្ត មិនត្រូវការថាមពលកុំព្យូទ័រខ្ពស់ក្នុងការបង្ហាត់ និងមិនត្រូវការទិន្នន័យបណ្តុះបណ្តាល (Training data)។ | មានភាពសុក្រឹតទាបជាងម៉ូដែលកូនកាត់ដែលប្រើ Machine Learning នៅពេលដែលទិន្នន័យមានបម្រែបម្រួលខ្លាំង។ | ទទួលបានលទ្ធផលល្អគួរឱ្យកត់សម្គាល់ និងជាជម្រើសដ៏ល្អបំផុតក្នុងករណីដែលមិនអាចប្រើប្រាស់បច្ចេកទេស Machine Learning បាន។ |
| Support Vector Machine (SVM) Hybrids ម៉ូដែលកូនកាត់ Support Vector Machine |
ដំណើរការបានល្អជាងវិធីសាស្ត្រត្រីកោណមាត្រធម្មតា និងមានសមត្ថភាពល្អក្នុងការដោះស្រាយទិន្នន័យដែលមិនមានទំនាក់ទំនងជាបន្ទាត់ត្រង់ (Non-linear) ដោយប្រើ Gaussian Kernel។ | លទ្ធផលនៅមានកម្រិត និងចាញ់ប្រៀបម៉ូដែល Neural Network ខណៈពេលដែលនៅតែទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រស្មុគស្មាញ។ | ជាប់ចំណាត់ថ្នាក់កម្រិតមធ្យម ពោលគឺល្អជាង Regression Trees តែមិនអាចយកឈ្នះ Neural Network នោះទេ។ |
| Regression Trees & Bagged Trees Hybrids ម៉ូដែលកូនកាត់ Regression Trees និង Bagged Trees |
បច្ចេកទេស Bagging ជួយកាត់បន្ថយបញ្ហា Overfitting និងភាពប្រែប្រួលនៃលទ្ធផល (Variance) បើធៀបនឹងការប្រើ Regression Tree តែមួយ។ | ទិន្នន័យព្យាករណ៍អាចមានភាពមិនច្បាស់លាស់ខ្ពស់ ដោយសារបំរែបំរួលនៅតាម Nodes ហើយផ្តល់អត្រាកំហុសខ្ពស់ជាងគេក្នុងចំណោមវិធីសាស្ត្រ Machine Learning។ | ផ្តល់អត្រាកំហុស NRMSE ខ្ពស់ជាងគេ និងស្ថិតនៅចំណាត់ថ្នាក់ចុងក្រោយក្នុងចំណោមម៉ូដែល Machine Learning ទាំងអស់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់យ៉ាងច្បាស់ពីការចំណាយលើផ្នែករឹង (Hardware) ក៏ដោយ ក៏ការអនុវត្តក្របខ័ណ្ឌនេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រជាមូលដ្ឋានសម្រាប់ការគណនា និងការបង្ហាត់ម៉ូដែលកូនកាត់។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីស្ថានីយអាកាសធាតុនៅតំបន់ចំនួន១០ នៃប្រទេសប្រេស៊ីល (ពីឆ្នាំ២០០៨ ដល់ ២០១៧) ដែលតំណាងឱ្យអាកាសធាតុចម្រុះជាច្រើនរួមមាន តំបន់អេក្វាទ័រ និងពាក់កណ្តាលស្ងួត។ សម្រាប់ប្រទេសកម្ពុជាដែលមានអាកាសធាតុត្រូពិចមូសុង ការអនុវត្តម៉ូដែលនេះចាំបាច់ត្រូវមានការធ្វើតេស្តឡើងវិញ ព្រោះរបាយនៃស្ថានីយអាកាសធាតុ និងលក្ខណៈភូមិសាស្ត្ររបស់យើងមានភាពខុសគ្នា ដែលអាចជះឥទ្ធិពលដល់វិធីសាស្ត្រវាស់ចម្ងាយ (IDW)។
វិធីសាស្ត្រកូនកាត់នេះមានសក្តានុពលខ្ពស់ខ្លាំងណាស់សម្រាប់កម្ពុជា ក្នុងការដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យអាកាសធាតុ ដែលតែងតែកើតមានដោយសារការខូចខាតឧបករណ៍ ឬកង្វះការថែទាំ។
ជារួម ការច្របាច់បញ្ចូលគ្នានូវរង្វាស់ភូមិសាស្ត្រ និងបញ្ញាសិប្បនិម្មិត នឹងជួយកម្ពុជាកសាងបាននូវឃ្លាំងទិន្នន័យអាកាសធាតុដ៏រឹងមាំមួយ ដែលជាឆ្អឹងខ្នងសម្រាប់ការអភិវឌ្ឍប្រកបដោយចីរភាព និងការទប់ទល់នឹងការប្រែប្រួលអាកាសធាតុ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| data imputation | ដំណើរការនៃការប៉ាន់ស្មាន ឬបំពេញទិន្នន័យដែលបាត់បង់នៅក្នុងសំណុំទិន្នន័យ ដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់ ដើម្បីឱ្យការវិភាគឬការចងក្រងម៉ូដែលអាចដំណើរការបានដោយរលូន។ | ដូចជាការសរសេរបំពេញចន្លោះអក្សរដែលបាត់ក្នុងប្រយោគមួយ ដោយទាយតាមអត្ថន័យនៃពាក្យជុំវិញវា។ |
| triangulation | វិធីសាស្ត្រគណិតវិទ្យាក្នុងការកំណត់តម្លៃ ឬទីតាំងមួយដែលមិនស្គាល់ ដោយផ្អែកលើទិន្នន័យពីចំណុចយោង (ស្ថានីយ) ដែលនៅជុំវិញវា ដើម្បីទាញរកតម្លៃកណ្តាល។ | ដូចជាការស្វែងរកទីតាំងរបស់ទូរសព្ទដែលបាត់ ដោយវាស់ចម្ងាយពីអង់តែនទូរសព្ទចំនួន៣ដែលនៅជិតបំផុត។ |
| Inverse Distance Weighted | បច្ចេកទេសប៉ាន់ស្មានទិន្នន័យ ដែលផ្តល់តម្លៃ (ទម្ងន់) ខ្ពស់ទៅឱ្យស្ថានីយដែលនៅជិតទីតាំងគោលដៅជាងស្ថានីយដែលនៅឆ្ងាយ ដោយសន្មត់ថាទីតាំងជិតគ្នាមានលក្ខណៈអាកាសធាតុស្រដៀងគ្នា។ | ដូចជាការស្តាប់មតិអ្នកជិតខាងផ្ទះទល់មុខគ្នា ដោយឱ្យតម្លៃខ្ពស់ជាងមតិអ្នកដែលរស់នៅម្ខាងទៀតនៃភូមិ ពេលចង់ដឹងពីសភាពការណ៍ក្នុងភូមិ។ |
| Neural Network | ប្រព័ន្ធក្បួនដោះស្រាយ (Machine Learning) ដែលត្រូវបានរចនាឡើងដោយត្រាប់តាមបណ្តាញសរសៃប្រសាទខួរក្បាលមនុស្ស ដើម្បីរៀននិងស្វែងយល់ពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៃទិន្នន័យបញ្ចូលគ្នាច្រើន។ | ដូចជាក្មេងម្នាក់ដែលរៀនចំណាំមុខសត្វឆ្កែនិងឆ្មា តាមរយៈការមើលរូបភាពច្រើនដងរហូតដល់អាចបែងចែកដាច់ដោយខ្លួនឯង។ |
| Support Vector Machine | ក្បួនដោះស្រាយ Machine Learning ដែលបែងចែកទិន្នន័យជាក្រុមៗ ដោយស្វែងរកបន្ទាត់ ឬព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីកាត់ផ្តាច់រវាងចំណាត់ថ្នាក់នៃទិន្នន័យទាំងនោះ។ | ដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីបែងចែកផ្លែប៉ោមពណ៌ក្រហម និងផ្លែប៉ោមពណ៌ខៀវឱ្យនៅដាច់ពីគ្នាដោយសុវត្ថិភាពបំផុត។ |
| Bagged Trees | ការប្រមូលផ្តុំម៉ូដែលដើមឈើសម្រេចចិត្ត (Decision Trees) តូចៗជាច្រើនបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយរួមមួយ ដែលជួយកាត់បន្ថយកំហុសប្រភេទ Overfitting និងកាត់បន្ថយភាពប្រែប្រួលនៃទិន្នន័យ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ១០នាក់ផ្សេងគ្នា ហើយយកចម្លើយរួមមួយដែលភាគច្រើនយល់ស្រប ជំនួសឱ្យការជឿគ្រូពេទ្យតែម្នាក់ឯង។ |
| normalized root mean-squared error (NRMSE) | រង្វាស់ស្ថិតិដែលប្រើសម្រាប់វាស់ស្ទង់កម្រិតកំហុសនៃម៉ូដែលទស្សន៍ទាយ ដោយប្រៀបធៀបភាពខុសគ្នារវាងទិន្នន័យជាក់ស្តែង និងទិន្នន័យដែលម៉ូដែលបានទាយ រួចធ្វើការធ្វើឱ្យមានស្តង់ដាររួម (Normalize)។ | ដូចជាការដាក់ពិន្ទុឱ្យអ្នកបាញ់ធ្នូ ដោយវាស់ចម្ងាយសរុបដែលព្រួញឃ្លាតឆ្ងាយពីចំណុចកណ្តាលនៃគោលដៅ។ |
| analysis of variance (ANOVA) | វិធីសាស្ត្រស្ថិតិដែលប្រើដើម្បីប្រៀបធៀបមធ្យមភាគនៃក្រុមទិន្នន័យច្រើនជាងពីរ ដើម្បីរកមើលថាតើម៉ូដែលមួយណាល្អជាងគេដាច់ ឬគ្រាន់តែមានភាពខុសគ្នាតាមលក្ខណៈចៃដន្យ។ | ដូចជាការប្រកួតរត់ប្រណាំងច្រើនដង ដើម្បីបញ្ជាក់ថាអ្នកឈ្នះពិតជាលឿនជាងគេមែន ឬគ្រាន់តែសំណាងល្អក្នុងវគ្គទីមួយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖