បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់ (Missing Data) នៅក្នុងកំណត់ត្រាទឹកភ្លៀង និងសីតុណ្ហភាព ដែលប៉ះពាល់យ៉ាងខ្លាំងដល់ការធ្វើគំរូជលសាស្ត្រ និងការគ្រប់គ្រងធនធានទឹក។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបវិធីសាស្ត្របំពេញទិន្នន័យផ្សេងៗគ្នា រួមទាំងវិធីសាស្ត្រស្ថិតិ និងម៉ាស៊ីនរៀន ដើម្បីស្វែងរកវិធីដែលមានប្រសិទ្ធភាពបំផុតសម្រាប់យកទៅប្រើប្រាស់ក្នុងការទស្សន៍ទាយលំហូរទឹក។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Multiple Linear Regression (MLRM) គំរូតម្រែតម្រង់លីនេអ៊ែរពហុគុណ |
ជាវិធីសាស្ត្រស្ថិតិមូលដ្ឋានដែលងាយស្រួលអនុវត្ត និងយល់។ | ទាមទារឱ្យមានទំនាក់ទំនងលីនេអ៊ែររវាងអថេរ និងតែងតែបោះចោលទិន្នន័យដែលមានតម្លៃបាត់បង់ (Missing values) ដែលធ្វើឱ្យបាត់បង់ទំហំសំណាក។ | ត្រូវបានប្រើប្រាស់ជាមូលដ្ឋានប្រៀបធៀប ប៉ុន្តែមិនមានប្រសិទ្ធភាពដូចវិធីសាស្ត្រ Machine Learning ក្នុងការដោះស្រាយទិន្នន័យស្មុគស្មាញ។ |
| k-Nearest Neighbours (kNN) Imputation ការបំពេញទិន្នន័យដោយប្រើគំរូជិតខាងដែលនៅជិតបំផុត |
ប្រើប្រាស់ការគណនាចម្ងាយដើម្បីរកតម្លៃដែលសមស្របពីទិន្នន័យជិតខាង និងផ្តល់ភាពលំអៀង (Bias) ទាប។ | អាចចំណាយពេលយូរក្នុងការគណនាប្រសិនបើទិន្នន័យមានទំហំធំខ្លាំង។ | មានប្រសិទ្ធភាពល្អបំផុតក្នុងការបំពេញទិន្នន័យ ដោយមានកំហុសស្តង់ដារ (Standard Error) ទាប និងលំអៀងតិចតួចបំផុត។ |
| Decision Tree-based / Random Forest ការបំពេញទិន្នន័យផ្អែកលើដើមឈើសម្រេចចិត្ត |
មិនទាមទារឱ្យមានការសន្មតលើទំនាក់ទំនងរវាងអថេរ និងអាចចាប់យកលំនាំមិនលីនេអ៊ែរបានល្អ។ | ត្រូវការពេលវេលាគណនាយូរជាង និងមានកំហុស RMSE ខ្ពស់ជាង kNN បន្តិចនៅក្នុងការសិក្សានេះ។ | មានកំហុស RMSE ខ្ពស់ជាង kNN បន្តិច ប៉ុន្តែនៅតែអាចទទួលយកបានសម្រាប់ការប្រើប្រាស់។ |
| Artificial Neural Network (ANN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (សម្រាប់ទស្សន៍ទាយលំហូរ) |
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងទឹកភ្លៀង សីតុណ្ហភាព និងលំហូរទឹក។ | ដំណើរការដូចប្រអប់ខ្មៅ (Black box) ដែលពិបាកពន្យល់ពីដំណើរការខាងក្នុង និងទាមទារទិន្នន័យច្រើនដើម្បីបង្រៀន (Train)។ | សម្រេចបាននូវភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយ (៩១-៩៤%) នៅពេលប្រើប្រាស់ទិន្នន័យដែលបំពេញដោយ kNN ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រទូទៅ ប៉ុន្តែទាមទារចំណេះដឹងផ្នែកសរសេរកូដស្ថិតិ។
ការសិក្សានេះធ្វើឡើងនៅតំបន់ភ្នំនៃប្រទេសប៊ូតាន (Bhutan) ដែលមានលក្ខណៈភូមិសាស្ត្រ និងអាកាសធាតុស្រដៀងនឹងតំបន់ខ្ពង់រាប ឬតំបន់ជួរភ្នំក្រវាញក្នុងប្រទេសកម្ពុជា។ ទិន្នន័យដែលបាត់បង់ជាបញ្ហាសកល ប៉ុន្តែលក្ខណៈនៃភ្លៀងមូសុងអាចមានភាពខុសគ្នាខ្លះពីកម្ពុជា។
បច្ចេកទេសនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាទិន្នន័យមិនពេញលេញនៅតាមស្ថានីយ៍វាស់វែងនានា។
ការយកគំរូ Machine Learning មកប្រើប្រាស់ នឹងជួយអ្នកស្រាវជ្រាវកម្ពុជាកាត់បន្ថយភាពមិនប្រាកដប្រជា និងធ្វើឱ្យការគ្រប់គ្រងធនធានទឹកមានប្រសិទ្ធភាពជាងមុន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imputation | ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយតម្លៃដែលត្រូវបានប៉ាន់ប្រមាណតាមរយៈការគណនាស្ថិតិ ឬម៉ាស៊ីនរៀន ដើម្បីឱ្យសំណុំទិន្នន័យមានភាពពេញលេញសម្រាប់ការវិភាគបន្ត។ | ដូចជាការបំពេញពាក្យដែលបាត់នៅក្នុងប្រយោគ ដោយមើលទៅលើអត្ថន័យនៃពាក្យដែលនៅជុំវិញវា។ |
| k-Nearest Neighbours (kNN) | ជាក្បួនដោះស្រាយ (Algorithm) ដែលស្វែងរកចំណុចទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាបំផុតចំនួន 'k' (ឧទាហរណ៍ ៥ ចំណុច) ទៅនឹងទិន្នន័យដែលបាត់បង់ រួចយកមធ្យមភាគនៃចំណុចទាំងនោះមកបំពេញកន្លែងដែលបាត់។ | ដូចជាការសួរអ្នកជិតខាង ៥ នាក់ថាម៉ោងប៉ុន្មាន ដើម្បីប៉ាន់ស្មានម៉ោងនៅពេលដែលនាឡិការបស់អ្នកខូច។ |
| Artificial Neural Network (ANN) | គំរូកុំព្យូទ័រដែលត្រូវបានរចនាឡើងដោយយកលំនាំតាមដំណើរការនៃខួរក្បាលមនុស្ស (Bimimicry) ដែលមានបណ្ដាញនៃណឺរ៉ូនសិប្បនិម្មិតតភ្ជាប់គ្នា ដើម្បីរៀនពីទំនាក់ទំនងស្មុគស្មាញ និងមិនលីនេអ៊ែរនៅក្នុងទិន្នន័យ។ | ជាប្រព័ន្ធកុំព្យូទ័រដែលរៀនតាមរយៈការសាកល្បងនិងកែតម្រូវកំហុស ដូចក្មេងរៀនស្គាល់រូបរាងសត្វ។ |
| Bootstrapping | បច្ចេកទេសស្ថិតិដែលបង្កើតសំណាកទិន្នន័យថ្មីៗជាច្រើនដងដោយការយកចេញពីទិន្នន័យដើម (Resampling with replacement) ដើម្បីវាស់វែងភាពមិនប្រាកដប្រជា (Uncertainty) និងប្រសិទ្ធភាពនៃគំរូ។ | ដូចជាការដួសសម្លភ្លក់ច្រើនដងពីកន្លែងផ្សេងៗគ្នាក្នុងឆ្នាំង ដើម្បីដឹងថាតើរសជាតិសម្លទាំងមូលប្រៃឬសាបកម្រិតណា។ |
| Backpropagation | វិធីសាស្ត្រស្នូលក្នុងការបង្រៀន Neural Network ដោយគណនាកំហុសពីលទ្ធផលចុងក្រោយ (Output) ហើយបញ្ជូនកំហុសនោះត្រឡប់ក្រោយវិញដើម្បីកែតម្រូវទម្ងន់ (Weights) នៃការតភ្ជាប់ ដើម្បីកាត់បន្ថយកំហុសនៅពេលក្រោយ។ | ដូចជាគ្រូកែវិញ្ញាសាហើយប្រាប់សិស្សថាខុសត្រង់ណា ដើម្បីឱ្យសិស្សកែតម្រូវវិធីគិតរបស់ពួកគេនៅពេលប្រឡងលើកក្រោយ។ |
| Root Mean Square Error (RMSE) | រង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃគំរូ។ វាគណនាគម្លាតរវាងតម្លៃដែលម៉ាស៊ីនទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ RMSE កាន់តែតូច បង្ហាញថាគំរូកាន់តែមានភាពត្រឹមត្រូវ។ | ជាពិន្ទុដែលប្រាប់ថា តើការទស្សន៍ទាយរបស់យើងខុសពីការពិតខ្លាំងប៉ុណ្ណា (លេខកាន់តែតូច កាន់តែល្អ)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖