Original Title: Multiple Regression in Hydrology
Document Type: Textbook / Educational Material
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original material for complete content.

តម្រែតម្រង់ពហុគុណក្នុងជលសាស្ត្រ

ចំណងជើងដើម៖ Multiple Regression in Hydrology

អ្នកនិពន្ធ៖ R. L. Holder (Department of Mathematical Statistics, Birmingham University)

ឆ្នាំបោះពុម្ព៖ 1985, Institute of Hydrology

វិស័យសិក្សា៖ Hydrology and Statistics

១. សេចក្តីសង្ខេប (Overview)

ប្រធានបទ (Topic)៖ ឯកសារនេះដោះស្រាយអំពីការអនុវត្តវិធីសាស្ត្រតម្រែតម្រង់ពហុគុណ (Multiple regression procedures) ដើម្បីដោះស្រាយបញ្ហាក្នុងវិស័យជលសាស្ត្រ ដូចជាការប៉ាន់ស្មានទឹកជំនន់ និងម៉ូដែលលំហូរទឹក។ វាមានគោលបំណងណែនាំអ្នកជលសាស្ត្រឱ្យយល់ពីមូលដ្ឋានទ្រឹស្តី សម្មតិកម្ម និងដែនកំណត់នៃឧបករណ៍ស្ថិតិទាំងនេះ ដើម្បីជៀសវាងការប្រើប្រាស់ខុសពីគោលការណ៍។

រចនាសម្ព័ន្ធ (Structure)៖ សៀវភៅនេះត្រូវបានរៀបចំឡើងតាមបែបអប់រំ ដោយគ្របដណ្តប់លើទ្រឹស្តីមូលដ្ឋាន ការត្រួតពិនិត្យទិន្នន័យមុន និងក្រោយពេលបង្កើតម៉ូដែល និងការសិក្សាករណីជាក់ស្តែងក្នុងវិស័យជលសាស្ត្រ។

ចំណុចសំខាន់ៗ (Key Takeaways)៖

២. គោលបំណងសិក្សា (Learning Objectives)

បន្ទាប់ពីអានឯកសារនេះ អ្នកគួរអាច៖

  1. ស្វែងយល់ពីមូលដ្ឋានទ្រឹស្តី និងសម្មតិកម្មនៃការវិភាគតម្រែតម្រង់លីនេអ៊ែរទោល និងពហុគុណ (Understand the theoretical basis and assumptions of Simple and Multiple Linear Regression)
  2. អនុវត្តវិធីសាស្ត្រស្ថិតិដើម្បីប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រ ធ្វើតេស្តសម្មតិកម្ម និងធ្វើការព្យាករណ៍ទិន្នន័យជលសាស្ត្រ (Apply statistical methods for parameter estimation, hypothesis testing, and prediction)
  3. វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែលតាមរយៈការវិភាគសំណល់ និងការបំប្លែងទិន្នន័យ (Evaluate model accuracy through residual analysis and data transformations)
  4. ប្រើប្រាស់បច្ចេកទេសតម្រែតម្រង់ជាជំហានៗ ដើម្បីជ្រើសរើសអថេរដែលល្អបំផុតសម្រាប់ការកសាងម៉ូដែល (Use stepwise regression techniques for optimal variable selection)

សៀវភៅនេះផ្តល់នូវមគ្គុទ្ទេសក៍លម្អិតអំពីការប្រើប្រាស់វិធីសាស្ត្រតម្រែតម្រង់ពហុគុណ (Multiple regression) នៅក្នុងវិស័យជលសាស្ត្រ។ វាផ្តោតលើការកសាងម៉ូដែលស្ថិតិដើម្បីទស្សន៍ទាយទំនាក់ទំនងរវាងអថេរផ្សេងៗ ព្រមទាំងការត្រួតពិនិត្យសម្មតិកម្ម ការបំប្លែងទិន្នន័យ និងការវិភាគសំណល់ (Residuals) ដើម្បីធានាបាននូវភាពត្រឹមត្រូវនៃការព្យាករណ៍ទឹកជំនន់ និងលំហូរទឹក។

៣. គោលគំនិតសំខាន់ៗ (Key Concepts)

គោលគំនិត (Concept) ការពន្យល់ (Explanation) ឧទាហរណ៍ (Example)
Simple Linear Regression
ការវិភាគតម្រែតម្រង់លីនេអ៊ែរទោល
ជាវិធីសាស្ត្រស្ថិតិសម្រាប់សិក្សាទំនាក់ទំនងរវាងអថេរឯករាជ្យមួយ (Independent variable) និងអថេរអស្រ័យមួយ (Dependent variable) ដោយប្រើប្រាស់សមីការបន្ទាត់ត្រង់។ វាសន្មត់ថាផលបូកនៃកំហុសមានមធ្យមភាគស្មើសូន្យ និងមានវ៉ារ្យ៉ង់ថេរ។ ការប្រើប្រាស់ទិន្នន័យបរិមាណទឹកភ្លៀង (Rainfall) ដើម្បីទស្សន៍ទាយបរិមាណលំហូរទឹក (Run-off) នៅតំបន់ពង្រីកទឹក Alwen ចន្លោះឆ្នាំ 1912-1915។
Multiple Linear Regression
ការវិភាគតម្រែតម្រង់ពហុគុណ
ជាការពង្រីកពីតម្រែតម្រង់ទោល ដោយប្រើប្រាស់អថេរឯករាជ្យចាប់ពីពីរឡើងទៅ ដើម្បីទស្សន៍ទាយលទ្ធផលនៃអថេរអស្រ័យមួយ។ វាជួយឱ្យការព្យាករណ៍កាន់តែមានភាពសុក្រឹតនៅពេលមានកត្តាជាច្រើនជះឥទ្ធិពលក្នុងពេលតែមួយ។ ការប្រើប្រាស់កត្តាជាច្រើនដូចជា ទំហំផ្ទៃរងទឹកភ្លៀង ភាពញឹកញាប់នៃខ្សែទឹក និងកម្រិតហួត ដើម្បីប៉ាន់ស្មានមធ្យមភាគទឹកជំនន់ប្រចាំឆ្នាំ (Mean Annual Flood) នៃតំបន់មួយ។
Stepwise Regression
ការវិភាគតម្រែតម្រង់ជាជំហានៗ
ជាបច្ចេកទេសជ្រើសរើសអថេរឯករាជ្យដ៏មានប្រសិទ្ធភាពបំផុតដោយស្វ័យប្រវត្តិ ដោយបញ្ចូល ឬដកអថេរម្តងមួយៗ ដោយផ្អែកលើកម្រិតនៃទំនាក់ទំនង (Partial correlation) និងការធ្វើតេស្តសម្មតិកម្ម (Significance tests)។ ការជ្រើសរើសអថេរដើម្បីទស្សន៍ទាយលំហូរទឹកប្រចាំខែនៃទន្លេមេគង្គនៅទីក្រុងប៉ាកសេ ដោយត្រងយកតែទិន្នន័យលំហូរទឹកនៃខែដែលពាក់ព័ន្ធខ្លាំងបំផុតចេញពីបញ្ជីទិន្នន័យរាប់សិបខែមុន។
Residual Analysis
ការវិភាគសំណល់ (ឬកំហុសលម្អៀង)
ជាការពិនិត្យមើលភាពខុសគ្នារវាងតម្លៃទិន្នន័យជាក់ស្តែង និងតម្លៃដែលបានព្យាករណ៍ដោយម៉ូដែល។ ការវិភាគនេះជួយកំណត់ថាតើម៉ូដែលបានបំពេញតាមសម្មតិកម្ម និងរកមើលទិន្នន័យខុសប្រក្រតី (Outliers) ដែរឬទេ។ ការគូសក្រាហ្វនៃសំណល់ទល់នឹងតម្លៃការព្យាករណ៍ (Residual plots) ដើម្បីស្វែងរកកំហុសឆ្គង (e.g., ការប្រែប្រួលវ៉ារ្យ៉ង់) នៅក្នុងការព្យាករណ៍លំហូរទឹក។
Data Transformation (Box-Cox)
ការបំប្លែងទិន្នន័យ
ជាបច្ចេកទេសកែប្រែទម្រង់ទិន្នន័យ ដើម្បីធ្វើឱ្យទិន្នន័យគោរពតាមសម្មតិកម្មនៃរបាយធម្មតា (Normality) ភាពថេរនៃវ៉ារ្យ៉ង់ និងកាត់បន្ថយភាពមិនស្មើគ្នា (Asymmetry) មុនពេលអនុវត្តម៉ូដែលតម្រែតម្រង់។ ការប្រើប្រាស់បច្ចេកទេសបំប្លែង Box-Cox ឬ លោការីត (Logarithmic transformation) ទៅលើទិន្នន័យទឹកជំនន់ប្រចាំឆ្នាំអតិបរមា ដែលមានភាពលម្អៀងខ្លាំង ដើម្បីធ្វើឱ្យលទ្ធផលតម្រែតម្រង់អាចទុកចិត្តបាន។

៤. ភាពពាក់ព័ន្ធសម្រាប់កម្ពុជា (Cambodia Relevance)

ចំណេះដឹងផ្នែកតម្រែតម្រង់ពហុគុណក្នុងម៉ូដែលជលសាស្ត្រ គឺមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ប្រទេសកម្ពុជា ដែលជាប្រទេសពឹងផ្អែកលើប្រព័ន្ធធារាសាស្ត្រកសិកម្ម និងតែងតែរងឥទ្ធិពលពីរបបទឹកជំនន់ទន្លេមេគង្គ។

ការអនុវត្ត (Applications)៖

និស្សិតកម្ពុជាដែលសិក្សាផ្នែកវិស្វកម្មធនធានទឹក បរិស្ថាន និងស្ថិតិ នឹងទទួលបាននូវជំនាញរឹងមាំក្នុងការវិភាគទិន្នន័យ ដែលឆ្លើយតបផ្ទាល់ទៅនឹងតម្រូវការក្នុងការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធ និងសេដ្ឋកិច្ចរបស់ប្រទេសកម្ពុជាក្នុងបរិបទនៃការប្រែប្រួលអាកាសធាតុ។

៥. មគ្គុទ្ទេសក៍សិក្សា (Study Guide)

លំហាត់ និងសកម្មភាពសិក្សាដើម្បីពង្រឹងការយល់ដឹង៖

  1. លំហាត់អនុវត្តការកសាងម៉ូដែល (Model Building Exercise): ប្រើប្រាស់កម្មវិធី R ឬ Python (library: statsmodels) ដើម្បីបង្កើតម៉ូដែល Simple Linear Regression លំហាត់ទី១ ដោយទាញយកទិន្នន័យទឹកភ្លៀង និងកម្ពស់ទឹកទន្លេជាក់ស្តែងប្រចាំខែពីគេហទំព័រគណៈកម្មការទន្លេមេគង្គ (MRC)។
  2. ការវិភាគសំណល់ម៉ូដែល (Residual Analysis Project): ឱ្យសិស្សទាញយកកំហុសលម្អៀង (Residuals) ពីម៉ូដែលដែលបានបង្កើត រួចគូសក្រាហ្វ (Residual vs Predicted plot) ដើម្បីវាយតម្លៃសម្មតិកម្ម Normality និង Constant Variance ព្រមទាំងកំណត់រកចំណុច Outliers ដែលអាចកើតមាន។
  3. ការអនុវត្ត Stepwise Regression លើទិន្នន័យធំ (Stepwise Regression Practice): ផ្តល់សំណុំទិន្នន័យជលសាស្ត្រដែលមានអថេរឯករាជ្យច្រើនជាង ១០ (ឧទាហរណ៍៖ ទំហំផ្ទៃរងទឹក, របាយព្រៃឈើ, សីតុណ្ហភាព, សំណើមដី)។ ឱ្យសិស្សប្រើមុខងារ Stepwise ក្នុងកម្មវិធី SPSS ដើម្បីចម្រាញ់យកអថេរដែលជះឥទ្ធិពលខ្លាំងបំផុតទៅលើលំហូរទឹក។
  4. ការសិក្សាលើការបំប្លែងទិន្នន័យ (Data Transformation Study): អនុវត្តការបំប្លែងបែប Logarithmic និងវិធីសាស្ត្រ Box-Cox ទៅលើទិន្នន័យដែលមានភាពកោងខ្លាំង (Skewed data) រួចប្រៀបធៀបលទ្ធផល R-squared និងកម្រិតខុសឆ្គង មុន និងក្រោយពេលធ្វើការបំប្លែង។
  5. ការចុះកម្មសិក្សា និងស្រាវជ្រាវ (Field Data Case Study): រៀបចំដំណើរសិក្សាទៅកាន់ស្ថានីយវាស់កម្ពស់ទឹកក្នុងស្រុក (ឧ. ស្ថានីយជលសាស្ត្រជ្រោយចង្វារ ឬកំពង់ចាម) ប្រមូលទិន្នន័យផ្ទាល់ និងប្រើវិធីសាស្ត្រតម្រែតម្រង់ដើម្បីសរសេររបាយការណ៍បកស្រាយលទ្ធផលដោយភ្ជាប់ទៅនឹងបម្រែបម្រួលអាកាសធាតុ។

៦. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស (English) ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Least squares estimation ជាវិធីសាស្ត្រគណិតវិទ្យាសម្រាប់ស្វែងរកបន្ទាត់តម្រែតម្រង់ (Regression line) ដ៏ល្អបំផុត ដោយធ្វើការគណនាបង្រួមផលបូកនៃការ៉េនៃកំហុស (Sum of squared residuals) ឱ្យនៅតូចបំផុត។ វាជួយធានាថាគម្លាតរវាងទិន្នន័យជាក់ស្តែង និងចំណុចនៅលើសមីការនៃម៉ូដែលការព្យាករណ៍ មានកម្រិតទាបបំផុត។ ដូចជាការដាក់បន្ទាត់ត្រង់មួយនៅចំកណ្តាលហ្វូងមនុស្ស ដើម្បីឱ្យមនុស្សគ្រប់គ្នាអាចឈរនៅកៀកបន្ទាត់នោះបំផុតតាមដែលអាចធ្វើទៅបាន។
Residuals សំណល់ ឬកំហុសលម្អៀង គឺជាតម្លៃខុសគ្នារវាងទិន្នន័យពិតប្រាកដ (Observed value) ដែលបានកត់ត្រា និងតម្លៃដែលត្រូវបានទស្សន៍ទាយដោយម៉ូដែល (Predicted value)។ ការវិភាគលើសំណល់នេះជួយបញ្ជាក់ថាតើម៉ូដែលនោះមានសុក្រឹតភាព និងគោរពតាមសម្មតិកម្មគ្រឹះនៃស្ថិតិដែរឬទេ។ ប្រៀបដូចជាខោអាវដែលកាត់រួច វាអាចនៅសល់សាច់ក្រណាត់លើស ឬខ្វះបន្តិចបន្តួចពីទំហំខ្លួនពិតប្រាកដរបស់អ្នកពាក់។
Multiple correlation coefficient មេគុណសហសម្ព័ន្ធពហុគុណ គឺជាតួលេខចន្លោះពី ០ ដល់ ១ ដែលវាស់វែងថាតើអថេរឯករាជ្យទាំងអស់នៅពេលបញ្ចូលគ្នា អាចពន្យល់ពីការប្រែប្រួលនៃអថេរអស្រ័យ (ឧ. លំហូរទឹកទន្លេ) បានល្អកម្រិតណា។ តម្លៃកាន់តែកៀក ១ បញ្ជាក់ថាទិន្នន័យមានទំនាក់ទំនងគ្នាខ្លាំង ហើយការព្យាករណ៍កាន់តែច្បាស់លាស់។ ដូចជាពិន្ទុភាគរយសរុបប្រចាំខែ ដែលវាយតម្លៃជារួមថាតើសិស្សរៀនបានពូកែកម្រិតណា បន្ទាប់ពីបូកបញ្ចូលពិន្ទុគ្រប់មុខវិជ្ជាទាំងអស់។
Stepwise regression ជាដំណើរការកសាងម៉ូដែលដោយការជ្រើសរើសអថេរឯករាជ្យ (Predictors) ដែលល្អបំផុតដោយស្វ័យប្រវត្តិ។ វាធ្វើការបញ្ចូលអថេរដែលសំខាន់បំផុតម្តងមួយៗចូលក្នុងសមីការ ហើយព្រមទាំងធ្វើការទម្លាក់ចោលវិញនូវអថេរណាដែលលែងមានឥទ្ធិពល ឬត្រួតស៊ីគ្នាជាមួយអថេរថ្មី។ ដូចជាការជ្រើសរើសកីឡាករចូលក្រុមបាល់ទាត់ ដោយតេស្តសមត្ថភាពម្តងម្នាក់ រួចទុកតែអ្នកណាដែលជួយឱ្យក្រុមលេងស៊ីចង្វាក់គ្នាល្អបំផុត។
Autocorrelation ស្វ័យសហសម្ព័ន្ធ គឺជាបាតុភូតដែលតម្លៃនៃកំហុស (Residual errors) កើតឡើងជាប់ៗគ្នាមានទំនាក់ទំនងគ្នាទៅវិញទៅមក ជាពិសេសក្នុងទិន្នន័យប្រចាំពេលវេលា (Time series) ដូចជាកម្រិតទឹកភ្លៀងប្រចាំថ្ងៃ។ បញ្ហានេះបំពានលើលក្ខខណ្ឌឯករាជ្យភាពនៃទិន្នន័យ ដែលទាមទារឱ្យមានការកែតម្រូវទម្រង់ម៉ូដែល។ ដូចជារបៀបដែលភ្លៀងធ្លាក់ខ្លាំងនៅថ្ងៃនេះ នឹងបន្តធ្វើឱ្យដីនៅសើមរហូតដល់ថ្ងៃស្អែក គឺវាមានឥទ្ធិពលចម្លងបន្តជាប់ៗគ្នា។
Dummy variables ជាអថេរសិប្បនិម្មិតដែលគេបង្កើតឡើងដើម្បីតំណាងឱ្យទិន្នន័យជាប្រភេទគុណលក្ខណៈ (Qualitative data) ដូចជាប្រភេទរដូវ (ប្រាំង/វស្សា) ឬប្រភេទដី។ គេផ្តល់តម្លៃលេខ ០ ឬ ១ ដល់លក្ខណៈទាំងនោះ ដើម្បីអាចបញ្ចូលពួកវាទៅក្នុងប្រតិបត្តិការគណិតវិទ្យានៃម៉ូដែលតម្រែតម្រង់បាន។ ដូចជាការប្រើកាតពណ៌ក្រហមតំណាងឱ្យពាក្យ "ឈប់" និងកាតពណ៌បៃតងតំណាងឱ្យពាក្យ "ទៅមុខ" ដើម្បីងាយស្រួលបញ្ចូលទិន្នន័យទៅឱ្យកុំព្យូទ័រយល់។
Box-Cox transformations ជាបច្ចេកទេសបំប្លែងទម្រង់ទិន្នន័យ (Data transformation) ដើម្បីកែតម្រូវទិន្នន័យដែលគ្មានរបាយធម្មតា (Non-normal distribution) ឱ្យត្រឡប់មកមានវ៉ារ្យ៉ង់ថេរ (Constant variance)។ ការបំប្លែងនេះជួយឱ្យទិន្នន័យឆៅអាចប្រើប្រាស់ជាមួយរូបមន្តតម្រែតម្រង់បានយ៉ាងត្រឹមត្រូវ។ ប្រៀបដូចជាការពាក់វ៉ែនតាព្រីស ដើម្បីកែតម្រូវភ្នែកដែលមើលឃើញវត្ថុវៀចវេរ ឱ្យត្រឡប់មកឃើញត្រង់ និងច្បាស់ល្អវិញ។
Collinearity កូលីនេអ៊ែរ ឬពហុកូលីនេអ៊ែរ គឺជាបញ្ហាកើតឡើងនៅពេលដែលអថេរឯករាជ្យពីរ ឬច្រើន នៅក្នុងម៉ូដែលតែមួយ មានទំនាក់ទំនងគ្នាខ្លាំងពេក (ឧទាហរណ៍៖ បរិមាណទឹកភ្លៀង និងសំណើមដីត្រូវបានដាក់បញ្ចូលព្រមគ្នា)។ បញ្ហានេះធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រពិបាកគណនា និងពិបាកបែងចែកថាតើអថេរមួយណាជាអ្នកបង្កើតឥទ្ធិពលពិតប្រាកដ។ ដូចជាមនុស្សពីរនាក់កំពុងរុញរទេះតែមួយក្នុងទិសដៅតែមួយ ដែលធ្វើឱ្យយើងពិបាកកាត់ក្តីដឹងថា តើអ្នកណាចេញកម្លាំងរុញច្រើនជាង។

៧. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖