Original Title: Boosting the Prediction of Extreme Values
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការលើកកម្ពស់ការទស្សន៍ទាយតម្លៃដាច់ជ្រុល (Extreme Values)

ចំណងជើងដើម៖ Boosting the Prediction of Extreme Values

អ្នកនិពន្ធ៖ Aníbal Silva (University of Porto), Rita Ribeiro (Supervisor), Nuno Moniz (Co-supervisor)

ឆ្នាំបោះពុម្ព៖ 2022

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយតម្លៃកម្រ ឬតម្លៃដាច់ជ្រុល (Extreme Values) នៅក្នុងសំណុំទិន្នន័យតម្រតម្រង់ដែលមិនមានតុល្យភាព (Imbalanced Regression) ដែលម៉ូដែលស្តង់ដារតែងតែមើលរំលងដោយសារផ្តោតតែលើតម្លៃមធ្យម។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឱ្យប្រើប្រាស់រង្វាស់ SERA ជាអនុគមន៍បាត់បង់ (Loss Function) នៅក្នុងក្បួនដោះស្រាយ Gradient Boosting ដើម្បីបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយតម្លៃដាច់ជ្រុល។

ការប្រើប្រាស់ Squared Error Relevance Area (SERA) ជាអនុគមន៍បាត់បង់សម្រាប់ការបង្កើនប្រសិទ្ធភាព
ការអនុវត្តលើក្បួនដោះស្រាយ Gradient Boosting Machines (XGBoost និង LightGBM)
ការពិសោធន៍លើសំណុំទិន្នន័យចំនួន ៣៦ (36 Data Sets) ពីវិស័យផ្សេងៗគ្នា
ការវាយតម្លៃស្ថិតិដោយប្រើ Bayes Sign Test

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ SERA ជាអនុគមន៍បាត់បង់ បានជួយឱ្យម៉ូដែលទស្សន៍ទាយតម្លៃដាច់ជ្រុលបានល្អប្រសើរជាងការប្រើប្រាស់ Mean Squared Error (MSE) តាមបែបស្តង់ដារ។
ម៉ូដែល LGBM ដែលប្រើ SERA ទទួលបានលទ្ធផលល្អបំផុតនៅក្នុងសំណុំទិន្នន័យចំនួន ១៦ ក្នុងចំណោម ៣៦ សម្រាប់ការវាយតម្លៃ SERA ។
លទ្ធផលបញ្ជាក់ថា SERA អាចត្រូវបានប្រើប្រាស់យ៉ាងមានប្រសិទ្ធភាពក្នុងការបង្រួមអប្បបរមានៃកំហុសចំពោះទិន្នន័យដែលមានតម្លៃកម្រ ឬមិនមានតុល្យភាពខ្លាំង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Standard Gradient Boosting (optimized with MSE) ការប្រើប្រាស់ម៉ាស៊ីន Gradient Boosting ធម្មតា (XGBoost/LGBM) ដែលប្រើអនុគមន៍ Mean Squared Error (MSE)	ងាយស្រួលអនុវត្តដោយប្រើកញ្ចប់កម្មវិធីស្តង់ដារ និងផ្តល់លទ្ធផលល្អសម្រាប់ទិន្នន័យដែលមានតម្លៃនៅកណ្តាល (Normal distribution)។	មានទំនោរមើលរំលងតម្លៃកម្រ (Extreme Values) និងផ្តល់ការព្យាករណ៍មិនសូវត្រឹមត្រូវចំពោះព្រឹត្តិការណ៍ដែលមានហានិភ័យខ្ពស់។	មានប្រសិទ្ធភាពល្អក្នុងការវាស់វែងដោយប្រើរង្វាស់ MSE ប៉ុន្តែមិនសូវល្អក្នុងការចាប់យកតម្លៃធ្ងន់ធ្ងរ ឬកម្រ។
Gradient Boosting optimized with SERA (Proposed Method) ការប្រើប្រាស់ XGBoost/LGBM ដែលប្រើ SERA ជាអនុគមន៍សម្រាប់ធ្វើ Optimization (Loss Function)	ផ្តោតសំខាន់លើការកាត់បន្ថយកំហុសចំពោះតម្លៃកម្រ (Rare cases) ដោយមិនបាត់បង់សមត្ថភាពព្យាករណ៍លើទិន្នន័យទូទៅ។	ត្រូវការការគណនាដេរីវេ (Derivatives) ផ្ទាល់ខ្លួន និងការកំណត់ប៉ារ៉ាម៉ែត្របន្ថែម (ដូចជាចំនួនចន្លោះ T សម្រាប់ធ្វើសមាហរណកម្ម)។	LGBM ដែលប្រើ SERA (LGBMS) ទទួលបានចំណាត់ថ្នាក់ល្អបំផុតក្នុងការទស្សន៍ទាយតម្លៃកម្រលើសំណុំទិន្នន័យចំនួន ៣៦។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រធំដុំទេ អាចដំណើរការបានលើកុំព្យូទ័រស្រាវជ្រាវទូទៅ ប៉ុន្តែត្រូវការចំណេះដឹងផ្នែកគណិតវិទ្យាដើម្បីអនុវត្ត។

Software: ភាសា R និងកញ្ចប់កម្មវិធី xgboost ឬ lightgbm (អ្នកនិពន្ធបានបង្កើត R package ឈ្មោះ ModelOptimizationIR)។
Expertise: ត្រូវការអ្នកជំនាញដែលមានចំណេះដឹងអំពី Cost-sensitive learning និងការបង្កើត Custom Loss Function។
Hardware: CPU ទូទៅគឺគ្រប់គ្រាន់ ប៉ុន្តែ GPU អាចជួយពន្លឿនការបង្វឹកម៉ូដែល (Training) លើទិន្នន័យធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យចំនួន ៣៦ ពីវិស័យផ្សេងៗគ្នា (ដូចជា ជីវវិទ្យា ឧតុនិយម និងហិរញ្ញវត្ថុ) ដែលភាគច្រើនជាទិន្នន័យស្តង់ដារអន្តរជាតិ (Benchmark datasets)។ មិនមានទិន្នន័យជាក់លាក់ពីកម្ពុជាទេ ប៉ុន្តែលក្ខណៈនៃបញ្ហា (Imbalanced Regression) គឺស្រដៀងគ្នាទៅនឹងបញ្ហានានាក្នុងពិភពពិត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងវិស័យដែលត្រូវការការទស្សន៍ទាយគ្រោះមហន្តរាយ ឬព្រឹត្តិការណ៍កម្រ។

ការព្យាករណ៍ទឹកជំនន់ (Flood Forecasting): អាចប្រើដើម្បីព្យាករណ៍កម្រិតទឹកទន្លេមេគង្គ ឬស្ទឹងព្រែកត្នោត នៅពេលមានភ្លៀងធ្លាក់ខ្លាំងខុសប្រក្រតី (Extreme Values) ដែលម៉ូដែលធម្មតាម៉្យាងមិនអាចចាប់យកបាន។
វិស័យហិរញ្ញវត្ថុ និងមីក្រូហិរញ្ញវត្ថុ: ប្រើសម្រាប់ចាប់យកការក្លែងបន្លំ (Fraud Detection) ឬហានិភ័យឥណទានធ្ងន់ធ្ងរ ដែលជាករណីកម្រប៉ុន្តែមានផលប៉ះពាល់ខ្ពស់។
ការគ្រប់គ្រងគុណភាពខ្យល់ (Air Quality): ដូចឧទាហរណ៍ NO2 ក្នុងសារណា វិធីសាស្ត្រនេះអាចប្រើដើម្បីព្យាករណ៍កម្រិត PM2.5 នៅរាជធានីភ្នំពេញនៅពេលវាឡើងខ្ពស់ខុសធម្មតា។

ការប្រើប្រាស់ SERA ជា Loss Function គឺជាបច្ចេកទេសដ៏មានសក្តានុពលសម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យនៅកម្ពុជា ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃប្រព័ន្ធប្រកាសអាសន្ន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ សិក្សាទ្រឹស្តីមូលដ្ឋាន: ស្វែងយល់អំពី Imbalanced Regression និងរបៀបដែល Gradient Boosting Machines (ដូចជា XGBoost) ដំណើរការ។ អានជំពូកទី ៣ នៃសារណាដើម្បីយល់ពី Relevance Function និង SERA។
ជំហានទី ២៖ រៀបចំឧបករណ៍ (Tools): ដំឡើងកម្មវិធី R និង RStudio។ ទាញយកកញ្ចប់ xgboost និង lightgbm។ សាកល្បងស្វែងរកកញ្ចប់ ModelOptimizationIR របស់អ្នកនិពន្ធពី GitHub។
ជំហានទី ៣៖ ការអនុវត្តសាកល្បង (Implementation): សរសេរកូដដើម្បីបង្កើត Custom Loss Function (First និង Second derivatives នៃ SERA) នៅក្នុង R ដោយផ្អែកលើសមីការក្នុងជំពូកទី ៤ និងបញ្ចូលវាទៅក្នុង lightgbm ។
ជំហានទី ៤៖ អនុវត្តលើទិន្នន័យកម្ពុជា: ប្រមូលទិន្នន័យដែលមានលក្ខណៈមិនស្មើគ្នា (Skewed) ដូចជាទិន្នន័យទឹកភ្លៀងពីក្រសួងធនធានទឹក ឬទិន្នន័យឥណទាន។ កំណត់តម្លៃណាដែលចាត់ទុកថាជា 'Extreme'។
ជំហានទី ៥៖ ការវាយតម្លៃ: ប្រៀបធៀបលទ្ធផលរវាងម៉ូដែលដែលប្រើ MSE និង SERA ដោយប្រើរង្វាស់ SERA Curve ដើម្បីមើលថាបរាជ័យត្រង់ណាខ្លះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Imbalanced Regression	ជាប្រភេទនៃការវិភាគទិន្នន័យដែលតម្លៃគោលដៅភាគច្រើនមានភាពប្រហាក់ប្រហែលគ្នា (តម្លៃធម្មតា) ប៉ុន្តែមានតម្លៃមួយចំនួនតូចដែលខុសប្លែកខ្លាំង (តម្លៃដាច់ជ្រុល) ហើយតម្លៃកម្រទាំងនោះជាចំណុចសំខាន់បំផុតដែលត្រូវទស្សន៍ទាយ។	ដូចជាការរុករកគ្រាប់ពេជ្រនៅក្នុងគំនរខ្សាច់ដ៏ធំ ដែលគ្រាប់ពេជ្រមានចំនួនតិចតួចណាស់តែមានតម្លៃខ្ពស់បំផុតដែលយើងចង់បាន។
Relevance Function	ជាអនុគមន៍គណិតវិទ្យាដែលប្រើដើម្បីកំណត់កម្រិត 'សារៈសំខាន់' នៃទិន្នន័យនីមួយៗ។ វាផ្តល់តម្លៃខ្ពស់ដល់ទិន្នន័យកម្រ (Extreme Values) និងតម្លៃទាបដល់ទិន្នន័យធម្មតា ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រដឹងថាត្រូវផ្តោតលើចំណុចណាខ្លាំងជាងគេ។	ប្រៀបដូចជាគ្រូបង្រៀនដែលផ្តល់ពិន្ទុខ្ពស់ចំពោះលំហាត់ណាដែលពិបាកខ្លាំង ហើយផ្តល់ពិន្ទុតិចចំពោះលំហាត់ងាយៗ។
Squared Error Relevance Area (SERA)	ជារង្វាស់វាយតម្លៃគុណភាពម៉ូដែលថ្មីមួយ ដែលគណនាកំហុសសរុបដោយថ្លឹងថ្លែងទៅតាមកម្រិតសារៈសំខាន់នៃទិន្នន័យ។ វាធានាថាម៉ូដែលមិនត្រឹមតែត្រឹមត្រូវលើទិន្នន័យទូទៅប៉ុណ្ណោះទេ ថែមទាំងត្រឹមត្រូវលើទិន្នន័យកម្រទៀតផង។	ដូចជាការដាក់ពិន័យចំពោះកំហុស ដោយកំហុសលើរឿងធំដុំ (តម្លៃកម្រ) ត្រូវទទួលពិន័យធ្ងន់ជាងកំហុសលើរឿងតូចតាច (តម្លៃធម្មតា)។
Gradient Boosting Machines	ជាបច្ចេកទេសបង្រៀនម៉ាស៊ីន (Machine Learning) ដែលបង្កើតម៉ូដែលតូចៗជាច្រើនបន្តបន្ទាប់គ្នា ដោយម៉ូដែលថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលម៉ូដែលមុនបានធ្វើ ដើម្បីបង្កើតជាម៉ូដែលចុងក្រោយដ៏ខ្លាំងក្លាមួយ។	ប្រៀបដូចជាការសាងសង់ជញ្ជាំងមួយ ដោយជាងម្នាក់ៗមកបិទចន្លោះប្រហោងដែលជាងមុនបានបន្សល់ទុក ដើម្បីឱ្យជញ្ជាំងកាន់តែរឹងមាំនិងគ្មានចន្លោះ។
Loss Function	ជាក្បួនគណិតវិទ្យាសម្រាប់វាស់វែងថាតើការព្យាករណ៍របស់ម៉ូដែលខុសពីការពិតកម្រិតណា។ កុំព្យូទ័រប្រើវាដើម្បីរៀនកែតម្រូវខ្លួនឯងក្នុងអំឡុងពេលហ្វឹកហាត់ (Training) ដើម្បីកាត់បន្ថយកំហុសឱ្យនៅតិចបំផុត។	ដូចជាឧបករណ៍វាស់កម្ពស់ទឹក ដែលប្រាប់យើងថាទឹកនៅខ្វះប៉ុន្មានទៀតទើបពេញពាង ដើម្បីយើងដឹងថាត្រូវចាក់ទឹកបន្ថែមប៉ុន្មាន។
Bayes Sign Test	ជាវិធីសាស្ត្រស្ថិតិដែលប្រើសម្រាប់ប្រៀបធៀបប្រសិទ្ធភាពរវាងម៉ូដែលពីរ ដើម្បីកំណត់ថាអ្នកណាឈ្នះ អ្នកណាចាញ់ ឬស្មើគ្នា ដោយផ្អែកលើលទ្ធផលនៃការពិសោធន៍លើទិន្នន័យជាច្រើនផ្សេងៗគ្នា។	ដូចជាការកាត់សេចក្តីរបស់អាជ្ញាកណ្តាលក្នុងការប្រកួតកីឡា ដើម្បីប្រកាសថាអ្នកណាជាអ្នកឈ្នះពិតប្រាកដដោយផ្អែកលើពិន្ទុនៃការប្រកួត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖