បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការទស្សន៍ទាយតម្លៃកម្រ ឬតម្លៃដាច់ជ្រុល (Extreme Values) នៅក្នុងសំណុំទិន្នន័យតម្រតម្រង់ដែលមិនមានតុល្យភាព (Imbalanced Regression) ដែលម៉ូដែលស្តង់ដារតែងតែមើលរំលងដោយសារផ្តោតតែលើតម្លៃមធ្យម។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឱ្យប្រើប្រាស់រង្វាស់ SERA ជាអនុគមន៍បាត់បង់ (Loss Function) នៅក្នុងក្បួនដោះស្រាយ Gradient Boosting ដើម្បីបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយតម្លៃដាច់ជ្រុល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard Gradient Boosting (optimized with MSE) ការប្រើប្រាស់ម៉ាស៊ីន Gradient Boosting ធម្មតា (XGBoost/LGBM) ដែលប្រើអនុគមន៍ Mean Squared Error (MSE) |
ងាយស្រួលអនុវត្តដោយប្រើកញ្ចប់កម្មវិធីស្តង់ដារ និងផ្តល់លទ្ធផលល្អសម្រាប់ទិន្នន័យដែលមានតម្លៃនៅកណ្តាល (Normal distribution)។ | មានទំនោរមើលរំលងតម្លៃកម្រ (Extreme Values) និងផ្តល់ការព្យាករណ៍មិនសូវត្រឹមត្រូវចំពោះព្រឹត្តិការណ៍ដែលមានហានិភ័យខ្ពស់។ | មានប្រសិទ្ធភាពល្អក្នុងការវាស់វែងដោយប្រើរង្វាស់ MSE ប៉ុន្តែមិនសូវល្អក្នុងការចាប់យកតម្លៃធ្ងន់ធ្ងរ ឬកម្រ។ |
| Gradient Boosting optimized with SERA (Proposed Method) ការប្រើប្រាស់ XGBoost/LGBM ដែលប្រើ SERA ជាអនុគមន៍សម្រាប់ធ្វើ Optimization (Loss Function) |
ផ្តោតសំខាន់លើការកាត់បន្ថយកំហុសចំពោះតម្លៃកម្រ (Rare cases) ដោយមិនបាត់បង់សមត្ថភាពព្យាករណ៍លើទិន្នន័យទូទៅ។ | ត្រូវការការគណនាដេរីវេ (Derivatives) ផ្ទាល់ខ្លួន និងការកំណត់ប៉ារ៉ាម៉ែត្របន្ថែម (ដូចជាចំនួនចន្លោះ T សម្រាប់ធ្វើសមាហរណកម្ម)។ | LGBM ដែលប្រើ SERA (LGBMS) ទទួលបានចំណាត់ថ្នាក់ល្អបំផុតក្នុងការទស្សន៍ទាយតម្លៃកម្រលើសំណុំទិន្នន័យចំនួន ៣៦។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រធំដុំទេ អាចដំណើរការបានលើកុំព្យូទ័រស្រាវជ្រាវទូទៅ ប៉ុន្តែត្រូវការចំណេះដឹងផ្នែកគណិតវិទ្យាដើម្បីអនុវត្ត។
ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យចំនួន ៣៦ ពីវិស័យផ្សេងៗគ្នា (ដូចជា ជីវវិទ្យា ឧតុនិយម និងហិរញ្ញវត្ថុ) ដែលភាគច្រើនជាទិន្នន័យស្តង់ដារអន្តរជាតិ (Benchmark datasets)។ មិនមានទិន្នន័យជាក់លាក់ពីកម្ពុជាទេ ប៉ុន្តែលក្ខណៈនៃបញ្ហា (Imbalanced Regression) គឺស្រដៀងគ្នាទៅនឹងបញ្ហានានាក្នុងពិភពពិត។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងវិស័យដែលត្រូវការការទស្សន៍ទាយគ្រោះមហន្តរាយ ឬព្រឹត្តិការណ៍កម្រ។
ការប្រើប្រាស់ SERA ជា Loss Function គឺជាបច្ចេកទេសដ៏មានសក្តានុពលសម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យនៅកម្ពុជា ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃប្រព័ន្ធប្រកាសអាសន្ន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imbalanced Regression | ជាប្រភេទនៃការវិភាគទិន្នន័យដែលតម្លៃគោលដៅភាគច្រើនមានភាពប្រហាក់ប្រហែលគ្នា (តម្លៃធម្មតា) ប៉ុន្តែមានតម្លៃមួយចំនួនតូចដែលខុសប្លែកខ្លាំង (តម្លៃដាច់ជ្រុល) ហើយតម្លៃកម្រទាំងនោះជាចំណុចសំខាន់បំផុតដែលត្រូវទស្សន៍ទាយ។ | ដូចជាការរុករកគ្រាប់ពេជ្រនៅក្នុងគំនរខ្សាច់ដ៏ធំ ដែលគ្រាប់ពេជ្រមានចំនួនតិចតួចណាស់តែមានតម្លៃខ្ពស់បំផុតដែលយើងចង់បាន។ |
| Relevance Function | ជាអនុគមន៍គណិតវិទ្យាដែលប្រើដើម្បីកំណត់កម្រិត 'សារៈសំខាន់' នៃទិន្នន័យនីមួយៗ។ វាផ្តល់តម្លៃខ្ពស់ដល់ទិន្នន័យកម្រ (Extreme Values) និងតម្លៃទាបដល់ទិន្នន័យធម្មតា ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រដឹងថាត្រូវផ្តោតលើចំណុចណាខ្លាំងជាងគេ។ | ប្រៀបដូចជាគ្រូបង្រៀនដែលផ្តល់ពិន្ទុខ្ពស់ចំពោះលំហាត់ណាដែលពិបាកខ្លាំង ហើយផ្តល់ពិន្ទុតិចចំពោះលំហាត់ងាយៗ។ |
| Squared Error Relevance Area (SERA) | ជារង្វាស់វាយតម្លៃគុណភាពម៉ូដែលថ្មីមួយ ដែលគណនាកំហុសសរុបដោយថ្លឹងថ្លែងទៅតាមកម្រិតសារៈសំខាន់នៃទិន្នន័យ។ វាធានាថាម៉ូដែលមិនត្រឹមតែត្រឹមត្រូវលើទិន្នន័យទូទៅប៉ុណ្ណោះទេ ថែមទាំងត្រឹមត្រូវលើទិន្នន័យកម្រទៀតផង។ | ដូចជាការដាក់ពិន័យចំពោះកំហុស ដោយកំហុសលើរឿងធំដុំ (តម្លៃកម្រ) ត្រូវទទួលពិន័យធ្ងន់ជាងកំហុសលើរឿងតូចតាច (តម្លៃធម្មតា)។ |
| Gradient Boosting Machines | ជាបច្ចេកទេសបង្រៀនម៉ាស៊ីន (Machine Learning) ដែលបង្កើតម៉ូដែលតូចៗជាច្រើនបន្តបន្ទាប់គ្នា ដោយម៉ូដែលថ្មីនីមួយៗព្យាយាមកែតម្រូវកំហុសដែលម៉ូដែលមុនបានធ្វើ ដើម្បីបង្កើតជាម៉ូដែលចុងក្រោយដ៏ខ្លាំងក្លាមួយ។ | ប្រៀបដូចជាការសាងសង់ជញ្ជាំងមួយ ដោយជាងម្នាក់ៗមកបិទចន្លោះប្រហោងដែលជាងមុនបានបន្សល់ទុក ដើម្បីឱ្យជញ្ជាំងកាន់តែរឹងមាំនិងគ្មានចន្លោះ។ |
| Loss Function | ជាក្បួនគណិតវិទ្យាសម្រាប់វាស់វែងថាតើការព្យាករណ៍របស់ម៉ូដែលខុសពីការពិតកម្រិតណា។ កុំព្យូទ័រប្រើវាដើម្បីរៀនកែតម្រូវខ្លួនឯងក្នុងអំឡុងពេលហ្វឹកហាត់ (Training) ដើម្បីកាត់បន្ថយកំហុសឱ្យនៅតិចបំផុត។ | ដូចជាឧបករណ៍វាស់កម្ពស់ទឹក ដែលប្រាប់យើងថាទឹកនៅខ្វះប៉ុន្មានទៀតទើបពេញពាង ដើម្បីយើងដឹងថាត្រូវចាក់ទឹកបន្ថែមប៉ុន្មាន។ |
| Bayes Sign Test | ជាវិធីសាស្ត្រស្ថិតិដែលប្រើសម្រាប់ប្រៀបធៀបប្រសិទ្ធភាពរវាងម៉ូដែលពីរ ដើម្បីកំណត់ថាអ្នកណាឈ្នះ អ្នកណាចាញ់ ឬស្មើគ្នា ដោយផ្អែកលើលទ្ធផលនៃការពិសោធន៍លើទិន្នន័យជាច្រើនផ្សេងៗគ្នា។ | ដូចជាការកាត់សេចក្តីរបស់អាជ្ញាកណ្តាលក្នុងការប្រកួតកីឡា ដើម្បីប្រកាសថាអ្នកណាជាអ្នកឈ្នះពិតប្រាកដដោយផ្អែកលើពិន្ទុនៃការប្រកួត។ |
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖