Original Title: Class Imbalance Learning in Data Mining – A Survey
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពីអតុល្យភាពចំណាត់ថ្នាក់នៅក្នុងការជីកទិន្នន័យ – ការសិក្សាស្រាវជ្រាវ

ចំណងជើងដើម៖ Class Imbalance Learning in Data Mining – A Survey

អ្នកនិពន្ធ៖ Ali Mirza Mahmood (Associate Professor, DMS SVH College of Engineering, Machilipatnam, India)

ឆ្នាំបោះពុម្ព៖ 2015, International Journal of Communication Technology for Social Networking Services

វិស័យសិក្សា៖ Computer Science / Data Mining / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការដោះស្រាយបញ្ហានៃការរៀនពីទិន្នន័យដែលមានអតុល្យភាពចំណាត់ថ្នាក់ (Class Imbalance) នៅក្នុងវិស័យជីកទិន្នន័យ (Data Mining) ដែលជាបញ្ហាធ្វើឱ្យម៉ូដែលចំណាត់ថ្នាក់មានភាពលម្អៀងទៅរកចំណាត់ថ្នាក់ដែលមានទិន្នន័យច្រើន (Majority Class)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការត្រួតពិនិត្យយ៉ាងទូលំទូលាយ (Comprehensive Review) ទៅលើបច្ចេកវិទ្យា និងវិធីសាស្ត្របច្ចុប្បន្នសម្រាប់ការកសាងម៉ូដែល និងដោះស្រាយអតុល្យភាពទិន្នន័យ។

បច្ចេកទេសថ្លឹងថ្លែងទិន្នន័យ (Data Balancing Techniques) ដូចជា ការយកគំរូទាប (Undersampling) ការយកគំរូលើប (Oversampling) និងវិធីសាស្ត្រកូនកាត់ (Hybrid Methods)
រង្វាស់វាយតម្លៃ (Evaluation Criteria) ដូចជា Area Under Curve (AUC), Precision, ទិន្នផល F-measure, True Positive Rate និង True Negative Rate
ការវិភាគទៅលើម៉ូដែលដើមឈើការសម្រេចចិត្ត (Decision Trees) សម្រាប់ការបែងចែកចំណាត់ថ្នាក់
ការរួមបញ្ចូលវិធីសាស្ត្ររៀនជាក្រុម (Ensemble Methods) និងការរៀនដែលគិតពីតម្លៃ (Cost-Sensitive Learning)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

អត្រាកំហុស (Error Rate) មិនមែនជារង្វាស់ត្រឹមត្រូវសម្រាប់ការវាយតម្លៃលើទិន្នន័យដែលមានអតុល្យភាពនោះទេ ដោយគប្បីប្រើប្រាស់រង្វាស់ដូចជា AUC ឬ F-measure ជំនួសវិញ ដើម្បីទទួលបានការវាយតម្លៃច្បាស់លាស់។
វិធីសាស្ត្រកូនកាត់ (Hybrid Methods) ដែលរួមបញ្ចូលការយកគំរូទិន្នន័យ (Data Sampling) ជាមួយនឹងក្បួនដោះស្រាយ Boosting (ឧទាហរណ៍៖ SMOTEBoost, RUSBoost) ផ្តល់នូវប្រសិទ្ធភាពកាន់តែប្រសើរក្នុងការដោះស្រាយបញ្ហាអតុល្យភាពចំណាត់ថ្នាក់។
ការស្រាវជ្រាវនាពេលអនាគតគួរតែផ្តោតសំខាន់លើការរួមបញ្ចូលការរៀនពីអតុល្យភាពចំណាត់ថ្នាក់ ជាមួយនឹងបច្ចេកទេសបញ្ញាសិប្បនិម្មិត (AI) ផ្សេងទៀត ដើម្បីបង្កើនសមត្ថភាពទស្សន៍ទាយទៅលើទិន្នន័យជាក់ស្តែង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Undersampling ការយកគំរូទាបដោយចៃដន្យ (កាត់បន្ថយទិន្នន័យក្រុមភាគច្រើន)	ជួយធ្វើឱ្យទិន្នន័យមានតុល្យភាពលឿន និងកាត់បន្ថយទំហំទិន្នន័យដែលធ្វើឱ្យដំណើរការរៀនបានលឿន។	អាចបាត់បង់ទិន្នន័យសំខាន់ៗពី Majority class ដែលចាំបាច់សម្រាប់ការសាងសង់ម៉ូដែលបានត្រឹមត្រូវ។	ជាវិធីសាស្ត្រមូលដ្ឋានដែលជួយសម្រួលការបែងចែកចំណាត់ថ្នាក់ ប៉ុន្តែងាយបាត់បង់ព័ត៌មានមានតម្លៃ។
Random Oversampling ការយកគំរូលើបដោយចៃដន្យ (ចម្លងទិន្នន័យក្រុមភាគតិច)	មិនមានការបាត់បង់ព័ត៌មានពីទិន្នន័យដើមឡើយ និងជួយបង្កើនអត្រានៃការរៀនលើទិន្នន័យក្រុមភាគតិច។	អាចបណ្តាលឱ្យមានបញ្ហា Overfitting យ៉ាងងាយ ដោយសារតែវាគ្រាន់តែធ្វើការចម្លង (copy) ទិន្នន័យដដែលៗ។	ជាទូទៅផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាង undersampling លើ minority class ប៉ុន្តែប្រឈមនឹងបញ្ហា overfitting ខ្លាំង។
Hybrid Methods (e.g., SMOTEBoost, RUSBoost) វិធីសាស្ត្រកូនកាត់ និងការរៀនជាក្រុម (បញ្ចូលការយកគំរូជាមួយវិធីសាស្ត្រ Boosting)	កាត់បន្ថយបញ្ហា Overfitting នៃ oversampling ព្រមទាំងផ្តល់លទ្ធផលល្អប្រសើរដោយប្រើបច្ចេកទេសបង្កើតទិន្នន័យសំយោគ (SMOTE)។	មានភាពស្មុគស្មាញខ្ពស់ និងតម្រូវការកម្លាំងកុំព្យូទ័រ (computation power) ច្រើនជាងវិធីសាស្ត្រធម្មតា។	ផ្តល់នូវសមត្ថភាពទស្សន៍ទាយខ្ពស់ និងជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាពបំផុតមួយនៅក្នុងការសិក្សាស្រាវជ្រាវនេះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធាន Hardware ឬ Software នោះទេ ដោយសារវាជាឯកសារប្រមូលផ្តុំការសិក្សា (Survey Paper) ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រទាំងនេះទាមទារបរិស្ថានសរសេរកូដ និងធនធានម៉ាស៊ីនកម្រិតស្តង់ដារ។

Datasets: ប្រើប្រាស់សំណុំទិន្នន័យគោល (Benchmark Datasets) ចំនួន ៦៦ ដែលមានអតុល្យភាពផ្សេងៗគ្នា យកពី UCI Machine Learning Repository។
Software: ទាមទារភាសាកម្មវិធីដែលមានបណ្ណាល័យ Machine Learning (ឧទាហរណ៍៖ Python ជាមួយ Scikit-learn និង Imbalanced-learn) សម្រាប់ការអនុវត្តម៉ូដែល។
Hardware: សម្រាប់ការអនុវត្តវិធីសាស្ត្រ Ensemble ដូចជា RUSBoost ឬ CO2RBFN ត្រូវការកុំព្យូទ័រដែលមាន CPU ច្រើនគ្រាប់ (Multi-core) និង RAM គ្រប់គ្រាន់សម្រាប់ផ្ទុកទិន្នន័យក្នុង Memory។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យគោលរបស់ UCI (Benchmark Datasets) ពីជុំវិញពិភពលោក ដែលភាគច្រើនមិនឆ្លុះបញ្ចាំងពីបរិបទប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់កម្ពុជា ការយល់ដឹងពីបញ្ហាអតុល្យភាពទិន្នន័យនេះមានសារៈសំខាន់ខ្លាំង ព្រោះទិន្នន័យក្នុងស្រុក (ដូចជាកំណត់ត្រាវេជ្ជសាស្ត្រ ឬទិន្នន័យហិរញ្ញវត្ថុ) តែងតែមានលក្ខណៈលម្អៀង និងអតុល្យភាពខ្លាំង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងឯកសារនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេង និងអាចយកមកអនុវត្តជាក់ស្តែងសម្រាប់ការវិភាគទិន្នន័យនៅប្រទេសកម្ពុជា។

វិស័យសុខាភិបាលនៅកម្ពុជា (Healthcare & Medical Diagnosis): អាចប្រើដើម្បីទស្សន៍ទាយ និងធ្វើរោគវិនិច្ឆ័យជំងឺកម្រនានានៅតាមមន្ទីរពេទ្យធំៗ ព្រោះអ្នកជំងឺដែលមានជំងឺកម្រ (Minority Class) មានចំនួនតិចតួចបំផុតបើធៀបនឹងអ្នកអត់មានជំងឺ។
វិស័យហិរញ្ញវត្ថុ និងធនាគារ (Banking & Fraud Detection): មានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់យកប្រតិបត្តិការក្លែងបន្លំតាមប្រព័ន្ធធនាគារ (Fraud transactions) ឬការវាយតម្លៃឥណទានដែលមានហានិភ័យខូច (Loan defaults) ដែលជាបញ្ហាអតុល្យភាពទិន្នន័យដ៏ធំនៅកម្ពុជា។
ការតាមដានបរិស្ថាន និងកសិកម្ម (Remote Sensing & Environment): អនុវត្តក្នុងការវិភាគទិន្នន័យពីផ្កាយរណប ដើម្បីចាប់យកតំបន់ដែលរងការបំពុល ឬការកាប់បំផ្លាញព្រៃឈើខុសច្បាប់ (ដែលជាព្រឹត្តិការណ៍កម្រកើតមានក្នុងទំហំទិន្នន័យធំ)។

ជារួម ការអនុវត្តបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យនេះ នឹងជួយពង្រឹងភាពត្រឹមត្រូវនៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលកំពុងអភិវឌ្ឍដោយស្ថាប័នរដ្ឋ និងឯកជននៅក្នុងប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការវាស់វែង និងរង្វាស់វាយតម្លៃ (Evaluation Metrics): បញ្ឈប់ការប្រើប្រាស់ត្រឹមតែ Accuracy សំរាប់វាស់ស្ទង់ទិន្នន័យដែលមានអតុល្យភាព។ ត្រូវប្តូរមកសិក្សា និងប្រើប្រាស់រង្វាស់ដូចជា AUC (Area Under Curve), Precision, Recall, និង F-measure ជំនួសវិញ។
អនុវត្តបច្ចេកទេសថ្លឹងថ្លែងទិន្នន័យកម្រិតមូលដ្ឋាន (Data Balancing): សាកល្បងប្រើប្រាស់វិធីសាស្ត្រ Random Undersampling និង Random Oversampling ដោយប្រើប្រាស់បណ្ណាល័យ Imbalanced-learn នៅក្នុងភាសា Python ដើម្បីស្វែងយល់ពីឥទ្ធិពលរបស់វាទៅលើទិន្នន័យ។
អនុវត្តវិធីសាស្ត្រទិន្នន័យសំយោគកម្រិតខ្ពស់ (Advanced Oversampling): រៀនសរសេរកូដដើម្បីអនុវត្តក្បួនដោះស្រាយ SMOTE (Synthetic Minority Over-sampling Technique) ដើម្បីបង្កើតទិន្នន័យក្លែងក្លាយឱ្យ Minority Class ដែលវាជួយកាត់បន្ថយបញ្ហា Overfitting បានយ៉ាងល្អ។
អនុវត្តវិធីសាស្ត្រកូនកាត់ (Hybrid & Ensemble Techniques): ស្រាវជ្រាវ និងសាងសង់ម៉ូដែលដោយប្រើប្រាស់ RUSBoost ឬ SMOTEBoost ដោយប្រើ Scikit-learn រួចប្រៀបធៀបលទ្ធផលជាមួយនឹងម៉ូដែលដើមឈើការសម្រេចចិត្តធម្មតា (Decision Trees/C4.5) ដើម្បីឃើញពីការវិវឌ្ឍប្រសិទ្ធភាពជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Class Imbalance Learning	ជាដំណើរការបង្រៀនម៉ាស៊ីនកុំព្យូទ័រ (Machine Learning) ឱ្យចេះបែងចែកចំណាត់ថ្នាក់ទិន្នន័យ ក្នុងស្ថានភាពដែលក្រុមទិន្នន័យមួយមានចំនួនច្រើនលើសលប់ ខណៈក្រុមទិន្នន័យមួយទៀតមានចំនួនតិចតួចបំផុត ដែលធ្វើឱ្យកុំព្យូទ័រងាយនឹងទស្សន៍ទាយលម្អៀង។	ដូចជាការបង្រៀនសិស្សឱ្យស្គាល់សត្វ ដោយបង្ហាញរូបសត្វឆ្កែ១០០សន្លឹក និងរូបសត្វខ្លាឃ្មុំតែ១សន្លឹក ដែលធ្វើឱ្យសិស្សងាយនឹងច្រឡំឆ្លើយថាខ្លាឃ្មុំនោះជាឆ្កែដែរ។
Decision trees	ជាក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដែលមានទម្រង់ដូចជាមែកធាង ដោយចាប់ផ្តើមពីសំណួរបែងចែកលក្ខណៈទូទៅបំផុត រហូតដល់ចម្លើយចុងក្រោយនៅខាងចុងស្លឹក ដែលជាចំណាត់ថ្នាក់ត្រឹមត្រូវនៃទិន្នន័យ។	ដូចជាការលេងហ្គេមសួរសំណួរ 'បាទ/ទេ' បន្តបន្ទាប់គ្នា (ឧ. តើសត្វនេះមានរោមឬទេ? តើវាចេះហោះឬទេ?) ដើម្បីស្វែងរកចម្លើយចុងក្រោយថាតើវាជាសត្វអ្វី។
Random oversampling	ជាបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យ ដោយធ្វើការថតចម្លង (Copy) ទិន្នន័យក្នុងក្រុមភាគតិច (Minority class) ដោយចៃដន្យ រហូតទាល់តែចំនួនរបស់វាស្មើនឹងក្រុមភាគច្រើន ដើម្បីកុំឱ្យម៉ូដែលរៀនលម្អៀង។	ដូចជាការថតចម្លងសន្លឹកកិច្ចការរបស់សិស្សពូកែម្នាក់ជាច្រើនសន្លឹក ដើម្បីឱ្យមានចំនួនកិច្ចការស្មើនឹងសិស្សធម្មតាដ៏ច្រើនផ្សេងទៀត។
Random undersampling	ជាបច្ចេកទេសធ្វើឱ្យទិន្នន័យមានតុល្យភាព ដោយធ្វើការលុបចោលនូវទិន្នន័យមួយចំនួនក្នុងក្រុមភាគច្រើន (Majority class) ដោយចៃដន្យ ដើម្បីឱ្យចំនួនរបស់វាធ្លាក់មកស្មើនឹងក្រុមភាគតិចវិញ។	ដូចជាការដកសិស្សធម្មតាជំនាញទូទៅចេញពីថ្នាក់រៀនខ្លះ ដើម្បីឱ្យមានចំនួនស្មើគ្នានឹងសិស្សជំនាញពិសេសដែលមានចំនួនតិចតួចនៅក្នុងថ្នាក់នោះ។
SMOTE (Synthetic minority oversampling technique)	ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីសម្រាប់ក្រុមភាគតិច ជំនួសឱ្យការគ្រាន់តែថតចម្លងទិន្នន័យចាស់។ វាគណនាលក្ខណៈស្រដៀងគ្នានៃទិន្នន័យជិតខាង រួចបង្កើតជាទិន្នន័យសំយោគថ្មីមួយដែលមានលក្ខណៈសមហេតុផល។	ដូចជាការបង្កើតមុខម្ហូបថ្មីមួយ ដោយយកលាយបញ្ចូលគ្នានូវគ្រឿងផ្សំពីមុខម្ហូបពីរមុខដែលអ្នកធ្លាប់ស្គាល់ ដើម្បីឱ្យបានមុខម្ហូបថ្មីតែមានរសជាតិស្រដៀងរបស់ដើម។
Cost-sensitive learning	ជាវិធីសាស្ត្របង្រៀនម៉ូដែលកុំព្យូទ័រ ដោយដាក់ការពិន័យ (Cost) ខ្ពស់នៅពេលដែលវាទស្សន៍ទាយខុសទៅលើក្រុមទិន្នន័យភាគតិច (ដែលជាទិន្នន័យសំខាន់) ដើម្បីបង្ខំឱ្យម៉ូដែលប្រុងប្រយ័ត្នជាងមុនក្នុងការទស្សន៍ទាយក្រុមនោះ។	ដូចជាការប្រាប់សិស្សថា បើធ្វើខុសលំហាត់ធម្មតាត្រូវកាត់១ពិន្ទុ តែបើធ្វើខុសលំហាត់ពិសេសត្រូវកាត់១០ពិន្ទុ ដើម្បីឱ្យសិស្សប្រុងប្រយ័ត្នខ្លាំងលើលំហាត់ពិសេស។
Ensemble learning	ជាការរួមបញ្ចូលគ្នានូវម៉ូដែលកុំព្យូទ័រតូចៗជាច្រើន (ដូចជា Decision trees ច្រើនដើម) ដើម្បីធ្វើការទស្សន៍ទាយរួមគ្នា ដែលផ្តល់នូវលទ្ធផលត្រឹមត្រូវ និងមានស្ថេរភាពជាងការប្រើប្រាស់ម៉ូដែលតែមួយ។	ដូចជាការប្រជុំក្រុមគ្រូពេទ្យ៥នាក់ដើម្បីវិភាគរោគសញ្ញាអ្នកជំងឺម្នាក់ ដែលអាចផ្តល់ការសន្និដ្ឋានច្បាស់លាស់ជាងការពិនិត្យដោយគ្រូពេទ្យតែម្នាក់ឯង។
Area under Curve (AUC)	ជារង្វាស់មួយសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ក្នុងការបែងចែករវាងក្រុមទិន្នន័យពីរផ្សេងគ្នា (ឧ. អ្នកឈឺ និងអ្នកជា) ដែលស័ក្តិសមបំផុតសម្រាប់វាស់ស្ទង់ទិន្នន័យដែលមានអតុល្យភាពខ្លាំង។	ដូចជាពិន្ទុវាយតម្លៃរួមមួយដែលបង្ហាញថាតើអ្នកស៊ើបអង្កេតម្នាក់ពូកែបំបែករវាងជនសង្ស័យ និងជនស្លូតត្រង់កម្រិតណា ទោះបីជាចំនួនជនសង្ស័យមានតិចតួចក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖