Original Title: Classification with class imbalance problem: a review
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ចំណាត់ថ្នាក់ជាមួយនឹងបញ្ហាអតុល្យភាពថ្នាក់៖ ការត្រួតពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Classification with class imbalance problem: a review

អ្នកនិពន្ធ៖ Aida Ali (Universiti Teknologi Malaysia), Siti Mariyam Shamsuddin (Universiti Teknologi Malaysia), Anca L. Ralescu (University of Cincinnati)

ឆ្នាំបោះពុម្ព៖ 2013, Int. J. Advance Soft Compu. Appl

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហាអតុល្យភាពថ្នាក់ (Class Imbalance Problem) នៅក្នុងសំណុំទិន្នន័យ ដែលធ្វើឱ្យក្បួនដោះស្រាយចំណាត់ថ្នាក់ភាគច្រើនមានការលម្អៀងទៅរកថ្នាក់ភាគច្រើន (Majority class) និងមិនអាចកំណត់អត្តសញ្ញាណទិន្នន័យភាគតិច (Minority class) ដែលមានសារៈសំខាន់បានត្រឹមត្រូវ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការត្រួតពិនិត្យឡើងវិញនូវបញ្ហាប្រឈម និងបូកសរុបនូវវិធីសាស្រ្តផ្សេងៗដែលមានស្រាប់សម្រាប់ដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់នៅក្នុងម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Models)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Data-level Approach (Sampling: SMOTE, Undersampling)
វិធីសាស្រ្តកម្រិតទិន្នន័យ (ការបែងចែកសំណាក)
មានភាពងាយស្រួលយល់ និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងកម្មវិធីស្រាវជ្រាវជាច្រើន។ ជួយឱ្យទិន្នន័យមានតុល្យភាពមុនពេលបញ្ជូនទៅកាន់ម៉ូដែល។ ការចម្លងទិន្នន័យ (Oversampling) អាចបណ្តាលឱ្យមានបញ្ហា Over-fitting ចំណែកការលុបទិន្នន័យ (Undersampling) អាចធ្វើឱ្យបាត់បង់ព័ត៌មានសំខាន់ៗ។ បង្កើតបាននូវព្រំដែនចំណាត់ថ្នាក់ (Decision boundary) ធំជាងមុន តែមិនធានាដោះស្រាយបញ្ហាត្រួតគ្នានៃថ្នាក់ (Class overlapping) ទេ។
Cost-sensitive Learning
ការរៀនដោយគិតគូរពីតម្លៃទម្ងន់ខុសត្រូវ
ជាវិធីសាស្រ្តសាមញ្ញ និងមានដំណើរការលឿន ដោយមិនតម្រូវឱ្យមានការកែប្រែទំហំសំណុំទិន្នន័យដើមនោះទេ។ មិនមានប្រសិទ្ធភាពទេប្រសិនបើតម្លៃខាតបង់ពិតប្រាកដ (Real cost) មិនត្រូវបានដឹង ហើយអាចទាមទារពេលវេលាបន្ថែមដើម្បីស្វែងរកតម្លៃ Cost matrix ដ៏សក្តិសម។ អាចកាត់បន្ថយអត្រានៃការទស្សន៍ទាយខុស (Misclassification) លើថ្នាក់ភាគតិចដែលជាគោលដៅសំខាន់បានយ៉ាងប្រសើរ។
Ensemble Methods (SMOTEBoost, RUSBoost)
វិធីសាស្ត្របណ្តុំម៉ូដែល (Boosting & Bagging)
ជាវិធីសាស្រ្តដែលមានភាពបត់បែនខ្ពស់ក្នុងការដោះស្រាយអតុល្យភាពថ្នាក់ ដោយរួមបញ្ចូលម៉ូដែលច្រើនបញ្ជូលគ្នាដើម្បីបង្កើនភាពត្រឹមត្រូវ។ ភាពស្មុគស្មាញនៃការគណនានឹងកើនឡើងស្របតាមចំនួននៃក្បួនចំណាត់ថ្នាក់ដែលត្រូវបានប្រើប្រាស់។ ក្បួនដោះស្រាយដូចជា RUSBoost ផ្តល់នូវលទ្ធផលចំណាត់ថ្នាក់ល្អប្រសើរ (AUC results ខ្ពស់) និងស៊ីកម្លាំងគណនាតិចជាងវិធីសាស្រ្ត Ensemble ផ្សេងទៀត។
Feature Selection
ការជ្រើសរើសលក្ខណៈពិសេស
ជួយកាត់បន្ថយបញ្ហានៃការត្រួតគ្នារវាងថ្នាក់ (Class overlapping) ដោយកម្ចាត់ចោលនូវលក្ខណៈពិសេសដែលមិនពាក់ព័ន្ធ ឬស្ទួនគ្នា។ ទាមទារកម្លាំងគណនាខ្ពស់ (Extra computational cost) និងពេលវេលាបន្ថែមសម្រាប់ដំណើរការរៀបចំទិន្នន័យជាមុន (Pre-processing task)។ ជួយបង្កើនប្រសិទ្ធភាពក្បួនចំណាត់ថ្នាក់ កាត់បន្ថយទំហំផ្ទុក និងជួយពន្យល់ពីទម្រង់នៃទិន្នន័យបានកាន់តែច្បាស់។
Hybrid Approach
វិធីសាស្រ្តចម្រុះរួមបញ្ចូលគ្នា
កំពុងទទួលបានការពេញនិយមដោយសារវាទាញយកអត្ថប្រយោជន៍ពីវិធីសាស្រ្តផ្សេងៗគ្នាមកបញ្ចូលគ្នា (Symbiosis learning) ដូចជាការបន្សំ Sampling ជាមួយ Cost-sensitive។ ទាមទារឱ្យមានការវាយតម្លៃ និងរចនាយ៉ាងប្រុងប្រយ័ត្ន ដើម្បីធានាថាវិធីសាស្រ្តនីមួយៗបំពេញខ្វះខាតឱ្យគ្នាទៅវិញទៅមកបានល្អ។ ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំសម្រាប់បញ្ហាអតុល្យភាពទិន្នន័យ ដែលមានសភាពស្មុគស្មាញ និងទំហំធំ (Big Data)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាការដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ ទាមទារឱ្យមានធនធានគណនាខ្ពស់ ជាពិសេសនៅពេលអនុវត្តវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស (Wrapper methods) និងការវិភាគលើទិន្នន័យទំហំធំ (Big Data)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ដោយសារឯកសារនេះជាអត្ថបទត្រួតពិនិត្យ (Review paper) វាមិនបានផ្តោតលើសំណុំទិន្នន័យជាក់លាក់ណាមួយទេ ប៉ុន្តែបានទាញយកទិន្នន័យពីវិស័យវេជ្ជសាស្ត្រ ការឆបោកធនាគារ និងបណ្តាញសង្គម។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងដ៏សំខាន់ ព្រោះទិន្នន័យក្នុងស្រុកនៅតាមមន្ទីរពេទ្យ ឬធនាគារ ភាគច្រើនមានទំហំតូច និងមានភាពអតុល្យភាពខ្លាំង (ឧទាហរណ៍៖ ទិន្នន័យអ្នកបោកប្រាស់មានចំនួនតិចតួចបំផុតប្រៀបធៀបនឹងអតិថិជនទូទៅ) ដែលងាយនឹងធ្វើឱ្យម៉ូដែលលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស និងវិធីសាស្រ្តដែលបានរៀបរាប់ក្នុងឯកសារនេះ ពិតជាមានភាពចាំបាច់ និងអាចយកមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពនៅក្នុងបរិបទនៃការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជា។

ការជ្រើសរើសវិធីសាស្ត្រដោះស្រាយអតុល្យភាពទិន្នន័យបានត្រឹមត្រូវ នឹងជួយឱ្យអ្នកស្រាវជ្រាវ និងវិស្វករកម្ពុជាអាចបង្កើតម៉ូដែល AI ដែលមានភាពសុក្រឹត និងអាចជឿទុកចិត្តបានសម្រាប់ការប្រើប្រាស់ជាក់ស្តែងក្នុងសង្គមជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សារង្វាស់រង្វាល់សម្រាប់វាយតម្លៃម៉ូដែល (Mastering Evaluation Metrics): និស្សិតត្រូវឈប់ពឹងផ្អែកតែទៅលើរង្វាស់ 'Accuracy' សម្រាប់ទិន្នន័យអតុល្យភាព។ ត្រូវហ្វឹកហាត់ប្រើប្រាស់រង្វាស់រង្វាល់ថ្មីៗដូចជា Confusion Matrix, Precision, Recall, F-measure, G-mean និង ROC AUC ដើម្បីវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលឱ្យបានច្បាស់លាស់។
  2. អនុវត្តបច្ចេកទេសបែងចែកសំណាកកម្រិតទិន្នន័យ (Apply Data-level Techniques): សាកល្បងសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ imbalanced-learn នៅក្នុងភាសា Python ដើម្បីអនុវត្តវិធីសាស្ត្រ SMOTE (Oversampling) និងការកាត់បន្ថយទិន្នន័យ Undersampling ទៅលើសំណុំទិន្នន័យអតុល្យភាពណាមួយ។
  3. អភិវឌ្ឍម៉ូដែលផ្អែកលើការគិតគូរតម្លៃខាតបង់ (Implement Cost-sensitive Models): រៀនកែប្រែក្បួនដោះស្រាយ (Algorithm) ឱ្យផ្តោតលើថ្នាក់ភាគតិច ដោយប្រើប្រាស់មុខងាររបស់ scikit-learn (ឧទាហរណ៍៖ ការកំណត់ប៉ារ៉ាម៉ែត្រ class_weight='balanced' នៅក្នុងម៉ូដែល Random ForestSVM)។
  4. សិក្សាពីការរួមបញ្ចូលម៉ូដែលកម្រិតខ្ពស់ (Explore Ensemble Approaches): ស្វែងយល់ និងអនុវត្តវិធីសាស្ត្ររួមបញ្ចូលគ្នា (Ensemble Methods) ដូចជា SMOTEBoostRUSBoost ដែលសក្តិសមបំផុតសម្រាប់ដោះស្រាយសំណុំទិន្នន័យដែលមានបញ្ហាត្រួតគ្នានៃថ្នាក់ (Class overlapping)។
  5. អនុវត្តលើគម្រោងស្រាវជ្រាវផ្ទាល់ខ្លួនជាមួយទិន្នន័យក្នុងស្រុក (Real-world Project): ប្រមូលទិន្នន័យជាក់ស្តែងក្នុងប្រទេសកម្ពុជា (ឧទាហរណ៍ ទិន្នន័យអតិថិជនសុំកម្ចីធនាគារ ឬទិន្នន័យមតិយោបល់អតិថិជនតាមហាងកាហ្វេ) ហើយអនុវត្តវិធីសាស្រ្តចម្រុះ (Hybrid Approach) ដោយបញ្ចូលការជ្រើសរើស Feature Selection និងបច្ចេកទេស Sampling រួចធ្វើបទបង្ហាញពីលទ្ធផល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Class imbalance problem ស្ថានភាពដែលទិន្នន័យសម្រាប់ហ្វឹកហាត់ម៉ូដែលរៀនម៉ាស៊ីនមានចំនួនមិនស្មើគ្នាខ្លាំងរវាងក្រុមមួយនិងក្រុមមួយទៀត ដែលធ្វើឱ្យម៉ូដែលទោរទន់លម្អៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើន (Majority class) និងមិនអាចចំណាត់ថ្នាក់ក្រុមដែលមានទិន្នន័យតិច (Minority class) បានល្អ។ ដូចជាគ្រូបង្រៀនសិស្សពីសត្វដោយបង្ហាញរូបឆ្កែ១០០សន្លឹក និងរូបឆ្មា១សន្លឹក ពេលប្រឡងសិស្សនឹងស្គាល់តែឆ្កែ តែមិនស្គាល់ឆ្មានោះទេ។
SMOTE (Synthetic Minority Over-sampling Technique) បច្ចេកទេសបង្កើតទិន្នន័យក្លែងក្លាយ (Synthetic data) សម្រាប់ក្រុមភាគតិច ដោយធ្វើការគណនារកចំណុចកណ្តាលនៃចន្លោះទិន្នន័យពិតដែលមានស្រាប់ ដើម្បីបង្កើនចំនួនទិន្នន័យឱ្យមានតុល្យភាពជាមួយក្រុមភាគច្រើន ដោយមិនមែនគ្រាន់តែជាការចម្លងទិន្នន័យដើមដដែលៗនោះទេ។ ដូចជាការយកទឹកក្រូច និងទឹកក្រូចឆ្មារដែលមានស្រាប់មកលាយបញ្ចូលគ្នា ដើម្បីបង្កើតជារសជាតិថ្មីមួយទៀតដែលស្រដៀងដើម ដើម្បីឱ្យមានភេសជ្ជៈច្រើនកែវជាងមុនសម្រាប់ការភ្លក់។
Class overlapping បញ្ហានៅពេលដែលលក្ខណៈពិសេស (Features) នៃទិន្នន័យក្នុងក្រុមពីរខុសគ្នា មានលក្ខណៈស្រដៀងគ្នាខ្លាំង ឬត្រួតស៊ីគ្នានៅក្នុងលំហទិន្នន័យតែមួយ ដែលធ្វើឱ្យម៉ូដែលពិបាកក្នុងការគូសបន្ទាត់បែងចែកក្រុមទាំងពីរឱ្យដាច់ពីគ្នាទោះបីជាមានទិន្នន័យច្រើនក៏ដោយ។ ដូចជាការព្យាយាមបែងចែកផ្លែក្រូចពោធិ៍សាត់ និងផ្លែក្រូចថ្លុងតូចៗ ដែលមានទំហំប៉ុនគ្នា និងពណ៌ខៀវដូចគ្នា ធ្វើឱ្យយើងពិបាកមើលដឹងថាមួយណាជាអ្វីឱ្យប្រាកដបើមិនបកសំបក។
Cost-sensitive learning ក្បួនដោះស្រាយដែលដាក់ទណ្ឌកម្ម (Penalty) ឬតម្លៃខាតបង់ (Cost) ខ្ពស់នៅពេលដែលម៉ូដែលទាយខុសលើក្រុមភាគតិច ដើម្បីបង្ខំឱ្យម៉ូដែលកែប្រែទម្ងន់គណនារបស់ខ្លួន និងយកចិត្តទុកដាក់ខ្ពស់ក្នុងការទាយក្រុមភាគតិចនោះឱ្យបានត្រឹមត្រូវបំផុត។ ដូចជាច្បាប់ចរាចរណ៍ដែលផាកពិន័យត្រឹម៥ម៉ឺនរៀលបើអត់ពាក់មួកសុវត្ថិភាព តែផាកពិន័យដល់១លានរៀលបើបើកបរពេលស្រវឹង ដើម្បីបង្ខំឱ្យមនុស្សប្រុងប្រយ័ត្នខ្ពស់ចំពោះការញ៉ាំស្រាហើយបើកបរ។
Ensemble method វិធីសាស្ត្រនៃការបណ្តុំក្បួនចំណាត់ថ្នាក់ (Classifiers) ច្រើនប្រភេទ ឬច្រើនម៉ូដែលបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលចុងក្រោយរួមមួយ ដោយផ្អែកលើការបោះឆ្នោត ឬការបូកសរុបលទ្ធផល ដែលជួយកាត់បន្ថយភាពលម្អៀង និងបង្កើនភាពសុក្រឹតជាងការប្រើម៉ូដែលតែមួយ។ ដូចជាការសួរយោបល់ពីគ្រូពេទ្យឯកទេស៥នាក់ផ្សេងគ្នា មុននឹងសម្រេចចិត្តធ្វើការវះកាត់ធំ ជាជាងជឿទៅលើការវិភាគរបស់គ្រូពេទ្យតែម្នាក់ឯង។
Small disjuncts បញ្ហាអតុល្យភាពដែលមានលាក់កំបាំងនៅក្នុងក្រុមតែមួយ (Within-class imbalance) ដែលក្រុមនោះមានបែងចែកជាក្រុមតូចៗ (Sub-clusters) ជាច្រើនទៀត ហើយក្រុមតូចៗទាំងនោះមានចំនួនទិន្នន័យមិនស្មើគ្នា ដែលធ្វើឱ្យម៉ូដែលពិបាកចាប់យកទម្រង់រួមនៃក្រុមធំទាំងមូល។ ដូចជាការរៀនស្គាល់ "រថយន្ត" ដែលក្នុងនោះមានឡានតូចស្ព័រច្រើនណាស់ តែឡានដឹកដីមានតែមួយគ្រឿង ធ្វើឱ្យក្មេងស្មានថាឡានដឹកដីមិនមែនជារថយន្តទេ។
Decision boundary បន្ទាត់ ឬព្រំដែននិម្មិតដែលក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning Algorithm) គណនា និងសាងសង់ឡើងនៅក្នុងលំហទិន្នន័យ ដើម្បីសន្មត និងបែងចែកទិន្នន័យថ្មីៗមិនធ្លាប់ស្គាល់ ថាគួរតែត្រូវចាត់ថ្នាក់ចូលទៅក្នុងក្រុម (Class) ណាមួយ។ ដូចជារបងព្រំប្រទល់ប្រទេស ដែលខណ្ឌចែកឱ្យដឹងច្បាស់ថា ដីត្រង់ចំណុចណាជាដីកម្ពុជា ហើយចំណុចណាជាដីប្រទេសជិតខាង។
G-mean (geometric mean) រង្វាស់រង្វាល់សម្រាប់វាស់សមត្ថភាពម៉ូដែលដែលគណនាតាមរយៈការយកតម្លៃឫសការ៉េនៃផលគុណរវាង Sensitivity (ភាពត្រឹមត្រូវលើក្រុមភាគតិច) និង Specificity (ភាពត្រឹមត្រូវលើក្រុមភាគច្រើន) ដើម្បីធានាថាម៉ូដែលមួយអស្ចារ្យលុះត្រាតែវាអាចទស្សន៍ទាយត្រូវទាំងសងខាងក្នុងកម្រិតស្មើៗគ្នា។ ដូចជាពិន្ទុវាយតម្លៃសិស្សពូកែទូទាំងប្រទេស ដែលតម្រូវឱ្យសិស្សត្រូវតែពូកែខ្លាំងទាំងមុខវិជ្ជាសិល្បៈ និងមុខវិជ្ជាវិទ្យាសាស្ត្រទើបបានពិន្ទុខ្ពស់ មិនអាចពូកែតែម្ខាងបានទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖