Original Title: Class Imbalance Learning in Data Mining – A Survey
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពីអតុល្យភាពចំណាត់ថ្នាក់នៅក្នុងការជីកទិន្នន័យ – ការសិក្សាស្រាវជ្រាវ

ចំណងជើងដើម៖ Class Imbalance Learning in Data Mining – A Survey

អ្នកនិពន្ធ៖ Ali Mirza Mahmood (Associate Professor, DMS SVH College of Engineering, Machilipatnam, India)

ឆ្នាំបោះពុម្ព៖ 2015, International Journal of Communication Technology for Social Networking Services

វិស័យសិក្សា៖ Computer Science / Data Mining / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការដោះស្រាយបញ្ហានៃការរៀនពីទិន្នន័យដែលមានអតុល្យភាពចំណាត់ថ្នាក់ (Class Imbalance) នៅក្នុងវិស័យជីកទិន្នន័យ (Data Mining) ដែលជាបញ្ហាធ្វើឱ្យម៉ូដែលចំណាត់ថ្នាក់មានភាពលម្អៀងទៅរកចំណាត់ថ្នាក់ដែលមានទិន្នន័យច្រើន (Majority Class)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការត្រួតពិនិត្យយ៉ាងទូលំទូលាយ (Comprehensive Review) ទៅលើបច្ចេកវិទ្យា និងវិធីសាស្ត្របច្ចុប្បន្នសម្រាប់ការកសាងម៉ូដែល និងដោះស្រាយអតុល្យភាពទិន្នន័យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Undersampling
ការយកគំរូទាបដោយចៃដន្យ (កាត់បន្ថយទិន្នន័យក្រុមភាគច្រើន)
ជួយធ្វើឱ្យទិន្នន័យមានតុល្យភាពលឿន និងកាត់បន្ថយទំហំទិន្នន័យដែលធ្វើឱ្យដំណើរការរៀនបានលឿន។ អាចបាត់បង់ទិន្នន័យសំខាន់ៗពី Majority class ដែលចាំបាច់សម្រាប់ការសាងសង់ម៉ូដែលបានត្រឹមត្រូវ។ ជាវិធីសាស្ត្រមូលដ្ឋានដែលជួយសម្រួលការបែងចែកចំណាត់ថ្នាក់ ប៉ុន្តែងាយបាត់បង់ព័ត៌មានមានតម្លៃ។
Random Oversampling
ការយកគំរូលើបដោយចៃដន្យ (ចម្លងទិន្នន័យក្រុមភាគតិច)
មិនមានការបាត់បង់ព័ត៌មានពីទិន្នន័យដើមឡើយ និងជួយបង្កើនអត្រានៃការរៀនលើទិន្នន័យក្រុមភាគតិច។ អាចបណ្តាលឱ្យមានបញ្ហា Overfitting យ៉ាងងាយ ដោយសារតែវាគ្រាន់តែធ្វើការចម្លង (copy) ទិន្នន័យដដែលៗ។ ជាទូទៅផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាង undersampling លើ minority class ប៉ុន្តែប្រឈមនឹងបញ្ហា overfitting ខ្លាំង។
Hybrid Methods (e.g., SMOTEBoost, RUSBoost)
វិធីសាស្ត្រកូនកាត់ និងការរៀនជាក្រុម (បញ្ចូលការយកគំរូជាមួយវិធីសាស្ត្រ Boosting)
កាត់បន្ថយបញ្ហា Overfitting នៃ oversampling ព្រមទាំងផ្តល់លទ្ធផលល្អប្រសើរដោយប្រើបច្ចេកទេសបង្កើតទិន្នន័យសំយោគ (SMOTE)។ មានភាពស្មុគស្មាញខ្ពស់ និងតម្រូវការកម្លាំងកុំព្យូទ័រ (computation power) ច្រើនជាងវិធីសាស្ត្រធម្មតា។ ផ្តល់នូវសមត្ថភាពទស្សន៍ទាយខ្ពស់ និងជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាពបំផុតមួយនៅក្នុងការសិក្សាស្រាវជ្រាវនេះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធាន Hardware ឬ Software នោះទេ ដោយសារវាជាឯកសារប្រមូលផ្តុំការសិក្សា (Survey Paper) ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រទាំងនេះទាមទារបរិស្ថានសរសេរកូដ និងធនធានម៉ាស៊ីនកម្រិតស្តង់ដារ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យគោលរបស់ UCI (Benchmark Datasets) ពីជុំវិញពិភពលោក ដែលភាគច្រើនមិនឆ្លុះបញ្ចាំងពីបរិបទប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់កម្ពុជា ការយល់ដឹងពីបញ្ហាអតុល្យភាពទិន្នន័យនេះមានសារៈសំខាន់ខ្លាំង ព្រោះទិន្នន័យក្នុងស្រុក (ដូចជាកំណត់ត្រាវេជ្ជសាស្ត្រ ឬទិន្នន័យហិរញ្ញវត្ថុ) តែងតែមានលក្ខណៈលម្អៀង និងអតុល្យភាពខ្លាំង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងឯកសារនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេង និងអាចយកមកអនុវត្តជាក់ស្តែងសម្រាប់ការវិភាគទិន្នន័យនៅប្រទេសកម្ពុជា។

ជារួម ការអនុវត្តបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យនេះ នឹងជួយពង្រឹងភាពត្រឹមត្រូវនៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលកំពុងអភិវឌ្ឍដោយស្ថាប័នរដ្ឋ និងឯកជននៅក្នុងប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីការវាស់វែង និងរង្វាស់វាយតម្លៃ (Evaluation Metrics): បញ្ឈប់ការប្រើប្រាស់ត្រឹមតែ Accuracy សំរាប់វាស់ស្ទង់ទិន្នន័យដែលមានអតុល្យភាព។ ត្រូវប្តូរមកសិក្សា និងប្រើប្រាស់រង្វាស់ដូចជា AUC (Area Under Curve), Precision, Recall, និង F-measure ជំនួសវិញ។
  2. អនុវត្តបច្ចេកទេសថ្លឹងថ្លែងទិន្នន័យកម្រិតមូលដ្ឋាន (Data Balancing): សាកល្បងប្រើប្រាស់វិធីសាស្ត្រ Random Undersampling និង Random Oversampling ដោយប្រើប្រាស់បណ្ណាល័យ Imbalanced-learn នៅក្នុងភាសា Python ដើម្បីស្វែងយល់ពីឥទ្ធិពលរបស់វាទៅលើទិន្នន័យ។
  3. អនុវត្តវិធីសាស្ត្រទិន្នន័យសំយោគកម្រិតខ្ពស់ (Advanced Oversampling): រៀនសរសេរកូដដើម្បីអនុវត្តក្បួនដោះស្រាយ SMOTE (Synthetic Minority Over-sampling Technique) ដើម្បីបង្កើតទិន្នន័យក្លែងក្លាយឱ្យ Minority Class ដែលវាជួយកាត់បន្ថយបញ្ហា Overfitting បានយ៉ាងល្អ។
  4. អនុវត្តវិធីសាស្ត្រកូនកាត់ (Hybrid & Ensemble Techniques): ស្រាវជ្រាវ និងសាងសង់ម៉ូដែលដោយប្រើប្រាស់ RUSBoostSMOTEBoost ដោយប្រើ Scikit-learn រួចប្រៀបធៀបលទ្ធផលជាមួយនឹងម៉ូដែលដើមឈើការសម្រេចចិត្តធម្មតា (Decision Trees/C4.5) ដើម្បីឃើញពីការវិវឌ្ឍប្រសិទ្ធភាពជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Class Imbalance Learning ជាដំណើរការបង្រៀនម៉ាស៊ីនកុំព្យូទ័រ (Machine Learning) ឱ្យចេះបែងចែកចំណាត់ថ្នាក់ទិន្នន័យ ក្នុងស្ថានភាពដែលក្រុមទិន្នន័យមួយមានចំនួនច្រើនលើសលប់ ខណៈក្រុមទិន្នន័យមួយទៀតមានចំនួនតិចតួចបំផុត ដែលធ្វើឱ្យកុំព្យូទ័រងាយនឹងទស្សន៍ទាយលម្អៀង។ ដូចជាការបង្រៀនសិស្សឱ្យស្គាល់សត្វ ដោយបង្ហាញរូបសត្វឆ្កែ១០០សន្លឹក និងរូបសត្វខ្លាឃ្មុំតែ១សន្លឹក ដែលធ្វើឱ្យសិស្សងាយនឹងច្រឡំឆ្លើយថាខ្លាឃ្មុំនោះជាឆ្កែដែរ។
Decision trees ជាក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដែលមានទម្រង់ដូចជាមែកធាង ដោយចាប់ផ្តើមពីសំណួរបែងចែកលក្ខណៈទូទៅបំផុត រហូតដល់ចម្លើយចុងក្រោយនៅខាងចុងស្លឹក ដែលជាចំណាត់ថ្នាក់ត្រឹមត្រូវនៃទិន្នន័យ។ ដូចជាការលេងហ្គេមសួរសំណួរ 'បាទ/ទេ' បន្តបន្ទាប់គ្នា (ឧ. តើសត្វនេះមានរោមឬទេ? តើវាចេះហោះឬទេ?) ដើម្បីស្វែងរកចម្លើយចុងក្រោយថាតើវាជាសត្វអ្វី។
Random oversampling ជាបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យ ដោយធ្វើការថតចម្លង (Copy) ទិន្នន័យក្នុងក្រុមភាគតិច (Minority class) ដោយចៃដន្យ រហូតទាល់តែចំនួនរបស់វាស្មើនឹងក្រុមភាគច្រើន ដើម្បីកុំឱ្យម៉ូដែលរៀនលម្អៀង។ ដូចជាការថតចម្លងសន្លឹកកិច្ចការរបស់សិស្សពូកែម្នាក់ជាច្រើនសន្លឹក ដើម្បីឱ្យមានចំនួនកិច្ចការស្មើនឹងសិស្សធម្មតាដ៏ច្រើនផ្សេងទៀត។
Random undersampling ជាបច្ចេកទេសធ្វើឱ្យទិន្នន័យមានតុល្យភាព ដោយធ្វើការលុបចោលនូវទិន្នន័យមួយចំនួនក្នុងក្រុមភាគច្រើន (Majority class) ដោយចៃដន្យ ដើម្បីឱ្យចំនួនរបស់វាធ្លាក់មកស្មើនឹងក្រុមភាគតិចវិញ។ ដូចជាការដកសិស្សធម្មតាជំនាញទូទៅចេញពីថ្នាក់រៀនខ្លះ ដើម្បីឱ្យមានចំនួនស្មើគ្នានឹងសិស្សជំនាញពិសេសដែលមានចំនួនតិចតួចនៅក្នុងថ្នាក់នោះ។
SMOTE (Synthetic minority oversampling technique) ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីសម្រាប់ក្រុមភាគតិច ជំនួសឱ្យការគ្រាន់តែថតចម្លងទិន្នន័យចាស់។ វាគណនាលក្ខណៈស្រដៀងគ្នានៃទិន្នន័យជិតខាង រួចបង្កើតជាទិន្នន័យសំយោគថ្មីមួយដែលមានលក្ខណៈសមហេតុផល។ ដូចជាការបង្កើតមុខម្ហូបថ្មីមួយ ដោយយកលាយបញ្ចូលគ្នានូវគ្រឿងផ្សំពីមុខម្ហូបពីរមុខដែលអ្នកធ្លាប់ស្គាល់ ដើម្បីឱ្យបានមុខម្ហូបថ្មីតែមានរសជាតិស្រដៀងរបស់ដើម។
Cost-sensitive learning ជាវិធីសាស្ត្របង្រៀនម៉ូដែលកុំព្យូទ័រ ដោយដាក់ការពិន័យ (Cost) ខ្ពស់នៅពេលដែលវាទស្សន៍ទាយខុសទៅលើក្រុមទិន្នន័យភាគតិច (ដែលជាទិន្នន័យសំខាន់) ដើម្បីបង្ខំឱ្យម៉ូដែលប្រុងប្រយ័ត្នជាងមុនក្នុងការទស្សន៍ទាយក្រុមនោះ។ ដូចជាការប្រាប់សិស្សថា បើធ្វើខុសលំហាត់ធម្មតាត្រូវកាត់១ពិន្ទុ តែបើធ្វើខុសលំហាត់ពិសេសត្រូវកាត់១០ពិន្ទុ ដើម្បីឱ្យសិស្សប្រុងប្រយ័ត្នខ្លាំងលើលំហាត់ពិសេស។
Ensemble learning ជាការរួមបញ្ចូលគ្នានូវម៉ូដែលកុំព្យូទ័រតូចៗជាច្រើន (ដូចជា Decision trees ច្រើនដើម) ដើម្បីធ្វើការទស្សន៍ទាយរួមគ្នា ដែលផ្តល់នូវលទ្ធផលត្រឹមត្រូវ និងមានស្ថេរភាពជាងការប្រើប្រាស់ម៉ូដែលតែមួយ។ ដូចជាការប្រជុំក្រុមគ្រូពេទ្យ៥នាក់ដើម្បីវិភាគរោគសញ្ញាអ្នកជំងឺម្នាក់ ដែលអាចផ្តល់ការសន្និដ្ឋានច្បាស់លាស់ជាងការពិនិត្យដោយគ្រូពេទ្យតែម្នាក់ឯង។
Area under Curve (AUC) ជារង្វាស់មួយសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ក្នុងការបែងចែករវាងក្រុមទិន្នន័យពីរផ្សេងគ្នា (ឧ. អ្នកឈឺ និងអ្នកជា) ដែលស័ក្តិសមបំផុតសម្រាប់វាស់ស្ទង់ទិន្នន័យដែលមានអតុល្យភាពខ្លាំង។ ដូចជាពិន្ទុវាយតម្លៃរួមមួយដែលបង្ហាញថាតើអ្នកស៊ើបអង្កេតម្នាក់ពូកែបំបែករវាងជនសង្ស័យ និងជនស្លូតត្រង់កម្រិតណា ទោះបីជាចំនួនជនសង្ស័យមានតិចតួចក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖