Original Title: Classification with class imbalance problem: a review
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ចំណាត់ថ្នាក់ជាមួយនឹងបញ្ហាអតុល្យភាពថ្នាក់៖ ការត្រួតពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Classification with class imbalance problem: a review

អ្នកនិពន្ធ៖ Aida Ali (Universiti Teknologi Malaysia), Siti Mariyam Shamsuddin (Universiti Teknologi Malaysia), Anca L. Ralescu (University of Cincinnati)

ឆ្នាំបោះពុម្ព៖ 2013, Int. J. Advance Soft Compu. Appl

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហាអតុល្យភាពថ្នាក់ (Class Imbalance Problem) នៅក្នុងសំណុំទិន្នន័យ ដែលធ្វើឱ្យក្បួនដោះស្រាយចំណាត់ថ្នាក់ភាគច្រើនមានការលម្អៀងទៅរកថ្នាក់ភាគច្រើន (Majority class) និងមិនអាចកំណត់អត្តសញ្ញាណទិន្នន័យភាគតិច (Minority class) ដែលមានសារៈសំខាន់បានត្រឹមត្រូវ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការត្រួតពិនិត្យឡើងវិញនូវបញ្ហាប្រឈម និងបូកសរុបនូវវិធីសាស្រ្តផ្សេងៗដែលមានស្រាប់សម្រាប់ដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់នៅក្នុងម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Models)។

ការវិភាគទៅលើបញ្ហាប្រឈម (Challenges analysis): ដូចជាទំហំគំរូតូចតាច ការត្រួតគ្នានៃថ្នាក់ (Class overlapping) និង Disjuncts តូចៗនៅក្នុងថ្នាក់។
វិធីសាស្រ្តកម្រិតទិន្នន័យ (Data-level approach): ការប្រើប្រាស់បច្ចេកទេសបែងចែកសំណាក (Sampling methods ឧទាហរណ៍ SMOTE) និងការជ្រើសរើសលក្ខណៈពិសេស (Feature selection)។
វិធីសាស្រ្តកម្រិតក្បួនដោះស្រាយ (Algorithm-level approach): រួមមាន ការកែលម្អក្បួនចំណាត់ថ្នាក់ ការរៀនតែមួយថ្នាក់ (One-class learning) និងការរៀនដោយគិតគូរពីតម្លៃទម្ងន់ខុសត្រូវ (Cost-sensitive learning)។
វិធីសាស្រ្តចម្រុះ និងបណ្តុំ (Ensemble and Hybrid approaches): ការប្រើប្រាស់ Bagging, Boosting និងការបន្សំវិធីសាស្រ្តច្រើនបញ្ចូលគ្នាដើម្បីបង្កើនប្រសិទ្ធភាពចំណាត់ថ្នាក់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយស្តង់ដារភាគច្រើនដែលផ្តោតលើភាពត្រឹមត្រូវរួម (Overall accuracy) គឺមិនគ្រប់គ្រាន់ទេសម្រាប់វាស់ស្ទង់សំណុំទិន្នន័យអតុល្យភាព ដោយទាមទារឱ្យមានការប្រើប្រាស់រង្វាស់រង្វាល់ថ្មីដូចជា F-measure, G-mean និង AUC (Area Under the ROC Curve)។
ការត្រួតគ្នានៃថ្នាក់ (Class overlapping) គឺជាបញ្ហាចម្បងមួយដែលរារាំងដល់ដំណើរការទស្សន៍ទាយរបស់ក្បួនចំណាត់ថ្នាក់ ខ្លាំងជាងបញ្ហាអតុល្យភាពថ្នាក់ទៅទៀត ដោយទាមទារឱ្យមានការសម្អាតទិន្នន័យ និងការជ្រើសរើសលក្ខណៈពិសេស (Feature selection) ឱ្យបានត្រឹមត្រូវ។
និន្នាការនាពេលអនាគតនៃការស្រាវជ្រាវ នឹងផ្តោតលើការដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់នៅក្នុងបរិបទនៃការគណនាទិន្នន័យធំ (Big Data Computing) និងការវិភាគមនោសញ្ចេតនានៅលើបណ្តាញសង្គម (Sentiment Analysis) ដែលជាបញ្ហាកើតមានឡើងជារឿយៗមិនអាចជៀសវាងបាន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Data-level Approach (Sampling: SMOTE, Undersampling) វិធីសាស្រ្តកម្រិតទិន្នន័យ (ការបែងចែកសំណាក)	មានភាពងាយស្រួលយល់ និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងកម្មវិធីស្រាវជ្រាវជាច្រើន។ ជួយឱ្យទិន្នន័យមានតុល្យភាពមុនពេលបញ្ជូនទៅកាន់ម៉ូដែល។	ការចម្លងទិន្នន័យ (Oversampling) អាចបណ្តាលឱ្យមានបញ្ហា Over-fitting ចំណែកការលុបទិន្នន័យ (Undersampling) អាចធ្វើឱ្យបាត់បង់ព័ត៌មានសំខាន់ៗ។	បង្កើតបាននូវព្រំដែនចំណាត់ថ្នាក់ (Decision boundary) ធំជាងមុន តែមិនធានាដោះស្រាយបញ្ហាត្រួតគ្នានៃថ្នាក់ (Class overlapping) ទេ។
Cost-sensitive Learning ការរៀនដោយគិតគូរពីតម្លៃទម្ងន់ខុសត្រូវ	ជាវិធីសាស្រ្តសាមញ្ញ និងមានដំណើរការលឿន ដោយមិនតម្រូវឱ្យមានការកែប្រែទំហំសំណុំទិន្នន័យដើមនោះទេ។	មិនមានប្រសិទ្ធភាពទេប្រសិនបើតម្លៃខាតបង់ពិតប្រាកដ (Real cost) មិនត្រូវបានដឹង ហើយអាចទាមទារពេលវេលាបន្ថែមដើម្បីស្វែងរកតម្លៃ Cost matrix ដ៏សក្តិសម។	អាចកាត់បន្ថយអត្រានៃការទស្សន៍ទាយខុស (Misclassification) លើថ្នាក់ភាគតិចដែលជាគោលដៅសំខាន់បានយ៉ាងប្រសើរ។
Ensemble Methods (SMOTEBoost, RUSBoost) វិធីសាស្ត្របណ្តុំម៉ូដែល (Boosting & Bagging)	ជាវិធីសាស្រ្តដែលមានភាពបត់បែនខ្ពស់ក្នុងការដោះស្រាយអតុល្យភាពថ្នាក់ ដោយរួមបញ្ចូលម៉ូដែលច្រើនបញ្ជូលគ្នាដើម្បីបង្កើនភាពត្រឹមត្រូវ។	ភាពស្មុគស្មាញនៃការគណនានឹងកើនឡើងស្របតាមចំនួននៃក្បួនចំណាត់ថ្នាក់ដែលត្រូវបានប្រើប្រាស់។	ក្បួនដោះស្រាយដូចជា RUSBoost ផ្តល់នូវលទ្ធផលចំណាត់ថ្នាក់ល្អប្រសើរ (AUC results ខ្ពស់) និងស៊ីកម្លាំងគណនាតិចជាងវិធីសាស្រ្ត Ensemble ផ្សេងទៀត។
Feature Selection ការជ្រើសរើសលក្ខណៈពិសេស	ជួយកាត់បន្ថយបញ្ហានៃការត្រួតគ្នារវាងថ្នាក់ (Class overlapping) ដោយកម្ចាត់ចោលនូវលក្ខណៈពិសេសដែលមិនពាក់ព័ន្ធ ឬស្ទួនគ្នា។	ទាមទារកម្លាំងគណនាខ្ពស់ (Extra computational cost) និងពេលវេលាបន្ថែមសម្រាប់ដំណើរការរៀបចំទិន្នន័យជាមុន (Pre-processing task)។	ជួយបង្កើនប្រសិទ្ធភាពក្បួនចំណាត់ថ្នាក់ កាត់បន្ថយទំហំផ្ទុក និងជួយពន្យល់ពីទម្រង់នៃទិន្នន័យបានកាន់តែច្បាស់។
Hybrid Approach វិធីសាស្រ្តចម្រុះរួមបញ្ចូលគ្នា	កំពុងទទួលបានការពេញនិយមដោយសារវាទាញយកអត្ថប្រយោជន៍ពីវិធីសាស្រ្តផ្សេងៗគ្នាមកបញ្ចូលគ្នា (Symbiosis learning) ដូចជាការបន្សំ Sampling ជាមួយ Cost-sensitive។	ទាមទារឱ្យមានការវាយតម្លៃ និងរចនាយ៉ាងប្រុងប្រយ័ត្ន ដើម្បីធានាថាវិធីសាស្រ្តនីមួយៗបំពេញខ្វះខាតឱ្យគ្នាទៅវិញទៅមកបានល្អ។	ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំសម្រាប់បញ្ហាអតុល្យភាពទិន្នន័យ ដែលមានសភាពស្មុគស្មាញ និងទំហំធំ (Big Data)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាការដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ ទាមទារឱ្យមានធនធានគណនាខ្ពស់ ជាពិសេសនៅពេលអនុវត្តវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស (Wrapper methods) និងការវិភាគលើទិន្នន័យទំហំធំ (Big Data)។

Hardware: ត្រូវការកម្លាំងគណនា (Computational power) ខ្ពស់ និងអង្គចងចាំ (Memory) ច្រើន សម្រាប់ដំណើរការវិធីសាស្ត្រ Ensemble, ក្បួន SVM Quadratic programming និងទិន្នន័យធំៗដែលមានវិមាត្រច្រើន។
Software: ចាំបាច់ត្រូវមាន Machine Learning Frameworks និងឧបករណ៍គណនាទិន្នន័យធំ (ឧទាហរណ៍ MapReduce ត្រូវបានលើកឡើងសម្រាប់ការដោះស្រាយទិន្នន័យ Big data)។
Dataset: ទាមទារសំណុំទិន្នន័យដែលមានការបែងចែកថ្នាក់ (Labeled datasets) នៅក្នុងវិស័យពិតៗ ដូចជាទិន្នន័យហិរញ្ញវត្ថុ វេជ្ជសាស្ត្រ និងបណ្តាញសង្គម ទោះបីជាវាមានទម្រង់អតុល្យភាពក៏ដោយ។
Expertise: ត្រូវការចំណេះដឹងពីអ្នកជំនាញឯកទេស (Domain experts) ដើម្បីកំណត់ទម្ងន់នៃការខាតបង់ (Cost matrix) ឱ្យបានត្រឹមត្រូវ និងសម្រាប់កំណត់និយមន័យច្បាប់ (Fuzzy rules) ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ដោយសារឯកសារនេះជាអត្ថបទត្រួតពិនិត្យ (Review paper) វាមិនបានផ្តោតលើសំណុំទិន្នន័យជាក់លាក់ណាមួយទេ ប៉ុន្តែបានទាញយកទិន្នន័យពីវិស័យវេជ្ជសាស្ត្រ ការឆបោកធនាគារ និងបណ្តាញសង្គម។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងដ៏សំខាន់ ព្រោះទិន្នន័យក្នុងស្រុកនៅតាមមន្ទីរពេទ្យ ឬធនាគារ ភាគច្រើនមានទំហំតូច និងមានភាពអតុល្យភាពខ្លាំង (ឧទាហរណ៍៖ ទិន្នន័យអ្នកបោកប្រាស់មានចំនួនតិចតួចបំផុតប្រៀបធៀបនឹងអតិថិជនទូទៅ) ដែលងាយនឹងធ្វើឱ្យម៉ូដែលលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស និងវិធីសាស្រ្តដែលបានរៀបរាប់ក្នុងឯកសារនេះ ពិតជាមានភាពចាំបាច់ និងអាចយកមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពនៅក្នុងបរិបទនៃការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជា។

វិស័យសុខាភិបាល (Healthcare & Medical Diagnosis): មានសារៈប្រយោជន៍សម្រាប់ការទស្សន៍ទាយជំងឺកម្រ ឬករណីឆ្លងជំងឺគ្រុនឈាម ផ្អែកលើទិន្នន័យអ្នកជំងឺពីមន្ទីរពេទ្យនានា (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត ឬមន្ទីរពេទ្យកុមារអង្គរ) ដែលទិន្នន័យអ្នកមានជំងឺជារឿយៗមានចំនួនតិចជាងមនុស្សធម្មតា។
វិស័យហិរញ្ញវត្ថុ និងធនាគារ (Banking & Fraud Detection): អាចយកទៅអនុវត្តសម្រាប់ការរកឃើញប្រតិបត្តិការឆបោក (Fraud detection) នៅក្នុងប្រព័ន្ធទូទាត់ឌីជីថលដូចជា KHQR, កម្មវិធី ABA ឬទ្រនាប់ទូទាត់បាគង ដោយសារតែប្រតិបត្តិការខុសប្រក្រតីមានភាគរយតិចតួចបំផុត។
ការវិភាគបណ្តាញសង្គម (Social Media Sentiment Analysis): អនុវត្តសម្រាប់ការវិភាគមនោសញ្ចេតនា (Sentiment Analysis) លើមតិយោបល់របស់ប្រជាពលរដ្ឋនៅលើទំព័រ Facebook ឬតេឡេក្រាម ដើម្បីស្វែងយល់ពីការវាយតម្លៃអវិជ្ជមាន ឬពាក្យបណ្តឹងនានាដែលកម្រមាន តែមានសារៈសំខាន់សម្រាប់ធុរកិច្ច។

ការជ្រើសរើសវិធីសាស្ត្រដោះស្រាយអតុល្យភាពទិន្នន័យបានត្រឹមត្រូវ នឹងជួយឱ្យអ្នកស្រាវជ្រាវ និងវិស្វករកម្ពុជាអាចបង្កើតម៉ូដែល AI ដែលមានភាពសុក្រឹត និងអាចជឿទុកចិត្តបានសម្រាប់ការប្រើប្រាស់ជាក់ស្តែងក្នុងសង្គមជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សារង្វាស់រង្វាល់សម្រាប់វាយតម្លៃម៉ូដែល (Mastering Evaluation Metrics): និស្សិតត្រូវឈប់ពឹងផ្អែកតែទៅលើរង្វាស់ 'Accuracy' សម្រាប់ទិន្នន័យអតុល្យភាព។ ត្រូវហ្វឹកហាត់ប្រើប្រាស់រង្វាស់រង្វាល់ថ្មីៗដូចជា Confusion Matrix, Precision, Recall, F-measure, G-mean និង ROC AUC ដើម្បីវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលឱ្យបានច្បាស់លាស់។
អនុវត្តបច្ចេកទេសបែងចែកសំណាកកម្រិតទិន្នន័យ (Apply Data-level Techniques): សាកល្បងសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ imbalanced-learn នៅក្នុងភាសា Python ដើម្បីអនុវត្តវិធីសាស្ត្រ SMOTE (Oversampling) និងការកាត់បន្ថយទិន្នន័យ Undersampling ទៅលើសំណុំទិន្នន័យអតុល្យភាពណាមួយ។
អភិវឌ្ឍម៉ូដែលផ្អែកលើការគិតគូរតម្លៃខាតបង់ (Implement Cost-sensitive Models): រៀនកែប្រែក្បួនដោះស្រាយ (Algorithm) ឱ្យផ្តោតលើថ្នាក់ភាគតិច ដោយប្រើប្រាស់មុខងាររបស់ scikit-learn (ឧទាហរណ៍៖ ការកំណត់ប៉ារ៉ាម៉ែត្រ class_weight='balanced' នៅក្នុងម៉ូដែល Random Forest ឬ SVM)។
សិក្សាពីការរួមបញ្ចូលម៉ូដែលកម្រិតខ្ពស់ (Explore Ensemble Approaches): ស្វែងយល់ និងអនុវត្តវិធីសាស្ត្ររួមបញ្ចូលគ្នា (Ensemble Methods) ដូចជា SMOTEBoost ឬ RUSBoost ដែលសក្តិសមបំផុតសម្រាប់ដោះស្រាយសំណុំទិន្នន័យដែលមានបញ្ហាត្រួតគ្នានៃថ្នាក់ (Class overlapping)។
អនុវត្តលើគម្រោងស្រាវជ្រាវផ្ទាល់ខ្លួនជាមួយទិន្នន័យក្នុងស្រុក (Real-world Project): ប្រមូលទិន្នន័យជាក់ស្តែងក្នុងប្រទេសកម្ពុជា (ឧទាហរណ៍ ទិន្នន័យអតិថិជនសុំកម្ចីធនាគារ ឬទិន្នន័យមតិយោបល់អតិថិជនតាមហាងកាហ្វេ) ហើយអនុវត្តវិធីសាស្រ្តចម្រុះ (Hybrid Approach) ដោយបញ្ចូលការជ្រើសរើស Feature Selection និងបច្ចេកទេស Sampling រួចធ្វើបទបង្ហាញពីលទ្ធផល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Class imbalance problem	ស្ថានភាពដែលទិន្នន័យសម្រាប់ហ្វឹកហាត់ម៉ូដែលរៀនម៉ាស៊ីនមានចំនួនមិនស្មើគ្នាខ្លាំងរវាងក្រុមមួយនិងក្រុមមួយទៀត ដែលធ្វើឱ្យម៉ូដែលទោរទន់លម្អៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើន (Majority class) និងមិនអាចចំណាត់ថ្នាក់ក្រុមដែលមានទិន្នន័យតិច (Minority class) បានល្អ។	ដូចជាគ្រូបង្រៀនសិស្សពីសត្វដោយបង្ហាញរូបឆ្កែ១០០សន្លឹក និងរូបឆ្មា១សន្លឹក ពេលប្រឡងសិស្សនឹងស្គាល់តែឆ្កែ តែមិនស្គាល់ឆ្មានោះទេ។
SMOTE (Synthetic Minority Over-sampling Technique)	បច្ចេកទេសបង្កើតទិន្នន័យក្លែងក្លាយ (Synthetic data) សម្រាប់ក្រុមភាគតិច ដោយធ្វើការគណនារកចំណុចកណ្តាលនៃចន្លោះទិន្នន័យពិតដែលមានស្រាប់ ដើម្បីបង្កើនចំនួនទិន្នន័យឱ្យមានតុល្យភាពជាមួយក្រុមភាគច្រើន ដោយមិនមែនគ្រាន់តែជាការចម្លងទិន្នន័យដើមដដែលៗនោះទេ។	ដូចជាការយកទឹកក្រូច និងទឹកក្រូចឆ្មារដែលមានស្រាប់មកលាយបញ្ចូលគ្នា ដើម្បីបង្កើតជារសជាតិថ្មីមួយទៀតដែលស្រដៀងដើម ដើម្បីឱ្យមានភេសជ្ជៈច្រើនកែវជាងមុនសម្រាប់ការភ្លក់។
Class overlapping	បញ្ហានៅពេលដែលលក្ខណៈពិសេស (Features) នៃទិន្នន័យក្នុងក្រុមពីរខុសគ្នា មានលក្ខណៈស្រដៀងគ្នាខ្លាំង ឬត្រួតស៊ីគ្នានៅក្នុងលំហទិន្នន័យតែមួយ ដែលធ្វើឱ្យម៉ូដែលពិបាកក្នុងការគូសបន្ទាត់បែងចែកក្រុមទាំងពីរឱ្យដាច់ពីគ្នាទោះបីជាមានទិន្នន័យច្រើនក៏ដោយ។	ដូចជាការព្យាយាមបែងចែកផ្លែក្រូចពោធិ៍សាត់ និងផ្លែក្រូចថ្លុងតូចៗ ដែលមានទំហំប៉ុនគ្នា និងពណ៌ខៀវដូចគ្នា ធ្វើឱ្យយើងពិបាកមើលដឹងថាមួយណាជាអ្វីឱ្យប្រាកដបើមិនបកសំបក។
Cost-sensitive learning	ក្បួនដោះស្រាយដែលដាក់ទណ្ឌកម្ម (Penalty) ឬតម្លៃខាតបង់ (Cost) ខ្ពស់នៅពេលដែលម៉ូដែលទាយខុសលើក្រុមភាគតិច ដើម្បីបង្ខំឱ្យម៉ូដែលកែប្រែទម្ងន់គណនារបស់ខ្លួន និងយកចិត្តទុកដាក់ខ្ពស់ក្នុងការទាយក្រុមភាគតិចនោះឱ្យបានត្រឹមត្រូវបំផុត។	ដូចជាច្បាប់ចរាចរណ៍ដែលផាកពិន័យត្រឹម៥ម៉ឺនរៀលបើអត់ពាក់មួកសុវត្ថិភាព តែផាកពិន័យដល់១លានរៀលបើបើកបរពេលស្រវឹង ដើម្បីបង្ខំឱ្យមនុស្សប្រុងប្រយ័ត្នខ្ពស់ចំពោះការញ៉ាំស្រាហើយបើកបរ។
Ensemble method	វិធីសាស្ត្រនៃការបណ្តុំក្បួនចំណាត់ថ្នាក់ (Classifiers) ច្រើនប្រភេទ ឬច្រើនម៉ូដែលបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលចុងក្រោយរួមមួយ ដោយផ្អែកលើការបោះឆ្នោត ឬការបូកសរុបលទ្ធផល ដែលជួយកាត់បន្ថយភាពលម្អៀង និងបង្កើនភាពសុក្រឹតជាងការប្រើម៉ូដែលតែមួយ។	ដូចជាការសួរយោបល់ពីគ្រូពេទ្យឯកទេស៥នាក់ផ្សេងគ្នា មុននឹងសម្រេចចិត្តធ្វើការវះកាត់ធំ ជាជាងជឿទៅលើការវិភាគរបស់គ្រូពេទ្យតែម្នាក់ឯង។
Small disjuncts	បញ្ហាអតុល្យភាពដែលមានលាក់កំបាំងនៅក្នុងក្រុមតែមួយ (Within-class imbalance) ដែលក្រុមនោះមានបែងចែកជាក្រុមតូចៗ (Sub-clusters) ជាច្រើនទៀត ហើយក្រុមតូចៗទាំងនោះមានចំនួនទិន្នន័យមិនស្មើគ្នា ដែលធ្វើឱ្យម៉ូដែលពិបាកចាប់យកទម្រង់រួមនៃក្រុមធំទាំងមូល។	ដូចជាការរៀនស្គាល់ "រថយន្ត" ដែលក្នុងនោះមានឡានតូចស្ព័រច្រើនណាស់ តែឡានដឹកដីមានតែមួយគ្រឿង ធ្វើឱ្យក្មេងស្មានថាឡានដឹកដីមិនមែនជារថយន្តទេ។
Decision boundary	បន្ទាត់ ឬព្រំដែននិម្មិតដែលក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning Algorithm) គណនា និងសាងសង់ឡើងនៅក្នុងលំហទិន្នន័យ ដើម្បីសន្មត និងបែងចែកទិន្នន័យថ្មីៗមិនធ្លាប់ស្គាល់ ថាគួរតែត្រូវចាត់ថ្នាក់ចូលទៅក្នុងក្រុម (Class) ណាមួយ។	ដូចជារបងព្រំប្រទល់ប្រទេស ដែលខណ្ឌចែកឱ្យដឹងច្បាស់ថា ដីត្រង់ចំណុចណាជាដីកម្ពុជា ហើយចំណុចណាជាដីប្រទេសជិតខាង។
G-mean (geometric mean)	រង្វាស់រង្វាល់សម្រាប់វាស់សមត្ថភាពម៉ូដែលដែលគណនាតាមរយៈការយកតម្លៃឫសការ៉េនៃផលគុណរវាង Sensitivity (ភាពត្រឹមត្រូវលើក្រុមភាគតិច) និង Specificity (ភាពត្រឹមត្រូវលើក្រុមភាគច្រើន) ដើម្បីធានាថាម៉ូដែលមួយអស្ចារ្យលុះត្រាតែវាអាចទស្សន៍ទាយត្រូវទាំងសងខាងក្នុងកម្រិតស្មើៗគ្នា។	ដូចជាពិន្ទុវាយតម្លៃសិស្សពូកែទូទាំងប្រទេស ដែលតម្រូវឱ្យសិស្សត្រូវតែពូកែខ្លាំងទាំងមុខវិជ្ជាសិល្បៈ និងមុខវិជ្ជាវិទ្យាសាស្ត្រទើបបានពិន្ទុខ្ពស់ មិនអាចពូកែតែម្ខាងបានទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖