បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហាអតុល្យភាពថ្នាក់ (Class Imbalance Problem) នៅក្នុងសំណុំទិន្នន័យ ដែលធ្វើឱ្យក្បួនដោះស្រាយចំណាត់ថ្នាក់ភាគច្រើនមានការលម្អៀងទៅរកថ្នាក់ភាគច្រើន (Majority class) និងមិនអាចកំណត់អត្តសញ្ញាណទិន្នន័យភាគតិច (Minority class) ដែលមានសារៈសំខាន់បានត្រឹមត្រូវ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការត្រួតពិនិត្យឡើងវិញនូវបញ្ហាប្រឈម និងបូកសរុបនូវវិធីសាស្រ្តផ្សេងៗដែលមានស្រាប់សម្រាប់ដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់នៅក្នុងម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Models)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Data-level Approach (Sampling: SMOTE, Undersampling) វិធីសាស្រ្តកម្រិតទិន្នន័យ (ការបែងចែកសំណាក) |
មានភាពងាយស្រួលយល់ និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងកម្មវិធីស្រាវជ្រាវជាច្រើន។ ជួយឱ្យទិន្នន័យមានតុល្យភាពមុនពេលបញ្ជូនទៅកាន់ម៉ូដែល។ | ការចម្លងទិន្នន័យ (Oversampling) អាចបណ្តាលឱ្យមានបញ្ហា Over-fitting ចំណែកការលុបទិន្នន័យ (Undersampling) អាចធ្វើឱ្យបាត់បង់ព័ត៌មានសំខាន់ៗ។ | បង្កើតបាននូវព្រំដែនចំណាត់ថ្នាក់ (Decision boundary) ធំជាងមុន តែមិនធានាដោះស្រាយបញ្ហាត្រួតគ្នានៃថ្នាក់ (Class overlapping) ទេ។ |
| Cost-sensitive Learning ការរៀនដោយគិតគូរពីតម្លៃទម្ងន់ខុសត្រូវ |
ជាវិធីសាស្រ្តសាមញ្ញ និងមានដំណើរការលឿន ដោយមិនតម្រូវឱ្យមានការកែប្រែទំហំសំណុំទិន្នន័យដើមនោះទេ។ | មិនមានប្រសិទ្ធភាពទេប្រសិនបើតម្លៃខាតបង់ពិតប្រាកដ (Real cost) មិនត្រូវបានដឹង ហើយអាចទាមទារពេលវេលាបន្ថែមដើម្បីស្វែងរកតម្លៃ Cost matrix ដ៏សក្តិសម។ | អាចកាត់បន្ថយអត្រានៃការទស្សន៍ទាយខុស (Misclassification) លើថ្នាក់ភាគតិចដែលជាគោលដៅសំខាន់បានយ៉ាងប្រសើរ។ |
| Ensemble Methods (SMOTEBoost, RUSBoost) វិធីសាស្ត្របណ្តុំម៉ូដែល (Boosting & Bagging) |
ជាវិធីសាស្រ្តដែលមានភាពបត់បែនខ្ពស់ក្នុងការដោះស្រាយអតុល្យភាពថ្នាក់ ដោយរួមបញ្ចូលម៉ូដែលច្រើនបញ្ជូលគ្នាដើម្បីបង្កើនភាពត្រឹមត្រូវ។ | ភាពស្មុគស្មាញនៃការគណនានឹងកើនឡើងស្របតាមចំនួននៃក្បួនចំណាត់ថ្នាក់ដែលត្រូវបានប្រើប្រាស់។ | ក្បួនដោះស្រាយដូចជា RUSBoost ផ្តល់នូវលទ្ធផលចំណាត់ថ្នាក់ល្អប្រសើរ (AUC results ខ្ពស់) និងស៊ីកម្លាំងគណនាតិចជាងវិធីសាស្រ្ត Ensemble ផ្សេងទៀត។ |
| Feature Selection ការជ្រើសរើសលក្ខណៈពិសេស |
ជួយកាត់បន្ថយបញ្ហានៃការត្រួតគ្នារវាងថ្នាក់ (Class overlapping) ដោយកម្ចាត់ចោលនូវលក្ខណៈពិសេសដែលមិនពាក់ព័ន្ធ ឬស្ទួនគ្នា។ | ទាមទារកម្លាំងគណនាខ្ពស់ (Extra computational cost) និងពេលវេលាបន្ថែមសម្រាប់ដំណើរការរៀបចំទិន្នន័យជាមុន (Pre-processing task)។ | ជួយបង្កើនប្រសិទ្ធភាពក្បួនចំណាត់ថ្នាក់ កាត់បន្ថយទំហំផ្ទុក និងជួយពន្យល់ពីទម្រង់នៃទិន្នន័យបានកាន់តែច្បាស់។ |
| Hybrid Approach វិធីសាស្រ្តចម្រុះរួមបញ្ចូលគ្នា |
កំពុងទទួលបានការពេញនិយមដោយសារវាទាញយកអត្ថប្រយោជន៍ពីវិធីសាស្រ្តផ្សេងៗគ្នាមកបញ្ចូលគ្នា (Symbiosis learning) ដូចជាការបន្សំ Sampling ជាមួយ Cost-sensitive។ | ទាមទារឱ្យមានការវាយតម្លៃ និងរចនាយ៉ាងប្រុងប្រយ័ត្ន ដើម្បីធានាថាវិធីសាស្រ្តនីមួយៗបំពេញខ្វះខាតឱ្យគ្នាទៅវិញទៅមកបានល្អ។ | ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំសម្រាប់បញ្ហាអតុល្យភាពទិន្នន័យ ដែលមានសភាពស្មុគស្មាញ និងទំហំធំ (Big Data)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាការដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ ទាមទារឱ្យមានធនធានគណនាខ្ពស់ ជាពិសេសនៅពេលអនុវត្តវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស (Wrapper methods) និងការវិភាគលើទិន្នន័យទំហំធំ (Big Data)។
ដោយសារឯកសារនេះជាអត្ថបទត្រួតពិនិត្យ (Review paper) វាមិនបានផ្តោតលើសំណុំទិន្នន័យជាក់លាក់ណាមួយទេ ប៉ុន្តែបានទាញយកទិន្នន័យពីវិស័យវេជ្ជសាស្ត្រ ការឆបោកធនាគារ និងបណ្តាញសង្គម។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងដ៏សំខាន់ ព្រោះទិន្នន័យក្នុងស្រុកនៅតាមមន្ទីរពេទ្យ ឬធនាគារ ភាគច្រើនមានទំហំតូច និងមានភាពអតុល្យភាពខ្លាំង (ឧទាហរណ៍៖ ទិន្នន័យអ្នកបោកប្រាស់មានចំនួនតិចតួចបំផុតប្រៀបធៀបនឹងអតិថិជនទូទៅ) ដែលងាយនឹងធ្វើឱ្យម៉ូដែលលម្អៀង។
បច្ចេកទេស និងវិធីសាស្រ្តដែលបានរៀបរាប់ក្នុងឯកសារនេះ ពិតជាមានភាពចាំបាច់ និងអាចយកមកអនុវត្តបានយ៉ាងមានប្រសិទ្ធភាពនៅក្នុងបរិបទនៃការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជា។
ការជ្រើសរើសវិធីសាស្ត្រដោះស្រាយអតុល្យភាពទិន្នន័យបានត្រឹមត្រូវ នឹងជួយឱ្យអ្នកស្រាវជ្រាវ និងវិស្វករកម្ពុជាអាចបង្កើតម៉ូដែល AI ដែលមានភាពសុក្រឹត និងអាចជឿទុកចិត្តបានសម្រាប់ការប្រើប្រាស់ជាក់ស្តែងក្នុងសង្គមជាតិ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Class imbalance problem | ស្ថានភាពដែលទិន្នន័យសម្រាប់ហ្វឹកហាត់ម៉ូដែលរៀនម៉ាស៊ីនមានចំនួនមិនស្មើគ្នាខ្លាំងរវាងក្រុមមួយនិងក្រុមមួយទៀត ដែលធ្វើឱ្យម៉ូដែលទោរទន់លម្អៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើន (Majority class) និងមិនអាចចំណាត់ថ្នាក់ក្រុមដែលមានទិន្នន័យតិច (Minority class) បានល្អ។ | ដូចជាគ្រូបង្រៀនសិស្សពីសត្វដោយបង្ហាញរូបឆ្កែ១០០សន្លឹក និងរូបឆ្មា១សន្លឹក ពេលប្រឡងសិស្សនឹងស្គាល់តែឆ្កែ តែមិនស្គាល់ឆ្មានោះទេ។ |
| SMOTE (Synthetic Minority Over-sampling Technique) | បច្ចេកទេសបង្កើតទិន្នន័យក្លែងក្លាយ (Synthetic data) សម្រាប់ក្រុមភាគតិច ដោយធ្វើការគណនារកចំណុចកណ្តាលនៃចន្លោះទិន្នន័យពិតដែលមានស្រាប់ ដើម្បីបង្កើនចំនួនទិន្នន័យឱ្យមានតុល្យភាពជាមួយក្រុមភាគច្រើន ដោយមិនមែនគ្រាន់តែជាការចម្លងទិន្នន័យដើមដដែលៗនោះទេ។ | ដូចជាការយកទឹកក្រូច និងទឹកក្រូចឆ្មារដែលមានស្រាប់មកលាយបញ្ចូលគ្នា ដើម្បីបង្កើតជារសជាតិថ្មីមួយទៀតដែលស្រដៀងដើម ដើម្បីឱ្យមានភេសជ្ជៈច្រើនកែវជាងមុនសម្រាប់ការភ្លក់។ |
| Class overlapping | បញ្ហានៅពេលដែលលក្ខណៈពិសេស (Features) នៃទិន្នន័យក្នុងក្រុមពីរខុសគ្នា មានលក្ខណៈស្រដៀងគ្នាខ្លាំង ឬត្រួតស៊ីគ្នានៅក្នុងលំហទិន្នន័យតែមួយ ដែលធ្វើឱ្យម៉ូដែលពិបាកក្នុងការគូសបន្ទាត់បែងចែកក្រុមទាំងពីរឱ្យដាច់ពីគ្នាទោះបីជាមានទិន្នន័យច្រើនក៏ដោយ។ | ដូចជាការព្យាយាមបែងចែកផ្លែក្រូចពោធិ៍សាត់ និងផ្លែក្រូចថ្លុងតូចៗ ដែលមានទំហំប៉ុនគ្នា និងពណ៌ខៀវដូចគ្នា ធ្វើឱ្យយើងពិបាកមើលដឹងថាមួយណាជាអ្វីឱ្យប្រាកដបើមិនបកសំបក។ |
| Cost-sensitive learning | ក្បួនដោះស្រាយដែលដាក់ទណ្ឌកម្ម (Penalty) ឬតម្លៃខាតបង់ (Cost) ខ្ពស់នៅពេលដែលម៉ូដែលទាយខុសលើក្រុមភាគតិច ដើម្បីបង្ខំឱ្យម៉ូដែលកែប្រែទម្ងន់គណនារបស់ខ្លួន និងយកចិត្តទុកដាក់ខ្ពស់ក្នុងការទាយក្រុមភាគតិចនោះឱ្យបានត្រឹមត្រូវបំផុត។ | ដូចជាច្បាប់ចរាចរណ៍ដែលផាកពិន័យត្រឹម៥ម៉ឺនរៀលបើអត់ពាក់មួកសុវត្ថិភាព តែផាកពិន័យដល់១លានរៀលបើបើកបរពេលស្រវឹង ដើម្បីបង្ខំឱ្យមនុស្សប្រុងប្រយ័ត្នខ្ពស់ចំពោះការញ៉ាំស្រាហើយបើកបរ។ |
| Ensemble method | វិធីសាស្ត្រនៃការបណ្តុំក្បួនចំណាត់ថ្នាក់ (Classifiers) ច្រើនប្រភេទ ឬច្រើនម៉ូដែលបញ្ចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយលទ្ធផលចុងក្រោយរួមមួយ ដោយផ្អែកលើការបោះឆ្នោត ឬការបូកសរុបលទ្ធផល ដែលជួយកាត់បន្ថយភាពលម្អៀង និងបង្កើនភាពសុក្រឹតជាងការប្រើម៉ូដែលតែមួយ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យឯកទេស៥នាក់ផ្សេងគ្នា មុននឹងសម្រេចចិត្តធ្វើការវះកាត់ធំ ជាជាងជឿទៅលើការវិភាគរបស់គ្រូពេទ្យតែម្នាក់ឯង។ |
| Small disjuncts | បញ្ហាអតុល្យភាពដែលមានលាក់កំបាំងនៅក្នុងក្រុមតែមួយ (Within-class imbalance) ដែលក្រុមនោះមានបែងចែកជាក្រុមតូចៗ (Sub-clusters) ជាច្រើនទៀត ហើយក្រុមតូចៗទាំងនោះមានចំនួនទិន្នន័យមិនស្មើគ្នា ដែលធ្វើឱ្យម៉ូដែលពិបាកចាប់យកទម្រង់រួមនៃក្រុមធំទាំងមូល។ | ដូចជាការរៀនស្គាល់ "រថយន្ត" ដែលក្នុងនោះមានឡានតូចស្ព័រច្រើនណាស់ តែឡានដឹកដីមានតែមួយគ្រឿង ធ្វើឱ្យក្មេងស្មានថាឡានដឹកដីមិនមែនជារថយន្តទេ។ |
| Decision boundary | បន្ទាត់ ឬព្រំដែននិម្មិតដែលក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning Algorithm) គណនា និងសាងសង់ឡើងនៅក្នុងលំហទិន្នន័យ ដើម្បីសន្មត និងបែងចែកទិន្នន័យថ្មីៗមិនធ្លាប់ស្គាល់ ថាគួរតែត្រូវចាត់ថ្នាក់ចូលទៅក្នុងក្រុម (Class) ណាមួយ។ | ដូចជារបងព្រំប្រទល់ប្រទេស ដែលខណ្ឌចែកឱ្យដឹងច្បាស់ថា ដីត្រង់ចំណុចណាជាដីកម្ពុជា ហើយចំណុចណាជាដីប្រទេសជិតខាង។ |
| G-mean (geometric mean) | រង្វាស់រង្វាល់សម្រាប់វាស់សមត្ថភាពម៉ូដែលដែលគណនាតាមរយៈការយកតម្លៃឫសការ៉េនៃផលគុណរវាង Sensitivity (ភាពត្រឹមត្រូវលើក្រុមភាគតិច) និង Specificity (ភាពត្រឹមត្រូវលើក្រុមភាគច្រើន) ដើម្បីធានាថាម៉ូដែលមួយអស្ចារ្យលុះត្រាតែវាអាចទស្សន៍ទាយត្រូវទាំងសងខាងក្នុងកម្រិតស្មើៗគ្នា។ | ដូចជាពិន្ទុវាយតម្លៃសិស្សពូកែទូទាំងប្រទេស ដែលតម្រូវឱ្យសិស្សត្រូវតែពូកែខ្លាំងទាំងមុខវិជ្ជាសិល្បៈ និងមុខវិជ្ជាវិទ្យាសាស្ត្រទើបបានពិន្ទុខ្ពស់ មិនអាចពូកែតែម្ខាងបានទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖