Original Title: Towards Addressing Bias and Fairness in Machine Learning
Source: www.pijet.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកការដោះស្រាយភាពលម្អៀង និងយុត្តិធម៌ក្នុងការរៀនរបស់ម៉ាស៊ីន (Machine Learning)

ចំណងជើងដើម៖ Towards Addressing Bias and Fairness in Machine Learning

អ្នកនិពន្ធ៖ Rudraksh Khandelwal, Pune Institute of Computer Technology, Shyam Deshmukh, Pune Institute of Computer Technology

ឆ្នាំបោះពុម្ព៖ 2023, PICT’s International Journal of Engineering and Technology (PIJET)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហាភាពលម្អៀងនៅក្នុងក្បួនដោះស្រាយនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning algorithms) ដែលបណ្តាលមកពីទិន្នន័យមិនមានតុល្យភាព (Imbalanced datasets) ដែលអាចនាំឱ្យមានការសម្រេចចិត្តមិនស្មើភាពគ្នាលើក្រុមជនជាតិ ឬយេនឌ័រណាមួយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកែតម្រូវទំហំនិងរបាយទិន្នន័យ ដើម្បីសាកល្បងលើម៉ូដែលវាយតម្លៃនិងជ្រើសរើសបេក្ខជនឱ្យមានតម្លាភាព។

បច្ចេកទេសបង្កើនទិន្នន័យ (Upsampling): ការបង្កើតទិន្នន័យចម្លងសម្រាប់ក្រុមភាគតិច (ស្ត្រី) នៅក្នុងសំណុំទិន្នន័យដើម្បីឱ្យចំនួនស្មើនឹងក្រុមភាគច្រើន។
បច្ចេកទេសបន្ថយទិន្នន័យ (Downsampling): ការកាត់បន្ថយទិន្នន័យចៃដន្យពីក្រុមភាគច្រើន (បុរស) ដើម្បីឱ្យស្មើនឹងក្រុមភាគតិច។
ម៉ូដែលតំរែតំរង់ឡូជីខល (Logistic Regression Model): ត្រូវបានអនុវត្តដើម្បីទស្សន៍ទាយស្ថានភាពជាប់ឈ្មោះដោយផ្អែកលើបទពិសោធន៍ ជំនាញ និងកម្រិតអប់រំ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការធ្វើ Upsampling លើទិន្នន័យបេក្ខជនស្ត្រីពី ២៩១ នាក់ ទៅ ៧០៩ នាក់ ដើម្បីឲ្យស្មើនឹងបុរស បានលុបបំបាត់ភាពលម្អៀងយេនឌ័រក្នុងប្រព័ន្ធយ៉ាងមានប្រសិទ្ធភាព។
បេក្ខនារីម្នាក់ (ID: 613) ដែលមានបទពិសោធន៍ ១៥ ឆ្នាំ និងកម្រិត PhD ដែលត្រូវបានប្រព័ន្ធបដិសេធពីដំបូង ត្រូវបានជ្រើសរើសដោយជោគជ័យបន្ទាប់ពីការកែតម្រូវតុល្យភាពទិន្នន័យរួច។
វិធីសាស្ត្រកែតម្រូវទិន្នន័យដូចជា Upsampling និង Downsampling គឺជាយុទ្ធសាស្ត្រដ៏សំខាន់និងមានភាពងាយស្រួល ក្នុងការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតដែលប្រកបដោយក្រមសីលធម៌ (Ethical AI)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Upsampling (Oversampling) ការបង្កើនទិន្នន័យ (Upsampling)	ជួយរក្សាតុល្យភាពទិន្នន័យដោយមិនបាត់បង់ព័ត៌មានដើម និងផ្តល់ឱ្យម៉ូដែលនូវទិន្នន័យគ្រប់គ្រាន់សម្រាប់រៀនពីក្រុមភាគតិច។	អាចបណ្តាលឱ្យមានបញ្ហា Overfitting និងបង្កើនទិន្នន័យរំខាន (Noise) នៅក្នុងប្រព័ន្ធដោយសារការចម្លងទិន្នន័យដដែលៗ។	ធ្វើឱ្យទិន្នន័យបេក្ខជនភេទប្រុស និងស្រីមានចំនួនស្មើគ្នា (៧០៩ នាក់) និងជួយឱ្យបេក្ខនារីម្នាក់ដែលត្រូវគេបដិសេធពីដំបូង អាចជាប់ឈ្មោះត្រឡប់មកវិញ។
Downsampling (Undersampling) ការកាត់បន្ថយទិន្នន័យ (Downsampling)	ជួយឱ្យម៉ូដែលធ្វើការវាយតម្លៃបានទូលំទូលាយ (Generalization) កាត់បន្ថយភាពលម្អៀងទៅរកក្រុមភាគច្រើន និងសន្សំសំចៃថាមពលកុំព្យូទ័រ។	ប្រឈមនឹងការបាត់បង់ព័ត៌មាន ឬលំនាំទិន្នន័យសំខាន់ៗពីក្រុមភាគច្រើនដោយសារតែការលុបចោលកំណត់ត្រាដោយចៃដន្យ។	កាត់បន្ថយទិន្នន័យក្រុមភាគច្រើនឱ្យមានទំហំស្មើនឹងក្រុមភាគតិច (ឧទាហរណ៍៖ កាត់បន្ថយពី ១០០ មកត្រឹម ១០ ដើម្បឱ្យស្មើគ្នានឹងក្រុមមួយទៀត)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីការចំណាយលើធនធានកុំព្យូទ័រធំដុំនោះទេ ដោយសារវាប្រើប្រាស់ទិន្នន័យតូច (១០០០ ជួរ) និងម៉ូដែលសាមញ្ញ។

Software: ប្រើប្រាស់ភាសា Python ជាមួយបណ្ណាល័យ Scikit-Learn និង Pandas សម្រាប់ការរៀបចំទិន្នន័យ ការធ្វើ Sampling និងសាងសង់ម៉ូដែល។
Hardware: កុំព្យូទ័រធម្មតា (Standard CPU) គឺគ្រប់គ្រាន់សម្រាប់ការដំណើរការម៉ូដែល Logistic Regression លើទិន្នន័យខ្នាតតូចនេះ។
Dataset: ទាមទារសំណុំទិន្នន័យជ្រើសរើសបុគ្គលិកដែលមានចំនួន ១០០០ កំណត់ត្រា (ផ្ទុកព័ត៌មានដូចជា៖ យេនឌ័រ បទពិសោធន៍ ជំនាញ និងកម្រិតអប់រំ)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវនៅស្ថាប័ន Pune Institute នៃប្រទេសឥណ្ឌា ដោយប្រើប្រាស់សំណុំទិន្នន័យជ្រើសរើសបុគ្គលិកដែលមានបេក្ខជន ១០០០ នាក់ (មានបុរសលើសលុប)។ ទោះបីជាទិន្នន័យនេះមិនមែនជារបស់កម្ពុជាដោយផ្ទាល់ក៏ដោយ ប៉ុន្តែវាឆ្លុះបញ្ចាំងយ៉ាងច្បាស់ពីបញ្ហាអតុល្យភាពយេនឌ័រនៅក្នុងទីផ្សារការងារ ដែលជារឿងគួរឱ្យកត់សម្គាល់បំផុតសម្រាប់ប្រទេសកម្ពុជាក្នុងការរៀបចំប្រព័ន្ធ AI នាពេលអនាគត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងទាំងនេះមានសារៈសំខាន់ និងអាចអនុវត្តបានយ៉ាងល្អនៅក្នុងបរិបទនៃការរីកចម្រើននៃប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា។

វិស័យធនធានមនុស្ស (HR & Recruitment): ក្រុមហ៊ុនធំៗ និងទីភ្នាក់ងារជ្រើសរើសបុគ្គលិកនៅរាជធានីភ្នំពេញអាចប្រើប្រាស់បច្ចេកទេសនេះ ដើម្បីធានាថាប្រព័ន្ធជ្រើសរើស CV ដោយស្វ័យប្រវត្តិមិនមានភាពលម្អៀងប្រឆាំងនឹងបេក្ខជនស្ត្រី ឬបេក្ខជនមកពីតំបន់ជនបទ។
វិស័យហិរញ្ញវត្ថុ និងធនាគារ (Microfinance & Banking): ស្ថាប័នមីក្រូហិរញ្ញវត្ថុ (ឧទាហរណ៍៖ អម្រឹត អេស៊ីលីដា) អាចប្រើបច្ចេកទេស Resampling លើទិន្នន័យអតិថិជន ដើម្បីវាយតម្លៃការផ្តល់កម្ចីប្រកបដោយសមធម៌ និងការរកឃើញប្រតិបត្តិការក្លែងបន្លំ (Fraud Detection) កាន់តែច្បាស់លាស់។
វិស័យសុខាភិបាល (Healthcare): មន្ទីរពេទ្យ និងគ្លីនិកអាចប្រើប្រាស់វាដើម្បីធ្វើតុល្យភាពទិន្នន័យរោគវិនិច្ឆ័យជំងឺកម្រនានា ដើម្បីជួយឱ្យប្រព័ន្ធ AI វិភាគរោគសញ្ញាបានកាន់តែសុក្រឹត ដោយមិនមើលរំលងទិន្នន័យជំងឺដែលមានតិចតួច។

ការអនុវត្តបច្ចេកទេសកែតម្រូវទិន្នន័យទាំងនេះ នឹងជួយឱ្យស្ថាប័ននៅកម្ពុជាអាចកសាងប្រព័ន្ធ AI មួយដែលប្រកបដោយក្រមសីលធម៌ យុត្តិធម៌ និងមិនរើសអើង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាពីមូលដ្ឋានគ្រឹះនៃទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data): ស្វែងយល់ពីរបៀបកំណត់អត្តសញ្ញាណទិន្នន័យដែលមានភាពលម្អៀងដោយប្រើបណ្ណាល័យ Pandas នៅក្នុង Python ដើម្បីវិភាគរបាយទិន្នន័យ (Data Distribution)។
២. អនុវត្តបច្ចេកទេស Resampling ជាមូលដ្ឋាន: សាកល្បងសរសេរកូដដោយប្រើប្រាស់អនុគមន៍ resample ពី Scikit-Learn ដើម្បីធ្វើ Upsampling លើក្រុមទិន្នន័យភាគតិច និង Downsampling លើទិន្នន័យភាគច្រើន ឱ្យមានចំនួនស្មើគ្នា។
៣. ប្រើប្រាស់ក្បួនដោះស្រាយទំនើប (Advanced Bias Mitigation): សិក្សា និងអនុវត្តវិធីសាស្ត្របង្កើតទិន្នន័យសិប្បនិម្មិតដូចជា SMOTE (Synthetic Minority Over-sampling Technique) ដើម្បីដោះស្រាយបញ្ហា Overfitting ដែលបណ្តាលមកពីការចម្លងទិន្នន័យដើមដដែលៗ។
៤. សាងសង់ និងវាយតម្លៃភាពយុត្តិធម៌នៃម៉ូដែល: ប្រើប្រាស់ Logistic Regression ដើម្បីហ្វឹកហាត់ម៉ូដែល និងវាយតម្លៃលទ្ធផលដោយប្រៀបធៀបមុន និងក្រោយពេលកែតម្រូវទិន្នន័យ ដោយផ្តោតលើភាពត្រឹមត្រូវនៃការព្យាករណ៍សម្រាប់ក្រុមនីមួយៗ ដាច់ដោយឡែកពីគ្នា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Upsampling	ដំណើរការនៃការបង្កើនចំនួនទិន្នន័យនៃក្រុមភាគតិច (Minority class) នៅក្នុងសំណុំទិន្នន័យ ដើម្បីឱ្យមានតុល្យភាពជាមួយក្រុមភាគច្រើន ដោយការចម្លងទិន្នន័យដើមដដែលៗ ឬប្រើក្បួនដើម្បីបង្កើតទិន្នន័យថ្មី។	ដូចជាការថតចម្លង (Copy) ឯកសារសំខាន់ៗដែលមានតិចតួចឱ្យបានច្រើនសន្លឹក ដើម្បីឱ្យមានចំនួនស្មើនឹងឯកសារទូទៅផ្សេងទៀត។
Downsampling	ការកាត់បន្ថយទំហំទិន្នន័យនៃក្រុមភាគច្រើន (Majority class) ឱ្យមកត្រឹមចំនួនមួយដែលស្មើនឹងក្រុមភាគតិច ដោយការលុបចោលកំណត់ត្រាមួយចំនួនដោយចៃដន្យ ដើម្បីជៀសវាងម៉ូដែលលម្អៀង។	ដូចជាការដកសិស្សប្រុសមួយចំនួនចេញពីក្រុមដែលមានប្រុសច្រើនពេក ដើម្បីឱ្យចំនួនសិស្សប្រុសនិងសិស្សស្រីនៅក្នុងក្រុមមានតុល្យភាពគ្នាស្មើៗគ្នា។
SMOTE (Synthetic Minority Over-sampling Technique)	បច្ចេកទេសមួយក្នុងការធ្វើ Upsampling ដែលមិនមែនគ្រាន់តែចម្លងទិន្នន័យចាស់ដដែលៗនោះទេ ប៉ុន្តែវាប្រើប្រាស់ក្បួនគណិតវិទ្យាដើម្បីបង្កើតទិន្នន័យថ្មីៗ (Synthetic data) ដែលមានលក្ខណៈស្រដៀងទៅនឹងទិន្នន័យភាគតិចដើម។	ដូចជាការយកពណ៌ក្រហមដែលមានតិចតួចមកលាយជាមួយពណ៌ទឹកក្រូច ដើម្បីបង្កើតជាពណ៌ថ្មីមួយទៀតដែលមានលក្ខណៈស្រដៀងពណ៌ក្រហម ជំនួសឱ្យការគ្រាន់តែចាក់ពណ៌ក្រហមដដែលៗ។
Overfitting	បញ្ហាដែលកើតឡើងនៅពេលដែលម៉ូដែល Machine Learning រៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) និងទិន្នន័យរំខាន (Noise) ខ្លាំងពេក រហូតដល់មិនអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួបពីមុនមក។	ដូចជាសិស្សដែលទន្ទេញចាំតែវិញ្ញាសាចាស់ៗដើម្បីប្រឡង ប៉ុន្តែពេលគ្រូចេញវិញ្ញាសាថ្មីបែរជាធ្វើមិនបាន ព្រោះគាត់មិនយល់ពីមេរៀនពិតប្រាកដ។
Generative Adversarial Networks (GANs)	ប្រព័ន្ធ AI ដែលមានបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតចំនួនពីរប្រកួតប្រជែងគ្នា (មួយបង្កើតទិន្នន័យ មួយទៀតពិនិត្យទិន្នន័យ) ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមើលទៅដូចជារបស់ពិត។ ក្នុងករណីនេះ វាត្រូវបានប្រើដើម្បីបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិចដើម្បីដោះស្រាយភាពលម្អៀង។	ដូចជាជាងគំនូរក្លែងក្លាយខិតខំគូររូបឱ្យដូចពិតប្រាកដ ខណៈពេលដែលអ្នកត្រួតពិនិត្យសិល្បៈខិតខំចាប់កំហុស រហូតទាល់តែអ្នកត្រួតពិនិត្យមើលលែងដឹងថាមួយណាពិតមួយណាក្លែងក្លាយ។
Adversarial Debiasing	បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងដោយប្រើប្រព័ន្ធពីរប្រកួតគ្នា៖ មួយព្យាករណ៍លទ្ធផល និងមួយទៀតព្យាយាមទាយថាតើលទ្ធផលនោះមានភាពលម្អៀងដែរឬទេ។ វាដំណើរការរហូតដល់ប្រព័ន្ធទីពីរលែងអាចរកឃើញភាពលម្អៀង។	ដូចជាចៅក្រមម្នាក់ខិតខំកាត់ក្តីឱ្យយុត្តិធម៌បំផុត ដើម្បីកុំឱ្យអ្នកសារព័ត៌មានដែលចាំតែចាប់កំហុស អាចរកឃើញចំណុចលម្អៀងណាមួយពីការកាត់ក្តីនោះបាន។
Meta-learning	បច្ចេកទេសនៃការ "រៀនពីរបៀបរៀន" ដោយបង្វឹកម៉ូដែលឱ្យដោះស្រាយកិច្ចការផ្សេងៗគ្នាជាច្រើន ដើម្បីឱ្យវាអាចសម្របខ្លួននិងរៀនកិច្ចការថ្មីៗបានយ៉ាងរហ័ស ទោះបីជាមានទិន្នន័យតិចតួចក៏ដោយ។	ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យចេះពីរបៀបអានសៀវភៅនិងស្រាវជ្រាវដោយខ្លួនឯង ដូច្នេះនៅពេលគាត់ជួបមុខវិជ្ជាថ្មី គាត់អាចរៀនយល់បានលឿនជាងក្មេងដែលរង់ចាំតែគ្រូបង្រៀន។
Distributionally Robust Optimization (DRO)	វិធីសាស្ត្របង្វឹកម៉ូដែលកុំព្យូទ័រឱ្យអាចដំណើរការបានល្អបំផុត សូម្បីតែនៅក្នុងស្ថានភាពអាក្រក់បំផុត (Worst-case scenarios) ឬនៅពេលដែលរបាយទិន្នន័យមានការប្រែប្រួលខ្លាំង ដែលជាទូទៅពាក់ព័ន្ធនឹងក្រុមទិន្នន័យដែលកម្រមាន។	ដូចជាការបង្ហាត់ទាហានឱ្យចេះប្រយុទ្ធក្នុងស្ថានភាពអាក្រក់បំផុតដូចជាភ្លៀងធ្លាក់ខ្លាំង ឬខ្វះអាវុធ ដើម្បីធានាថាពួកគេអាចតស៊ូបានគ្រប់កាលៈទេសៈទាំងអស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖