Original Title: Towards Addressing Bias and Fairness in Machine Learning
Source: www.pijet.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកការដោះស្រាយភាពលម្អៀង និងយុត្តិធម៌ក្នុងការរៀនរបស់ម៉ាស៊ីន (Machine Learning)

ចំណងជើងដើម៖ Towards Addressing Bias and Fairness in Machine Learning

អ្នកនិពន្ធ៖ Rudraksh Khandelwal, Pune Institute of Computer Technology, Shyam Deshmukh, Pune Institute of Computer Technology

ឆ្នាំបោះពុម្ព៖ 2023, PICT’s International Journal of Engineering and Technology (PIJET)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហាភាពលម្អៀងនៅក្នុងក្បួនដោះស្រាយនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning algorithms) ដែលបណ្តាលមកពីទិន្នន័យមិនមានតុល្យភាព (Imbalanced datasets) ដែលអាចនាំឱ្យមានការសម្រេចចិត្តមិនស្មើភាពគ្នាលើក្រុមជនជាតិ ឬយេនឌ័រណាមួយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកែតម្រូវទំហំនិងរបាយទិន្នន័យ ដើម្បីសាកល្បងលើម៉ូដែលវាយតម្លៃនិងជ្រើសរើសបេក្ខជនឱ្យមានតម្លាភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Upsampling (Oversampling)
ការបង្កើនទិន្នន័យ (Upsampling)
ជួយរក្សាតុល្យភាពទិន្នន័យដោយមិនបាត់បង់ព័ត៌មានដើម និងផ្តល់ឱ្យម៉ូដែលនូវទិន្នន័យគ្រប់គ្រាន់សម្រាប់រៀនពីក្រុមភាគតិច។ អាចបណ្តាលឱ្យមានបញ្ហា Overfitting និងបង្កើនទិន្នន័យរំខាន (Noise) នៅក្នុងប្រព័ន្ធដោយសារការចម្លងទិន្នន័យដដែលៗ។ ធ្វើឱ្យទិន្នន័យបេក្ខជនភេទប្រុស និងស្រីមានចំនួនស្មើគ្នា (៧០៩ នាក់) និងជួយឱ្យបេក្ខនារីម្នាក់ដែលត្រូវគេបដិសេធពីដំបូង អាចជាប់ឈ្មោះត្រឡប់មកវិញ។
Downsampling (Undersampling)
ការកាត់បន្ថយទិន្នន័យ (Downsampling)
ជួយឱ្យម៉ូដែលធ្វើការវាយតម្លៃបានទូលំទូលាយ (Generalization) កាត់បន្ថយភាពលម្អៀងទៅរកក្រុមភាគច្រើន និងសន្សំសំចៃថាមពលកុំព្យូទ័រ។ ប្រឈមនឹងការបាត់បង់ព័ត៌មាន ឬលំនាំទិន្នន័យសំខាន់ៗពីក្រុមភាគច្រើនដោយសារតែការលុបចោលកំណត់ត្រាដោយចៃដន្យ។ កាត់បន្ថយទិន្នន័យក្រុមភាគច្រើនឱ្យមានទំហំស្មើនឹងក្រុមភាគតិច (ឧទាហរណ៍៖ កាត់បន្ថយពី ១០០ មកត្រឹម ១០ ដើម្បឱ្យស្មើគ្នានឹងក្រុមមួយទៀត)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីការចំណាយលើធនធានកុំព្យូទ័រធំដុំនោះទេ ដោយសារវាប្រើប្រាស់ទិន្នន័យតូច (១០០០ ជួរ) និងម៉ូដែលសាមញ្ញ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវនៅស្ថាប័ន Pune Institute នៃប្រទេសឥណ្ឌា ដោយប្រើប្រាស់សំណុំទិន្នន័យជ្រើសរើសបុគ្គលិកដែលមានបេក្ខជន ១០០០ នាក់ (មានបុរសលើសលុប)។ ទោះបីជាទិន្នន័យនេះមិនមែនជារបស់កម្ពុជាដោយផ្ទាល់ក៏ដោយ ប៉ុន្តែវាឆ្លុះបញ្ចាំងយ៉ាងច្បាស់ពីបញ្ហាអតុល្យភាពយេនឌ័រនៅក្នុងទីផ្សារការងារ ដែលជារឿងគួរឱ្យកត់សម្គាល់បំផុតសម្រាប់ប្រទេសកម្ពុជាក្នុងការរៀបចំប្រព័ន្ធ AI នាពេលអនាគត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងទាំងនេះមានសារៈសំខាន់ និងអាចអនុវត្តបានយ៉ាងល្អនៅក្នុងបរិបទនៃការរីកចម្រើននៃប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា។

ការអនុវត្តបច្ចេកទេសកែតម្រូវទិន្នន័យទាំងនេះ នឹងជួយឱ្យស្ថាប័ននៅកម្ពុជាអាចកសាងប្រព័ន្ធ AI មួយដែលប្រកបដោយក្រមសីលធម៌ យុត្តិធម៌ និងមិនរើសអើង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ១. សិក្សាពីមូលដ្ឋានគ្រឹះនៃទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data): ស្វែងយល់ពីរបៀបកំណត់អត្តសញ្ញាណទិន្នន័យដែលមានភាពលម្អៀងដោយប្រើបណ្ណាល័យ Pandas នៅក្នុង Python ដើម្បីវិភាគរបាយទិន្នន័យ (Data Distribution)។
  2. ២. អនុវត្តបច្ចេកទេស Resampling ជាមូលដ្ឋាន: សាកល្បងសរសេរកូដដោយប្រើប្រាស់អនុគមន៍ resample ពី Scikit-Learn ដើម្បីធ្វើ Upsampling លើក្រុមទិន្នន័យភាគតិច និង Downsampling លើទិន្នន័យភាគច្រើន ឱ្យមានចំនួនស្មើគ្នា។
  3. ៣. ប្រើប្រាស់ក្បួនដោះស្រាយទំនើប (Advanced Bias Mitigation): សិក្សា និងអនុវត្តវិធីសាស្ត្របង្កើតទិន្នន័យសិប្បនិម្មិតដូចជា SMOTE (Synthetic Minority Over-sampling Technique) ដើម្បីដោះស្រាយបញ្ហា Overfitting ដែលបណ្តាលមកពីការចម្លងទិន្នន័យដើមដដែលៗ។
  4. ៤. សាងសង់ និងវាយតម្លៃភាពយុត្តិធម៌នៃម៉ូដែល: ប្រើប្រាស់ Logistic Regression ដើម្បីហ្វឹកហាត់ម៉ូដែល និងវាយតម្លៃលទ្ធផលដោយប្រៀបធៀបមុន និងក្រោយពេលកែតម្រូវទិន្នន័យ ដោយផ្តោតលើភាពត្រឹមត្រូវនៃការព្យាករណ៍សម្រាប់ក្រុមនីមួយៗ ដាច់ដោយឡែកពីគ្នា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Upsampling ដំណើរការនៃការបង្កើនចំនួនទិន្នន័យនៃក្រុមភាគតិច (Minority class) នៅក្នុងសំណុំទិន្នន័យ ដើម្បីឱ្យមានតុល្យភាពជាមួយក្រុមភាគច្រើន ដោយការចម្លងទិន្នន័យដើមដដែលៗ ឬប្រើក្បួនដើម្បីបង្កើតទិន្នន័យថ្មី។ ដូចជាការថតចម្លង (Copy) ឯកសារសំខាន់ៗដែលមានតិចតួចឱ្យបានច្រើនសន្លឹក ដើម្បីឱ្យមានចំនួនស្មើនឹងឯកសារទូទៅផ្សេងទៀត។
Downsampling ការកាត់បន្ថយទំហំទិន្នន័យនៃក្រុមភាគច្រើន (Majority class) ឱ្យមកត្រឹមចំនួនមួយដែលស្មើនឹងក្រុមភាគតិច ដោយការលុបចោលកំណត់ត្រាមួយចំនួនដោយចៃដន្យ ដើម្បីជៀសវាងម៉ូដែលលម្អៀង។ ដូចជាការដកសិស្សប្រុសមួយចំនួនចេញពីក្រុមដែលមានប្រុសច្រើនពេក ដើម្បីឱ្យចំនួនសិស្សប្រុសនិងសិស្សស្រីនៅក្នុងក្រុមមានតុល្យភាពគ្នាស្មើៗគ្នា។
SMOTE (Synthetic Minority Over-sampling Technique) បច្ចេកទេសមួយក្នុងការធ្វើ Upsampling ដែលមិនមែនគ្រាន់តែចម្លងទិន្នន័យចាស់ដដែលៗនោះទេ ប៉ុន្តែវាប្រើប្រាស់ក្បួនគណិតវិទ្យាដើម្បីបង្កើតទិន្នន័យថ្មីៗ (Synthetic data) ដែលមានលក្ខណៈស្រដៀងទៅនឹងទិន្នន័យភាគតិចដើម។ ដូចជាការយកពណ៌ក្រហមដែលមានតិចតួចមកលាយជាមួយពណ៌ទឹកក្រូច ដើម្បីបង្កើតជាពណ៌ថ្មីមួយទៀតដែលមានលក្ខណៈស្រដៀងពណ៌ក្រហម ជំនួសឱ្យការគ្រាន់តែចាក់ពណ៌ក្រហមដដែលៗ។
Overfitting បញ្ហាដែលកើតឡើងនៅពេលដែលម៉ូដែល Machine Learning រៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) និងទិន្នន័យរំខាន (Noise) ខ្លាំងពេក រហូតដល់មិនអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួបពីមុនមក។ ដូចជាសិស្សដែលទន្ទេញចាំតែវិញ្ញាសាចាស់ៗដើម្បីប្រឡង ប៉ុន្តែពេលគ្រូចេញវិញ្ញាសាថ្មីបែរជាធ្វើមិនបាន ព្រោះគាត់មិនយល់ពីមេរៀនពិតប្រាកដ។
Generative Adversarial Networks (GANs) ប្រព័ន្ធ AI ដែលមានបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតចំនួនពីរប្រកួតប្រជែងគ្នា (មួយបង្កើតទិន្នន័យ មួយទៀតពិនិត្យទិន្នន័យ) ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមើលទៅដូចជារបស់ពិត។ ក្នុងករណីនេះ វាត្រូវបានប្រើដើម្បីបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិចដើម្បីដោះស្រាយភាពលម្អៀង។ ដូចជាជាងគំនូរក្លែងក្លាយខិតខំគូររូបឱ្យដូចពិតប្រាកដ ខណៈពេលដែលអ្នកត្រួតពិនិត្យសិល្បៈខិតខំចាប់កំហុស រហូតទាល់តែអ្នកត្រួតពិនិត្យមើលលែងដឹងថាមួយណាពិតមួយណាក្លែងក្លាយ។
Adversarial Debiasing បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងដោយប្រើប្រព័ន្ធពីរប្រកួតគ្នា៖ មួយព្យាករណ៍លទ្ធផល និងមួយទៀតព្យាយាមទាយថាតើលទ្ធផលនោះមានភាពលម្អៀងដែរឬទេ។ វាដំណើរការរហូតដល់ប្រព័ន្ធទីពីរលែងអាចរកឃើញភាពលម្អៀង។ ដូចជាចៅក្រមម្នាក់ខិតខំកាត់ក្តីឱ្យយុត្តិធម៌បំផុត ដើម្បីកុំឱ្យអ្នកសារព័ត៌មានដែលចាំតែចាប់កំហុស អាចរកឃើញចំណុចលម្អៀងណាមួយពីការកាត់ក្តីនោះបាន។
Meta-learning បច្ចេកទេសនៃការ "រៀនពីរបៀបរៀន" ដោយបង្វឹកម៉ូដែលឱ្យដោះស្រាយកិច្ចការផ្សេងៗគ្នាជាច្រើន ដើម្បីឱ្យវាអាចសម្របខ្លួននិងរៀនកិច្ចការថ្មីៗបានយ៉ាងរហ័ស ទោះបីជាមានទិន្នន័យតិចតួចក៏ដោយ។ ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យចេះពីរបៀបអានសៀវភៅនិងស្រាវជ្រាវដោយខ្លួនឯង ដូច្នេះនៅពេលគាត់ជួបមុខវិជ្ជាថ្មី គាត់អាចរៀនយល់បានលឿនជាងក្មេងដែលរង់ចាំតែគ្រូបង្រៀន។
Distributionally Robust Optimization (DRO) វិធីសាស្ត្របង្វឹកម៉ូដែលកុំព្យូទ័រឱ្យអាចដំណើរការបានល្អបំផុត សូម្បីតែនៅក្នុងស្ថានភាពអាក្រក់បំផុត (Worst-case scenarios) ឬនៅពេលដែលរបាយទិន្នន័យមានការប្រែប្រួលខ្លាំង ដែលជាទូទៅពាក់ព័ន្ធនឹងក្រុមទិន្នន័យដែលកម្រមាន។ ដូចជាការបង្ហាត់ទាហានឱ្យចេះប្រយុទ្ធក្នុងស្ថានភាពអាក្រក់បំផុតដូចជាភ្លៀងធ្លាក់ខ្លាំង ឬខ្វះអាវុធ ដើម្បីធានាថាពួកគេអាចតស៊ូបានគ្រប់កាលៈទេសៈទាំងអស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖