Original Title: Mitigating Intersectional Bias in Machine Learning: A Novel Approach to Fairness in Automated Decision-Making.
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកាត់បន្ថយភាពលម្អៀងអន្តរកម្មនៅក្នុងការរៀនដោយម៉ាស៊ីន៖ អភិក្រមថ្មីឆ្ពោះទៅរកភាពយុត្តិធម៌ក្នុងការធ្វើសេចក្តីសម្រេចដោយស្វ័យប្រវត្តិ

ចំណងជើងដើម៖ Mitigating Intersectional Bias in Machine Learning: A Novel Approach to Fairness in Automated Decision-Making.

អ្នកនិពន្ធ៖ Wisdom Chekwube Chukwudi (Edge Hill University)

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធក្បួនដោះស្រាយការរៀនដោយម៉ាស៊ីន (Machine Learning) ជារឿយៗឆ្លុះបញ្ចាំង និងពង្រីកភាពលម្អៀងដែលមានស្រាប់ ជាពិសេសចំពោះបុគ្គលដែលមានអត្តសញ្ញាណជាន់គ្នា (ឧទាហរណ៍៖ ស្ត្រីស្បែកខ្មៅចំណូលទាប) ដែលប្រឈមនឹងការរើសអើងផ្ទួនៗនៅក្នុងការសម្រេចចិត្តដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះ (Mixed-methods approach) ដោយរួមបញ្ចូលការវិភាគបរិមាណលើទិន្នន័យជាក់ស្តែង និងការសម្ភាសន៍គុណវិស័យ ដើម្បីវាយតម្លៃអន្តរកម្មនៃភាពលម្អៀង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machines (SVM)
ម៉ាស៊ីន Support Vector (SVM)
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានពិន្ទុយុត្តិធម៌ល្អជាងគេបើធៀបនឹងម៉ូដែលផ្សេងទៀត។ អាចមានភាពស្មុគស្មាញក្នុងការបកស្រាយលទ្ធផលនៃការសម្រេចចិត្ត (Explainability)។ សម្រេចបានភាពត្រឹមត្រូវ ៨៦,៩% សមភាពប្រជាសាស្ត្រ (DP) ០,៨៥ និងឱកាសស្មើគ្នា (EO) ០,៨៨។
Logistic Regression
តម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression)
ជាវិធីសាស្ត្រមូលដ្ឋានដែលងាយស្រួលប្រើប្រាស់ និងមានកម្រិតយុត្តិធម៌មធ្យមដែលអាចទទួលយកបាន។ មានកម្រិតភាពត្រឹមត្រូវ និងពិន្ទុយុត្តិធម៌ទាបជាងក្បួនដោះស្រាយ SVM បន្តិច។ សម្រេចបានភាពត្រឹមត្រូវ ៨៥,៣% និងសមភាពប្រជាសាស្ត្រ (DP) ០,៧៨។
Decision Trees
មែកធាងសេចក្តីសម្រេច (Decision Trees)
មានភាពងាយស្រួលខ្លាំងក្នុងការយល់ និងបកស្រាយពីដំណើរការនៃការសម្រេចចិត្ត។ ទទួលបានពិន្ទុទាបបំផុតទាំងលើភាពត្រឹមត្រូវ និងរង្វាស់ភាពយុត្តិធម៌ ដែលងាយនឹងបង្កើតភាពលម្អៀង។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៨២,៧% និងផលប៉ះពាល់មិនស្មើគ្នា (DI) ០,៦៨។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមសម្រាប់ដំណើរការទិន្នន័យ និងកម្មវិធីកូដកម្រិតមូលដ្ឋានក្នុងការរៀនដោយម៉ាស៊ីន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពីសហរដ្ឋអាមេរិក (ដូចជា COMPAS) ដែលផ្តោតជាចម្បងលើពូជសាសន៍ (ស្បែកខ្មៅ ស្បែកស និងហ៊ីស្ប៉ានិក) និងយេនឌ័រ។ ទោះបីជាប្រជាសាស្ត្រទាំងនេះមិនឆ្លុះបញ្ចាំងពីបរិបទកម្ពុជាដោយផ្ទាល់ក៏ដោយ ប៉ុន្តែវិធីសាស្ត្រនៃការវាយតម្លៃភាពលម្អៀងអន្តរកម្ម (Intersectional Bias) នេះមានសារៈសំខាន់ណាស់សម្រាប់កម្ពុជា ដើម្បីការពារការរើសអើងប្រព័ន្ធលើប្រជាជននៅតំបន់ជនបទ ជនជាតិភាគតិច ឬស្ត្រីដែលមានចំណូលទាប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

អភិក្រមនៃការវាយតម្លៃភាពយុត្តិធម៌នេះ មានអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិនៅកម្ពុជាប្រកបដោយបរិយាប័ន្ន។

ការរួមបញ្ចូលរង្វាស់យុត្តិធម៌អន្តរកម្មនឹងជួយឱ្យស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជាកសាងទំនុកចិត្តកាន់តែខ្ពស់លើប្រព័ន្ធបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) របស់ខ្លួន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះនៃភាពលម្អៀងក្នុងក្បួនដោះស្រាយ: ចាប់ផ្តើមដោយការស្រាវជ្រាវអំពីទ្រឹស្តី Intersectionality និងរបៀបដែលភាពលម្អៀងត្រូវបានបញ្ចូលទៅក្នុងទិន្នន័យបណ្តុះបណ្តាល (Training Data)។
  2. អនុវត្តការសរសេរកូដសម្រាប់ Machine Learning: ប្រើប្រាស់កម្មវិធី Python និងបណ្ណាល័យ scikit-learn ដើម្បីសាងសង់ម៉ូដែលមូលដ្ឋានដូចជា Logistic Regression និង Support Vector Machines។
  3. សរសេរកូដរង្វាស់ភាពយុត្តិធម៌ (Fairness Metrics): បង្កើតអនុគមន៍ (Functions) ដើម្បីគណនារង្វាស់ Demographic Parity (DP) និង Equal Opportunity (EO) ដោយផ្តោតលើក្រុមប្រជាសាស្ត្រចម្រុះ។
  4. ធ្វើសវនកម្មក្បួនដោះស្រាយលើទិន្នន័យក្នុងស្រុក (Algorithmic Auditing): ប្រមូល និងសាកល្បងម៉ូដែលរបស់អ្នកជាមួយនឹងសំណុំទិន្នន័យជាក់ស្តែងនៅកម្ពុជា (ឧទាហរណ៍៖ ទិន្នន័យប្រាក់កម្ចី ឬទិន្នន័យអប់រំ) ដើម្បីស្វែងរកនិងកាត់បន្ថយភាពលម្អៀងដែលលាក់កំបាំង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Algorithmic Bias ភាពលម្អៀងជាប្រព័ន្ធ និងមិនយុត្តិធម៌ដែលកើតចេញពីម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលជារឿយៗកើតឡើងដោយសារទិន្នន័យបណ្តុះបណ្តាលមានផ្ទុកនូវការរើសអើងពីមុនមក។ ដូចជាកូនក្មេងដែលរៀនទម្លាប់អាក្រក់ពីឪពុកម្តាយ ម៉ាស៊ីនក៏រៀនភាពលម្អៀងពីទិន្នន័យចាស់ៗដែលមនុស្សបានបញ្ចូនទៅឱ្យវាដែរ។
Intersectionality ទ្រឹស្តីដែលពន្យល់ពីរបៀបដែលអត្តសញ្ញាណសង្គមផ្សេងៗគ្នា (ដូចជា យេនឌ័រ ពូជសាសន៍ និងស្ថានភាពសេដ្ឋកិច្ច) ត្រួតស៊ីគ្នា បង្កើតបានជាបទពិសោធន៍នៃការរើសអើង ឬអត្ថប្រយោជន៍ខុសៗគ្នា និងស្មុគស្មាញ។ ដូចជាការដើរនៅផ្លូវបំបែកដែលមានភ្លៀងធ្លាក់ខ្លាំងផង និងខ្យល់បោកបក់ផង អ្នកនឹងទទួលរងការលំបាកទ្វេដង ឬត្រីគុណ ជាងអ្នកដែលប្រឈមមុខតែនឹងភ្លៀង ឬខ្យល់តែម្យ៉ាង។
Adversarial Debiasing បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងក្នុងម៉ូដែល AI ក្នុងអំឡុងពេលបណ្តុះបណ្តាល ដោយប្រើម៉ូដែលទីពីរដើម្បីព្យាយាមទាយពីលក្ខណៈរសើប (ដូចជាយេនឌ័រ) ហើយដាក់ពិន័យម៉ូដែលទីមួយប្រសិនបើវាពឹងផ្អែកលើព័ត៌មានទាំងនោះ។ ដូចជាការលេងលាក់រក ដែលអ្នកទីមួយព្យាយាមលាក់អត្តសញ្ញាណខ្លួន ចំណែកអ្នកទីពីរព្យាយាមទាយថាគេជានរណា ដើម្បីជួយឱ្យអ្នកទីមួយចេះលាក់ខ្លួន (លាក់ភាពលម្អៀង) កាន់តែជិត។
Demographic Parity រង្វាស់យុត្តិធម៌ដែលធានាថា អត្រានៃការសម្រេចចិត្តជាវិជ្ជមានរបស់ក្បួនដោះស្រាយគឺដូចគ្នា ឬស្មើគ្នាសម្រាប់គ្រប់ក្រុមប្រជាសាស្ត្រទាំងអស់ (ឧទាហរណ៍ មិនថាប្រុសឬស្រី ត្រូវមានអត្រាទទួលការងារស្មើគ្នា)។ ដូចជាការកាត់នំខេកចែកក្មេងៗ ដោយតម្រូវឱ្យក្មេងប្រុស និងក្មេងស្រីទទួលបានចំណែកនំប៉ុនៗគ្នាទោះបីជាយ៉ាងណាក៏ដោយ។
Equal Opportunity រង្វាស់យុត្តិធម៌ដែលធានាថា បុគ្គលដែលមានលក្ខណៈសម្បត្តិ ឬសមត្ថភាពគ្រប់គ្រាន់ពិតប្រាកដ (True Positives) មកពីក្រុមប្រជាសាស្ត្រផ្សេងៗគ្នា មានឱកាសទទួលបានលទ្ធផលវិជ្ជមានស្មើៗគ្នា។ ដូចជាការប្រឡងចូលរៀន អ្នកដែលរៀនពូកែពិតប្រាកដត្រូវតែមានឱកាសប្រឡងជាប់ដូចៗគ្នា ដោយមិនខ្វល់ថាពួកគេមកពីគ្រួសារអ្នកមាន ឬអ្នកក្រឡើយ។
Disparate Impact ការវាស់វែងពីសមាមាត្រនៃលទ្ធផលអំណោយផលរវាងក្រុមផ្សេងៗ ដោយជាទូទៅគេប្រើគោលការណ៍ ៨០% ពោលគឺក្រុមរងគ្រោះមិនគួរទទួលបានលទ្ធផលវិជ្ជមានតិចជាង ៨០% នៃក្រុមដែលទទួលបានប្រយោជន៍ខ្ពស់ជាងគេនោះទេ។ ដូចជាការដាក់ច្បាប់មួយដែលស្តាប់ទៅដូចជាស្មើភាពគ្នា ប៉ុន្តែការអនុវត្តជាក់ស្តែងបែរជាធ្វើឱ្យក្រុមមួយជួបការលំបាកជាងក្រុមមួយទៀតយ៉ាងច្បាស់ក្រឡែត។
Explainable AI (XAI) សំណុំបច្ចេកទេស និងវិធីសាស្ត្រដែលធ្វើឱ្យដំណើរការគិត ឬការសម្រេចចិត្តរបស់ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) មានភាពតម្លាភាព និងច្បាស់លាស់ ដែលមនុស្សអាចយល់ និងបកស្រាយបាន។ ដូចជាសិស្សដែលមិនត្រឹមតែសរសេរចម្លើយត្រូវលើក្រដាសប្រឡងប៉ុណ្ណោះទេ តែថែមទាំងបង្ហាញពីជំហាននៃការគណនាបូកដកឱ្យគ្រូបានឃើញ និងយល់ច្បាស់ទៀតផង។
Support Vector Machines (SVM) ក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised learning) ប្រើសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ (Classification) ដោយស្វែងរកបន្ទាត់ ឬប្លង់ដ៏ល្អបំផុតដើម្បីបំបែកទិន្នន័យទៅជាក្រុមផ្សេងៗគ្នា។ ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ត្រឹមត្រូវបំផុតមួយនៅកណ្តាលរវាងផ្លែប៉ោម និងផ្លែក្រូច ដើម្បីបំបែកផ្លែឈើទាំងពីរប្រភេទនេះឱ្យដាច់ពីគ្នាច្បាស់លាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖