Original Title: Mitigating Intersectional Bias in Machine Learning: A Novel Approach to Fairness in Automated Decision-Making.
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកាត់បន្ថយភាពលម្អៀងអន្តរកម្មនៅក្នុងការរៀនដោយម៉ាស៊ីន៖ អភិក្រមថ្មីឆ្ពោះទៅរកភាពយុត្តិធម៌ក្នុងការធ្វើសេចក្តីសម្រេចដោយស្វ័យប្រវត្តិ

ចំណងជើងដើម៖ Mitigating Intersectional Bias in Machine Learning: A Novel Approach to Fairness in Automated Decision-Making.

អ្នកនិពន្ធ៖ Wisdom Chekwube Chukwudi (Edge Hill University)

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធក្បួនដោះស្រាយការរៀនដោយម៉ាស៊ីន (Machine Learning) ជារឿយៗឆ្លុះបញ្ចាំង និងពង្រីកភាពលម្អៀងដែលមានស្រាប់ ជាពិសេសចំពោះបុគ្គលដែលមានអត្តសញ្ញាណជាន់គ្នា (ឧទាហរណ៍៖ ស្ត្រីស្បែកខ្មៅចំណូលទាប) ដែលប្រឈមនឹងការរើសអើងផ្ទួនៗនៅក្នុងការសម្រេចចិត្តដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះ (Mixed-methods approach) ដោយរួមបញ្ចូលការវិភាគបរិមាណលើទិន្នន័យជាក់ស្តែង និងការសម្ភាសន៍គុណវិស័យ ដើម្បីវាយតម្លៃអន្តរកម្មនៃភាពលម្អៀង។

ការវាយតម្លៃក្បួនដោះស្រាយ (Algorithm Evaluation): Logistic Regression, Decision Trees និង Support Vector Machines (SVM)
ការវិភាគសំណុំទិន្នន័យ (Dataset Analysis): ការប្រើប្រាស់សំណុំទិន្នន័យ COMPAS, Adult Income និង UCI Credit Approval
រង្វាស់ភាពយុត្តិធម៌ (Fairness Metrics): សមភាពប្រជាសាស្ត្រ (Demographic Parity), ឱកាសស្មើគ្នា (Equal Opportunity) និងផលប៉ះពាល់មិនស្មើគ្នា (Disparate Impact)
ការសម្ភាសន៍ពាក់កណ្តាលរចនាសម្ព័ន្ធ (Semi-structured Interviews) ដើម្បីស្វែងយល់ពីបទពិសោធន៍នៃការរងគ្រោះដោយភាពលម្អៀង

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយ Support Vector Machine (SVM) ទទួលបានលទ្ធផលល្អបំផុត ដោយមានភាពត្រឹមត្រូវ ៨៦,៩% ព្រមទាំងពិន្ទុយុត្តិធម៌ខ្ពស់ជាងគេ (DP=0.85, EO=0.88, DI=0.80) បើធៀបនឹងម៉ូដែលផ្សេងទៀត។
ការវិភាគអន្តរកម្មបង្ហាញថា ស្ត្រីស្បែកខ្មៅចំណូលទាប និងស្ត្រីហ៊ីស្ប៉ានិកចំណូលទាប ទទួលបានអត្រាលទ្ធផលវិជ្ជមានទាបបំផុតត្រឹមតែ ៥៥% និង ៥៨% ខណៈបុរសស្បែកសចំណូលខ្ពស់ទទួលបាន ៩០%។
ការសិក្សាផ្តល់អនុសាសន៍ឱ្យមានការអនុវត្តរង្វាស់ភាពយុត្តិធម៌អន្តរកម្ម ការធ្វើសវនកម្មក្បួនដោះស្រាយជាប្រព័ន្ធ និងការប្រើប្រាស់បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI) ដើម្បីធានាបាននូវសមធម៌ក្នុងប្រព័ន្ធស្វ័យប្រវត្តិ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machines (SVM) ម៉ាស៊ីន Support Vector (SVM)	ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានពិន្ទុយុត្តិធម៌ល្អជាងគេបើធៀបនឹងម៉ូដែលផ្សេងទៀត។	អាចមានភាពស្មុគស្មាញក្នុងការបកស្រាយលទ្ធផលនៃការសម្រេចចិត្ត (Explainability)។	សម្រេចបានភាពត្រឹមត្រូវ ៨៦,៩% សមភាពប្រជាសាស្ត្រ (DP) ០,៨៥ និងឱកាសស្មើគ្នា (EO) ០,៨៨។
Logistic Regression តម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression)	ជាវិធីសាស្ត្រមូលដ្ឋានដែលងាយស្រួលប្រើប្រាស់ និងមានកម្រិតយុត្តិធម៌មធ្យមដែលអាចទទួលយកបាន។	មានកម្រិតភាពត្រឹមត្រូវ និងពិន្ទុយុត្តិធម៌ទាបជាងក្បួនដោះស្រាយ SVM បន្តិច។	សម្រេចបានភាពត្រឹមត្រូវ ៨៥,៣% និងសមភាពប្រជាសាស្ត្រ (DP) ០,៧៨។
Decision Trees មែកធាងសេចក្តីសម្រេច (Decision Trees)	មានភាពងាយស្រួលខ្លាំងក្នុងការយល់ និងបកស្រាយពីដំណើរការនៃការសម្រេចចិត្ត។	ទទួលបានពិន្ទុទាបបំផុតទាំងលើភាពត្រឹមត្រូវ និងរង្វាស់ភាពយុត្តិធម៌ ដែលងាយនឹងបង្កើតភាពលម្អៀង។	សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៨២,៧% និងផលប៉ះពាល់មិនស្មើគ្នា (DI) ០,៦៨។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមសម្រាប់ដំណើរការទិន្នន័យ និងកម្មវិធីកូដកម្រិតមូលដ្ឋានក្នុងការរៀនដោយម៉ាស៊ីន។

Software: បរិស្ថានកម្មវិធីសរសេរកូដ Python និងបណ្ណាល័យសូហ្វវែរ (Libraries) ដូចជា scikit-learn សម្រាប់ការធ្វើម៉ូដែល។
Dataset: សំណុំទិន្នន័យសាធារណៈរួមមាន COMPAS, Adult Income, និង UCI Credit Approval។
Expertise: ចំណេះដឹងផ្នែកក្បួនដោះស្រាយម៉ាស៊ីន (Machine Learning Algorithms) ស្ថិតិ និងការវិភាគទិន្នន័យគុណវិស័យ (Thematic Analysis)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពីសហរដ្ឋអាមេរិក (ដូចជា COMPAS) ដែលផ្តោតជាចម្បងលើពូជសាសន៍ (ស្បែកខ្មៅ ស្បែកស និងហ៊ីស្ប៉ានិក) និងយេនឌ័រ។ ទោះបីជាប្រជាសាស្ត្រទាំងនេះមិនឆ្លុះបញ្ចាំងពីបរិបទកម្ពុជាដោយផ្ទាល់ក៏ដោយ ប៉ុន្តែវិធីសាស្ត្រនៃការវាយតម្លៃភាពលម្អៀងអន្តរកម្ម (Intersectional Bias) នេះមានសារៈសំខាន់ណាស់សម្រាប់កម្ពុជា ដើម្បីការពារការរើសអើងប្រព័ន្ធលើប្រជាជននៅតំបន់ជនបទ ជនជាតិភាគតិច ឬស្ត្រីដែលមានចំណូលទាប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

អភិក្រមនៃការវាយតម្លៃភាពយុត្តិធម៌នេះ មានអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិនៅកម្ពុជាប្រកបដោយបរិយាប័ន្ន។

វិស័យហិរញ្ញវត្ថុ និងមីក្រូហិរញ្ញវត្ថុ (Microfinance/Banking): អាចប្រើដើម្បីវាយតម្លៃហានិភ័យឥណទាន (Credit Scoring) ដោយយុត្តិធម៌ ការពារការរើសអើងដោយប្រយោលទៅលើស្ត្រី ឬកសិករនៅតាមបណ្តាខេត្ត។
ប្រព័ន្ធជ្រើសរើសបុគ្គលិកដោយស្វ័យប្រវត្តិ (Automated HR Systems): ជួយធានាថាកម្មវិធី AI ដែលប្រើប្រាស់ក្នុងការរើសបុគ្គលិក មិនមានភាពលម្អៀងទៅលើភេទ ស្ថានភាពសេដ្ឋកិច្ច ឬប្រវត្តិសង្គមរបស់អ្នកដាក់ពាក្យ។
វិស័យសុខាភិបាល (Healthcare Allocation): អាចជួយក្នុងការបែងចែកធនធានវេជ្ជសាស្ត្រ ឬការវាយតម្លៃហានិភ័យសុខភាពដោយមិនមានភាពលម្អៀងរវាងអ្នកជំងឺនៅទីក្រុង និងជនបទ។

ការរួមបញ្ចូលរង្វាស់យុត្តិធម៌អន្តរកម្មនឹងជួយឱ្យស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជាកសាងទំនុកចិត្តកាន់តែខ្ពស់លើប្រព័ន្ធបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) របស់ខ្លួន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃភាពលម្អៀងក្នុងក្បួនដោះស្រាយ: ចាប់ផ្តើមដោយការស្រាវជ្រាវអំពីទ្រឹស្តី Intersectionality និងរបៀបដែលភាពលម្អៀងត្រូវបានបញ្ចូលទៅក្នុងទិន្នន័យបណ្តុះបណ្តាល (Training Data)។
អនុវត្តការសរសេរកូដសម្រាប់ Machine Learning: ប្រើប្រាស់កម្មវិធី Python និងបណ្ណាល័យ scikit-learn ដើម្បីសាងសង់ម៉ូដែលមូលដ្ឋានដូចជា Logistic Regression និង Support Vector Machines។
សរសេរកូដរង្វាស់ភាពយុត្តិធម៌ (Fairness Metrics): បង្កើតអនុគមន៍ (Functions) ដើម្បីគណនារង្វាស់ Demographic Parity (DP) និង Equal Opportunity (EO) ដោយផ្តោតលើក្រុមប្រជាសាស្ត្រចម្រុះ។
ធ្វើសវនកម្មក្បួនដោះស្រាយលើទិន្នន័យក្នុងស្រុក (Algorithmic Auditing): ប្រមូល និងសាកល្បងម៉ូដែលរបស់អ្នកជាមួយនឹងសំណុំទិន្នន័យជាក់ស្តែងនៅកម្ពុជា (ឧទាហរណ៍៖ ទិន្នន័យប្រាក់កម្ចី ឬទិន្នន័យអប់រំ) ដើម្បីស្វែងរកនិងកាត់បន្ថយភាពលម្អៀងដែលលាក់កំបាំង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Algorithmic Bias	ភាពលម្អៀងជាប្រព័ន្ធ និងមិនយុត្តិធម៌ដែលកើតចេញពីម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលជារឿយៗកើតឡើងដោយសារទិន្នន័យបណ្តុះបណ្តាលមានផ្ទុកនូវការរើសអើងពីមុនមក។	ដូចជាកូនក្មេងដែលរៀនទម្លាប់អាក្រក់ពីឪពុកម្តាយ ម៉ាស៊ីនក៏រៀនភាពលម្អៀងពីទិន្នន័យចាស់ៗដែលមនុស្សបានបញ្ចូនទៅឱ្យវាដែរ។
Intersectionality	ទ្រឹស្តីដែលពន្យល់ពីរបៀបដែលអត្តសញ្ញាណសង្គមផ្សេងៗគ្នា (ដូចជា យេនឌ័រ ពូជសាសន៍ និងស្ថានភាពសេដ្ឋកិច្ច) ត្រួតស៊ីគ្នា បង្កើតបានជាបទពិសោធន៍នៃការរើសអើង ឬអត្ថប្រយោជន៍ខុសៗគ្នា និងស្មុគស្មាញ។	ដូចជាការដើរនៅផ្លូវបំបែកដែលមានភ្លៀងធ្លាក់ខ្លាំងផង និងខ្យល់បោកបក់ផង អ្នកនឹងទទួលរងការលំបាកទ្វេដង ឬត្រីគុណ ជាងអ្នកដែលប្រឈមមុខតែនឹងភ្លៀង ឬខ្យល់តែម្យ៉ាង។
Adversarial Debiasing	បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងក្នុងម៉ូដែល AI ក្នុងអំឡុងពេលបណ្តុះបណ្តាល ដោយប្រើម៉ូដែលទីពីរដើម្បីព្យាយាមទាយពីលក្ខណៈរសើប (ដូចជាយេនឌ័រ) ហើយដាក់ពិន័យម៉ូដែលទីមួយប្រសិនបើវាពឹងផ្អែកលើព័ត៌មានទាំងនោះ។	ដូចជាការលេងលាក់រក ដែលអ្នកទីមួយព្យាយាមលាក់អត្តសញ្ញាណខ្លួន ចំណែកអ្នកទីពីរព្យាយាមទាយថាគេជានរណា ដើម្បីជួយឱ្យអ្នកទីមួយចេះលាក់ខ្លួន (លាក់ភាពលម្អៀង) កាន់តែជិត។
Demographic Parity	រង្វាស់យុត្តិធម៌ដែលធានាថា អត្រានៃការសម្រេចចិត្តជាវិជ្ជមានរបស់ក្បួនដោះស្រាយគឺដូចគ្នា ឬស្មើគ្នាសម្រាប់គ្រប់ក្រុមប្រជាសាស្ត្រទាំងអស់ (ឧទាហរណ៍ មិនថាប្រុសឬស្រី ត្រូវមានអត្រាទទួលការងារស្មើគ្នា)។	ដូចជាការកាត់នំខេកចែកក្មេងៗ ដោយតម្រូវឱ្យក្មេងប្រុស និងក្មេងស្រីទទួលបានចំណែកនំប៉ុនៗគ្នាទោះបីជាយ៉ាងណាក៏ដោយ។
Equal Opportunity	រង្វាស់យុត្តិធម៌ដែលធានាថា បុគ្គលដែលមានលក្ខណៈសម្បត្តិ ឬសមត្ថភាពគ្រប់គ្រាន់ពិតប្រាកដ (True Positives) មកពីក្រុមប្រជាសាស្ត្រផ្សេងៗគ្នា មានឱកាសទទួលបានលទ្ធផលវិជ្ជមានស្មើៗគ្នា។	ដូចជាការប្រឡងចូលរៀន អ្នកដែលរៀនពូកែពិតប្រាកដត្រូវតែមានឱកាសប្រឡងជាប់ដូចៗគ្នា ដោយមិនខ្វល់ថាពួកគេមកពីគ្រួសារអ្នកមាន ឬអ្នកក្រឡើយ។
Disparate Impact	ការវាស់វែងពីសមាមាត្រនៃលទ្ធផលអំណោយផលរវាងក្រុមផ្សេងៗ ដោយជាទូទៅគេប្រើគោលការណ៍ ៨០% ពោលគឺក្រុមរងគ្រោះមិនគួរទទួលបានលទ្ធផលវិជ្ជមានតិចជាង ៨០% នៃក្រុមដែលទទួលបានប្រយោជន៍ខ្ពស់ជាងគេនោះទេ។	ដូចជាការដាក់ច្បាប់មួយដែលស្តាប់ទៅដូចជាស្មើភាពគ្នា ប៉ុន្តែការអនុវត្តជាក់ស្តែងបែរជាធ្វើឱ្យក្រុមមួយជួបការលំបាកជាងក្រុមមួយទៀតយ៉ាងច្បាស់ក្រឡែត។
Explainable AI (XAI)	សំណុំបច្ចេកទេស និងវិធីសាស្ត្រដែលធ្វើឱ្យដំណើរការគិត ឬការសម្រេចចិត្តរបស់ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) មានភាពតម្លាភាព និងច្បាស់លាស់ ដែលមនុស្សអាចយល់ និងបកស្រាយបាន។	ដូចជាសិស្សដែលមិនត្រឹមតែសរសេរចម្លើយត្រូវលើក្រដាសប្រឡងប៉ុណ្ណោះទេ តែថែមទាំងបង្ហាញពីជំហាននៃការគណនាបូកដកឱ្យគ្រូបានឃើញ និងយល់ច្បាស់ទៀតផង។
Support Vector Machines (SVM)	ក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ (Supervised learning) ប្រើសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ (Classification) ដោយស្វែងរកបន្ទាត់ ឬប្លង់ដ៏ល្អបំផុតដើម្បីបំបែកទិន្នន័យទៅជាក្រុមផ្សេងៗគ្នា។	ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ត្រឹមត្រូវបំផុតមួយនៅកណ្តាលរវាងផ្លែប៉ោម និងផ្លែក្រូច ដើម្បីបំបែកផ្លែឈើទាំងពីរប្រភេទនេះឱ្យដាច់ពីគ្នាច្បាស់លាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖