Original Title: Algorithmic Bias Playbook
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

សៀវភៅណែនាំស្តីពីភាពលំអៀងនៃក្បួនដោះស្រាយ (Algorithmic Bias Playbook)

ចំណងជើងដើម៖ Algorithmic Bias Playbook

អ្នកនិពន្ធ៖ Ziad Obermeyer (Center for Applied AI at Chicago Booth), Rebecca Nissan, Michael Stern, Stephanie Eaneff, Emily Joy Bembeneck, Sendhil Mullainathan

ឆ្នាំបោះពុម្ព៖ 2021 (Center for Applied AI at Chicago Booth)

វិស័យសិក្សា៖ Applied Artificial Intelligence / Health Policy

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាភាពលំអៀងនៃក្បួនដោះស្រាយ (Algorithmic Bias) នៅក្នុងវិស័យសុខាភិបាល ដែលក្បួនដោះស្រាយត្រូវបានប្រើដើម្បីកំណត់ថាអ្នកជំងឺណាគួរទទួលបានជំនួយបន្ថែម ប៉ុន្តែបែរជាផ្តល់អាទិភាពដល់អ្នកជំងឺស្បែកសដែលមានសុខភាពល្អ ជាងអ្នកជំងឺស្បែកខ្មៅដែលមានជំងឺធ្ងន់ធ្ងរ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានបង្កើតក្របខ័ណ្ឌការងារចំនួន ៤ ជំហាន ដើម្បីជួយស្ថាប័ននានាកំណត់ វាស់វែង និងកាត់បន្ថយភាពលំអៀង ដោយផ្តោតលើការជ្រើសរើសគោលដៅព្យាករណ៍ឱ្យបានត្រឹមត្រូវ៖

បញ្ជីសារពើភណ្ឌក្បួនដោះស្រាយ (Algorithm Inventory)៖ ការបង្កើតបញ្ជីនៃក្បួនដោះស្រាយទាំងអស់ដែលកំពុងប្រើប្រាស់ក្នុងស្ថាប័ន។
ការស្វែងរកភាពលំអៀង (Screening for Bias)៖ ការប្រៀបធៀបរវាងគោលដៅជាក់ស្តែង (Actual Target) ដូចជាការចំណាយ និងគោលដៅដែលចង់បាន (Ideal Target) ដូចជាតម្រូវការសុខភាព។
ការបណ្តុះបណ្តាលឡើងវិញ (Retraining)៖ ការកែតម្រូវម៉ូដែលដោយប្រើស្លាកទិន្នន័យថ្មីដែលតំណាងឱ្យតម្រូវការជាក់ស្តែង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ភាពលំអៀងភាគច្រើនកើតចេញពី 'Label Choice Bias' គឺនៅពេលដែលក្បួនដោះស្រាយព្យាករណ៍ពីអថេរតំណាង (Proxy) ដូចជាការចំណាយផ្នែកវេជ្ជសាស្រ្ត ជំនួសឱ្យតម្រូវការសុខភាពជាក់ស្តែង ដែលបណ្តាលឱ្យមានការរើសអើងព្រោះអ្នកជំងឺស្បែកខ្មៅចំណាយប្រាក់តិចជាងអ្នកជំងឺស្បែកសក្នុងកម្រិតជំងឺដូចគ្នា។
ការប្រើប្រាស់ការចំណាយ (Cost) ជាគោលដៅព្យាករណ៍បានធ្វើឱ្យអ្នកជំងឺស្បែកខ្មៅដែលមានជំងឺធ្ងន់ធ្ងរត្រូវបានមើលរំលង ប៉ុន្តែនៅពេលបណ្តុះបណ្តាលម៉ូដែលឡើងវិញដោយប្រើទិន្នន័យសុខភាពផ្ទាល់ ចំនួនអ្នកជំងឺស្បែកខ្មៅដែលទទួលបានជំនួយបានកើនឡើងពី ១៤% ទៅ ២៧%។
ភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ (Prediction Accuracy) លើគោលដៅជាក់ស្តែងមិនធានានូវភាពយុត្តិធម៌ទេ ប្រសិនបើគោលដៅនោះខ្លួនឯងមានភាពលំអៀងតាំងពីដើម។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Cost Prediction (Original Algorithm) ការព្យាករណ៍ការចំណាយ (Cost Prediction) ជាគោលដៅជាក់ស្តែង	ងាយស្រួលអនុវត្តព្រោះទិន្នន័យចំណាយមានស្រាប់នៅក្នុងប្រព័ន្ធទូទាត់ប្រាក់ ហើយវាមានទំនាក់ទំនងខ្លះជាមួយស្ថានភាពសុខភាពទូទៅ។	មានភាពលំអៀងខ្ពស់ (Label Choice Bias) ព្រោះវាសន្មតថាអ្នកដែលចំណាយប្រាក់ច្រើនគឺជាអ្នកឈឺខ្លាំង ប៉ុន្តែជាក់ស្តែងអ្នកក្រីក្រ ឬក្រុមជនជាតិភាគតិចអាចមានជំងឺធ្ងន់ធ្ងរតែមិនសូវទទួលបានសេវាព្យាបាល។	ជ្រើសរើសអ្នកជំងឺស្បែកខ្មៅបានត្រឹមតែ ១៤% ប៉ុណ្ណោះសម្រាប់កម្មវិធីជំនួយបន្ថែម បើទោះបីជាពួកគេមានតម្រូវការសុខភាពខ្ពស់ក៏ដោយ។
Health Needs Prediction (Retrained Algorithm) ការព្យាករណ៍តម្រូវការសុខភាព (Health Needs Prediction) ដោយប្រើចំនួនជំងឺរ៉ាំរ៉ៃសកម្ម	តម្រឹមគោលដៅរបស់ក្បួនដោះស្រាយ (Algorithm) ទៅនឹងតម្រូវការជាក់ស្តែងរបស់អ្នកជំងឺ និងកាត់បន្ថយការរើសអើងដែលកើតចេញពីលទ្ធភាពទទួលបានសេវា។	តម្រូវឱ្យមានការប្រមូលទិន្នន័យសុខភាពលម្អិតជាងមុន (ដូចជាលទ្ធផលពិសោធន៍ ឬរោគវិនិច្ឆ័យ) ជំនួសឱ្យការប្រើតែទិន្នន័យវិក្កយបត្រ។	បង្កើនចំនួនអ្នកជំងឺស្បែកខ្មៅដែលត្រូវបានជ្រើសរើសសម្រាប់កម្មវិធីជំនួយដល់ទៅ ២៧% ដែលឆ្លុះបញ្ចាំងពីតម្រូវការការពិត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តតាមសៀវភៅណែនាំនេះមិនតម្រូវឱ្យមានការចំណាយលើផ្នែករឹង (Hardware) ធំដុំទេ ប៉ុន្តែទាមទារធនធានមនុស្សនិងការគ្រប់គ្រងទិន្នន័យខ្ពស់។

Data Access: ត្រូវការសិទ្ធិចូលប្រើទិន្នន័យសុខភាព ឬទិន្នន័យប្រតិបត្តិការលម្អិតដើម្បីកំណត់ 'គោលដៅដែលចង់បាន' (Ideal Target) ។
Personnel: តម្រូវឱ្យមាន 'Steward' (អ្នកទទួលខុសត្រូវថ្នាក់ដឹកនាំ) និងក្រុមការងារចម្រុះដើម្បីធ្វើសវនកម្ម (Audit) លើក្បួនដោះស្រាយ។
Expertise: ត្រូវការអ្នកវិភាគទិន្នន័យដែលមានសមត្ថភាពក្នុងការកំណត់និយមន័យនៃភាពលំអៀង និងធ្វើការបណ្តុះបណ្តាលម៉ូដែលឡើងវិញ (Retraining Models) ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសុខាភិបាលពីសហរដ្ឋអាមេរិក ដែលឆ្លុះបញ្ចាំងពីការរើសអើងពូជសាសន៍ (Racism) នៅក្នុងប្រព័ន្ធសុខាភិបាលរបស់គេ។ សម្រាប់ប្រទេសកម្ពុជា បញ្ហាមិនមែនជាពូជសាសន៍រវាងស្បែកសនិងខ្មៅទេ ប៉ុន្តែជាភាពខុសគ្នារវាងអ្នកមាននិងអ្នកក្រ ឬរវាងអ្នករស់នៅទីក្រុងនិងជនបទ។ ប្រសិនបើកម្ពុជាប្រើប្រាស់ទិន្នន័យ 'ការចំណាយនៅមន្ទីរពេទ្យ' ដើម្បីវាស់វែង 'កម្រិតជំងឺ' នោះក្បួនដោះស្រាយនឹងមើលរំលងពលរដ្ឋក្រីក្រដែលឈឺធ្ងន់តែមិនមានលទ្ធភាពទៅពេទ្យ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ជាពិសេសនៅពេលដែលស្ថាប័ននានាចាប់ផ្តើមប្រើប្រាស់ AI ដើម្បីសម្រេចចិត្ត។

វិស័យមីក្រូហិរញ្ញវត្ថុ (Microfinance/Banking): នៅពេលបង្កើតប្រព័ន្ធវាយតម្លៃឥណទាន (Credit Scoring) គួរជៀសវាងការប្រើប្រាស់ 'ប្រវត្តិប្រាក់បៀវត្សរ៍ផ្លូវការ' ជាគោលដៅតែមួយមុខ ព្រោះវាអាចរើសអើងប្រជាកសិករ ឬអាជីវករក្រៅប្រព័ន្ធដែលមានលទ្ធភាពសងតែគ្មានឯកសារចំណូល។
វិស័យសុខាភិបាល (Healthcare/Social Protection): សម្រាប់កម្មវិធីដូចជា មូលនិធិសមធម៌សុខាភិបាល (HEF) ឬ ប័ណ្ណក្រីក្រ (IDPoor) ក្បួនដោះស្រាយមិនគួរពឹងផ្អែកតែលើទិន្នន័យដែលមានស្រាប់ដែលងាយស្រួលរកនោះទេ តែត្រូវកំណត់គោលដៅទៅលើស្ថានភាពជីវភាពជាក់ស្តែង។

សៀវភៅនេះផ្តល់នូវមេរៀនដ៏សំខាន់មួយសម្រាប់អ្នកអភិវឌ្ឍន៍នៅកម្ពុជា គឺត្រូវប្រុងប្រយ័ត្នកុំឱ្យ AI រៀនពីភាពអយុត្តិធម៌ដែលមានស្រាប់នៅក្នុងសង្គមតាមរយៈការជ្រើសរើសអថេរតំណាង (Proxy Variable) ខុស។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ ធ្វើបញ្ជីសារពើភណ្ឌក្បួនដោះស្រាយ (Inventory): ស្រាវជ្រាវនិងចុះបញ្ជីរាល់ក្បួនដោះស្រាយ (Algorithms) ឬប្រព័ន្ធពិន្ទុ (Scoring Systems) ដែលស្ថាប័នរបស់អ្នកកំពុងប្រើប្រាស់ ដោយសួរថា៖ តើវាត្រូវបានប្រើដើម្បីសម្រេចចិត្តអ្វី?
ជំហានទី ២៖ កំណត់គោលដៅពិត vs គោលដៅជាក់ស្តែង: វិភាគក្បួនដោះស្រាយនីមួយៗថាតើវាព្យាករណ៍អ្វី (Actual Target - ឧ. ការចំណាយ) ហើយថាតើយើងចង់ឱ្យវាព្យាករណ៍អ្វី (Ideal Target - ឧ. សុខភាព)។ រកមើលគម្លាតរវាងចំណុចទាំងពីរនេះ។
ជំហានទី ៣៖ ធ្វើសវនកម្មភាពលំអៀង (Screen for Bias): ប្រើប្រាស់ឧបករណ៍វិភាគទិន្នន័យ (ដូចជា Python ឬ R) ដើម្បីបង្កើតក្រាហ្វប្រៀបធៀប (Calibration Plot) រវាងពិន្ទុដែលក្បួនដោះស្រាយផ្តល់ឱ្យ និងលទ្ធផលជាក់ស្តែងសម្រាប់ក្រុមមនុស្សផ្សេងៗគ្នា (ឧ. តាមតំបន់ភូមិសាស្ត្រ ឬកម្រិតចំណូល)។
ជំហានទី ៤៖ បណ្តុះបណ្តាលឡើងវិញ ឬ កែតម្រូវ (Retrain/Mitigate): ប្រសិនបើរកឃើញភាពលំអៀង ត្រូវផ្លាស់ប្តូរស្លាកទិន្នន័យ (Label) ដែលប្រើសម្រាប់បង្រៀន AI ទៅជាអថេរដែលឆ្លុះបញ្ចាំងពីគោលដៅដែលចង់បានឱ្យកាន់តែច្បាស់។
ជំហានទី ៥៖ បង្កើតរចនាសម្ព័ន្ធគ្រប់គ្រង (Governance): តែងតាំងអ្នកទទួលខុសត្រូវ (Steward) ដើម្បីធានាថាការត្រួតពិនិត្យនេះធ្វើឡើងជាប្រចាំ និងមានស្តង់ដារឯកសារច្បាស់លាស់ (Documentation) សម្រាប់គម្រោង AI នាពេលអនាគត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Label Choice Bias	ជាប្រភេទនៃភាពលំអៀងដែលកើតឡើងនៅពេលអ្នកបង្កើតក្បួនដោះស្រាយ (Algorithm) ជ្រើសរើសទិន្នន័យគោលដៅ (Label) ខុស ដើម្បីបង្រៀន AI ។ ពួកគេជ្រើសរើសទិន្នន័យដែលងាយស្រួលរក ប៉ុន្តែវាមិនឆ្លុះបញ្ចាំងពីបញ្ហាពិតប្រាកដដែលពួកគេចង់ដោះស្រាយនោះទេ ដែលនាំឱ្យលទ្ធផលមានការរើសអើង។	ដូចជាការវាស់វែង 'ភាពឆ្លាតវៃ' របស់សិស្សដោយប្រើតែ 'កម្ពស់' របស់ពួកគេ (កម្ពស់ជា Label ខុស ព្រោះវាមិនពាក់ព័ន្ធនឹងប្រាជ្ញាទេ)។
Proxy Variable	អថេរតំណាង (Proxy Variable) គឺជាទិន្នន័យដែលត្រូវបានប្រើដើម្បីវាស់វែងអ្វីមួយដោយប្រយោល នៅពេលដែលទិន្នន័យពិតប្រាកដពិបាកនឹងវាស់វែងផ្ទាល់។ នៅក្នុងឯកសារនេះ 'ការចំណាយ' ត្រូវបានប្រើជា Proxy សម្រាប់ 'សុខភាព'។	ដូចជាការប្រើប្រាស់ 'ចំនួនសៀវភៅដែលមានក្នុងផ្ទះ' ដើម្បីទស្សន៍ទាយពី 'ចំណេះដឹង' របស់ម្ចាស់ផ្ទះ។
Ideal Target	គោលដៅដែលចង់បាន (Ideal Target) គឺជាលទ្ធផលពិតប្រាកដដែលយើងចង់ឱ្យក្បួនដោះស្រាយជួយស្វែងរក ដើម្បីធ្វើការសម្រេចចិត្តឱ្យបានត្រឹមត្រូវ។ វាតំណាងឱ្យតម្លៃនិងគោលបំណងពិតរបស់យើង មុនពេលយើងមើលទៅលើទិន្នន័យដែលមាន។	ដូចជាពេលយើងចង់បាន 'អាហារដែលមានសុវត្ថិភាព' (នេះជា Ideal Target) ប៉ុន្តែយើងបែរជាពិនិត្យមើលតែ 'អាហារដែលមានការវេចខ្ចប់ស្អាត' ជំនួសវិញ។
Calibration	ការធ្វើតម្រត (Calibration) គឺជាដំណើរការត្រួតពិនិត្យបច្ចេកទេស ដើម្បីធានាថាពិន្ទុហានិភ័យ (Risk Score) ដែលផ្តល់ដោយ AI មានអត្ថន័យដូចគ្នាសម្រាប់ក្រុមមនុស្សផ្សេងៗគ្នា។ ប្រសិនបើពិន្ទុដូចគ្នា នោះកម្រិតហានិភ័យជាក់ស្តែងក៏ត្រូវតែដូចគ្នាដែរ។	ដូចជាការធានាថាជញ្ជីងថ្លឹងទម្ងន់បង្ហាញលេខត្រឹមត្រូវស្មើៗគ្នា មិនថាអ្នកថ្លឹងនោះជាមនុស្សប្រុស ឬមនុស្សស្រីនោះទេ។
Algorithmic Stewardship	ការគ្រប់គ្រងក្បួនដោះស្រាយ (Algorithmic Stewardship) គឺជាការទទួលខុសត្រូវរបស់ស្ថាប័នក្នុងការតែងតាំងអ្នកដឹកនាំដើម្បីត្រួតពិនិត្យ ថែរក្សា និងធ្វើសវនកម្មលើប្រព័ន្ធ AI ជាប្រចាំ ដើម្បីការពារកុំឱ្យមានភាពលំអៀង ឬផលប៉ះពាល់អវិជ្ជមាន។	ដូចជាការមាន 'អ្នកត្រួតពិនិត្យគុណភាព' នៅក្នុងរោងចក្រ ដើម្បីធានាថាផលិតផលមិនមានកំហុសមុននឹងចេញលក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖