Original Title: Machine Learning and Counterfactual Fairness Analysis to Detect and Counter Bias in Credit Analysis for Loan Granting Systems
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគការរៀនរបស់ម៉ាស៊ីន និងភាពយុត្តិធម៌ផ្ទុយពីការពិត ដើម្បីស្វែងរក និងទប់ទល់នឹងភាពលំអៀងក្នុងការវិភាគឥណទានសម្រាប់ប្រព័ន្ធផ្តល់ប្រាក់កម្ចី

ចំណងជើងដើម៖ Machine Learning and Counterfactual Fairness Analysis to Detect and Counter Bias in Credit Analysis for Loan Granting Systems

អ្នកនិពន្ធ៖ Mishaal Naeem (University of Turku)

ឆ្នាំបោះពុម្ព៖ 2025 (Master's Thesis)

វិស័យសិក្សា៖ Computing / Financial Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាភាពលំអៀង (Bias) នៅក្នុងការវិភាគឥណទាន និងដំណើរការផ្តល់ប្រាក់កម្ចី ដែលកើតចេញពីទិន្នន័យប្រវត្តិសាស្ត្រដែលមានការរើសអើង និងកង្វះតម្លាភាពនៅក្នុងប្រព័ន្ធស្វ័យប្រវត្តិកម្ម។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់វិធីសាស្ត្រម៉ូដែលកូនកាត់រវាង SVM និង Random Forest ដោយអនុវត្តការវិភាគផ្ទុយពីការពិត (Counterfactual Analysis) ដើម្បីវាស់វែង និងកាត់បន្ថយភាពមិនយុត្តិធម៌នៅក្នុងទិន្នន័យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Hybrid SVM and Random Forest (Proposed Model)
ម៉ូដែលកូនកាត់រវាង SVM និង Random Forest (វិធីសាស្ត្រស្នើឡើង)
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងកាត់បន្ថយភាពលំអៀងបានយ៉ាងល្អប្រសើរ។ វាមានតម្លាភាព និងងាយស្រួលពន្យល់ (Explainable) ជាងម៉ូដែលស្មុគស្មាញដទៃទៀត។ ទាមទារការរៀបចំទិន្នន័យ និងការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) តាមរយៈ SVM ដែលអាចមានភាពស្មុគស្មាញជាងការប្រើប្រាស់ម៉ូដែលទោល។ Accuracy ៨០% និង AUC ០.៩៧ (ខ្ពស់ជាងគេ); កាត់បន្ថយភាពលំអៀងលើយេនឌ័រមកត្រឹម ០.៩៧%។
Logistic Regression (LR)
ការវិភាគតំរែតំរង់ឡូជីស្ទីក
ងាយស្រួលអនុវត្ត និងផ្តល់តម្លៃ Recall ល្អ (០.៨៩) ដែលសាកសមសម្រាប់ការចាប់យកហានិភ័យឥណទាន។ មានភាពលំអៀងខ្ពស់ចំពោះក្រុមការពារ (ស្ត្រី និងពលករបរទេស) និងមានតម្លៃ AUC ទាបជាងគេ (០.៧៩)។ Accuracy ៧៩.៥%; មានភាពលំអៀងលើពលករបរទេសខ្ពស់រហូតដល់ ១៧.២៤%។
Multi-Layer Perceptron (MLP)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតពហុស្រទាប់
មានតម្លៃ Precision ខ្ពស់បំផុត (០.៨៨) ដែលមានន័យថាវាមានកំហុសតិចតួចក្នុងការទស្សន៍ទាយវិជ្ជមានក្លែងក្លាយ (False Positives)។ មានភាពត្រឹមត្រូវទាបជាងគេ (៧៤.៥%) និងនៅតែមានភាពលំអៀងខ្ពស់ចំពោះលក្ខណៈពិសេសរសើប (Sensitive Attributes)។ Accuracy ៧៤.៥%; មានភាពលំអៀងលើយេនឌ័រ ១១.៦១%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យដែលមានទំហំតូច (១០០០ ធាតុ) ដូច្នេះមិនទាមទារធនធានកុំព្យូទ័រខ្លាំងក្លាទេ ប៉ុន្តែទាមទារជំនាញក្នុងការវិភាគស្ថិតិ និងការសរសេរកូដ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យឥណទានរបស់ប្រទេសអាល្លឺម៉ង់ (German Credit Data) តាំងពីឆ្នាំ ១៩៩៤ ដែលឆ្លុះបញ្ចាំងពីបរិបទសេដ្ឋកិច្ច និងប្រជាសាស្ត្រអឺរ៉ុប។ សម្រាប់កម្ពុជា ការយកម៉ូដែលនេះមកប្រើផ្ទាល់អាចមិនមានប្រសិទ្ធភាព ដោយសារភាពខុសគ្នានៃឥរិយាបថហិរញ្ញវត្ថុ និងលក្ខណៈសម្បត្តិអ្នកខ្ចីប្រាក់នៅក្នុងវិស័យមីក្រូហិរញ្ញវត្ថុនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានភាពខុសគ្នា ប៉ុន្តែវិធីសាស្ត្រកាត់បន្ថយភាពលំអៀង (Bias Mitigation) នេះគឺមានសារៈសំខាន់បំផុតសម្រាប់វិស័យបច្ចេកវិទ្យាហិរញ្ញវត្ថុ (FinTech) នៅកម្ពុជា។

ការអនុវត្តវិធីសាស្ត្រនេះនឹងជួយបង្កើនទំនុកចិត្តលើប្រព័ន្ធហិរញ្ញវត្ថុឌីជីថលនៅកម្ពុជា និងកាត់បន្ថយហានិភ័យនៃការរើសអើងដោយអចេតនាក្នុងការផ្តល់ឥណទាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១: សិក្សាមូលដ្ឋានគ្រឹះ និងឧបករណ៍: និស្សិតត្រូវសិក្សាពីភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា Scikit-learn សម្រាប់ការបង្កើតម៉ូដែល និង SHAP សម្រាប់ការបកស្រាយលទ្ធផល។
  2. ជំហានទី ២: ការអនុវត្តលើទិន្នន័យគំរូ: ទាញយក German Credit Dataset ពី UCI Repository ហើយសរសេរកូដដើម្បីបង្កើតម៉ូដែល Hybrid SVM និង Random Forest ដូចក្នុងសារណាដើម្បីផ្ទៀងផ្ទាត់លទ្ធផល។
  3. ជំហានទី ៣: ការវិភាគភាពយុត្តិធម៌ (Fairness Analysis): រៀនប្រើប្រាស់រង្វាស់ស្ថិតិដូចជា Treatment Equality និង ABROCA ដើម្បីវាស់វែងភាពលំអៀង។ សាកល្បងប្រើបណ្ណាល័យដូចជា IBM AIF360 ឬ Fairlearn ។
  4. ជំហានទី ៤: ការអនុវត្តក្នុងបរិបទកម្ពុជា: ព្យាយាមស្វែងរកទិន្នន័យឥណទានក្នុងស្រុក (បើអាច) ឬបង្កើតទិន្នន័យសិប្បនិម្មិត (Synthetic Data) ដែលឆ្លុះបញ្ចាំងពីប្រជាសាស្ត្រកម្ពុជា ដើម្បីធ្វើតេស្តថាវិធីសាស្ត្រនេះមានប្រសិទ្ធភាពដែរឬទេចំពោះទិន្នន័យក្នុងស្រុក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Counterfactual Fairness Analysis ជាវិធីសាស្ត្រវិភាគមួយដែលសួរថា 'តើលទ្ធផលនៃការសម្រេចចិត្តនឹងផ្លាស់ប្តូរដែរឬទេ ប្រសិនបើលក្ខណៈសម្បត្តិរសើបណាមួយ (ដូចជា ភេទ ឬពូជសាសន៍) ត្រូវបានផ្លាស់ប្តូរ ខណៈដែលទិន្នន័យផ្សេងទៀតនៅដដែល?'។ វាជួយស្វែងរកភាពលំអៀងដែលលាក់កំបាំងនៅក្នុងម៉ូដែលកុំព្យូទ័រ។ ដូចជាការសាកល្បងដាក់ពាក្យសុំកម្ចីពីរច្បាប់ដែលមានព័ត៌មានដូចគ្នាទាំងស្រុង ខុសតែ 'ភេទ' ដើម្បីមើលថាតើធនាគារនឹងផ្តល់ចម្លើយដូចគ្នាដែរឬទេ។
Hybrid SVM and Random Forest ជាបច្ចេកទេសបញ្ចូលគ្នារវាងក្បួនដោះស្រាយពីរ៖ ប្រើ Support Vector Machine (SVM) ដើម្បីជ្រើសរើសលក្ខណៈពិសេសដែលសំខាន់បំផុត និងប្រើ Random Forest ដើម្បីធ្វើការបែងចែកចំណាត់ថ្នាក់ (Classification)។ ការធ្វើបែបនេះជួយឱ្យម៉ូដែលដំណើរការបានល្អ និងកាត់បន្ថយភាពលំអៀង។ ដូចជាការប្រើអ្នកជំនាញម្នាក់ដើម្បីចម្រាញ់យកតែព័ត៌មានសំខាន់ៗ ហើយឱ្យក្រុមអ្នកជំនាញមួយក្រុមទៀតប្រើព័ត៌មាននោះដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយ។
Treatment Equality ជារង្វាស់ស្ថិតិសម្រាប់វាស់ភាពយុត្តិធម៌ ដោយពិនិត្យមើលសមាមាត្រនៃកំហុស (Errors) រវាងក្រុមការពារ និងក្រុមមិនការពារ។ វាធានាថា អត្រានៃការបដិសេធខុស (False Negatives) និងការយល់ព្រមខុស (False Positives) មានតុល្យភាពរវាងក្រុមទាំងពីរ។ ដូចជាការធានាថា បើគ្រូដាក់ពិន្ទុខុសលើសិស្សប្រុសប៉ុន្មាននាក់ គ្រូក៏មានកម្រិតកំហុសប្រហាក់ប្រហែលគ្នាដែរចំពោះសិស្សស្រី មិនមែនតឹងតែចំពោះក្រុមណាមួយនោះទេ។
ABROCA (Absolute Between-ROC Area) ជារង្វាស់ដែលគណនាផ្ទៃដីរវាងខ្សែកោងសមត្ថភាព (ROC curves) របស់ក្រុមពីរផ្សេងគ្នា។ បើផ្ទៃដីនេះកាន់តែតូច (ខិតជិត ០) មានន័យថាម៉ូដែលកាន់តែមានភាពយុត្តិធម៌ ព្រោះវាមានសមត្ថភាពទស្សន៍ទាយសម្រាប់ក្រុមទាំងពីរបានល្អដូចគ្នា។ ដូចជាការប្រៀបធៀបគន្លងរត់របស់អ្នករត់ប្រណាំងពីរនាក់ បើគន្លងពួកគេជាន់គ្នា ឬនៅជិតគ្នាខ្លាំង មានន័យថាពួកគេមានឱកាសឈ្នះស្មើគ្នាដោយគ្មានការរើសអើង។
Information Value (IV) ជាបច្ចេកទេសស្ថិតិដែលប្រើដើម្បីវាស់ថា តើទិន្នន័យមួយប្រភេទ (ឧទាហរណ៍៖ ប្រាក់ខែ ឬអាយុ) មានឥទ្ធិពលខ្លាំងប៉ុណ្ណាក្នុងការទស្សន៍ទាយលទ្ធផល (ឧទាហរណ៍៖ ការសងបំណុល)។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីពិនិត្យមើលថាតើលក្ខណៈសម្បត្តិរសើប (ដូចជាភេទ) មានឥទ្ធិពលលើការសម្រេចចិត្តដែរឬទេ។ ដូចជាការវាយតម្លៃថា តើ 'រសជាតិអំបិល' មានសារៈសំខាន់កម្រិតណាក្នុងការធ្វើឱ្យម្ហូបឆ្ងាញ់ បើធៀបនឹងគ្រឿងផ្សំផ្សេងទៀត។
One Hot Encoding ជាដំណើរការបំប្លែងទិន្នន័យប្រភេទអក្សរ (Categorical Data) ទៅជាលេខ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងធ្វើការគណនាបាន។ វាបង្កើតជួរឈរថ្មីសម្រាប់ជម្រើសនីមួយៗ ដោយដាក់លេខ ១ ឬ ០។ ដូចជាការប្តូរចម្លើយក្នុងកម្រងសំណួរពី 'ប្រុស' ឬ 'ស្រី' ទៅជាការធីកប្រអប់ (១ សម្រាប់ធីក, ០ សម្រាប់មិនធីក) ដើម្បីងាយស្រួលបូកសរុប។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖