បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាភាពលំអៀង (Bias) នៅក្នុងការវិភាគឥណទាន និងដំណើរការផ្តល់ប្រាក់កម្ចី ដែលកើតចេញពីទិន្នន័យប្រវត្តិសាស្ត្រដែលមានការរើសអើង និងកង្វះតម្លាភាពនៅក្នុងប្រព័ន្ធស្វ័យប្រវត្តិកម្ម។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់វិធីសាស្ត្រម៉ូដែលកូនកាត់រវាង SVM និង Random Forest ដោយអនុវត្តការវិភាគផ្ទុយពីការពិត (Counterfactual Analysis) ដើម្បីវាស់វែង និងកាត់បន្ថយភាពមិនយុត្តិធម៌នៅក្នុងទិន្នន័យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hybrid SVM and Random Forest (Proposed Model) ម៉ូដែលកូនកាត់រវាង SVM និង Random Forest (វិធីសាស្ត្រស្នើឡើង) |
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងកាត់បន្ថយភាពលំអៀងបានយ៉ាងល្អប្រសើរ។ វាមានតម្លាភាព និងងាយស្រួលពន្យល់ (Explainable) ជាងម៉ូដែលស្មុគស្មាញដទៃទៀត។ | ទាមទារការរៀបចំទិន្នន័យ និងការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) តាមរយៈ SVM ដែលអាចមានភាពស្មុគស្មាញជាងការប្រើប្រាស់ម៉ូដែលទោល។ | Accuracy ៨០% និង AUC ០.៩៧ (ខ្ពស់ជាងគេ); កាត់បន្ថយភាពលំអៀងលើយេនឌ័រមកត្រឹម ០.៩៧%។ |
| Logistic Regression (LR) ការវិភាគតំរែតំរង់ឡូជីស្ទីក |
ងាយស្រួលអនុវត្ត និងផ្តល់តម្លៃ Recall ល្អ (០.៨៩) ដែលសាកសមសម្រាប់ការចាប់យកហានិភ័យឥណទាន។ | មានភាពលំអៀងខ្ពស់ចំពោះក្រុមការពារ (ស្ត្រី និងពលករបរទេស) និងមានតម្លៃ AUC ទាបជាងគេ (០.៧៩)។ | Accuracy ៧៩.៥%; មានភាពលំអៀងលើពលករបរទេសខ្ពស់រហូតដល់ ១៧.២៤%។ |
| Multi-Layer Perceptron (MLP) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតពហុស្រទាប់ |
មានតម្លៃ Precision ខ្ពស់បំផុត (០.៨៨) ដែលមានន័យថាវាមានកំហុសតិចតួចក្នុងការទស្សន៍ទាយវិជ្ជមានក្លែងក្លាយ (False Positives)។ | មានភាពត្រឹមត្រូវទាបជាងគេ (៧៤.៥%) និងនៅតែមានភាពលំអៀងខ្ពស់ចំពោះលក្ខណៈពិសេសរសើប (Sensitive Attributes)។ | Accuracy ៧៤.៥%; មានភាពលំអៀងលើយេនឌ័រ ១១.៦១%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យដែលមានទំហំតូច (១០០០ ធាតុ) ដូច្នេះមិនទាមទារធនធានកុំព្យូទ័រខ្លាំងក្លាទេ ប៉ុន្តែទាមទារជំនាញក្នុងការវិភាគស្ថិតិ និងការសរសេរកូដ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យឥណទានរបស់ប្រទេសអាល្លឺម៉ង់ (German Credit Data) តាំងពីឆ្នាំ ១៩៩៤ ដែលឆ្លុះបញ្ចាំងពីបរិបទសេដ្ឋកិច្ច និងប្រជាសាស្ត្រអឺរ៉ុប។ សម្រាប់កម្ពុជា ការយកម៉ូដែលនេះមកប្រើផ្ទាល់អាចមិនមានប្រសិទ្ធភាព ដោយសារភាពខុសគ្នានៃឥរិយាបថហិរញ្ញវត្ថុ និងលក្ខណៈសម្បត្តិអ្នកខ្ចីប្រាក់នៅក្នុងវិស័យមីក្រូហិរញ្ញវត្ថុនៅកម្ពុជា។
ទោះបីជាទិន្នន័យមានភាពខុសគ្នា ប៉ុន្តែវិធីសាស្ត្រកាត់បន្ថយភាពលំអៀង (Bias Mitigation) នេះគឺមានសារៈសំខាន់បំផុតសម្រាប់វិស័យបច្ចេកវិទ្យាហិរញ្ញវត្ថុ (FinTech) នៅកម្ពុជា។
ការអនុវត្តវិធីសាស្ត្រនេះនឹងជួយបង្កើនទំនុកចិត្តលើប្រព័ន្ធហិរញ្ញវត្ថុឌីជីថលនៅកម្ពុជា និងកាត់បន្ថយហានិភ័យនៃការរើសអើងដោយអចេតនាក្នុងការផ្តល់ឥណទាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Counterfactual Fairness Analysis | ជាវិធីសាស្ត្រវិភាគមួយដែលសួរថា 'តើលទ្ធផលនៃការសម្រេចចិត្តនឹងផ្លាស់ប្តូរដែរឬទេ ប្រសិនបើលក្ខណៈសម្បត្តិរសើបណាមួយ (ដូចជា ភេទ ឬពូជសាសន៍) ត្រូវបានផ្លាស់ប្តូរ ខណៈដែលទិន្នន័យផ្សេងទៀតនៅដដែល?'។ វាជួយស្វែងរកភាពលំអៀងដែលលាក់កំបាំងនៅក្នុងម៉ូដែលកុំព្យូទ័រ។ | ដូចជាការសាកល្បងដាក់ពាក្យសុំកម្ចីពីរច្បាប់ដែលមានព័ត៌មានដូចគ្នាទាំងស្រុង ខុសតែ 'ភេទ' ដើម្បីមើលថាតើធនាគារនឹងផ្តល់ចម្លើយដូចគ្នាដែរឬទេ។ |
| Hybrid SVM and Random Forest | ជាបច្ចេកទេសបញ្ចូលគ្នារវាងក្បួនដោះស្រាយពីរ៖ ប្រើ Support Vector Machine (SVM) ដើម្បីជ្រើសរើសលក្ខណៈពិសេសដែលសំខាន់បំផុត និងប្រើ Random Forest ដើម្បីធ្វើការបែងចែកចំណាត់ថ្នាក់ (Classification)។ ការធ្វើបែបនេះជួយឱ្យម៉ូដែលដំណើរការបានល្អ និងកាត់បន្ថយភាពលំអៀង។ | ដូចជាការប្រើអ្នកជំនាញម្នាក់ដើម្បីចម្រាញ់យកតែព័ត៌មានសំខាន់ៗ ហើយឱ្យក្រុមអ្នកជំនាញមួយក្រុមទៀតប្រើព័ត៌មាននោះដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយ។ |
| Treatment Equality | ជារង្វាស់ស្ថិតិសម្រាប់វាស់ភាពយុត្តិធម៌ ដោយពិនិត្យមើលសមាមាត្រនៃកំហុស (Errors) រវាងក្រុមការពារ និងក្រុមមិនការពារ។ វាធានាថា អត្រានៃការបដិសេធខុស (False Negatives) និងការយល់ព្រមខុស (False Positives) មានតុល្យភាពរវាងក្រុមទាំងពីរ។ | ដូចជាការធានាថា បើគ្រូដាក់ពិន្ទុខុសលើសិស្សប្រុសប៉ុន្មាននាក់ គ្រូក៏មានកម្រិតកំហុសប្រហាក់ប្រហែលគ្នាដែរចំពោះសិស្សស្រី មិនមែនតឹងតែចំពោះក្រុមណាមួយនោះទេ។ |
| ABROCA (Absolute Between-ROC Area) | ជារង្វាស់ដែលគណនាផ្ទៃដីរវាងខ្សែកោងសមត្ថភាព (ROC curves) របស់ក្រុមពីរផ្សេងគ្នា។ បើផ្ទៃដីនេះកាន់តែតូច (ខិតជិត ០) មានន័យថាម៉ូដែលកាន់តែមានភាពយុត្តិធម៌ ព្រោះវាមានសមត្ថភាពទស្សន៍ទាយសម្រាប់ក្រុមទាំងពីរបានល្អដូចគ្នា។ | ដូចជាការប្រៀបធៀបគន្លងរត់របស់អ្នករត់ប្រណាំងពីរនាក់ បើគន្លងពួកគេជាន់គ្នា ឬនៅជិតគ្នាខ្លាំង មានន័យថាពួកគេមានឱកាសឈ្នះស្មើគ្នាដោយគ្មានការរើសអើង។ |
| Information Value (IV) | ជាបច្ចេកទេសស្ថិតិដែលប្រើដើម្បីវាស់ថា តើទិន្នន័យមួយប្រភេទ (ឧទាហរណ៍៖ ប្រាក់ខែ ឬអាយុ) មានឥទ្ធិពលខ្លាំងប៉ុណ្ណាក្នុងការទស្សន៍ទាយលទ្ធផល (ឧទាហរណ៍៖ ការសងបំណុល)។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីពិនិត្យមើលថាតើលក្ខណៈសម្បត្តិរសើប (ដូចជាភេទ) មានឥទ្ធិពលលើការសម្រេចចិត្តដែរឬទេ។ | ដូចជាការវាយតម្លៃថា តើ 'រសជាតិអំបិល' មានសារៈសំខាន់កម្រិតណាក្នុងការធ្វើឱ្យម្ហូបឆ្ងាញ់ បើធៀបនឹងគ្រឿងផ្សំផ្សេងទៀត។ |
| One Hot Encoding | ជាដំណើរការបំប្លែងទិន្នន័យប្រភេទអក្សរ (Categorical Data) ទៅជាលេខ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងធ្វើការគណនាបាន។ វាបង្កើតជួរឈរថ្មីសម្រាប់ជម្រើសនីមួយៗ ដោយដាក់លេខ ១ ឬ ០។ | ដូចជាការប្តូរចម្លើយក្នុងកម្រងសំណួរពី 'ប្រុស' ឬ 'ស្រី' ទៅជាការធីកប្រអប់ (១ សម្រាប់ធីក, ០ សម្រាប់មិនធីក) ដើម្បីងាយស្រួលបូកសរុប។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖