Original Title: Estimating the Probability of Loan Default in Melli Bank: A Comparative Study of Machine Learning and Econometric Approaches
Source: doi.org/10.22054/ijer.2025.84878.1350
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃការខកខានសងប្រាក់កម្ចីនៅក្នុងធនាគារ Melli៖ ការសិក្សាប្រៀបធៀបរវាងវិធីសាស្ត្ររៀនដោយម៉ាស៊ីន និងវិធីសាស្ត្រសេដ្ឋកិច្ចមាត្រ

ចំណងជើងដើម៖ Estimating the Probability of Loan Default in Melli Bank: A Comparative Study of Machine Learning and Econometric Approaches

អ្នកនិពន្ធ៖ Reza Taleblou, Allameh Tabataba’i University, Mir Ali Kamali, Semnan University, Parisa Mohajeri, Allameh Tabataba’i University

ឆ្នាំបោះពុម្ព៖ 2025, Iranian Journal of Economic Research

វិស័យសិក្សា៖ Economics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ម៉ូដែលសេដ្ឋកិច្ចមាត្របែបប្រពៃណីដូចជាតម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression) ពឹងផ្អែកលើការសន្មតលីនេអ៊ែរ ដែលធ្វើឱ្យពួកវាពិបាកក្នុងការចាប់យកលំនាំទិន្នន័យហិរញ្ញវត្ថុស្មុគស្មាញ និងមិនមែនលីនេអ៊ែរ ដែលជាហេតុនាំឱ្យមានការវាយតម្លៃហានិភ័យឥណទានមិនសូវច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ក្របខណ្ឌវិភាគប្រៀបធៀប ដើម្បីវាយតម្លៃដំណើរការនៃម៉ូដែលសេដ្ឋកិច្ចមាត្រ និងម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) សម្រាប់ការព្យាករណ៍ពីការខកខានសងឥណទាន។

ការវិភាគលើទិន្នន័យកិច្ចសន្យាប្រាក់កម្ចីចំនួន ៥៦,៩៦៥ ពីធនាគារ Melli នៃប្រទេសអ៊ីរ៉ង់ (ឆ្នាំ ២០១៩-២០២៤) ជាមួយនឹងលក្ខណៈទស្សន៍ទាយ (Predictive features) ចំនួន ២៩ ក្រុមផ្សេងៗគ្នា។
វិធីសាស្ត្រសេដ្ឋកិច្ចមាត្របែបប្រពៃណី៖ ការប្រើប្រាស់តម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression) ជាម៉ូដែលគោល។
វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន (Machine Learning)៖ ការប្រើប្រាស់ Random Forest (RF) និង eXtreme Gradient Boosting (XGBoost) ជាមួយនឹងការធ្វើឱ្យប្រសើរលើ Hyperparameter (Hyperparameter tuning)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) មានប្រសិទ្ធភាពខ្ពស់ជាងយ៉ាងខ្លាំងបើធៀបនឹងម៉ូដែលតម្រែតម្រង់ឡូជីស្ទីក (Logistic Regression) ក្នុងការទស្សន៍ទាយការខកខានសងប្រាក់កម្ចី។
ម៉ូដែល XGBoost ដែលបានធ្វើឱ្យប្រសើរ មានភាពសុក្រឹតខ្ពស់ជាងគេបំផុត ដោយទទួលបានតម្លៃ ROC-AUC រហូតដល់ ៩៩.៧៣% និងភាពត្រឹមត្រូវ (Accuracy) ៩៩%។
ម៉ូដែលតម្រែតម្រង់ឡូជីស្ទីក (Logistic regression) មានភាពយឺតយ៉ាវយ៉ាងខ្លាំង ដោយមានតម្លៃ ROC-AUC ត្រឹមតែ ៧៥.៣៤% និងមានសមត្ថភាពទាបក្នុងការកំណត់ករណីខកខានសងប្រាក់ពិតប្រាកដ (Recall ទាបត្រឹម ០.១៦)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Logistic Regression (LR) តម្រែតម្រង់ឡូជីស្ទីក (វិធីសាស្ត្រសេដ្ឋកិច្ចមាត្រ)	ងាយស្រួលក្នុងការបកស្រាយលទ្ធផល និងជានីតិវិធីស្តង់ដារដែលប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងប្រព័ន្ធវាយតម្លៃឥណទានប្រពៃណី។ ដំណើរការលឿននិងមិនទាមទារធនធានកុំព្យូទ័រច្រើន។	កំណត់ដោយការសន្មតទំនាក់ទំនងលីនេអ៊ែររវាងអថេរ មិនអាចចាប់យកលំនាំស្មុគស្មាញ និងមានភាពទន់ខ្សោយខ្លាំងក្នុងការកំណត់អត្តសញ្ញាណអតិថិជនដែលខកខានសងពិតប្រាកដ។	ROC-AUC ត្រឹមតែ ៧៥.៣៤% និងមានអត្រាចាប់បានអ្នកខកខានសង (Recall for default class) ទាបខ្លាំងត្រឹមតែ ០.១៦ ប៉ុណ្ណោះ។
Random Forest (RF) ម៉ូដែលព្រៃចៃដន្យ (ចំណាត់ថ្នាក់រៀនដោយម៉ាស៊ីន)	មានសមត្ថភាពទប់ទល់នឹង Overfitting បានល្អ ចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរស្មុគស្មាញ និងមានភាពធន់ទៅនឹងទិន្នន័យខុសប្រក្រតី (Outliers)។	ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ដើម្បីទទួលបានលទ្ធផលល្អឥតខ្ចោះ និងមានដែនកំណត់ក្នុងការបកស្រាយលទ្ធផល (Black-box model)។	ROC-AUC កើនដល់ ៩៩.៦៨% និងភាពត្រឹមត្រូវទូទៅ (Accuracy) ៩៩% (បន្ទាប់ពីការធ្វើឱ្យប្រសើរ Hyperparameter)។
eXtreme Gradient Boosting (XGBoost) ការជំរុញហ្គ្រេដ្យង់កម្រិតខ្ពស់ (ម៉ូដែលរៀនដោយម៉ាស៊ីន)	ផ្តល់ថាមពលរើសអើង (Discriminatory power) ខ្ពស់បំផុត មានប្រសិទ្ធភាពក្នុងការគណនាលឿនដោយប្រើដេរីវេទី២ និងរក្សាតុល្យភាពល្អរវាងសមត្ថភាពរៀននិងភាពច្បាស់លាស់។	មានភាពស្មុគស្មាញក្នុងការគណនា ទាមទារការកែសម្រួលប៉ារ៉ាម៉ែត្រយ៉ាងប្រុងប្រយ័ត្ន និងនៅតែប្រឈមនឹងបញ្ហាភាពលំបាកក្នុងការបកស្រាយប្រាប់អ្នកគ្រប់គ្រង។	ផ្តល់លទ្ធផលល្អបំផុតជាមួយនឹង ROC-AUC ៩៩.៧៣% អត្រាភាពត្រឹមត្រូវ ៩៩% និងអត្រាចាប់បានអ្នកខកខានសងបានល្អប្រសើរបំផុត។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាការអនុវត្តម៉ូដែលរៀនដោយម៉ាស៊ីនកម្រិតខ្ពស់នៅក្នុងស្ថាប័នហិរញ្ញវត្ថុជួបប្រទះបញ្ហាប្រឈមនៃភាពស្មុគស្មាញក្នុងការគណនាសម្រាប់ការធ្វើឱ្យប្រសើរអថេរ (Hyperparameter optimization)។

Dataset: ត្រូវការទិន្នន័យប្រវត្តិឥណទានទំហំធំ (ការសិក្សានេះប្រើប្រាស់ ៥៦,៩៦៥ កិច្ចសន្យា ជាមួយលក្ខណៈអថេរចំនួន ២៩ ដែលបានឆ្លងកាត់ការសម្អាតទិន្នន័យរួចរាល់)។
Hardware: ទាមទារកុំព្យូទ័រមានសមត្ថភាពគណនាខ្ពស់ (High CPU/GPU) ដើម្បីដំណើរការបច្ចេកទេស Ensemble, Hyperparameter Tuning (Random Search) និងការវាយតម្លៃ Bootstrap ចំនួន ១០០០ ដង។
Expertise: ត្រូវការអ្នកជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Scientists) ដែលចេះប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning ព្រមទាំងយល់ដឹងពីការដោះស្រាយបញ្ហា Black-box នៃម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យឥណទានជាក់ស្តែងពីសាខាភាគខាងជើងនៃធនាគារ Melli ប្រទេសអ៊ីរ៉ង់ ចន្លោះឆ្នាំ ២០១៩ ដល់ ២០២៤។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីលក្ខណៈប្រជាសាស្ត្រ អាកប្បកិរិយាហិរញ្ញវត្ថុ និងក្របខណ្ឌច្បាប់របស់ប្រទេសអ៊ីរ៉ង់តែប៉ុណ្ណោះ។ សម្រាប់ប្រទេសកម្ពុជា វាជារឿងចាំបាច់ក្នុងការប្រុងប្រយ័ត្ន ដោយសារពលរដ្ឋកម្ពុជាមានទម្លាប់សន្សំ ចំណូល និងបរិបទហិរញ្ញវត្ថុខុសគ្នា ដូច្នេះម៉ូដែលចាំបាច់ត្រូវតែបង្វឹក (Train) ឡើងវិញជាមួយទិន្នន័យឥណទានក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នានៃប្រភពទិន្នន័យក៏ដោយ វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន (Machine Learning) នេះមានសក្តានុពលខ្លាំងក្នុងការយកមកប្រើប្រាស់នៅប្រទេសកម្ពុជា ដើម្បីកាត់បន្ថយហានិភ័យប្រាក់កម្ចីមិនដំណើរការ (NPLs)។

Commercial Banks (ធនាគារពាណិជ្ជ): ធនាគារធំៗដូចជា ACLEDA ឬ ABA អាចផ្លាស់ប្តូរពីប្រព័ន្ធវាយតម្លៃឥណទានចាស់ (Credit Scoring) មកប្រើប្រាស់ XGBoost ដើម្បីព្យាករណ៍ហានិភ័យអតិថិជនឱ្យបានជាក់លាក់ និងកាត់បន្ថយបំណុលខូច។
Microfinance Institutions (គ្រឹះស្ថានមីក្រូហិរញ្ញវត្ថុ - MFIs): ស្ថាប័នដូចជា អម្រឹត (Amret) ឬ ប្រាសាក់ (Prasac) ដែលផ្តោតលើឥណទានកសិកម្មនិងជនបទ អាចប្រើប្រាស់ម៉ូដែល Random Forest ដើម្បីចាប់យកភាពស្មុគស្មាញនៃប្រាក់ចំណូលតាមរដូវកាលរបស់ប្រជាកសិករ។
National Bank of Cambodia (ធនាគារជាតិរៃកម្ពុជា): និយតករធនាគារអាចប្រើប្រាស់ក្របខណ្ឌវាយតម្លៃនេះដើម្បីធ្វើតេស្តភាពធន់ (Stress testing) និងតាមដានហានិភ័យជាប្រព័ន្ធនៅក្នុងវិស័យធនាគារទាំងមូលរបស់កម្ពុជា។

ជារួម ការផ្លាស់ប្តូរពីការប្រើប្រាស់គំរូស្ថិតិប្រពៃណី ទៅកាន់ក្របខណ្ឌកូនកាត់ដែលប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI/ML) នឹងជួយស្ថាប័នហិរញ្ញវត្ថុកម្ពុជាបង្កើនប្រសិទ្ធភាពគ្រប់គ្រងហានិភ័យ និងរក្សាបាននូវស្ថិរភាពសេដ្ឋកិច្ច។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំទិន្នន័យនិងសិក្សាមូលដ្ឋានគ្រឹះ (Data Preprocessing & Basics): ចាប់ផ្តើមដោយការសម្អាតទិន្នន័យ (Missing values, Categorical encoding) និងសាកល្បងសាងសង់ម៉ូដែល Logistic Regression តាមរយៈបណ្ណាល័យ scikit-learn ក្នុង Python ដើម្បីទុកជាគោលប្រៀបធៀប (Baseline model)។
អភិវឌ្ឍម៉ូដែលរៀនដោយម៉ាស៊ីន (Build Ensemble ML Models): បន្តសិក្សាអំពីវិធីសាស្ត្រផ្អែកលើដើមឈើសម្រេចចិត្តដោយប្រើប្រាស់ Random Forest Classifier និង XGBoost ដើម្បីចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរនៃទិន្នន័យ។
ធ្វើឱ្យម៉ូដែលប្រសើរឡើង (Hyperparameter Tuning): ប្រើប្រាស់បច្ចេកទេស RandomizedSearchCV ឬ GridSearchCV ដើម្បីស្វែងរកកម្រិតប៉ារ៉ាម៉ែត្រល្អបំផុត (ដូចជាចំនួនដើមឈើ និងជម្រៅរបស់វា) សំដៅបង្កើនប្រសិទ្ធភាព និងជៀសវាង Overfitting។
វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល (Model Evaluation): ផ្តោតសំខាន់លើការវាស់វែង ROC-AUC និង Confusion Matrix។ ជាពិសេសត្រូវយកចិត្តទុកដាក់លើសូចនាករ Recall សម្រាប់ក្រុមអតិថិជនខកខានសង (Default class) ដើម្បីប្រាកដថាម៉ូដែលចាប់បានអ្នកមានហានិភ័យខ្ពស់ពិតប្រាកដ។
បង្កើតប្រព័ន្ធបកស្រាយ (Interpretability Framework): ដោយសារម៉ូដែល ML ជា Black-box និស្សិតគួរស្វែងយល់ពីបច្ចេកទេសដូចជា SHAP values ដើម្បីពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តរបស់ម៉ូដែល ធ្វើឱ្យអ្នកគ្រប់គ្រងងាយស្រួលយល់ព្រមយកទៅប្រើប្រាស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
eXtreme Gradient Boosting (XGBoost)	ក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនដ៏មានអានុភាព ដែលបង្កើតមែកធាងសម្រេចចិត្តជាបន្តបន្ទាប់ ដោយមែកធាងថ្មីនីមួយៗផ្តោតលើការកែតម្រូវកំហុសដែលបន្សល់ទុកដោយមែកធាងមុនៗ ដើម្បីបង្រួមគម្លាតកំហុស និងធ្វើឱ្យការទស្សន៍ទាយចុងក្រោយមានភាពសុក្រឹតបំផុត។	ដូចជាសិស្សមួយក្រុមធ្វើតេស្តបន្តបន្ទាប់គ្នា អ្នកទី២កែតម្រូវកំហុសអ្នកទី១ ហើយអ្នកទី៣កែតម្រូវកំហុសអ្នកទី២ រហូតដល់បានចម្លើយរួមមួយដែលត្រឹមត្រូវបំផុត។
Random Forest	វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនដែលបង្កើត "មែកធាងសម្រេចចិត្ត" (Decision Trees) ច្រើនដាច់ដោយឡែកពីគ្នា ដោយប្រើទិន្នន័យចៃដន្យ រួចយកលទ្ធផលរបស់មែកធាងទាំងអស់នោះមកបោះឆ្នោត ឬស្វែងរកមធ្យមភាគ ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយជៀសវាងការលម្អៀង។	ដូចជាការសួរយោបល់ពីវេជ្ជបណ្ឌិត១០០នាក់ផ្សេងៗគ្នា រួចយកចម្លើយដែលវេជ្ជបណ្ឌិតភាគច្រើនយល់ស្រប ជៀសជាងជឿលើការធ្វើរោគវិនិច្ឆ័យរបស់គ្រូពេទ្យតែម្នាក់។
Hyperparameter Tuning	ដំណើរការនៃការស្វែងរក និងកែតម្រូវការកំណត់ (Settings) ខាងក្រៅដ៏ល្អបំផុតសម្រាប់ម៉ូដែលរៀនដោយម៉ាស៊ីន (ដែលម៉ូដែលមិនអាចរៀនដោយខ្លួនឯងបាន) ដើម្បីជួយឱ្យវាមានសមត្ថភាពវិភាគ និងទស្សន៍ទាយទិន្នន័យថ្មីៗបានច្បាស់លាស់បំផុត។	ដូចជាការកាច់តម្រូវប៉ុស្តិ៍វិទ្យុ (Tuning) សាឆ្វេងសាស្ដាំ ដើម្បីរកមើលរលកសញ្ញាដែលច្បាស់បំផុត និងមិនឱ្យមានសំឡេងរំខាន។
ROC-AUC	សូចនាករស្ថិតិសម្រាប់វាស់ស្ទង់សមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែករវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ អតិថិជនបង់ប្រាក់ទៀងទាត់ និងអតិថិជនខកខានសង) ដោយពិន្ទុកាន់តែខិតជិត ១ (ឬ១០០%) មានន័យថាម៉ូដែលកាន់តែមានថាមពលក្នុងការរើសអើងភាពខុសគ្នាបានត្រឹមត្រូវ។	ដូចជាពិន្ទុប្រឡងរបស់ឧបករណ៍ចាប់សញ្ញាផ្សែង បើពិន្ទុខ្ពស់ វាអាចបែងចែកដាច់ស្រឡះរវាងផ្សែងភ្លើងពិតប្រាកដ និងចំហាយទឹក បានយ៉ាងល្អឥតខ្ចោះ។
Confusion Matrix	តារាងម៉ាទ្រីសដែលត្រូវបានប្រើដើម្បីវាយតម្លៃ និងបង្ហាញពីកម្រិតភាពត្រឹមត្រូវព្រមទាំងកំហុសរបស់ម៉ូដែល ដោយបំបែកលទ្ធផលជា៤ផ្នែក៖ ទាយត្រូវថាវិជ្ជមាន, ទាយត្រូវថាអវិជ្ជមាន, ទាយខុសថាវិជ្ជមាន, និងទាយខុសថាអវិជ្ជមាន។	ដូចជាតារាងត្រួតពិនិត្យការងាររបស់ឆ្មាំយាមទ្វារ ដែលកត់ត្រាថាគាត់ចាប់ចោរបានពិតប្រាកដប៉ុន្មាននាក់ ចាប់ខុសមនុស្សល្អប៉ុន្មាននាក់ និងឱ្យចោររួចខ្លួនប៉ុន្មាននាក់។
Overfitting	បញ្ហាដែលកើតឡើងនៅពេលម៉ូដែលរៀនទន្ទេញចាំទិន្នន័យចាស់ៗដែលប្រើសម្រាប់បង្វឹកខ្លាំងពេក រហូតដល់ចងចាំទាំងចំណុចខុសឆ្គង (Noise) នៅក្នុងនោះ ដែលធ្វើឱ្យវាមិនអាចបត់បែនដើម្បីទស្សន៍ទាយទិន្នន័យថ្មីៗបានត្រឹមត្រូវ។	ដូចជាសិស្សដែលទន្ទេញចាំវិញ្ញាសាចាស់ៗគ្រប់អក្សរដើម្បីប្រឡងជាប់ តែនៅពេលគ្រូចេញលំហាត់ថ្មីខុសពីមុនបន្តិច គាត់បែរជាគិតមិនចេញនិងធ្វើមិនបានសោះ។
Information Asymmetry	ស្ថានភាពនៅក្នុងប្រតិបត្តិការសេដ្ឋកិច្ច ដែលភាគីម្ខាងមានព័ត៌មានច្រើនជាង ឬច្បាស់ជាងភាគីម្ខាងទៀត (ឧទាហរណ៍៖ អ្នកខ្ចីដឹងពីហានិភ័យខ្លួនឯងច្បាស់ជាងធនាគារ) ដែលបណ្តាលឱ្យមានភាពអយុត្តិធម៌ និងហានិភ័យក្នុងការសម្រេចចិត្ត។	ដូចជាការទិញឡានមួយទឹក ដែលអ្នកលក់ដឹងច្បាស់ពីប្រវត្តិខូចខាតនិងបុកប៉ះរបស់រថយន្ត តែអ្នកទិញមិនបានដឹង ដែលធ្វើឱ្យអ្នកទិញប្រឈមនឹងការចាញ់បោក។
Logistic Regression	ម៉ូដែលស្ថិតិ និងសេដ្ឋកិច្ចមាត្របែបប្រពៃណីដែលប្រើសម្រាប់ទស្សន៍ទាយលទ្ធផលប្រូបាប៊ីលីតេដែលមានជម្រើសតែ២ (ឧទាហរណ៍៖ សង ឬ មិនសង) ដោយប្រើរូបមន្តគណិតវិទ្យាលីនេអ៊ែរ ដើម្បីគណនាភាគរយចន្លោះពី ០ ទៅ ១។	ដូចជាជញ្ជីងថ្លឹងទម្ងន់ដែលបូកសរុបពិន្ទុវិជ្ជមាននិងអវិជ្ជមានរបស់មនុស្សម្នាក់ រួចសម្រេចកាត់ក្តីថា "ឱ្យខ្ចី" ឬ "មិនឱ្យខ្ចី" ដោយផ្អែកលើបន្ទាត់ព្រំដែនកំណត់ណាមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖