Original Title: Enhancing Credit Card Fraud Detection: An Ensemble Machine Learning Approach
Source: doi.org/10.3390/bdcc8010006
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពង្រឹងការរកឃើញការក្លែងបន្លំកាតឥណទាន៖ វិធីសាស្ត្ររៀនម៉ាស៊ីនបែបបណ្តុំ (Ensemble Machine Learning)

ចំណងជើងដើម៖ Enhancing Credit Card Fraud Detection: An Ensemble Machine Learning Approach

អ្នកនិពន្ធ៖ Abdul Rehman Khalid (Glasgow Caledonian University), Nsikak Owoh (Glasgow Caledonian University), Omair Uthmani (Glasgow Caledonian University), Moses Ashawa (Glasgow Caledonian University), Jude Osamor (Glasgow Caledonian University), John Adejoh (African University of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2024, Big Data and Cognitive Computing

វិស័យសិក្សា៖ Cybersecurity / Data Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវការក្លែងបន្លំកាតឥណទាន និងកម្រិតកំណត់នៃប្រព័ន្ធស្វែងរកបច្ចុប្បន្ន ដោយផ្តោតជាពិសេសលើបញ្ហាអតុល្យភាពទិន្នន័យ (Data Imbalance) ដែលធ្វើឱ្យពិបាកក្នុងការកំណត់អត្តសញ្ញាណប្រតិបត្តិការក្លែងបន្លំដែលមានចំនួនតិចតួចធៀបនឹងប្រតិបត្តិការធម្មតា។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវគំរូថ្មីមួយដែលរួមបញ្ចូលគ្នានូវវិធីសាស្ត្របណ្តុំ (Ensemble Model) ដោយប្រើប្រាស់ក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning) ជាច្រើន និងបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យ ដើម្បីបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Forest (RF) & Boosting
ក្បួនដោះស្រាយ Random Forest និង Boosting
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការបែងចែករវាងប្រតិបត្តិការធម្មតា និងការក្លែងបន្លំ ដោយកាត់បន្ថយយ៉ាងខ្លាំងនូវកំហុសវិជ្ជមានមិនពិត (False Positives)។ ទាមទារធនធានគណនាខ្ពស់ជាងម៉ូដែលធម្មតា ហើយអាចចំណាយពេលយូរក្នុងការបណ្តុះបណ្តាលលើទិន្នន័យធំ។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ១០០% លើការធ្វើតេស្តមួយចំនួន និងរក្សាបានពិន្ទុ F1-Score ខ្ពស់បំផុត។
Logistic Regression (LR)
ក្បួនដោះស្រាយតក្កវិទ្យា (Logistic Regression)
ដំណើរការលឿន ងាយស្រួលយល់ និងប្រើប្រាស់ធនធានតិចក្នុងការគណនា។ មានកម្រិតភាពត្រឹមត្រូវទាបជាងគេ (ប្រហែល ៩៤-៩៥%) និងមានអត្រាកំហុសខ្ពស់ក្នុងការមិនចាប់យកការក្លែងបន្លំ (False Negatives)។ ភាពត្រឹមត្រូវមានកម្រិតទាបជាងម៉ូដែលដទៃទៀត ជាពិសេសនៅពេលប្រើជាមួយទិន្នន័យដែលមិនមានតុល្យភាព។
Proposed Ensemble Model (PM)
គំរូបណ្តុំដែលបានស្នើឡើង (រួមបញ្ចូល SVM, KNN, RF, Bagging, Boosting)
មានស្ថេរភាពខ្ពស់ និងកាត់បន្ថយហានិភ័យនៃការទស្សន៍ទាយខុសដោយពឹងផ្អែកលើការសម្រេចចិត្តរួមគ្នា (Voting Mechanism) នៃម៉ូដែលជាច្រើន។ មានភាពស្មុគស្មាញក្នុងការរៀបចំ និងទាមទារពេលវេលាដំណើរការយូរជាងម៉ូដែលទោល។ សម្រេចបានភាពត្រឹមត្រូវ ៩៩.៩៦% នៅពេលប្រើជាមួយបច្ចេកទេស SMOTE ដែលខ្ពស់ជាងការប្រើ Under-sampling។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកម្រិតមធ្យមដែលអាចដំណើរការបាននៅលើកុំព្យូទ័រយួរដៃទូទៅ ឬថ្នាលក្លOUD ដោយមិនចាំបាច់មានម៉ាស៊ីនមេកម្រិតខ្ពស់ពេកទេ ប៉ុន្តែត្រូវការ RAM គ្រប់គ្រាន់សម្រាប់ដំណើរការទិន្នន័យ SMOTE។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីអឺរ៉ុបក្នុងឆ្នាំ ២០១៣ ដែលអាចមិនឆ្លុះបញ្ចាំងពេញលេញពីឥរិយាបថនៃការប្រើប្រាស់កាត ឬការទូទាត់តាមឌីជីថល (Digital Payment) នៅក្នុងប្រទេសកម្ពុជាបច្ចុប្បន្ន ដែលមានការនិយមប្រើប្រាស់ QR Code និងប្រព័ន្ធទូទាត់ចល័តច្រើនជាងការប្រើកាតឥណទានបែបប្រពៃណី។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលបានស្នើឡើងនេះមានសារៈសំខាន់ខ្លាំង និងអាចអនុវត្តបានខ្ពស់សម្រាប់វិស័យធនាគារ និងហិរញ្ញវត្ថុនៅកម្ពុជា ដើម្បីពង្រឹងសុវត្ថិភាពប្រព័ន្ធទូទាត់។

ទោះបីជាទិន្នន័យបរទេសត្រូវបានប្រើប្រាស់ក៏ដោយ បច្ចេកវិទ្យា Ensemble Learning និងការដោះស្រាយទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data) គឺជាដំណោះស្រាយដ៏ចាំបាច់សម្រាប់ពង្រឹងសន្តិសុខសាយប័រក្នុងវិស័យហិរញ្ញវត្ថុកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning: ចាប់ផ្តើមរៀនភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា Scikit-learn និង Pandas។ និស្សិតគួរស្វែងយល់ឱ្យច្បាស់អំពីភាពខុសគ្នារវាងម៉ូដែលដូចជា Random Forest និង Support Vector Machine (SVM)។
  2. ការដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព: អនុវត្តការពិសោធន៍ជាមួយបច្ចេកទេស SMOTE (Synthetic Minority Over-sampling Technique) ដើម្បីយល់ពីរបៀបដែលវាបង្កើតទិន្នន័យក្លែងក្លាយសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលឱ្យស្គាល់ការក្លែងបន្លំបានល្អជាងមុន។
  3. ការបង្កើតគំរូបណ្តុំ (Ensemble Modeling): សាកល្បងបង្កើត Voting Classifier ដោយបញ្ចូលម៉ូដែលជាច្រើនបញ្ចូលគ្នា (ដូចជា RF + KNN + LR) នៅក្នុង Google Colab ដើម្បីប្រៀបធៀបលទ្ធផលជាមួយម៉ូដែលទោល។
  4. ការវាយតម្លៃ និងការអនុវត្តជាក់ស្តែង: ប្រើប្រាស់ Confusion Matrix និង ROC Curve ដើម្បីវាយតម្លៃម៉ូដែល។ សម្រាប់បរិបទកម្ពុជា និស្សិតអាចសាកល្បងស្វែងរកទិន្នន័យបើកចំហរទាក់ទងនឹង Mobile Money ដើម្បីធ្វើតេស្តជំនួសឱ្យទិន្នន័យកាតឥណទានអឺរ៉ុប។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Ensemble Machine Learning គឺជាបច្ចេកទេសដែលរួមបញ្ចូលគ្នានូវម៉ូដែលកុំព្យូទ័រជាច្រើន (ដូចជា SVM, KNN, RF) ដើម្បីធ្វើការទស្សន៍ទាយរួមគ្នា។ វិធីនេះជួយកាត់បន្ថយចំណុចខ្សោយរបស់ម៉ូដែលនីមួយៗ និងធ្វើឱ្យលទ្ធផលចុងក្រោយមានភាពសុក្រឹតជាងការប្រើម៉ូដែលតែមួយ។ ដូចជាការសុំយោបល់ពីអ្នកជំនាញជាច្រើននាក់ដើម្បីធ្វើការសម្រេចចិត្ត ជាជាងជឿលើមនុស្សតែម្នាក់។
SMOTE (Synthetic Minority Over-sampling Technique) ជាវិធីសាស្ត្រស្ថិតិដែលត្រូវបានប្រើដើម្បីដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព។ វាបង្កើតទិន្នន័យក្លែងក្លាយថ្មីៗសម្រាប់ក្រុមដែលមានចំនួនតិច (ដូចជាករណីលួចបន្លំ) ដោយផ្អែកលើលក្ខណៈនៃទិន្នន័យដែលមានស្រាប់ ដើម្បីឱ្យកុំព្យូទ័រមានឧទាហរណ៍គ្រប់គ្រាន់សម្រាប់រៀន។ ដូចជាការថតចម្លងរូបភាពរបស់សត្វកម្រ ហើយកែសម្រួលវាបន្តិចបន្តួចដើម្បីឱ្យសិស្សមានរូបភាពគ្រប់គ្រាន់សម្រាប់សិក្សា។
Data Imbalance សំដៅលើស្ថានភាពដែលប្រភេទទិន្នន័យមួយមានចំនួនច្រើនលើសលប់ធៀបនឹងប្រភេទមួយទៀត (ឧទាហរណ៍៖ ប្រតិបត្តិការត្រឹមត្រូវមានរាប់លាន តែការលួចបន្លំមានតែពីរបី) ដែលធ្វើឱ្យម៉ូដែលកុំព្យូទ័រពិបាករៀនសម្គាល់ករណីកម្រនោះ។ ដូចជាការស្វែងរកម្ជុលក្នុងគំនរចំបើង ឬការបង្រៀនសិស្សឱ្យស្គាល់មុខចោរ តែមានរូបចោរតែមួយសន្លឹក ក្នុងចំណោមរូបមនុស្សល្អរាប់ពាន់សន្លឹក។
Voting Classifier គឺជាយន្តការមួយនៅក្នុង Ensemble Learning ដែលប្រមូលចម្លើយពីម៉ូដែលជាច្រើន ហើយជ្រើសរើសយកចម្លើយណាដែលម៉ូដែលភាគច្រើនបានយល់ស្របគ្នា ដើម្បីកំណត់លទ្ធផលចុងក្រោយ។ ដូចជាគណៈកម្មការវិនិច្ឆ័យ ដែលសមាជិកម្នាក់ៗផ្តល់ពិន្ទុ ហើយលទ្ធផលចុងក្រោយគឺផ្អែកលើសំឡេងភាគច្រើន។
Confusion Matrix គឺជាតារាងដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល ដោយបង្ហាញលម្អិតនូវចំនួនដែលទស្សន៍ទាយត្រូវ និងខុស ទាំងលើករណីវិជ្ជមាន (លួចបន្លំ) និងអវិជ្ជមាន (មិនលួចបន្លំ)។ ដូចជាតារាងពិន្ទុដែលប្រាប់លម្អិតថា អ្នកឆ្លើយត្រូវប៉ុន្មានសំណួរ និងឆ្លើយខុសត្រង់ចំណុចណាខ្លះ (មិនមែនគ្រាន់តែប្រាប់ពិន្ទុសរុបទេ)។
Bagging (Bootstrap Aggregating) ជាបច្ចេកទេសដែលបំបែកទិន្នន័យជាផ្នែកតូចៗ ហើយឱ្យម៉ូដែលជាច្រើនរៀនពីផ្នែកនីមួយៗដាច់ដោយឡែកពីគ្នា (ជាលក្ខណៈស្របគ្នា) រួចយកលទ្ធផលមកបូកបញ្ចូលគ្នាដើម្បីកាត់បន្ថយភាពលំអៀង។ ដូចជាការចែកសៀវភៅមួយក្បាលជាផ្នែកៗឱ្យសិស្សរៀនរៀងខ្លួន រួចយកចំណេះដឹងមកចែករំលែកគ្នាវិញ។
Boosting ជាបច្ចេកទេសដែលបង្កើតម៉ូដែលជាបន្តបន្ទាប់ (Sequential) ដោយម៉ូដែលក្រោយព្យាយាមកែតម្រូវកំហុសដែលម៉ូដែលមុនបានធ្វើខុស ដើម្បីឱ្យលទ្ធផលចុងក្រោយមានភាពត្រឹមត្រូវបំផុត។ ដូចជាគ្រូដែលកែតម្រូវកំហុសសិស្ស ហើយឱ្យសិស្សផ្តោតរៀនតែចំណុចដែលធ្លាប់ធ្វើខុស ដើម្បីឱ្យកាន់តែពូកែនៅពេលប្រឡងលើកក្រោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖