Original Title: Graph-based Semi-Supervised Learning for Fraud Detection in Finance
Source: www.irjet.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនតាមបែបពាក់កណ្តាលមានការគ្រប់គ្រងផ្អែកលើក្រាហ្វសម្រាប់ការរកឃើញការក្លែងបន្លំក្នុងវិស័យហិរញ្ញវត្ថុ

ចំណងជើងដើម៖ Graph-based Semi-Supervised Learning for Fraud Detection in Finance

អ្នកនិពន្ធ៖ Navya Krishna Alapati (VISA USA, INC)

ឆ្នាំបោះពុម្ព៖ 2024, International Research Journal of Engineering and Technology (IRJET)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការក្លែងបន្លំក្នុងវិស័យហិរញ្ញវត្ថុ ដែលវិធីសាស្ត្រប្រពៃណីជួបការលំបាកដោយសារតែទិន្នន័យមានវិសមភាពខ្ពស់ និងទម្រង់នៃការក្លែងបន្លំតែងតែវិវត្តផ្លាស់ប្តូរជាប្រចាំ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររៀនបែបពាក់កណ្តាលមានការគ្រប់គ្រងផ្អែកលើក្រាហ្វ (Graph-based Semi-Supervised Learning - GSSL) ដើម្បីវិភាគបណ្តាញប្រតិបត្តិការហិរញ្ញវត្ថុ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Graph-based Semi-Supervised Learning (GSSL)
ការរៀនតាមបែបពាក់កណ្តាលមានការគ្រប់គ្រងផ្អែកលើក្រាហ្វ
អាចដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នាយ៉ាងមានប្រសិទ្ធភាព (Imbalanced data) និងមានសមត្ថភាពចាប់យកទម្រង់នៃការក្លែងបន្លំថ្មីៗ ដោយប្រើប្រាស់ទំនាក់ទំនងនៃទិន្នន័យទាំងមានស្លាកនិងគ្មានស្លាក។ ទាមទារកម្លាំងកុំព្យូទ័រខ្ពស់សម្រាប់ការគណនាបណ្តាញក្រាហ្វដ៏ធំ ហើយងាយរងឥទ្ធិពលអវិជ្ជមានប្រសិនបើទិន្នន័យបញ្ចូលមានកម្រិតរំខាន (Noise) ខ្ពស់។ ផ្តល់លទ្ធផលល្អជាងម៉ូដែលប្រពៃណី ដោយមានកម្រិតភាពត្រឹមត្រូវខ្ពស់ជាង (ផ្អែកលើ AUPRC និង AUROC) និងអត្រានៃការខកខានក្នុងការរកឃើញ (Miss rate) ទាបជាង។
Traditional Supervised Learning (Logistic Regression, Decision Trees)
ការរៀនបែបមានការគ្រប់គ្រងតាមបែបប្រពៃណី (ដូចជា Logistic Regression និង Decision Trees)
ងាយស្រួលក្នុងការកសាង មិនសូវទាមទារកម្លាំងកុំព្យូទ័រខ្ពស់ និងសាមញ្ញក្នុងការស្វែងយល់ពីរបៀបនៃការធ្វើសេចក្តីសម្រេចចិត្តរបស់ម៉ូដែល។ ជួបការលំបាកយ៉ាងខ្លាំងនៅពេលទិន្នន័យមានភាពលម្អៀង ឬវិសមភាពខ្ពស់ ហើយមិនអាចចាប់យកទំនាក់ទំនងប្រទាក់ក្រឡាដ៏ស្មុគស្មាញរវាងប្រតិបត្តិការបានទេ។ មានកម្រិតភាពត្រឹមត្រូវទាប និងងាយបញ្ចេញសញ្ញាព្រមានខុស (False alarms) ច្រើន នៅពេលជួបប្រទះទម្រង់នៃការក្លែងបន្លំថ្មីៗ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីទំហំថវិកាជាក់លាក់ ប៉ុន្តែវិធីសាស្ត្រនេះទាមទារកម្លាំងគណនាខ្ពស់ (High computational cost) និងការប្រើប្រាស់ហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យា Big Data ដើម្បីដំណើរការបណ្តាញទិន្នន័យក្រាហ្វដ៏ធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះផ្អែកលើទិន្នន័យប្រតិបត្តិការកាតឥណទាន (Credit Card) ដែលជានិម្មិតកម្មនៃប្រទេសអភិវឌ្ឍន៍ ដោយមិនបានបញ្ជាក់ពីបរិបទប្រជាសាស្ត្រជាក់លាក់នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះអាចមានភាពខុសប្លែកគ្នាច្រើន ដោយសារប្រជាជនខ្មែរភាគច្រើននិយមប្រើប្រាស់ការផ្ទេរប្រាក់តាមទូរស័ព្ទចល័ត (Mobile Payment និង QR Code) ជាងកាតឥណទាន ដែលធ្វើឱ្យលំនាំនៃការឆបោកមានលក្ខណៈប្លែកពីគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ GSSL នេះមានសក្តានុពលខ្ពស់ និងភាពចាំបាច់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យហិរញ្ញវត្ថុឌីជីថលរបស់ប្រទេសកម្ពុជាដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័ស។

ការបំពាក់បច្ចេកវិទ្យាវិភាគក្រាហ្វ (Graph-based Learning) នេះ នឹងជួយកាត់បន្ថយការខាតបង់ថវិការបស់គ្រឹះស្ថានហិរញ្ញវត្ថុ និងពង្រឹងទំនុកចិត្តរបស់ប្រជាជនកម្ពុជាទៅលើប្រព័ន្ធទូទាត់ឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល Graph និង Semi-Supervised Learning: និស្សិតគប្បីចាប់ផ្តើមសិក្សាពីទ្រឹស្តីក្រាហ្វ (Graph Theory) និងក្បួនដោះស្រាយមូលដ្ឋាន ដោយសាកល្បងប្រើប្រាស់ Scikit-Learn ដើម្បីយល់ពីរបៀបដែល Label Propagation ដំណើរការលើទិន្នន័យមានស្លាកបញ្ចូនទៅកាន់ទិន្នន័យគ្មានស្លាក។
  2. ស្វែងយល់និងអនុវត្តប្រព័ន្ធ Big Data: ដោយសារតែទិន្នន័យហិរញ្ញវត្ថុមានទំហំធំ និស្សិតត្រូវរៀនសរសេរកូដសម្រាប់ទាញយកនិងគ្រប់គ្រងទិន្នន័យចែកចាយដោយប្រើប្រាស់ Apache Spark និងបណ្ណាល័យ BigDL ដូចដែលឯកសារបានលើកឡើង។
  3. អភិវឌ្ឍម៉ូដែល Graph Neural Networks (GNN): អនុវត្តការសាងសង់ម៉ូដែលស្មុគស្មាញដូចជា Graph Convolutional Networks (GCN) ដោយប្រើយន្តការពិសេសៗក្នុងបណ្ណាល័យ PyTorch GeometricDGL (Deep Graph Library) ដើម្បីវិភាគទំនាក់ទំនងរវាងគណនីទូទាត់។
  4. សាកល្បងលើទិន្នន័យហិរញ្ញវត្ថុគំរូ (Imbalanced Data): ទាញយកទិន្នន័យក្លែងបន្លំហិរញ្ញវត្ថុពីប្រភពបើកចំហរ (ដូចជា Kaggle) ហើយអនុវត្តវិធីសាស្ត្រ GSSL នេះ ដើម្បីយល់ពីរបៀបដែលម៉ូដែលនេះដោះស្រាយជាមួយទិន្នន័យដែលភាគច្រើនស្របច្បាប់តែមានការក្លែងបន្លំតិចតួចបំផុត។
  5. វាយតម្លៃប្រសិទ្ធភាព និងកែលម្អ (Model Evaluation): ប្រើប្រាស់រង្វាស់រង្វាល់ស្តង់ដាររួមមាន AUPRC និង AUROC ជំនួសឱ្យការវាស់ស្ទង់ត្រឹម Accuracy ទូទៅ ដើម្បីវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលក្នុងការចាប់យកប្រតិបត្តិការក្លែងបន្លំ និងកាត់បន្ថយការដាស់តឿនខុស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Semi-Supervised Learning ជាបច្ចេកទេសរៀនរបស់ម៉ាស៊ីនដែលប្រើប្រាស់ទិន្នន័យមានស្លាក (ស្គាល់ច្បាស់) ចំនួនតិចតួច រួមបញ្ចូលជាមួយទិន្នន័យគ្មានស្លាក (មិនទាន់ស្គាល់) ចំនួនច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្វឹកម៉ូដែលឱ្យទស្សន៍ទាយ ឬរៀបចំចំណាត់ថ្នាក់បានកាន់តែច្បាស់លាស់ និងចំណាយពេលតិចក្នុងការរៀបចំទិន្នន័យ។ ដូចជាគ្រូបង្រៀនសិស្សពីរបៀបដោះស្រាយលំហាត់២-៣ (ទិន្នន័យមានស្លាក) ហើយទុកឱ្យសិស្សព្យាយាមយល់និងដោះស្រាយលំហាត់រាប់រយទៀតដោយខ្លួនឯងដើម្បីឱ្យកាន់តែពូកែ (ទិន្នន័យគ្មានស្លាក)។
Graph Convolutional Networks (GCN) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ទាញយកព័ត៌មាននិងលក្ខណៈពិសេសពីទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ (ទំនាក់ទំនងជាបណ្ដាញរវាងចំណុចទិន្នន័យ) ជំនួសឱ្យការមើលទិន្នន័យតែមួយៗដាច់ដោយឡែក។ ដូចជាប៉ូលីសស៊ើបអង្កេតដែលមិនត្រឹមតែមើលប្រវត្តិរូបរបស់ជនសង្ស័យម្នាក់ៗប៉ុណ្ណោះទេ ថែមទាំងតាមដានមើលថាពួកគេទាក់ទងជាមួយអ្នកណាខ្លះនៅក្នុងបណ្ដាញសង្គមរបស់ពួកគេ។
Imbalanced Datasets ជាស្ថានភាពនៃសំណុំទិន្នន័យដែលមានចំនួនទិន្នន័យក្នុងក្រុមមួយច្រើនលើសលប់ (ឧទាហរណ៍៖ ប្រតិបត្តិការធនាគារធម្មតា៩៩%) ខណៈក្រុមមួយទៀតមានចំនួនតិចតួចបំផុត (ឧទាហរណ៍៖ ប្រតិបត្តិការក្លែងបន្លំមានតែ១%) ដែលធ្វើឱ្យម៉ូដែលងាយនឹងលម្អៀងនិងពិបាកក្នុងការចាប់យកក្រុមតូចនោះ។ ដូចជាការព្យាយាមស្វែងរកម្ជុលមួយសរសៃដែលបាត់នៅក្នុងគំនរចំបើងដ៏ធំមួយអញ្ចឹង។
Label Propagation ជាក្បួនដោះស្រាយក្នុង Semi-Supervised Learning ដែលធ្វើការផ្ទេរព័ត៌មានពីទិន្នន័យដែលមានស្លាករួចហើយ ទៅកាន់ទិន្នន័យដែលនៅជិត ឬមានទំនាក់ទំនងគ្នាដែលមិនទាន់មានស្លាក តាមរយៈរចនាសម្ព័ន្ធក្រាហ្វ។ ដូចជាការឆ្លងមេរោគផ្តាសាយអញ្ចឹង បើអ្នកដឹងថាមនុស្សម្នាក់ឈឺ អ្នកដែលនៅជិតឬស្និទ្ធស្នាលជាមួយគាត់បំផុតទំនងជាអាចឆ្លងជំងឺនោះដែរ។
AUPRC (Area Under the Precision-Recall Curve) ជារង្វាស់សម្រាប់វាយតម្លៃប្រសិទ្ធភាពរបស់ម៉ូដែល ដែលស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យដែលមានវិសមភាព (Imbalanced Data)។ វាផ្តោតសំខាន់លើសមត្ថភាពរបស់ម៉ូដែលក្នុងការទស្សន៍ទាយក្រុមទិន្នន័យគោលដៅ (ការក្លែងបន្លំ) ឱ្យបានត្រឹមត្រូវ ដោយថ្លឹងថ្លែងរវាងភាពជាក់លាក់ (Precision) និងការរកឃើញទាំងអស់ (Recall)។ ដូចជាការវាយតម្លៃអ្នកនេសាទម្នាក់ ដោយមើលថាតើគាត់ចាប់បានត្រីគោលដៅប៉ុន្មានក្បាលពីក្នុងបឹង (Recall) ហើយក្នុងចំណោមត្រីដែលគាត់ចាប់បាននោះ តើមានត្រីគោលដៅប៉ុន្មានភាគរយ (Precision)។
False alarms (False positives) គឺជាការទស្សន៍ទាយខុសរបស់ប្រព័ន្ធ ដែលចាត់ទុកប្រតិបត្តិការហិរញ្ញវត្ថុធម្មតាឬស្របច្បាប់ ថាជាប្រតិបត្តិការក្លែងបន្លំ។ វាធ្វើឱ្យរំខានដល់អ្នកប្រើប្រាស់ (រាំងស្ទះការទូទាត់) និងទាមទារការត្រួតពិនិត្យបន្ថែមពីបុគ្គលិកស្ថាប័ន។ ដូចជាសំឡេងរោទិ៍ប្រកាសអាសន្នអគ្គិភ័យរោទិ៍ឡើងផ្អើលគេឯង នៅពេលដែលមាននរណាម្នាក់គ្រាន់តែអាំងសាច់ មិនមែនមានភ្លើងឆេះផ្ទះពិតប្រាកដ។
Feature Engineering គឺជាដំណើរការនៃការទាញយក ឬបង្កើតលក្ខណៈពិសេសថ្មីៗពីទិន្នន័យដើម (Raw data) ដោយប្រើចំណេះដឹងផ្នែកអាជីវកម្ម ឬបច្ចេកទេស ដើម្បីជួយឱ្យម៉ូដែល Machine Learning អាចយល់ពីទិន្នន័យកាន់តែច្បាស់ និងដំណើរការបានកាន់តែល្អ។ ដូចជាការចិតសំបក លាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានស្អាតល្អ មុននឹងដាក់ចូលក្នុងឆ្នាំងស៊ុប ដើម្បីឱ្យស៊ុបមានរសជាតិឆ្ងាញ់។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយ Machine Learning សម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (Classification) ដោយព្យាយាមស្វែងរកបន្ទាត់ ឬប្លង់ (Hyperplane) ដែលខ័ណ្ឌចែកក្រុមទិន្នន័យពីរខុសគ្នាឱ្យនៅដាច់ពីគ្នាបានល្អបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីយកទៅទស្សន៍ទាយទិន្នន័យថ្មី។ ដូចជាការស្វែងរកកន្លែងគូសបន្ទាត់ព្រំដែនដ៏ច្បាស់លាស់មួយនៅលើវាលស្មៅ ដើម្បីខ័ណ្ឌចែកហ្វូងចៀមស និងហ្វូងចៀមខ្មៅឱ្យនៅដាច់ពីគ្នាបានល្អបំផុតកុំឱ្យច្របូកច្របល់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖