Original Title: Graph-based Semi-Supervised Learning for Fraud Detection in Finance
Source: www.irjet.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនតាមបែបពាក់កណ្តាលមានការគ្រប់គ្រងផ្អែកលើក្រាហ្វសម្រាប់ការរកឃើញការក្លែងបន្លំក្នុងវិស័យហិរញ្ញវត្ថុ

ចំណងជើងដើម៖ Graph-based Semi-Supervised Learning for Fraud Detection in Finance

អ្នកនិពន្ធ៖ Navya Krishna Alapati (VISA USA, INC)

ឆ្នាំបោះពុម្ព៖ 2024, International Research Journal of Engineering and Technology (IRJET)

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការក្លែងបន្លំក្នុងវិស័យហិរញ្ញវត្ថុ ដែលវិធីសាស្ត្រប្រពៃណីជួបការលំបាកដោយសារតែទិន្នន័យមានវិសមភាពខ្ពស់ និងទម្រង់នៃការក្លែងបន្លំតែងតែវិវត្តផ្លាស់ប្តូរជាប្រចាំ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររៀនបែបពាក់កណ្តាលមានការគ្រប់គ្រងផ្អែកលើក្រាហ្វ (Graph-based Semi-Supervised Learning - GSSL) ដើម្បីវិភាគបណ្តាញប្រតិបត្តិការហិរញ្ញវត្ថុ។

ការបង្កើតរចនាសម្ព័ន្ធក្រាហ្វ (Graph Structures Construction) ដើម្បីភ្ជាប់ទំនាក់ទំនងរវាងអតិថិជន គណនី និងប្រតិបត្តិការ
ការប្រើប្រាស់ទិន្នន័យមានស្លាកនិងគ្មានស្លាក (Labeled and Unlabeled Data) សម្រាប់ការហ្វឹកហាត់ម៉ូដែល
ការជ្រើសរើសលក្ខណៈពិសេសដែលល្អបំផុត (Ideal Feature Selection) ដើម្បីកាត់បន្ថយភាពរំខាននៃទិន្នន័យ
ការប្រើប្រាស់ក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទក្រាហ្វ (Graph Convolutional Networks - GCN) និង Label Propagation

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ GSSL ផ្តល់លទ្ធផលល្អជាងវិធីសាស្ត្រ Supervised Learning ធម្មតា (ដូចជា Logistic Regression និង Decision Trees) ក្នុងការកំណត់អត្តសញ្ញាណប្រតិបត្តិការក្លែងបន្លំ។
ការប្រើប្រាស់រចនាសម្ព័ន្ធក្រាហ្វអនុញ្ញាតឱ្យប្រព័ន្ធអាចចាប់យកលំនាំស្មុគស្មាញ និងទម្រង់នៃការក្លែងបន្លំថ្មីៗដែលម៉ូដែលចាស់ៗតែងតែមើលរំលង។
វិធីសាស្ត្រនេះជួយកាត់បន្ថយអត្រានៃការខកខានក្នុងការរកឃើញ (Miss rate) និងដោះស្រាយបញ្ហាវិសមភាពទិន្នន័យ (Imbalanced data) យ៉ាងមានប្រសិទ្ធភាពក្នុងវិស័យហិរញ្ញវត្ថុ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Graph-based Semi-Supervised Learning (GSSL) ការរៀនតាមបែបពាក់កណ្តាលមានការគ្រប់គ្រងផ្អែកលើក្រាហ្វ	អាចដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នាយ៉ាងមានប្រសិទ្ធភាព (Imbalanced data) និងមានសមត្ថភាពចាប់យកទម្រង់នៃការក្លែងបន្លំថ្មីៗ ដោយប្រើប្រាស់ទំនាក់ទំនងនៃទិន្នន័យទាំងមានស្លាកនិងគ្មានស្លាក។	ទាមទារកម្លាំងកុំព្យូទ័រខ្ពស់សម្រាប់ការគណនាបណ្តាញក្រាហ្វដ៏ធំ ហើយងាយរងឥទ្ធិពលអវិជ្ជមានប្រសិនបើទិន្នន័យបញ្ចូលមានកម្រិតរំខាន (Noise) ខ្ពស់។	ផ្តល់លទ្ធផលល្អជាងម៉ូដែលប្រពៃណី ដោយមានកម្រិតភាពត្រឹមត្រូវខ្ពស់ជាង (ផ្អែកលើ AUPRC និង AUROC) និងអត្រានៃការខកខានក្នុងការរកឃើញ (Miss rate) ទាបជាង។
Traditional Supervised Learning (Logistic Regression, Decision Trees) ការរៀនបែបមានការគ្រប់គ្រងតាមបែបប្រពៃណី (ដូចជា Logistic Regression និង Decision Trees)	ងាយស្រួលក្នុងការកសាង មិនសូវទាមទារកម្លាំងកុំព្យូទ័រខ្ពស់ និងសាមញ្ញក្នុងការស្វែងយល់ពីរបៀបនៃការធ្វើសេចក្តីសម្រេចចិត្តរបស់ម៉ូដែល។	ជួបការលំបាកយ៉ាងខ្លាំងនៅពេលទិន្នន័យមានភាពលម្អៀង ឬវិសមភាពខ្ពស់ ហើយមិនអាចចាប់យកទំនាក់ទំនងប្រទាក់ក្រឡាដ៏ស្មុគស្មាញរវាងប្រតិបត្តិការបានទេ។	មានកម្រិតភាពត្រឹមត្រូវទាប និងងាយបញ្ចេញសញ្ញាព្រមានខុស (False alarms) ច្រើន នៅពេលជួបប្រទះទម្រង់នៃការក្លែងបន្លំថ្មីៗ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីទំហំថវិកាជាក់លាក់ ប៉ុន្តែវិធីសាស្ត្រនេះទាមទារកម្លាំងគណនាខ្ពស់ (High computational cost) និងការប្រើប្រាស់ហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យា Big Data ដើម្បីដំណើរការបណ្តាញទិន្នន័យក្រាហ្វដ៏ធំ។

Hardware: ត្រូវការប្រព័ន្ធកុំព្យូទ័រចែកចាយ (Distributed computing architecture) ឬម៉ាស៊ីនសេវ៉ាដែលមានសមត្ថភាពខ្ពស់ ដើម្បីដំណើរការក្បួនដោះស្រាយក្រាហ្វលើទិន្នន័យធំៗ។
Software: ត្រូវការប្រព័ន្ធនិងបណ្ណាល័យកូដដូចជា Apache Spark, Spark Core, ក៏ដូចជា BigDL សម្រាប់ការដំណើរការទិន្នន័យ Deep Learning ។
Dataset: ត្រូវការទិន្នន័យប្រតិបត្តិការហិរញ្ញវត្ថុក្នុងទំហំធំ (មានទាំងទិន្នន័យមានស្លាកនិងគ្មានស្លាក) ដែលរួមបញ្ចូលព័ត៌មានដូចជា ចំនួនទឹកប្រាក់ ទីតាំង ពេលវេលា និងអាកប្បកិរិយារបស់អ្នកប្រើប្រាស់។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅលើ Graph Neural Networks (GCN), Label Propagation និងការរៀបចំទិន្នន័យ (Feature Engineering) លើរចនាសម្ព័ន្ធក្រាហ្វ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះផ្អែកលើទិន្នន័យប្រតិបត្តិការកាតឥណទាន (Credit Card) ដែលជានិម្មិតកម្មនៃប្រទេសអភិវឌ្ឍន៍ ដោយមិនបានបញ្ជាក់ពីបរិបទប្រជាសាស្ត្រជាក់លាក់នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះអាចមានភាពខុសប្លែកគ្នាច្រើន ដោយសារប្រជាជនខ្មែរភាគច្រើននិយមប្រើប្រាស់ការផ្ទេរប្រាក់តាមទូរស័ព្ទចល័ត (Mobile Payment និង QR Code) ជាងកាតឥណទាន ដែលធ្វើឱ្យលំនាំនៃការឆបោកមានលក្ខណៈប្លែកពីគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ GSSL នេះមានសក្តានុពលខ្ពស់ និងភាពចាំបាច់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យហិរញ្ញវត្ថុឌីជីថលរបស់ប្រទេសកម្ពុជាដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័ស។

វិស័យធនាគារ និងការទូទាត់ឌីជីថល (Mobile Banking & Bakong): អាចជួយធនាគារពាណិជ្ជក្នុងស្រុក និងប្រព័ន្ធទូទាត់បាគង ក្នុងការស្វែងរកបណ្តាញផ្ទេរប្រាក់ខុសប្រក្រតី ឬគណនីឆបោកតាមរយៈការវិភាគទំនាក់ទំនងក្រាហ្វរវាងអ្នកផ្ញើនិងអ្នកទទួលប្រាក់ជាប្រចាំ។
គ្រឹះស្ថានមីក្រូហិរញ្ញវត្ថុ (Microfinance Institutions): អាចត្រូវបានប្រើប្រាស់ដើម្បីវិភាគបណ្តាញទំនាក់ទំនងរបស់អ្នកខ្ចីប្រាក់ ដើម្បីការពារការក្លែងបន្លំឯកសារកម្ចី ឬហានិភ័យនៃការជំពាក់បំណុលជាប្រព័ន្ធដែលមានទំនាក់ទំនងគ្នា។
វិស័យពាណិជ្ជកម្មអេឡិចត្រូនិក (E-commerce): ជួយតាមដាន និងកំណត់អត្តសញ្ញាណបណ្តាញអ្នកទិញ ឬអ្នកលក់ក្លែងក្លាយនៅលើបណ្តាញសង្គម ឬទីផ្សារអនឡាញ ដែលព្យាយាមកេងបន្លំតាមរយៈការផ្ទេរប្រាក់បោកប្រាស់។

ការបំពាក់បច្ចេកវិទ្យាវិភាគក្រាហ្វ (Graph-based Learning) នេះ នឹងជួយកាត់បន្ថយការខាតបង់ថវិការបស់គ្រឹះស្ថានហិរញ្ញវត្ថុ និងពង្រឹងទំនុកចិត្តរបស់ប្រជាជនកម្ពុជាទៅលើប្រព័ន្ធទូទាត់ឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល Graph និង Semi-Supervised Learning: និស្សិតគប្បីចាប់ផ្តើមសិក្សាពីទ្រឹស្តីក្រាហ្វ (Graph Theory) និងក្បួនដោះស្រាយមូលដ្ឋាន ដោយសាកល្បងប្រើប្រាស់ Scikit-Learn ដើម្បីយល់ពីរបៀបដែល Label Propagation ដំណើរការលើទិន្នន័យមានស្លាកបញ្ចូនទៅកាន់ទិន្នន័យគ្មានស្លាក។
ស្វែងយល់និងអនុវត្តប្រព័ន្ធ Big Data: ដោយសារតែទិន្នន័យហិរញ្ញវត្ថុមានទំហំធំ និស្សិតត្រូវរៀនសរសេរកូដសម្រាប់ទាញយកនិងគ្រប់គ្រងទិន្នន័យចែកចាយដោយប្រើប្រាស់ Apache Spark និងបណ្ណាល័យ BigDL ដូចដែលឯកសារបានលើកឡើង។
អភិវឌ្ឍម៉ូដែល Graph Neural Networks (GNN): អនុវត្តការសាងសង់ម៉ូដែលស្មុគស្មាញដូចជា Graph Convolutional Networks (GCN) ដោយប្រើយន្តការពិសេសៗក្នុងបណ្ណាល័យ PyTorch Geometric ឬ DGL (Deep Graph Library) ដើម្បីវិភាគទំនាក់ទំនងរវាងគណនីទូទាត់។
សាកល្បងលើទិន្នន័យហិរញ្ញវត្ថុគំរូ (Imbalanced Data): ទាញយកទិន្នន័យក្លែងបន្លំហិរញ្ញវត្ថុពីប្រភពបើកចំហរ (ដូចជា Kaggle) ហើយអនុវត្តវិធីសាស្ត្រ GSSL នេះ ដើម្បីយល់ពីរបៀបដែលម៉ូដែលនេះដោះស្រាយជាមួយទិន្នន័យដែលភាគច្រើនស្របច្បាប់តែមានការក្លែងបន្លំតិចតួចបំផុត។
វាយតម្លៃប្រសិទ្ធភាព និងកែលម្អ (Model Evaluation): ប្រើប្រាស់រង្វាស់រង្វាល់ស្តង់ដាររួមមាន AUPRC និង AUROC ជំនួសឱ្យការវាស់ស្ទង់ត្រឹម Accuracy ទូទៅ ដើម្បីវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលក្នុងការចាប់យកប្រតិបត្តិការក្លែងបន្លំ និងកាត់បន្ថយការដាស់តឿនខុស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Semi-Supervised Learning	ជាបច្ចេកទេសរៀនរបស់ម៉ាស៊ីនដែលប្រើប្រាស់ទិន្នន័យមានស្លាក (ស្គាល់ច្បាស់) ចំនួនតិចតួច រួមបញ្ចូលជាមួយទិន្នន័យគ្មានស្លាក (មិនទាន់ស្គាល់) ចំនួនច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្វឹកម៉ូដែលឱ្យទស្សន៍ទាយ ឬរៀបចំចំណាត់ថ្នាក់បានកាន់តែច្បាស់លាស់ និងចំណាយពេលតិចក្នុងការរៀបចំទិន្នន័យ។	ដូចជាគ្រូបង្រៀនសិស្សពីរបៀបដោះស្រាយលំហាត់២-៣ (ទិន្នន័យមានស្លាក) ហើយទុកឱ្យសិស្សព្យាយាមយល់និងដោះស្រាយលំហាត់រាប់រយទៀតដោយខ្លួនឯងដើម្បីឱ្យកាន់តែពូកែ (ទិន្នន័យគ្មានស្លាក)។
Graph Convolutional Networks (GCN)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ទាញយកព័ត៌មាននិងលក្ខណៈពិសេសពីទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ (ទំនាក់ទំនងជាបណ្ដាញរវាងចំណុចទិន្នន័យ) ជំនួសឱ្យការមើលទិន្នន័យតែមួយៗដាច់ដោយឡែក។	ដូចជាប៉ូលីសស៊ើបអង្កេតដែលមិនត្រឹមតែមើលប្រវត្តិរូបរបស់ជនសង្ស័យម្នាក់ៗប៉ុណ្ណោះទេ ថែមទាំងតាមដានមើលថាពួកគេទាក់ទងជាមួយអ្នកណាខ្លះនៅក្នុងបណ្ដាញសង្គមរបស់ពួកគេ។
Imbalanced Datasets	ជាស្ថានភាពនៃសំណុំទិន្នន័យដែលមានចំនួនទិន្នន័យក្នុងក្រុមមួយច្រើនលើសលប់ (ឧទាហរណ៍៖ ប្រតិបត្តិការធនាគារធម្មតា៩៩%) ខណៈក្រុមមួយទៀតមានចំនួនតិចតួចបំផុត (ឧទាហរណ៍៖ ប្រតិបត្តិការក្លែងបន្លំមានតែ១%) ដែលធ្វើឱ្យម៉ូដែលងាយនឹងលម្អៀងនិងពិបាកក្នុងការចាប់យកក្រុមតូចនោះ។	ដូចជាការព្យាយាមស្វែងរកម្ជុលមួយសរសៃដែលបាត់នៅក្នុងគំនរចំបើងដ៏ធំមួយអញ្ចឹង។
Label Propagation	ជាក្បួនដោះស្រាយក្នុង Semi-Supervised Learning ដែលធ្វើការផ្ទេរព័ត៌មានពីទិន្នន័យដែលមានស្លាករួចហើយ ទៅកាន់ទិន្នន័យដែលនៅជិត ឬមានទំនាក់ទំនងគ្នាដែលមិនទាន់មានស្លាក តាមរយៈរចនាសម្ព័ន្ធក្រាហ្វ។	ដូចជាការឆ្លងមេរោគផ្តាសាយអញ្ចឹង បើអ្នកដឹងថាមនុស្សម្នាក់ឈឺ អ្នកដែលនៅជិតឬស្និទ្ធស្នាលជាមួយគាត់បំផុតទំនងជាអាចឆ្លងជំងឺនោះដែរ។
AUPRC (Area Under the Precision-Recall Curve)	ជារង្វាស់សម្រាប់វាយតម្លៃប្រសិទ្ធភាពរបស់ម៉ូដែល ដែលស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យដែលមានវិសមភាព (Imbalanced Data)។ វាផ្តោតសំខាន់លើសមត្ថភាពរបស់ម៉ូដែលក្នុងការទស្សន៍ទាយក្រុមទិន្នន័យគោលដៅ (ការក្លែងបន្លំ) ឱ្យបានត្រឹមត្រូវ ដោយថ្លឹងថ្លែងរវាងភាពជាក់លាក់ (Precision) និងការរកឃើញទាំងអស់ (Recall)។	ដូចជាការវាយតម្លៃអ្នកនេសាទម្នាក់ ដោយមើលថាតើគាត់ចាប់បានត្រីគោលដៅប៉ុន្មានក្បាលពីក្នុងបឹង (Recall) ហើយក្នុងចំណោមត្រីដែលគាត់ចាប់បាននោះ តើមានត្រីគោលដៅប៉ុន្មានភាគរយ (Precision)។
False alarms (False positives)	គឺជាការទស្សន៍ទាយខុសរបស់ប្រព័ន្ធ ដែលចាត់ទុកប្រតិបត្តិការហិរញ្ញវត្ថុធម្មតាឬស្របច្បាប់ ថាជាប្រតិបត្តិការក្លែងបន្លំ។ វាធ្វើឱ្យរំខានដល់អ្នកប្រើប្រាស់ (រាំងស្ទះការទូទាត់) និងទាមទារការត្រួតពិនិត្យបន្ថែមពីបុគ្គលិកស្ថាប័ន។	ដូចជាសំឡេងរោទិ៍ប្រកាសអាសន្នអគ្គិភ័យរោទិ៍ឡើងផ្អើលគេឯង នៅពេលដែលមាននរណាម្នាក់គ្រាន់តែអាំងសាច់ មិនមែនមានភ្លើងឆេះផ្ទះពិតប្រាកដ។
Feature Engineering	គឺជាដំណើរការនៃការទាញយក ឬបង្កើតលក្ខណៈពិសេសថ្មីៗពីទិន្នន័យដើម (Raw data) ដោយប្រើចំណេះដឹងផ្នែកអាជីវកម្ម ឬបច្ចេកទេស ដើម្បីជួយឱ្យម៉ូដែល Machine Learning អាចយល់ពីទិន្នន័យកាន់តែច្បាស់ និងដំណើរការបានកាន់តែល្អ។	ដូចជាការចិតសំបក លាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានស្អាតល្អ មុននឹងដាក់ចូលក្នុងឆ្នាំងស៊ុប ដើម្បីឱ្យស៊ុបមានរសជាតិឆ្ងាញ់។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយ Machine Learning សម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (Classification) ដោយព្យាយាមស្វែងរកបន្ទាត់ ឬប្លង់ (Hyperplane) ដែលខ័ណ្ឌចែកក្រុមទិន្នន័យពីរខុសគ្នាឱ្យនៅដាច់ពីគ្នាបានល្អបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីយកទៅទស្សន៍ទាយទិន្នន័យថ្មី។	ដូចជាការស្វែងរកកន្លែងគូសបន្ទាត់ព្រំដែនដ៏ច្បាស់លាស់មួយនៅលើវាលស្មៅ ដើម្បីខ័ណ្ឌចែកហ្វូងចៀមស និងហ្វូងចៀមខ្មៅឱ្យនៅដាច់ពីគ្នាបានល្អបំផុតកុំឱ្យច្របូកច្របល់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖