Original Title: An Intelligent Framework for Fraud Detection Using LSTM and Graph-Based Deep Learning
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ក្របខ័ណ្ឌឆ្លាតវៃសម្រាប់ការរកឃើញការក្លែងបន្លំដោយប្រើប្រាស់ LSTM និងការរៀនស៊ីជម្រៅផ្អែកលើក្រាហ្វ

ចំណងជើងដើម៖ An Intelligent Framework for Fraud Detection Using LSTM and Graph-Based Deep Learning

អ្នកនិពន្ធ៖ Aiswarya RS, Tagore Institute of Engineering and Technology, Salem, India

ឆ្នាំបោះពុម្ព៖ 2022, JCDP (ISSN: 1073 - 7774), Vol 13 Issue 04

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការក្លែងបន្លំផ្នែកហិរញ្ញវត្ថុដែលកាន់តែមានភាពស្មុគស្មាញ និងមានអតុល្យភាពទិន្នន័យខ្ពស់ ដែលប្រព័ន្ធប្រពៃណីមិនអាចឆ្លើយតបបានទាន់ពេលវេលា និងមានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវម៉ូដែលកូនកាត់ដោយប្រើប្រាស់បច្ចេកទេសរៀនស៊ីជម្រៅ (Deep Learning) ដើម្បីវិភាគទាំងទំនាក់ទំនងនិងពេលវេលានៃប្រតិបត្តិការហិរញ្ញវត្ថុ។

ការរៀបចំទិន្នន័យជាមុនដោយប្រើ Z-score និង Mean/Median Imputation (Data Pre-processing)
ការប្រើប្រាស់បណ្ដាញចងចាំរយៈពេលខ្លី-វែង (Long Short-Term Memory - LSTM) សម្រាប់វិភាគលំនាំពេលវេលា
ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទក្រាហ្វ (Graph Neural Networks - GNNs) ដើម្បីវិភាគទំនាក់ទំនងរវាងប្រតិបត្តិការ
ការប្រើប្រាស់អនុគមន៍បាត់បង់ Binary Cross-Entropy (Binary Cross-Entropy Loss) និងការកំណត់កម្រិតវាយតម្លៃ (Decision-Making)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលកូនកាត់ LSTM-GNN ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៥% ខ្ពស់ជាងម៉ូដែលប្រពៃណី (SVM, RF) ដែលទទួលបានត្រឹមតែ ៨៣%។
បណ្ដាញ GNNs ជួយបង្កើនសមត្ថភាពរកឃើញការក្លែងបន្លំដោយការទាញយកទំនាក់ទំនងដែលលាក់កំបាំងរវាងប្រតិបត្តិការនានា ដែលប្រព័ន្ធប្រពៃណីមើលរំលង។
ការរួមបញ្ចូលគ្នានៃការរៀនពីទំនាក់ទំនងរចនាសម្ព័ន្ធ និងលំនាំពេលវេលា មានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយការផ្តល់សញ្ញាខុស (False Positives) ជាពិសេសក្នុងសំណុំទិន្នន័យដែលមានអតុល្យភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional ML (RF, SVM) ម៉ាស៊ីនរៀនប្រពៃណី (Random Forest និង Support Vector Machines)	ងាយស្រួលក្នុងការអនុវត្ត និងដំណើរការបានលឿនសម្រាប់ទិន្នន័យមូលដ្ឋាន ឬសំណុំទិន្នន័យដែលមិនសូវស្មុគស្មាញ។	មានកម្រិតក្នុងការចាប់យកលំនាំនៃការក្លែងបន្លំដែលបំប្លែងខ្លួនលឿន និងផ្តល់សញ្ញាខុស (False Positives) ច្រើនលើទិន្នន័យដែលមានអតុល្យភាព។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៣% និង F1-Score ៧៣%។
LSTM Networks បណ្ដាញសរសៃប្រសាទចងចាំរយៈពេលខ្លី-វែង (LSTM)	មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគលំនាំទិន្នន័យតាមពេលវេលា (Sequential data) ដូចជាប្រវត្តិ និងភាពញឹកញាប់នៃប្រតិបត្តិការរបស់គណនី។	មិនអាចវិភាគពីទំនាក់ទំនងរវាងគណនី ឬអង្គភាពផ្សេងៗទៀត (Relational interactions) នៅក្នុងបណ្តាញប្រតិបត្តិការបានទេ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៧% និង F1-Score ៧៩%។
Graph Neural Networks (GNN) បណ្ដាញសរសៃប្រសាទក្រាហ្វ (Graph Neural Networks)	អាចទាញយកទំនាក់ទំនងលាក់កំបាំងរវាងប្រតិបត្តិការនានា (ឧទាហរណ៍ ប្រើអាសយដ្ឋាន IP ឬឧបករណ៍តែមួយ) ដើម្បីស្វែងរកបណ្តាញក្លែងបន្លំ។	មិនសូវផ្តោតលើការប្រែប្រួលនៃលំនាំប្រតិបត្តិការតាមពេលវេលារបស់បុគ្គលម្នាក់ៗ និងទាមទារការរៀបចំទិន្នន័យជាទម្រង់ក្រាហ្វស្មុគស្មាញ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩០% និង F1-Score ៨៤%។
Hybrid (LSTM + GNN) ម៉ូដែលកូនកាត់ (ការបញ្ចូលគ្នាពាក់កណ្តាល LSTM និងពាក់កណ្តាល GNN)	វិភាគបានទាំងឥរិយាបថតាមពេលវេលា និងទំនាក់ទំនងរចនាសម្ព័ន្ធក្នុងពេលតែមួយ ដែលជួយកាត់បន្ថយការផ្តល់សញ្ញាខុសបានយ៉ាងមានប្រសិទ្ធភាព។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ស៊ីទំហំផ្ទុកច្រើន និងត្រូវការពេលវេលាយូរក្នុងការបង្ហាត់ម៉ូដែល (Training time)។	ទទួលបានភាពត្រឹមត្រូវល្អបំផុតរហូតដល់ (Accuracy) ៩៥% និង F1-Score ៩០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ថ្វីបើឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃ និងធនធាន ប៉ុន្តែតាមរយៈការប្រើប្រាស់ការរៀនស៊ីជម្រៅបែបក្រាហ្វ វាទាមទារហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រធំគួរសម។

Hardware: ត្រូវការប្រព័ន្ធកុំព្យូទ័រដែលមានអង្គគណនា (GPUs) កម្រិតខ្ពស់ ដើម្បីអាចដំណើរការទិន្នន័យក្រាហ្វ និងដំណើរការបណ្ដាញសរសៃប្រសាទក្នុងពេលតែមួយបានលឿន។
Software: ទាមទារប្រព័ន្ធ Deep Learning Frameworks ដែលគាំទ្រទាំងការវិភាគ Sequential និង Graph។
Dataset: ត្រូវការសំណុំទិន្នន័យប្រតិបត្តិការដែលមានទំហំធំ មានលក្ខណៈចម្រុះ និងមានស្លាកសញ្ញា (Labels) បែងចែកច្បាស់លាស់រវាងប្រតិបត្តិការធម្មតា និងការក្លែងបន្លំ។
Expertise: ទាមទារវិស្វករទិន្នន័យដែលយល់ច្បាស់ពីការសាងសង់ Graph Representation និងការវាយតម្លៃម៉ូដែលលើទិន្នន័យដែលមានអតុល្យភាព (Imbalanced data)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យប្រតិបត្តិការកាតឥណទានរបស់អឺរ៉ុបក្នុងខែកញ្ញា ឆ្នាំ២០១៣ ដែលមានអតុល្យភាពខ្ពស់ខ្លាំង។ សម្រាប់ប្រទេសកម្ពុជាដែលប្រជាជនភាគច្រើននិយមប្រើប្រាស់កាបូបលុយអេឡិចត្រូនិក (E-wallets) និងការស្កេន KHQR ការយកម៉ូដែលនេះមកអនុវត្តភ្លាមៗអាចជួបបញ្ហា លុះត្រាតែមានការបង្ហាត់ឡើងវិញជាមួយទិន្នន័យធនាគារក្នុងស្រុកទើបអាចចាប់បានអាកប្បកិរិយាជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានភាពសក្តិសម និងមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ស្ថាប័នហិរញ្ញវត្ថុនៅកម្ពុជាក្នុងការទប់ស្កាត់បទល្មើសបច្ចេកវិទ្យា។

ប្រព័ន្ធទូទាត់ឌីជីថល (ឧទាហរណ៍ គម្រោងបាគង និង KHQR): អាចប្រើប្រាស់បណ្ដាញ GNN ដើម្បីតាមដានបណ្តាញគណនីក្លែងក្លាយ (Bot-driven fraud) ដែលធ្វើប្រតិបត្តិការខុសប្រក្រតីឆ្លងកាត់ធនាគារច្រើនក្នុងពេលតែមួយ។
វិស័យធនាគារពាណិជ្ជ និងមីក្រូហិរញ្ញវត្ថុ (ឧទាហរណ៍ ធនាគារ ABA ឬ អេស៊ីលីដា): ធនាគារអាចប្រើ LSTM វិភាគប្រវត្តិវេលានៃការផ្ទេរប្រាក់របស់អតិថិជន ដើម្បីទប់ស្កាត់ការលួចគណនី (Account Takeover) នៅពេលមានប្រតិបត្តិការខុសពីទម្លាប់ធម្មតា។
ភ្នាក់ងារផ្ទេរប្រាក់ និងកាបូបលុយអេឡិចត្រូនិក (ឧទាហរណ៍ TrueMoney ឬ Wing): ជួយស្វែងរកក្រុមអ្នកបោកប្រាស់ដែលប្រើប្រាស់លេខទូរស័ព្ទច្រើន (Synthetic identity) ដោយភ្ជាប់ទំនាក់ទំនងពួកគេតាមរយៈលេខសម្គាល់ឧបករណ៍ (Device ID) ឬទីតាំងភូមិសាស្ត្រ។

ការអនុវត្តក្របខ័ណ្ឌនេះនឹងជួយពង្រឹងសន្តិសុខហិរញ្ញវត្ថុឌីជីថលនៅកម្ពុជា កាត់បន្ថយការខាតបង់ថវិកា និងបង្កើនទំនុកចិត្តពីសាធារណជនទៅលើប្រព័ន្ធធនាគារទំនើប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងរៀបចំទិន្នន័យជាមុន (Data Collection & Pre-processing): ប្រមូលទិន្នន័យប្រតិបត្តិការអនាមិក (Anonymized data) ពីស្ថាប័ន។ ប្រើប្រាស់បច្ចេកទេស Z-score normalization សម្រាប់សម្អាតទិន្នន័យ និង SMOTE ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយប្រើ Scikit-Learn។
ការកសាងក្រាហ្វទំនាក់ទំនង (Graph Representation Building): បម្លែងទិន្នន័យប្រតិបត្តិការទៅជាទម្រង់ក្រាហ្វ ដែលគណនី/ឧបករណ៍ជា Nodes និងប្រតិបត្តិការជា Edges ដោយប្រើប្រាស់ NetworkX ឬ PyTorch Geometric។
ការអភិវឌ្ឍម៉ូដែលតាមដានពេលវេលា (Time-Series Sequence Modeling): រៀបចំរចនាសម្ព័ន្ធបណ្ដាញ LSTM ដើម្បីចាប់យកភាពខុសប្រក្រតីតាមពេលវេលា ដោយប្រើប្រាស់ TensorFlow ឬ Keras។
ការរួមបញ្ចូលម៉ូដែល និងការហ្វឹកហាត់ (Hybrid Model Integration & Training): តភ្ជាប់លទ្ធផលដែលបានពីម៉ូដែលក្រាហ្វ (GNN) ជាមួយនឹងម៉ូដែលពេលវេលា (LSTM) បន្ទាប់មកបង្ហាត់វាជាមួយមុខងារ Binary Cross-Entropy Loss ដើម្បីកាត់បន្ថយទំហំនៃ False Positives។
ការវាយតម្លៃដោយរង្វាស់កម្រិតខ្ពស់ និងការដាក់ពង្រាយ (Evaluation & Cloud Deployment): វាយតម្លៃម៉ូដែលដោយផ្តោតលើ F1-Score និង AUPRC ជាជាងការមើលតែភាពត្រឹមត្រូវធម្មតា។ បន្ទាប់មកដាក់ឱ្យដំណើរការលើ AWS ឬ Google Cloud ដើម្បីតាមដានប្រតិបត្តិការក្នុងពេលវេលាជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលអាចចងចាំព័ត៌មានពីអតីតកាលបានយូរ ដែលស័ក្តិសមបំផុតសម្រាប់វិភាគទិន្នន័យដែលមានលំដាប់លំដោយតាមពេលវេលា (Sequential data) ដូចជាប្រវត្តិ និងភាពញឹកញាប់នៃប្រតិបត្តិការធនាគារជាដើម ដើម្បីរកមើលភាពមិនប្រក្រតី។	ដូចជាអ្នកយាមទ្វារដែលចាំមុខមនុស្សចេញចូលរាល់ថ្ងៃ ហើយដឹងភ្លាមបើមានអ្នកណាម្នាក់មកខុសម៉ោង ឬមកញឹកញាប់ខុសប្រក្រតី។
Graph Convolutional Networks (GCNs)	ជាបច្ចេកទេសរៀនស៊ីជម្រៅដែលប្រើសម្រាប់វិភាគទិន្នន័យជារាងក្រាហ្វ (ចំណុច Nodes និងខ្សែភ្ជាប់ Edges) ដើម្បីស្វែងរកទំនាក់ទំនងនិងអន្តរកម្មលាក់កំបាំងរវាងអង្គភាពផ្សេងៗ ដូចជាការភ្ជាប់គណនីធនាគារ អាសយដ្ឋាន IP និងឧបករណ៍ប្រើប្រាស់តែមួយ។	ដូចជាអ្នកស៊ើបអង្កេតដែលគូសផែនទីភ្ជាប់ខ្សែញាតិសន្តាននិងទំនាក់ទំនងរបស់ជនសង្ស័យ ដើម្បីរកមើលថាតើពួកគេមានទំនាក់ទំនងគ្នាជាបណ្តាញឧក្រិដ្ឋកម្មឬអត់។
False Positives	ជាករណីដែលប្រព័ន្ធរកឃើញកំហុសឬផ្តល់សញ្ញាព្រមានខុស ឧទាហរណ៍ វាយតម្លៃថាប្រតិបត្តិការស្របច្បាប់របស់អតិថិជនជាការក្លែងបន្លំ ដែលធ្វើឱ្យរំខានដល់អ្នកប្រើប្រាស់ និងខាតពេលវេលាបុគ្គលិកធនាគារក្នុងការផ្ទៀងផ្ទាត់។	ដូចជាសំឡេងរោទិ៍ប្រកាសអាសន្នអគ្គិភ័យរោទិ៍ឡើង ដោយសារតែផ្សែងអាំងសាច់ក្នុងផ្ទះបាយ មិនមែនដោយសារភ្លើងឆេះផ្ទះពិតប្រាកដនោះទេ។
Binary Cross-Entropy Loss	ជាអនុគមន៍គណិតវិទ្យាក្នុងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលវាស់ស្ទង់កម្រិតខុសគ្នារវាងការព្យាករណ៍របស់ម៉ូដែល និងលទ្ធផលពិតជាក់ស្តែង សម្រាប់ចំណាត់ថ្នាក់ដែលមានតែពីរជម្រើស (ឧទាហរណ៍៖ ក្លែងបន្លំ ឬមិនក្លែងបន្លំ) ដើម្បីជួយកែតម្រូវម៉ូដែលឱ្យកាន់តែសុក្រឹត។	ដូចជាប្រព័ន្ធដាក់ពិន័យសិស្សនៅពេលទាយចម្លើយខុស (ខុសតិចពិន័យតិច ខុសច្រើនពិន័យច្រើន) ដើម្បីបង្ខំឱ្យពួកគេខិតខំទាយឱ្យបានត្រឹមត្រូវបំផុតនៅពេលប្រឡងលើកក្រោយ។
Imbalanced datasets	ជាស្ថានភាពសំណុំទិន្នន័យដែលក្រុមគោលដៅមានចំនួនមិនស្មើគ្នាខ្លាំង ឧទាហរណ៍ ក្នុងទិន្នន័យប្រតិបត្តិការមានទិន្នន័យធម្មតាជិត ៣សែនដង តែការក្លែងបន្លំមានតែជិត ៥០០ដង ដែលធ្វើឱ្យម៉ូដែលពិបាករៀនចាប់កំហុស និងងាយនឹងទាយថាអ្វីៗទាំងអស់សុទ្ធតែធម្មតា។	ដូចជាការព្យាយាមស្វែងរកម្ជុលក្នុងគំនរចំបើង ដែលរបស់ល្អមានច្រើនរាប់មិនអស់ ឯរបស់អាក្រក់មានចំនួនតិចតួចបំផុត។
Z-score	ជាវិធីសាស្ត្រស្ថិតិសម្រាប់ធ្វើឱ្យទិន្នន័យមានស្តង់ដារ ដោយវាស់ថាតើតម្លៃនៃប្រតិបត្តិការណាមួយស្ថិតនៅឆ្ងាយពីតម្លៃមធ្យមប៉ុន្មានកម្រិតលម្អៀងស្តង់ដារ (Standard Deviation) ដើម្បីងាយស្រួលរកមើលទិន្នន័យដែលខុសប្រក្រតីខ្លាំង (Outliers)។	ដូចជាការវាស់កម្ពស់សិស្សម្នាក់ប្រៀបធៀបនឹងកម្ពស់មធ្យមរបស់សិស្សទូទាំងថ្នាក់ ដើម្បីដឹងថាគាត់ខ្ពស់ខុសគេ ឬទាបខុសគេកម្រិតណា។
Imputation	ជាបច្ចេកទេសក្នុងការរៀបចំទិន្នន័យជាមុន (Data pre-processing) ដែលប្រើដើម្បីបំពេញចន្លោះទិន្នន័យដែលបាត់បង់ ឬទិន្នន័យដែលខូច ដោយជំនួសវាជាមួយតម្លៃមធ្យម (Mean) ឬតម្លៃកណ្តាល (Median) ដើម្បីឱ្យម៉ូដែលដំណើរការបានរលូនដោយមិនលម្អៀង។	ដូចជាការប៉ះប៉ូវកន្លែងប្រហោងលើអាវដោយយកក្រណាត់ដែលមានពណ៌ប្រហាក់ប្រហែលគ្នាមកដេរភ្ជាប់ ដើម្បីកុំឱ្យអាវនោះមើលទៅមានស្នាមរហែក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖