Original Title: An Intelligent Framework for Fraud Detection Using LSTM and Graph-Based Deep Learning
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ក្របខ័ណ្ឌឆ្លាតវៃសម្រាប់ការរកឃើញការក្លែងបន្លំដោយប្រើប្រាស់ LSTM និងការរៀនស៊ីជម្រៅផ្អែកលើក្រាហ្វ

ចំណងជើងដើម៖ An Intelligent Framework for Fraud Detection Using LSTM and Graph-Based Deep Learning

អ្នកនិពន្ធ៖ Aiswarya RS, Tagore Institute of Engineering and Technology, Salem, India

ឆ្នាំបោះពុម្ព៖ 2022, JCDP (ISSN: 1073 - 7774), Vol 13 Issue 04

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញការក្លែងបន្លំផ្នែកហិរញ្ញវត្ថុដែលកាន់តែមានភាពស្មុគស្មាញ និងមានអតុល្យភាពទិន្នន័យខ្ពស់ ដែលប្រព័ន្ធប្រពៃណីមិនអាចឆ្លើយតបបានទាន់ពេលវេលា និងមានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវម៉ូដែលកូនកាត់ដោយប្រើប្រាស់បច្ចេកទេសរៀនស៊ីជម្រៅ (Deep Learning) ដើម្បីវិភាគទាំងទំនាក់ទំនងនិងពេលវេលានៃប្រតិបត្តិការហិរញ្ញវត្ថុ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional ML (RF, SVM)
ម៉ាស៊ីនរៀនប្រពៃណី (Random Forest និង Support Vector Machines)
ងាយស្រួលក្នុងការអនុវត្ត និងដំណើរការបានលឿនសម្រាប់ទិន្នន័យមូលដ្ឋាន ឬសំណុំទិន្នន័យដែលមិនសូវស្មុគស្មាញ។ មានកម្រិតក្នុងការចាប់យកលំនាំនៃការក្លែងបន្លំដែលបំប្លែងខ្លួនលឿន និងផ្តល់សញ្ញាខុស (False Positives) ច្រើនលើទិន្នន័យដែលមានអតុល្យភាព។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៣% និង F1-Score ៧៣%។
LSTM Networks
បណ្ដាញសរសៃប្រសាទចងចាំរយៈពេលខ្លី-វែង (LSTM)
មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគលំនាំទិន្នន័យតាមពេលវេលា (Sequential data) ដូចជាប្រវត្តិ និងភាពញឹកញាប់នៃប្រតិបត្តិការរបស់គណនី។ មិនអាចវិភាគពីទំនាក់ទំនងរវាងគណនី ឬអង្គភាពផ្សេងៗទៀត (Relational interactions) នៅក្នុងបណ្តាញប្រតិបត្តិការបានទេ។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៨៧% និង F1-Score ៧៩%។
Graph Neural Networks (GNN)
បណ្ដាញសរសៃប្រសាទក្រាហ្វ (Graph Neural Networks)
អាចទាញយកទំនាក់ទំនងលាក់កំបាំងរវាងប្រតិបត្តិការនានា (ឧទាហរណ៍ ប្រើអាសយដ្ឋាន IP ឬឧបករណ៍តែមួយ) ដើម្បីស្វែងរកបណ្តាញក្លែងបន្លំ។ មិនសូវផ្តោតលើការប្រែប្រួលនៃលំនាំប្រតិបត្តិការតាមពេលវេលារបស់បុគ្គលម្នាក់ៗ និងទាមទារការរៀបចំទិន្នន័យជាទម្រង់ក្រាហ្វស្មុគស្មាញ។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៩០% និង F1-Score ៨៤%។
Hybrid (LSTM + GNN)
ម៉ូដែលកូនកាត់ (ការបញ្ចូលគ្នាពាក់កណ្តាល LSTM និងពាក់កណ្តាល GNN)
វិភាគបានទាំងឥរិយាបថតាមពេលវេលា និងទំនាក់ទំនងរចនាសម្ព័ន្ធក្នុងពេលតែមួយ ដែលជួយកាត់បន្ថយការផ្តល់សញ្ញាខុសបានយ៉ាងមានប្រសិទ្ធភាព។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ស៊ីទំហំផ្ទុកច្រើន និងត្រូវការពេលវេលាយូរក្នុងការបង្ហាត់ម៉ូដែល (Training time)។ ទទួលបានភាពត្រឹមត្រូវល្អបំផុតរហូតដល់ (Accuracy) ៩៥% និង F1-Score ៩០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ថ្វីបើឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃ និងធនធាន ប៉ុន្តែតាមរយៈការប្រើប្រាស់ការរៀនស៊ីជម្រៅបែបក្រាហ្វ វាទាមទារហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រធំគួរសម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យប្រតិបត្តិការកាតឥណទានរបស់អឺរ៉ុបក្នុងខែកញ្ញា ឆ្នាំ២០១៣ ដែលមានអតុល្យភាពខ្ពស់ខ្លាំង។ សម្រាប់ប្រទេសកម្ពុជាដែលប្រជាជនភាគច្រើននិយមប្រើប្រាស់កាបូបលុយអេឡិចត្រូនិក (E-wallets) និងការស្កេន KHQR ការយកម៉ូដែលនេះមកអនុវត្តភ្លាមៗអាចជួបបញ្ហា លុះត្រាតែមានការបង្ហាត់ឡើងវិញជាមួយទិន្នន័យធនាគារក្នុងស្រុកទើបអាចចាប់បានអាកប្បកិរិយាជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានភាពសក្តិសម និងមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ស្ថាប័នហិរញ្ញវត្ថុនៅកម្ពុជាក្នុងការទប់ស្កាត់បទល្មើសបច្ចេកវិទ្យា។

ការអនុវត្តក្របខ័ណ្ឌនេះនឹងជួយពង្រឹងសន្តិសុខហិរញ្ញវត្ថុឌីជីថលនៅកម្ពុជា កាត់បន្ថយការខាតបង់ថវិកា និងបង្កើនទំនុកចិត្តពីសាធារណជនទៅលើប្រព័ន្ធធនាគារទំនើប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូល និងរៀបចំទិន្នន័យជាមុន (Data Collection & Pre-processing): ប្រមូលទិន្នន័យប្រតិបត្តិការអនាមិក (Anonymized data) ពីស្ថាប័ន។ ប្រើប្រាស់បច្ចេកទេស Z-score normalization សម្រាប់សម្អាតទិន្នន័យ និង SMOTE ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយប្រើ Scikit-Learn
  2. ការកសាងក្រាហ្វទំនាក់ទំនង (Graph Representation Building): បម្លែងទិន្នន័យប្រតិបត្តិការទៅជាទម្រង់ក្រាហ្វ ដែលគណនី/ឧបករណ៍ជា Nodes និងប្រតិបត្តិការជា Edges ដោយប្រើប្រាស់ NetworkXPyTorch Geometric
  3. ការអភិវឌ្ឍម៉ូដែលតាមដានពេលវេលា (Time-Series Sequence Modeling): រៀបចំរចនាសម្ព័ន្ធបណ្ដាញ LSTM ដើម្បីចាប់យកភាពខុសប្រក្រតីតាមពេលវេលា ដោយប្រើប្រាស់ TensorFlowKeras
  4. ការរួមបញ្ចូលម៉ូដែល និងការហ្វឹកហាត់ (Hybrid Model Integration & Training): តភ្ជាប់លទ្ធផលដែលបានពីម៉ូដែលក្រាហ្វ (GNN) ជាមួយនឹងម៉ូដែលពេលវេលា (LSTM) បន្ទាប់មកបង្ហាត់វាជាមួយមុខងារ Binary Cross-Entropy Loss ដើម្បីកាត់បន្ថយទំហំនៃ False Positives។
  5. ការវាយតម្លៃដោយរង្វាស់កម្រិតខ្ពស់ និងការដាក់ពង្រាយ (Evaluation & Cloud Deployment): វាយតម្លៃម៉ូដែលដោយផ្តោតលើ F1-Score និង AUPRC ជាជាងការមើលតែភាពត្រឹមត្រូវធម្មតា។ បន្ទាប់មកដាក់ឱ្យដំណើរការលើ AWSGoogle Cloud ដើម្បីតាមដានប្រតិបត្តិការក្នុងពេលវេលាជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Long Short-Term Memory (LSTM) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលអាចចងចាំព័ត៌មានពីអតីតកាលបានយូរ ដែលស័ក្តិសមបំផុតសម្រាប់វិភាគទិន្នន័យដែលមានលំដាប់លំដោយតាមពេលវេលា (Sequential data) ដូចជាប្រវត្តិ និងភាពញឹកញាប់នៃប្រតិបត្តិការធនាគារជាដើម ដើម្បីរកមើលភាពមិនប្រក្រតី។ ដូចជាអ្នកយាមទ្វារដែលចាំមុខមនុស្សចេញចូលរាល់ថ្ងៃ ហើយដឹងភ្លាមបើមានអ្នកណាម្នាក់មកខុសម៉ោង ឬមកញឹកញាប់ខុសប្រក្រតី។
Graph Convolutional Networks (GCNs) ជាបច្ចេកទេសរៀនស៊ីជម្រៅដែលប្រើសម្រាប់វិភាគទិន្នន័យជារាងក្រាហ្វ (ចំណុច Nodes និងខ្សែភ្ជាប់ Edges) ដើម្បីស្វែងរកទំនាក់ទំនងនិងអន្តរកម្មលាក់កំបាំងរវាងអង្គភាពផ្សេងៗ ដូចជាការភ្ជាប់គណនីធនាគារ អាសយដ្ឋាន IP និងឧបករណ៍ប្រើប្រាស់តែមួយ។ ដូចជាអ្នកស៊ើបអង្កេតដែលគូសផែនទីភ្ជាប់ខ្សែញាតិសន្តាននិងទំនាក់ទំនងរបស់ជនសង្ស័យ ដើម្បីរកមើលថាតើពួកគេមានទំនាក់ទំនងគ្នាជាបណ្តាញឧក្រិដ្ឋកម្មឬអត់។
False Positives ជាករណីដែលប្រព័ន្ធរកឃើញកំហុសឬផ្តល់សញ្ញាព្រមានខុស ឧទាហរណ៍ វាយតម្លៃថាប្រតិបត្តិការស្របច្បាប់របស់អតិថិជនជាការក្លែងបន្លំ ដែលធ្វើឱ្យរំខានដល់អ្នកប្រើប្រាស់ និងខាតពេលវេលាបុគ្គលិកធនាគារក្នុងការផ្ទៀងផ្ទាត់។ ដូចជាសំឡេងរោទិ៍ប្រកាសអាសន្នអគ្គិភ័យរោទិ៍ឡើង ដោយសារតែផ្សែងអាំងសាច់ក្នុងផ្ទះបាយ មិនមែនដោយសារភ្លើងឆេះផ្ទះពិតប្រាកដនោះទេ។
Binary Cross-Entropy Loss ជាអនុគមន៍គណិតវិទ្យាក្នុងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលវាស់ស្ទង់កម្រិតខុសគ្នារវាងការព្យាករណ៍របស់ម៉ូដែល និងលទ្ធផលពិតជាក់ស្តែង សម្រាប់ចំណាត់ថ្នាក់ដែលមានតែពីរជម្រើស (ឧទាហរណ៍៖ ក្លែងបន្លំ ឬមិនក្លែងបន្លំ) ដើម្បីជួយកែតម្រូវម៉ូដែលឱ្យកាន់តែសុក្រឹត។ ដូចជាប្រព័ន្ធដាក់ពិន័យសិស្សនៅពេលទាយចម្លើយខុស (ខុសតិចពិន័យតិច ខុសច្រើនពិន័យច្រើន) ដើម្បីបង្ខំឱ្យពួកគេខិតខំទាយឱ្យបានត្រឹមត្រូវបំផុតនៅពេលប្រឡងលើកក្រោយ។
Imbalanced datasets ជាស្ថានភាពសំណុំទិន្នន័យដែលក្រុមគោលដៅមានចំនួនមិនស្មើគ្នាខ្លាំង ឧទាហរណ៍ ក្នុងទិន្នន័យប្រតិបត្តិការមានទិន្នន័យធម្មតាជិត ៣សែនដង តែការក្លែងបន្លំមានតែជិត ៥០០ដង ដែលធ្វើឱ្យម៉ូដែលពិបាករៀនចាប់កំហុស និងងាយនឹងទាយថាអ្វីៗទាំងអស់សុទ្ធតែធម្មតា។ ដូចជាការព្យាយាមស្វែងរកម្ជុលក្នុងគំនរចំបើង ដែលរបស់ល្អមានច្រើនរាប់មិនអស់ ឯរបស់អាក្រក់មានចំនួនតិចតួចបំផុត។
Z-score ជាវិធីសាស្ត្រស្ថិតិសម្រាប់ធ្វើឱ្យទិន្នន័យមានស្តង់ដារ ដោយវាស់ថាតើតម្លៃនៃប្រតិបត្តិការណាមួយស្ថិតនៅឆ្ងាយពីតម្លៃមធ្យមប៉ុន្មានកម្រិតលម្អៀងស្តង់ដារ (Standard Deviation) ដើម្បីងាយស្រួលរកមើលទិន្នន័យដែលខុសប្រក្រតីខ្លាំង (Outliers)។ ដូចជាការវាស់កម្ពស់សិស្សម្នាក់ប្រៀបធៀបនឹងកម្ពស់មធ្យមរបស់សិស្សទូទាំងថ្នាក់ ដើម្បីដឹងថាគាត់ខ្ពស់ខុសគេ ឬទាបខុសគេកម្រិតណា។
Imputation ជាបច្ចេកទេសក្នុងការរៀបចំទិន្នន័យជាមុន (Data pre-processing) ដែលប្រើដើម្បីបំពេញចន្លោះទិន្នន័យដែលបាត់បង់ ឬទិន្នន័យដែលខូច ដោយជំនួសវាជាមួយតម្លៃមធ្យម (Mean) ឬតម្លៃកណ្តាល (Median) ដើម្បីឱ្យម៉ូដែលដំណើរការបានរលូនដោយមិនលម្អៀង។ ដូចជាការប៉ះប៉ូវកន្លែងប្រហោងលើអាវដោយយកក្រណាត់ដែលមានពណ៌ប្រហាក់ប្រហែលគ្នាមកដេរភ្ជាប់ ដើម្បីកុំឱ្យអាវនោះមើលទៅមានស្នាមរហែក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖