Original Title: Privacy-Preserving Federated Learning for Distributed Financial IoT: A Blockchain-Based Framework for Secure Cryptocurrency Market Analytics
Source: doi.org/10.3390/iot6040078
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនសូត្របែបសហព័ន្ធដែលរក្សាភាពឯកជនសម្រាប់ IoT ហិរញ្ញវត្ថុបែបវិមជ្ឈការ៖ ក្របខ័ណ្ឌផ្អែកលើប្លុកឆេនសម្រាប់ការវិភាគទីផ្សាររូបិយប័ណ្ណគ្រីបតូប្រកបដោយសុវត្ថិភាព

ចំណងជើងដើម៖ Privacy-Preserving Federated Learning for Distributed Financial IoT: A Blockchain-Based Framework for Secure Cryptocurrency Market Analytics

អ្នកនិពន្ធ៖ Oleksandr Kuznetsov (eCampus University), Saltanat Adilzhanova (Al-Farabi Kazakh National University), Serhiy Florov (University of Customs and Finance), Valerii Bushkov (State University of Trade and Economics), Danylo Peremetchyk (University of Customs and Finance)

ឆ្នាំបោះពុម្ព៖ 2025 IoT

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ក្នុងបរិបទនៃ IoT ហិរញ្ញវត្ថុ ស្ថាប័ននានាមានទិន្នន័យឯកជនដែលមានតម្លៃ ប៉ុន្តែមិនអាចចែករំលែកដោយផ្ទាល់បានទេដោយសារការប្រកួតប្រជែង ច្បាប់ និងបញ្ហាទំនុកចិត្ត ដែលធ្វើឱ្យការរៀនសូត្រម៉ាស៊ីនរួមគ្នា (Collaborative Machine Learning) រវាងស្ថាប័នជួបការលំបាកយ៉ាងខ្លាំង។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវក្របខ័ណ្ឌការរៀនសូត្របែបសហព័ន្ធដែលរក្សាភាពឯកជន (Privacy-Preserving Federated Learning) សម្រាប់ប្រព័ន្ធ IoT ហិរញ្ញវត្ថុ ដោយរួមបញ្ចូលគ្នានូវការគណនាបែបវិមជ្ឈការ និងបច្ចេកទេសគ្រីបតូដើម្បីធានាសុវត្ថិភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Centralized Baseline (MLP)
ការរៀនសូត្រម៉ាស៊ីនបែបមជ្ឈមណ្ឌលកណ្តាល (Centralized Baseline)
ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងប្រាក់ចំណេញល្អិតល្អន់ ដោយសារម៉ាស៊ីនមេមានសិទ្ធិចូលប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាលគ្រប់ជ្រុងជ្រោយនិងពេញលេញ។ ប៉ះពាល់ដល់ឯកជនភាពយ៉ាងធ្ងន់ធ្ងរ ព្រោះវាទាមទារឲ្យស្ថាប័នទាំងអស់ត្រូវចែករំលែកទិន្នន័យដើមរបស់ខ្លួនទៅកាន់ម៉ាស៊ីនមេកណ្តាលតែមួយ។ សម្រេចបានភាពត្រឹមត្រូវ ៧៣.៥% ជាមួយនឹងប្រាក់ចំណេញជាមធ្យម ៩៨.៩ bps ក្នុងមួយប្រតិបត្តិការ។
Federated Learning (No Privacy)
ការរៀនសូត្របែបសហព័ន្ធគ្មានឯកជនភាព (Standard Federated Learning)
អនុញ្ញាតឱ្យស្ថាប័នរក្សាទិន្នន័យនៅតាមកុំព្យូទ័ររៀងៗខ្លួនផ្ទាល់ (Local nodes) ដែលកាត់បន្ថយហានិភ័យនៃការលេចធ្លាយទិន្នន័យដើមយ៉ាងមានប្រសិទ្ធភាព។ ភាពត្រឹមត្រូវមានការធ្លាក់ចុះខ្លាំងដោយសារទិន្នន័យមិនស្មើគ្នារវាងស្ថាប័ននីមួយៗ (Data Heterogeneity) និងងាយរងការវាយប្រហារទាញយកទិន្នន័យពីការអាប់ដេតប៉ារ៉ាម៉ែត្រម៉ូដែល។ ភាពត្រឹមត្រូវធ្លាក់ចុះចន្លោះពី ៩ ទៅ ១៥ ភាគរយ (ទទួលបានតែ ៦២.០% ទៅ ៦៦.៥% ប៉ុណ្ណោះ)។
Privacy-Preserving Federated Learning (DP + SSS)
ការរៀនសូត្របែបសហព័ន្ធរក្សាឯកជនភាពកម្រិតខ្ពស់ (PPFL ជាមួយ Differential Privacy និង Shamir Secret Sharing)
ផ្តល់សុវត្ថិភាពទ្វេដងដោយការពារទាំងការវាយប្រហារទាញយកទិន្នន័យតាមរយៈការបន្ថែមសំឡេងរំខានគណិតវិទ្យា និងកាត់បន្ថយហានិភ័យពីម៉ាស៊ីនមេដោយការបិទបាំងទិន្នន័យ។ ទាមទារថាមពលគណនាបន្ថែមនិងបង្កើនការផ្លាស់ប្តូរទិន្នន័យក្នុងបណ្តាញតភ្ជាប់ (ប្រើពេលកើនឡើងប្រមាណ ១៥ ភាគរយ សម្រាប់ការបំបែកលេខកូដសម្ងាត់)។ ភាពត្រឹមត្រូវមានការធ្លាក់ចុះតិចជាង ០.៣ ភាគរយ បើធៀបនឹងម៉ូដែលសហព័ន្ធគ្មានការការពារ (រក្សាភាពត្រឹមត្រូវកម្រិតដដែល)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តក្របខ័ណ្ឌនេះទាមទារធនធានកុំព្យូទ័រមិនសូវខ្ពស់ទេដោយសារតែទំហំម៉ូដែលតូច ប៉ុន្តែវាទាមទារការតភ្ជាប់បណ្តាញទំនាក់ទំនងដែលរឹងមាំនិងស្ថិរភាពសម្រាប់ការផ្លាស់ប្តូរទិន្នន័យគ្រីបតូក្រាហ្វី។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យទីផ្សាររូបិយប័ណ្ណគ្រីបតូសាធារណៈ (ឧ. Bitcoin, Ethereum) ចន្លោះខែតុលា ឆ្នាំ២០២៣ ដល់ឆ្នាំ២០២៤ ដែលឆ្លុះបញ្ចាំងពីសក្ដានុពលទីផ្សារសកលដែលមានការប្រែប្រួលតម្លៃលឿនរហ័ស។ ទិន្នន័យនេះមិនតំណាងឱ្យទីផ្សារមូលបត្រ ហិរញ្ញវត្ថុខ្នាតតូច ឬទិន្នន័យប្រតិបត្តិការធនាគារពិតប្រាកដនៅក្នុងប្រទេសកម្ពុជានោះទេ ហើយបច្ចុប្បន្នការជួញដូររូបិយប័ណ្ណគ្រីបតូពុំទាន់មានការគាំទ្រផ្លូវច្បាប់ពេញលេញពីធនាគារជាតិនៃកម្ពុជាឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការប្រើប្រាស់សម្រាប់ទីផ្សារគ្រីបតូដោយផ្ទាល់មិនសូវពាក់ព័ន្ធក៏ដោយ ប៉ុន្តែវិធីសាស្ត្រនៃការបណ្តុះបណ្តាលប្រព័ន្ធ AI បែបសហព័ន្ធដែលរក្សាភាពឯកជន (PPFL) គឺមានសក្ដានុពលមហាសាលសម្រាប់គាំទ្រសេដ្ឋកិច្ចឌីជីថលនៅកម្ពុជា។

ជារួម បច្ចេកវិទ្យានេះផ្តល់នូវយន្តការដ៏សំខាន់មួយសម្រាប់ស្ថាប័នហិរញ្ញវត្ថុនៅកម្ពុជាក្នុងការសហការកសាងកម្លាំងបណ្តុះបណ្តាលបញ្ញាសិប្បនិម្មិត (AI) ដោយជោគជ័យ ខណៈពេលដែលនៅតែអាចគោរពតាមបទប្បញ្ញត្តិការពារទិន្នន័យនិងរក្សាបាននូវទំនុកចិត្តពីសំណាក់សាធារណជន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃយន្តការ Federated Learning និងឯកជនភាពឌីផេរ៉ង់ស្យែល: ចាប់ផ្តើមដោយការសិក្សាពីទស្សនៈវិជ្ជា និងស្ថាបត្យកម្មនៃ ការបណ្តុះបណ្តាលសហព័ន្ធ ដោយប្រើប្រាស់ឧបករណ៍ TensorFlow Federated (TFF)Flower Framework ដើម្បីយល់ពីរបៀបបង្ហាត់ម៉ូដែលឆ្លងឧបករណ៍ដោយមិនរំកិលទិន្នន័យទៅកន្លែងកណ្តាល។
  2. អនុវត្តបច្ចេកទេសគ្រីបតូក្រាហ្វីសម្រាប់ការពារសិទ្ធិឯកជន (Cryptography): សាកល្បងសរសេរកូដអនុវត្តបច្ចេកទេស Shamir Secret Sharing សម្រាប់ការបំបែកនិងចែកចាយទិន្នន័យសម្ងាត់ដោយពឹងផ្អែកលើការដោះស្រាយសមីការពហុធា (Polynomials) តាមរយៈបណ្ណាល័យគណិតវិទ្យានៅលើ Python ដើម្បីយល់ច្បាស់ពីការបិទបាំងប៉ារ៉ាម៉ែត្រម៉ូដែលទប់ស្កាត់ការតាមដានពីម៉ាស៊ីនមេ។
  3. ហ្វឹកហាត់លើម៉ូដែលទស្សន៍ទាយស៊េរីពេលវេលាហិរញ្ញវត្ថុ (Time-Series Financial Modeling): សាកល្បងអនុវត្តបង្កើតម៉ូដែល Multi-Layer Perceptron (MLP) តាមរយៈ PyTorch សម្រាប់ការទស្សន៍ទាយនិន្នាការទីផ្សារ ដោយប្រើប្រាស់កញ្ចប់ទិន្នន័យហិរញ្ញវត្ថុសាធារណៈ ឬទិន្នន័យក្លែងបន្លំ (Synthetic transactions) ដែលស្រដៀងនឹងរបាយការណ៍ហិរញ្ញវត្ថុនៅកម្ពុជា។
  4. កសាងប្រព័ន្ធគំរូសាកល្បងខ្នាតតូច (Local Prototype Development): បង្កើតគម្រោងសាកល្បងមូលដ្ឋានមួយដែលមានអតិថិជន (Client nodes) ចំនួន ៣ និងម៉ាស៊ីនមេកណ្តាល (Aggregator server) មួយនៅលើប្រព័ន្ធបណ្តាញមូលដ្ឋាន (Local Network)។ ដាក់បញ្ចូលយន្តការបញ្ជូលសំឡេងរំខាន (Noise injection) ទៅលើប៉ារ៉ាម៉ែត្រ ហើយធ្វើការប្រៀបធៀបភាពត្រឹមត្រូវរវាងប្រព័ន្ធវិមជ្ឈការនេះជាមួយនឹងម៉ូដែលបណ្តុះបណ្តាលប្រមូលផ្តុំកណ្តាល (Centralized baseline)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Federated Learning ជាបច្ចេកទេសបណ្តុះបណ្តាលបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រឬស្ថាប័នច្រើនធ្វើការរៀនសូត្រពីទិន្នន័យរៀងៗខ្លួន ហើយបញ្ជូនតែចំណេះដឹងដែលចម្រាញ់រួច (ប៉ារ៉ាម៉ែត្រម៉ូដែល) ទៅកាន់ម៉ាស៊ីនមេកណ្តាល ដោយមិនបាច់បញ្ជូនទិន្នន័យដើមចេញពីស្ថាប័នឡើយ។ ដូចជាសិស្សរៀនមេរៀននៅផ្ទះរៀងៗខ្លួន ហើយយកតែលទ្ធផលនៃអ្វីដែលខ្លួនយល់ទៅប្រាប់គ្រូ ដោយមិនចាំបាច់យកសៀវភៅកំណត់ហេតុផ្ទាល់ខ្លួនទៅឱ្យគ្រូមើលនោះទេ។
Differential Privacy ជាយន្តការគណិតវិទ្យាដែលបន្ថែម "សំឡេងរំខាន" (Noise) ឬទិន្នន័យចៃដន្យបន្តិចបន្តួចទៅក្នុងលទ្ធផលគណនា ដើម្បីធានាថាគេមិនអាចទាញយកព័ត៌មានបុគ្គលណាម្នាក់ចេញពីទិន្នន័យរួមបានឡើយ ទោះបីជាមានការវាយប្រហារក៏ដោយ។ ដូចជាការលាយអំបិលបន្តិចបន្តួចចូលក្នុងសម្លរនីមួយៗ ធ្វើឲ្យគេមិនអាចភ្លក់ដឹងថាតើនរណាជាអ្នកចម្អិនច្បាស់លាស់ តែរសជាតិសម្លរសរុបនៅតែអាចទទួលយកបាន។
Shamir Secret Sharing ជាបច្ចេកទេសគ្រីបតូក្រាហ្វី (Cryptography) ដែលបំបែកទិន្នន័យសម្ងាត់មួយជាចំណែកតូចៗ ហើយចែកទៅឱ្យភាគីច្រើនផ្សេងគ្នា។ ទិន្នន័យសម្ងាត់នេះអាចផ្គុំឡើងវិញបាន លុះត្រាតែមានការចូលរួមពីភាគីច្រើនគ្រប់ចំនួនដែលបានកំណត់ជាមុន (Threshold)។ ដូចជាការកាត់ផែនទីកំណប់ជា ៥ ចំណែកចែកឲ្យមនុស្ស៥នាក់ ហើយទាមទារយ៉ាងហោចណាស់មនុស្ស ៣ នាក់យកផែនទីមកតភ្ជាប់គ្នា ទើបអាចមើលដឹងថាកំណប់នៅឯណា។
Orderbook Microstructure ជាទិន្នន័យលម្អិតកម្រិតខ្ពស់នៃទីផ្សារហិរញ្ញវត្ថុ ដែលកត់ត្រាគ្រប់កម្រិតតម្លៃនៃការបញ្ជាទិញនិងលក់ (Bid/Ask) ទំហំទឹកប្រាក់ និងចន្លោះខុសគ្នានៃតម្លៃក្នុងពេលវេលាជាក់ស្តែង ដែលឆ្លុះបញ្ចាំងពីសក្ដានុពលទីផ្សារស៊ីជម្រៅ។ ដូចជាបញ្ជីឈ្មោះអ្នកតម្រង់ជួររង់ចាំទិញសំបុត្រកុន ដែលបញ្ជាក់ច្បាស់ថានរណាចង់ទិញតម្លៃប៉ុន្មាន និងចង់បានប៉ុន្មានកៅអី មិនមែនគ្រាន់តែប្រាប់ពីតម្លៃសំបុត្រដែលលក់ចេញចុងក្រោយនោះទេ។
Gradient Inversion Attacks ជាប្រភេទការវាយប្រហារតាមអ៊ីនធឺណិតទៅលើប្រព័ន្ធ Federated Learning ដែលហេគឃ័រ (Hacker) ឬម៉ាស៊ីនមេកណ្តាល ព្យាយាមគណនាត្រឡប់ក្រោយដើម្បីយកទិន្នន័យឯកជនដើមវិញ ដោយផ្អែកលើព័ត៌មានអាប់ដេតទម្ងន់ម៉ូដែល (Gradients) ដែលបានផ្ញើចេញ។ ដូចជាការព្យាយាមទាយរកគ្រឿងផ្សំដើមនិងរូបមន្តនៃនំខេក ដោយគ្រាន់តែបានភ្លក់រសជាតិនំខេកដែលដុតឆ្អិនរួចហើយ។
Isotonic Regression ជាបច្ចេកទេសកែតម្រូវប្រូបាប៊ីលីតេ (Probability Calibration) ដើម្បីធ្វើឱ្យប្រាកដថាកម្រិតទំនុកចិត្ត (Confidence) របស់ម៉ូដែល AI ឆ្លុះបញ្ចាំងពីភាពត្រឹមត្រូវពិតប្រាកដ ជាពិសេសសម្រាប់កំណត់ថាតើពេលណាទើបម៉ូដែលគួរធ្វើប្រតិបត្តិការទិញលក់ក្នុងទីផ្សារ។ ដូចជាការថ្លឹងជញ្ជីងឲ្យត្រូវសូន្យវិញ ដើម្បីឲ្យប្រាកដថាពេលជញ្ជីងចង្អុលបង្ហាញថា ១គីឡូ គឺពិតជាមានទម្ងន់ ១គីឡូពិតប្រាកដមែន។
Earth Mover’s Distance (EMD) ជាវិធីសាស្ត្រគណិតវិទ្យាសម្រាប់វាស់ស្ទង់ភាពខុសគ្នា (Data Heterogeneity) រវាងរបាយបំណែងចែកទិន្នន័យពីរ។ វាគណនាពីទំហំនៃការផ្លាស់ប្តូរដែលត្រូវធ្វើ ដើម្បីបំប្លែងទិន្នន័យមួយឲ្យទៅជាទិន្នន័យមួយទៀត។ ដូចជាការវាស់បរិមាណកម្លាំងនិងពេលវេលាដែលត្រូវចំណាយ ដើម្បីកាយគំនរខ្សាច់រាងមួយឲ្យទៅជាគំនរខ្សាច់មានរាងមួយផ្សេងទៀត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖