Original Title: 云-边融合的可验证隐私保护跨域联邦学习方案 (Cloud-Edge Fusion Verifiable Privacy-Preserving Cross-Domain Federated Learning Scheme)
Source: doi.org/10.19678/j.issn.1000-3428.0067877
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

គម្រោងការរៀនសូត្របែបសហព័ន្ធឆ្លងកាត់ដែនការពារឯកជនភាពដែលអាចផ្ទៀងផ្ទាត់បានដោយផ្អែកលើការរួមបញ្ចូលគ្នានៃក្លោដនិងអេច

ចំណងជើងដើម៖ 云-边融合的可验证隐私保护跨域联邦学习方案 (Cloud-Edge Fusion Verifiable Privacy-Preserving Cross-Domain Federated Learning Scheme)

អ្នកនិពន្ធ៖ ZHANG Xiaojun (Southwest Petroleum University), LI Xingpeng, TANG Wei, HAO Yunpu, XUE Jingting

ឆ្នាំបោះពុម្ព៖ 2024, Computer Engineering (计算机工程)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ភាពខុសគ្នារវាងឧបករណ៍ក្នុងស្រុក (Heterogeneity) ប៉ះពាល់ដល់ដំណើរការនៃការបណ្តុះបណ្តាលម៉ូដែល ហើយការចែករំលែកម៉ូដែលហ្គ្រេឌៀន (Gradient model updates) អាចបណ្តាលឱ្យមានការបែកធ្លាយឯកជនភាពនិងការគំរាមកំហែងពីការកែប្រែដោយទុច្ចរិតនៅក្នុងការរៀនសូត្របែបសហព័ន្ធ (Federated Learning)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគម្រោងការរៀនសូត្របែបសហព័ន្ធឆ្លងកាត់ដែន (Cross-Domain FL) ដែលអាចផ្ទៀងផ្ទាត់បាន និងការពារឯកជនភាព ដោយផ្អែកលើការរួមបញ្ចូលគ្នារវាងក្លោដនិងអេច (Cloud-edge fusion) ដើម្បីធ្វើបច្ចុប្បន្នភាព និងចែករំលែកម៉ូដែលប្រកបដោយសុវត្ថិភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Cloud-Edge Fusion Verifiable Privacy-Preserving Scheme
គម្រោងការការពារឯកជនភាពដែលអាចផ្ទៀងផ្ទាត់បានរួមបញ្ចូលគ្នានៃក្លោដនិងអេច (Proposed Scheme)
មានល្បឿននៃការរួបរួមម៉ូដែល (Convergence speed) លឿនជាងមុន និងកាត់បន្ថយបន្ទុកគណនា (Computational overhead) ទាំងនៅលើឧបករណ៍ចុងក្រោយ និងម៉ាស៊ីនមេ។ វាអាចការពារការកែប្រែទិន្នន័យដោយទុច្ចរិតបានយ៉ាងមានប្រសិទ្ធភាព។ ទាមទារការរៀបចំប្រព័ន្ធស្មុគស្មាញនៅដំណាក់កាលដំបូង ជាពិសេសការគ្រប់គ្រងសោសម្ងាត់ (Key management) និងការបែងចែកឧបករណ៍កុំព្យូទ័រជាទម្រង់ក្លោដ-អេច (Cloud-Edge)។ ល្បឿននៃការរួបរួមម៉ូដែលកើនឡើងជាមធ្យម ២១,៦% បើធៀបនឹងម៉ូដែលបុរាណ ហើយចំណាយពេលគណនាតិចជាងគម្រោង VerSA និង ELTARAS។
Classical Federated Learning
ការរៀនសូត្របែបសហព័ន្ធបុរាណ (Classical FL)
មានស្ថាបត្យកម្មសាមញ្ញ និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយជាស្តង់ដារគោលសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលចែកចាយ។ ងាយរងគ្រោះពីការកែប្រែម៉ូដែលដោយម៉ាស៊ីនមេ (Server tampering) និងមានដំណើរការយឺតនៅពេលអនុវត្តក្នុងបណ្តាញឧបករណ៍ចម្រុះ (Heterogeneous networks)។ មានភាពត្រឹមត្រូវ (Accuracy) ប្រហាក់ប្រហែលនឹងគម្រោងថ្មី ប៉ុន្តែចំណាយពេលយូរជាងក្នុងការធ្វើឱ្យម៉ូដែលដំណើរការបានល្អ។
VerSA Scheme
គម្រោង VerSA (Verifiable Secure Aggregation)
ផ្តល់នូវយន្តការផ្ទៀងផ្ទាត់សុវត្ថិភាពសម្រាប់ការបូកសរុបទិន្នន័យនៅក្នុងការរៀនសូត្របែបសហព័ន្ធឆ្លងកាត់ឧបករណ៍។ មានបន្ទុកគណនា (Computational cost) ខ្ពស់ខ្លាំង ទាំងសម្រាប់អ្នកប្រើប្រាស់ និងម៉ាស៊ីនមេ នៅពេលចំនួនអ្នកប្រើប្រាស់កើនឡើង។ ការចំណាយលើការគណនាមានកម្រិតខ្ពស់ជាងគម្រោងរួមបញ្ចូលគ្នានៃក្លោដនិងអេច ដែលបានស្នើឡើងនៅក្នុងការសិក្សានេះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍ត្រូវបានដំណើរការនៅលើកុំព្យូទ័រដែលមានកម្លាំងម៉ាស៊ីនមធ្យមទៅខ្ពស់ ដោយប្រើប្រាស់ផ្នែករឹងនិងផ្នែកទន់ជាក់លាក់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលសិក្សាជ្រៅ (Deep Learning) និងការគណនាគ្រីបតូក្រាហ្វី (Cryptography)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើតេស្តលើសំណុំទិន្នន័យរូបភាពទូទៅ (Benchmark image datasets) ដូចជា MNIST និង CIFAR ដែលមិនមានលក្ខណៈប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះទិន្នន័យជាក់ស្តែងក្នុងស្រុក (Local Datasets) អាចជាបញ្ហា ព្រោះថ្វីត្បិតតែក្បួនដោះស្រាយមានប្រសិទ្ធភាព ប៉ុន្តែភាពត្រឹមត្រូវនៃម៉ូដែលជាក់ស្តែងនឹងអាស្រ័យលើគុណភាពនិងភាពចម្រុះនៃទិន្នន័យពិតរបស់ប្រជាជនខ្មែរ (ឧទាហរណ៍៖ ទិន្នន័យមុខមាត់ ឬទិន្នន័យសុខភាព)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃដែលទាមទារការសហការទិន្នន័យពីស្ថាប័នច្រើនដោយមិនចាំបាច់ចែករំលែកទិន្នន័យឆៅ (Raw Data)។

ការអនុវត្តគម្រោងនេះអាចជួយជំរុញការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជាប្រកបដោយសុវត្ថិភាព តាមរយៈការកសាងទំនុកចិត្តរវាងស្ថាប័នក្នុងការចែករំលែកចំណេះដឹងដែលចម្រាញ់ចេញពីទិន្នន័យរបស់ពួកគេ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Federated Learning និង Cryptography: និស្សិតត្រូវស្វែងយល់ពីគោលការណ៍ក្បួនដោះស្រាយនៃការរៀនសូត្របែបសហព័ន្ធ (Federated Learning) និងក្បួនគ្រីបតូក្រាហ្វី ដោយប្រើប្រាស់ធនធានដូចជា Federated Learning concepts និង Vector inner product signatures
  2. រៀបចំបរិស្ថានអនុវត្ត (Environment Setup): ដំឡើងកម្មវិធីនិងបណ្ណាល័យចាំបាច់នៅលើកុំព្យូទ័រ ដែលរួមមាន Python 3.9, PyTorch 1.21.1 និងភាសា C សម្រាប់ការប្រើប្រាស់ Miracl library
  3. សាកល្បងបណ្តុះបណ្តាលម៉ូដែលលើទិន្នន័យគំរូ: សរសេរកូដដើម្បីដំណើរការក្បួនដោះស្រាយ (Proposed Algorithm) ដោយសាកល្បងលើសំណុំទិន្នន័យស្តង់ដារដូចជា CIFAR-10 ជាមួយម៉ូដែល ResNet18 ដើម្បីត្រួតពិនិត្យល្បឿននៃការរួបរួមម៉ូដែល (Convergence speed)។
  4. បង្កើតប្រព័ន្ធក្លែងធ្វើ Cloud-Edge Architecture: រៀបចំម៉ាស៊ីនមេ និងឧបករណ៍ចុងក្រោយ (Edge devices) ជាលក្ខណៈក្លែងធ្វើ (Simulation) ក្នុងបណ្តាញមូលដ្ឋាន (Local network) ដើម្បីសាកល្បងយន្តការពិនិត្យផ្ទៀងផ្ទាត់សុវត្ថិភាព (Verifiable Secure Aggregation)។
  5. អនុវត្តគម្រោងលើទិន្នន័យជាក់ស្តែងនៅកម្ពុជា: ប្រមូលទិន្នន័យក្នុងស្រុកតូចមួយ (ឧទាហរណ៍៖ Khmer digit recognition dataset) រួចដំណើរការប្រព័ន្ធនេះដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាពនៃការការពារឯកជនភាព និងកែសម្រួលវាសម្រាប់ប្រើប្រាស់ក្នុងស្ថាប័នពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Federated Learning (FL) បច្ចេកវិទ្យាបណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យឧបករណ៍ជាច្រើនរៀនសូត្រពីទិន្នន័យរៀងៗខ្លួនដោយមិនចាំបាច់បញ្ជូនទិន្នន័យដើមទៅកាន់ម៉ាស៊ីនមេកណ្តាលឡើយ គឺបញ្ជូនតែចំណេះដឹងដែលរៀនបានប៉ុណ្ណោះ។ ដូចជាសិស្សានុសិស្សរៀនមេរៀនរៀងៗខ្លួននៅផ្ទះ ហើយប្រាប់តែគ្រូវិញពីអ្វីដែលពួកគេយល់ ដោយមិនបាច់យកសៀវភៅកំណត់ហេតុផ្ទាល់ខ្លួនឱ្យគ្រូមើលឡើយ។
Cloud-Edge Fusion ការបញ្ជូលគ្នារវាងប្រព័ន្ធកុំព្យូទ័រកណ្តាលខ្នាតធំ (Cloud) និងឧបករណ៍កុំព្យូទ័រនៅក្បែរអ្នកប្រើប្រាស់ (Edge) ដើម្បីជួយពន្លឿនការគណនានិងដោះស្រាយទិន្នន័យឱ្យបានលឿនជាងមុន ដោយមិនពឹងផ្អែកតែលើម៉ាស៊ីនមេកណ្តាលទាំងស្រុង។ ដូចជាការបែងចែកការងារក្រុមហ៊ុន ដែលការិយាល័យសាខា (Edge) ធ្វើការងារបន្ទាន់ប្រចាំថ្ងៃ ហើយបញ្ជូនតែរបាយការណ៍សង្ខេបទៅទីស្នាក់ការកណ្តាល (Cloud) ធំដើម្បីបូកសរុប។
Global gradient model ម៉ូដែលមេកណ្តាលដែលត្រូវបានបង្កើតឡើងដោយការបូកបញ្ចូលគ្នានូវលទ្ធផលនៃការផ្លាស់ប្តូរ (Gradient) ដែលទទួលបានពីម៉ូដែលតូចៗរបស់ឧបករណ៍អ្នកប្រើប្រាស់នីមួយៗ ដើម្បីឱ្យម៉ូដែលនេះកាន់តែឆ្លាតវៃក្នុងការទស្សន៍ទាយឬវិភាគ។ ដូចជាសៀវភៅរូបមន្តរួមមួយក្បាល ដែលកើតចេញពីការប្រមូលផ្តុំបទពិសោធន៍និងគន្លឹះថ្មីៗពីចុងភៅរាប់រយនាក់។
Single mask blinding technology បច្ចេកទេសបិទបាំងទិន្នន័យដោយប្រើកូដសម្ងាត់ (Mask) មុននឹងបញ្ជូនទៅកាន់ម៉ាស៊ីនមេ ដើម្បីការពារកុំឱ្យគេមើលដឹងពីទិន្នន័យដើម ប៉ុន្តែនៅពេលបូកបញ្ចូលគ្នា កូដសម្ងាត់ទាំងនោះនឹងរលាយបាត់ដោយស្វ័យប្រវត្តិ។ ដូចជាការដាក់សោរប្រអប់លុយវិភាគទាន ដែលគ្មាននរណាម្នាក់ដឹងថាអ្នកនីមួយៗដាក់ប៉ុន្មានទេ តែគេអាចរាប់ចំនួនលុយសរុបបានយ៉ាងត្រឹមត្រូវនៅពេលចុងក្រោយ។
Verifiable secure aggregation យន្តការសុវត្ថិភាពដែលអនុញ្ញាតឱ្យប្រព័ន្ធបូកសរុបទិន្នន័យដែលបានអ៊ិនគ្រីប (Encrypted) រួចផ្តល់លទ្ធភាពឱ្យអ្នកប្រើប្រាស់អាចពិនិត្យនិងផ្ទៀងផ្ទាត់ឡើងវិញថា លទ្ធផលនោះមិនត្រូវបានគេលួចកែប្រែ ឬក្លែងបន្លំដោយម៉ាស៊ីនមេឡើយ។ ដូចជាការបោះឆ្នោត ដែលអ្នកបោះឆ្នោតម្នាក់ៗមានភស្តុតាងសម្រាប់ពិនិត្យផ្ទៀងផ្ទាត់បានថាសន្លឹកឆ្នោតរបស់ខ្លួនត្រូវបានរាប់ត្រឹមត្រូវដោយគ្មានការលួចបន្លំ។
Multi-region weight forwarding technology បច្ចេកទេសបញ្ជូនទម្ងន់នៃម៉ូដែល (Model Weights) ជាបន្តបន្ទាប់ពីតំបន់មួយទៅតំបន់មួយទៀត ដើម្បីដោះស្រាយបញ្ហាឧបករណ៍ដែលខ្សោយកម្លាំងគណនាឬមានអ៊ីនធឺណិតមិនសូវល្អ កុំឱ្យដំណើរការបណ្តុះបណ្តាលទាំងមូលត្រូវគាំង។ ដូចជាការរត់បណ្តាក់ ដែលកីឡាករតំបន់ទីមួយរត់ចប់ ទើបហុចដំបងបន្តទៅឱ្យកីឡាករតំបន់ទីពីរ ដើម្បីកុំឱ្យស្ទះផ្លូវគ្នាច្រើនពេក។
Vector inner product based signature ក្បួនដោះស្រាយហត្ថលេខាឌីជីថលបែបគណិតវិទ្យា (ការគុណវ៉ិចទ័រ) ដែលត្រូវបានប្រើប្រាស់សម្រាប់ធានាថាលទ្ធផលទិន្នន័យពិតជារបស់អ្នកប្រើប្រាស់ពិតប្រាកដ និងមិនត្រូវបានកែច្នៃ ឬបន្លំតាមផ្លូវឡើយ។ ដូចជាត្រាសម្ងាត់ពិសេសមួយដែលបោះលើឯកសារ ដែលបើសិនជាមានគេលួចលុបឬកែអក្សរសូម្បីតែមួយតួ នោះត្រានេះនឹងលែងទទួលស្គាល់ឯកសារនោះភ្លាមៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖