Original Title: 云-边融合的可验证隐私保护跨域联邦学习方案 (Cloud-Edge Fusion Verifiable Privacy-Preserving Cross-Domain Federated Learning Scheme)
Source: doi.org/10.19678/j.issn.1000-3428.0067877
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

គម្រោងការរៀនសូត្របែបសហព័ន្ធឆ្លងកាត់ដែនការពារឯកជនភាពដែលអាចផ្ទៀងផ្ទាត់បានដោយផ្អែកលើការរួមបញ្ចូលគ្នានៃក្លោដនិងអេច

ចំណងជើងដើម៖ 云-边融合的可验证隐私保护跨域联邦学习方案 (Cloud-Edge Fusion Verifiable Privacy-Preserving Cross-Domain Federated Learning Scheme)

អ្នកនិពន្ធ៖ ZHANG Xiaojun (Southwest Petroleum University), LI Xingpeng, TANG Wei, HAO Yunpu, XUE Jingting

ឆ្នាំបោះពុម្ព៖ 2024, Computer Engineering (计算机工程)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ភាពខុសគ្នារវាងឧបករណ៍ក្នុងស្រុក (Heterogeneity) ប៉ះពាល់ដល់ដំណើរការនៃការបណ្តុះបណ្តាលម៉ូដែល ហើយការចែករំលែកម៉ូដែលហ្គ្រេឌៀន (Gradient model updates) អាចបណ្តាលឱ្យមានការបែកធ្លាយឯកជនភាពនិងការគំរាមកំហែងពីការកែប្រែដោយទុច្ចរិតនៅក្នុងការរៀនសូត្របែបសហព័ន្ធ (Federated Learning)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគម្រោងការរៀនសូត្របែបសហព័ន្ធឆ្លងកាត់ដែន (Cross-Domain FL) ដែលអាចផ្ទៀងផ្ទាត់បាន និងការពារឯកជនភាព ដោយផ្អែកលើការរួមបញ្ចូលគ្នារវាងក្លោដនិងអេច (Cloud-edge fusion) ដើម្បីធ្វើបច្ចុប្បន្នភាព និងចែករំលែកម៉ូដែលប្រកបដោយសុវត្ថិភាព។

ការប្រើប្រាស់បច្ចេកវិទ្យាបិទបាំងរបាំងទោល (Single mask blinding technology) ដើម្បីការពារឯកជនភាពទិន្នន័យរបស់អ្នកប្រើប្រាស់ចុងក្រោយ។
ការអនុវត្តក្បួនដោះស្រាយហត្ថលេខាផ្អែកលើផលគុណវ៉ិចទ័រ (Vector inner product based signature algorithms) ដើម្បីបង្កើតហត្ថលេខាសម្រាប់ម៉ូដែលហ្គ្រេឌៀន។
ការប្រើប្រាស់បច្ចេកវិទ្យាបញ្ជូនទម្ងន់ពហុតំបន់ (Multi-region weight forwarding technology) ដើម្បីដោះស្រាយបញ្ហាធនធានកុំព្យូទ័រដែលមានកម្រិតនៅក្នុងបណ្តាញចម្រុះ។
ការធ្វើការពិសោធន៍និងការក្លែងធ្វើប្រព័ន្ធនៅលើសំណុំទិន្នន័យគោល (Benchmark datasets) ចំនួន៤ គឺ៖ MNIST, SVHN, CIFAR-10, និង CIFAR-100។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គម្រោងនេះអាចត្រូវបានដាក់ពង្រាយយ៉ាងមានសុវត្ថិភាព និងប្រសិទ្ធភាពខ្ពស់នៅក្នុងបណ្តាញចម្រុះ (Heterogeneous networks)។
ដំណើរការធ្វើបច្ចុប្បន្នភាព និងចែករំលែកម៉ូដែលហ្គ្រេឌៀនសកល (Global gradient model) ត្រូវបានធានាថាធន់នឹងការកែប្រែទុច្ចរិត (Tamper-proof)។
បើប្រៀបធៀបជាមួយគម្រោងការរៀនសូត្របែបសហព័ន្ធបុរាណ ល្បឿននៃការរួបរួមម៉ូដែល (Convergence speed) នៃគម្រោងនេះត្រូវបានកែលម្អជាមធ្យម ២១,៦% ជាមួយនឹងភាពត្រឹមត្រូវប្រហាក់ប្រហែលគ្នា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Cloud-Edge Fusion Verifiable Privacy-Preserving Scheme គម្រោងការការពារឯកជនភាពដែលអាចផ្ទៀងផ្ទាត់បានរួមបញ្ចូលគ្នានៃក្លោដនិងអេច (Proposed Scheme)	មានល្បឿននៃការរួបរួមម៉ូដែល (Convergence speed) លឿនជាងមុន និងកាត់បន្ថយបន្ទុកគណនា (Computational overhead) ទាំងនៅលើឧបករណ៍ចុងក្រោយ និងម៉ាស៊ីនមេ។ វាអាចការពារការកែប្រែទិន្នន័យដោយទុច្ចរិតបានយ៉ាងមានប្រសិទ្ធភាព។	ទាមទារការរៀបចំប្រព័ន្ធស្មុគស្មាញនៅដំណាក់កាលដំបូង ជាពិសេសការគ្រប់គ្រងសោសម្ងាត់ (Key management) និងការបែងចែកឧបករណ៍កុំព្យូទ័រជាទម្រង់ក្លោដ-អេច (Cloud-Edge)។	ល្បឿននៃការរួបរួមម៉ូដែលកើនឡើងជាមធ្យម ២១,៦% បើធៀបនឹងម៉ូដែលបុរាណ ហើយចំណាយពេលគណនាតិចជាងគម្រោង VerSA និង ELTARAS។
Classical Federated Learning ការរៀនសូត្របែបសហព័ន្ធបុរាណ (Classical FL)	មានស្ថាបត្យកម្មសាមញ្ញ និងត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយជាស្តង់ដារគោលសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលចែកចាយ។	ងាយរងគ្រោះពីការកែប្រែម៉ូដែលដោយម៉ាស៊ីនមេ (Server tampering) និងមានដំណើរការយឺតនៅពេលអនុវត្តក្នុងបណ្តាញឧបករណ៍ចម្រុះ (Heterogeneous networks)។	មានភាពត្រឹមត្រូវ (Accuracy) ប្រហាក់ប្រហែលនឹងគម្រោងថ្មី ប៉ុន្តែចំណាយពេលយូរជាងក្នុងការធ្វើឱ្យម៉ូដែលដំណើរការបានល្អ។
VerSA Scheme គម្រោង VerSA (Verifiable Secure Aggregation)	ផ្តល់នូវយន្តការផ្ទៀងផ្ទាត់សុវត្ថិភាពសម្រាប់ការបូកសរុបទិន្នន័យនៅក្នុងការរៀនសូត្របែបសហព័ន្ធឆ្លងកាត់ឧបករណ៍។	មានបន្ទុកគណនា (Computational cost) ខ្ពស់ខ្លាំង ទាំងសម្រាប់អ្នកប្រើប្រាស់ និងម៉ាស៊ីនមេ នៅពេលចំនួនអ្នកប្រើប្រាស់កើនឡើង។	ការចំណាយលើការគណនាមានកម្រិតខ្ពស់ជាងគម្រោងរួមបញ្ចូលគ្នានៃក្លោដនិងអេច ដែលបានស្នើឡើងនៅក្នុងការសិក្សានេះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍ត្រូវបានដំណើរការនៅលើកុំព្យូទ័រដែលមានកម្លាំងម៉ាស៊ីនមធ្យមទៅខ្ពស់ ដោយប្រើប្រាស់ផ្នែករឹងនិងផ្នែកទន់ជាក់លាក់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលសិក្សាជ្រៅ (Deep Learning) និងការគណនាគ្រីបតូក្រាហ្វី (Cryptography)។

Hardware: កុំព្យូទ័រយួរដៃដែលបំពាក់ដោយស៊ីភីយូ Intel Core i7-11800H @2.30 GHz, អង្គចងចាំ (RAM) ទំហំ 16 GB, និងក្រាហ្វិកកាត NVIDIA GeForce RTX 3060 Laptop GPU។
Software: ភាសាអ៊ិនកូដ Python 3.9 ជាមួយនឹងបណ្ណាល័យ PyTorch 1.21.1 និងភាសា C សម្រាប់ដំណើរការបណ្ណាល័យគ្រីបតូក្រាហ្វី Miracl 7.0.0 និង pbc 0.5.14។
Dataset: ប្រើប្រាស់សំណុំទិន្នន័យរូបភាពស្តង់ដារចំនួន៤ គឺ៖ CIFAR-10, MNIST, CIFAR-100, និង SVHN សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល ResNet18 និង GoogleNet។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើតេស្តលើសំណុំទិន្នន័យរូបភាពទូទៅ (Benchmark image datasets) ដូចជា MNIST និង CIFAR ដែលមិនមានលក្ខណៈប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះទិន្នន័យជាក់ស្តែងក្នុងស្រុក (Local Datasets) អាចជាបញ្ហា ព្រោះថ្វីត្បិតតែក្បួនដោះស្រាយមានប្រសិទ្ធភាព ប៉ុន្តែភាពត្រឹមត្រូវនៃម៉ូដែលជាក់ស្តែងនឹងអាស្រ័យលើគុណភាពនិងភាពចម្រុះនៃទិន្នន័យពិតរបស់ប្រជាជនខ្មែរ (ឧទាហរណ៍៖ ទិន្នន័យមុខមាត់ ឬទិន្នន័យសុខភាព)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃដែលទាមទារការសហការទិន្នន័យពីស្ថាប័នច្រើនដោយមិនចាំបាច់ចែករំលែកទិន្នន័យឆៅ (Raw Data)។

វិស័យសុខាភិបាល (Healthcare Sector): មន្ទីរពេទ្យរដ្ឋ និងឯកជននៅរាជធានីភ្នំពេញ និងតាមបណ្តាខេត្ត អាចសហការគ្នាបណ្តុះបណ្តាលម៉ូដែល AI សម្រាប់វិភាគជំងឺ (ឧទាហរណ៍៖ កូវីដ១៩ ឬជំងឺគ្រុនឈាម) ដោយមិនបំពានលើឯកជនភាពទិន្នន័យអ្នកជំងឺឡើយ។
វិស័យធនាគារនិងហិរញ្ញវត្ថុ (Banking and Finance): ធនាគារជាតិនៃកម្ពុជា (NBC) និងធនាគារពាណិជ្ជផ្សេងៗ អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីបង្កើតប្រព័ន្ធតាមដាននិងទប់ស្កាត់ការក្លែងបន្លំហិរញ្ញវត្ថុ (Fraud detection) រួមគ្នាដោយសុវត្ថិភាព។
រដ្ឋាភិបាលអេឡិចត្រូនិក (E-Government): ក្រសួងនិងស្ថាប័នរដ្ឋាភិបាលកម្ពុជាអាចធ្វើសមកាលកម្មនិងវិភាគទិន្នន័យអត្តសញ្ញាណប័ណ្ណ ឬសេវាសាធារណៈឆ្លងក្រសួង ដោយធានាបាននូវសុវត្ថិភាពទិន្នន័យជាតិមិនឱ្យលេចធ្លាយ។

ការអនុវត្តគម្រោងនេះអាចជួយជំរុញការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជាប្រកបដោយសុវត្ថិភាព តាមរយៈការកសាងទំនុកចិត្តរវាងស្ថាប័នក្នុងការចែករំលែកចំណេះដឹងដែលចម្រាញ់ចេញពីទិន្នន័យរបស់ពួកគេ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Federated Learning និង Cryptography: និស្សិតត្រូវស្វែងយល់ពីគោលការណ៍ក្បួនដោះស្រាយនៃការរៀនសូត្របែបសហព័ន្ធ (Federated Learning) និងក្បួនគ្រីបតូក្រាហ្វី ដោយប្រើប្រាស់ធនធានដូចជា Federated Learning concepts និង Vector inner product signatures។
រៀបចំបរិស្ថានអនុវត្ត (Environment Setup): ដំឡើងកម្មវិធីនិងបណ្ណាល័យចាំបាច់នៅលើកុំព្យូទ័រ ដែលរួមមាន Python 3.9, PyTorch 1.21.1 និងភាសា C សម្រាប់ការប្រើប្រាស់ Miracl library។
សាកល្បងបណ្តុះបណ្តាលម៉ូដែលលើទិន្នន័យគំរូ: សរសេរកូដដើម្បីដំណើរការក្បួនដោះស្រាយ (Proposed Algorithm) ដោយសាកល្បងលើសំណុំទិន្នន័យស្តង់ដារដូចជា CIFAR-10 ជាមួយម៉ូដែល ResNet18 ដើម្បីត្រួតពិនិត្យល្បឿននៃការរួបរួមម៉ូដែល (Convergence speed)។
បង្កើតប្រព័ន្ធក្លែងធ្វើ Cloud-Edge Architecture: រៀបចំម៉ាស៊ីនមេ និងឧបករណ៍ចុងក្រោយ (Edge devices) ជាលក្ខណៈក្លែងធ្វើ (Simulation) ក្នុងបណ្តាញមូលដ្ឋាន (Local network) ដើម្បីសាកល្បងយន្តការពិនិត្យផ្ទៀងផ្ទាត់សុវត្ថិភាព (Verifiable Secure Aggregation)។
អនុវត្តគម្រោងលើទិន្នន័យជាក់ស្តែងនៅកម្ពុជា: ប្រមូលទិន្នន័យក្នុងស្រុកតូចមួយ (ឧទាហរណ៍៖ Khmer digit recognition dataset) រួចដំណើរការប្រព័ន្ធនេះដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាពនៃការការពារឯកជនភាព និងកែសម្រួលវាសម្រាប់ប្រើប្រាស់ក្នុងស្ថាប័នពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Federated Learning (FL)	បច្ចេកវិទ្យាបណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យឧបករណ៍ជាច្រើនរៀនសូត្រពីទិន្នន័យរៀងៗខ្លួនដោយមិនចាំបាច់បញ្ជូនទិន្នន័យដើមទៅកាន់ម៉ាស៊ីនមេកណ្តាលឡើយ គឺបញ្ជូនតែចំណេះដឹងដែលរៀនបានប៉ុណ្ណោះ។	ដូចជាសិស្សានុសិស្សរៀនមេរៀនរៀងៗខ្លួននៅផ្ទះ ហើយប្រាប់តែគ្រូវិញពីអ្វីដែលពួកគេយល់ ដោយមិនបាច់យកសៀវភៅកំណត់ហេតុផ្ទាល់ខ្លួនឱ្យគ្រូមើលឡើយ។
Cloud-Edge Fusion	ការបញ្ជូលគ្នារវាងប្រព័ន្ធកុំព្យូទ័រកណ្តាលខ្នាតធំ (Cloud) និងឧបករណ៍កុំព្យូទ័រនៅក្បែរអ្នកប្រើប្រាស់ (Edge) ដើម្បីជួយពន្លឿនការគណនានិងដោះស្រាយទិន្នន័យឱ្យបានលឿនជាងមុន ដោយមិនពឹងផ្អែកតែលើម៉ាស៊ីនមេកណ្តាលទាំងស្រុង។	ដូចជាការបែងចែកការងារក្រុមហ៊ុន ដែលការិយាល័យសាខា (Edge) ធ្វើការងារបន្ទាន់ប្រចាំថ្ងៃ ហើយបញ្ជូនតែរបាយការណ៍សង្ខេបទៅទីស្នាក់ការកណ្តាល (Cloud) ធំដើម្បីបូកសរុប។
Global gradient model	ម៉ូដែលមេកណ្តាលដែលត្រូវបានបង្កើតឡើងដោយការបូកបញ្ចូលគ្នានូវលទ្ធផលនៃការផ្លាស់ប្តូរ (Gradient) ដែលទទួលបានពីម៉ូដែលតូចៗរបស់ឧបករណ៍អ្នកប្រើប្រាស់នីមួយៗ ដើម្បីឱ្យម៉ូដែលនេះកាន់តែឆ្លាតវៃក្នុងការទស្សន៍ទាយឬវិភាគ។	ដូចជាសៀវភៅរូបមន្តរួមមួយក្បាល ដែលកើតចេញពីការប្រមូលផ្តុំបទពិសោធន៍និងគន្លឹះថ្មីៗពីចុងភៅរាប់រយនាក់។
Single mask blinding technology	បច្ចេកទេសបិទបាំងទិន្នន័យដោយប្រើកូដសម្ងាត់ (Mask) មុននឹងបញ្ជូនទៅកាន់ម៉ាស៊ីនមេ ដើម្បីការពារកុំឱ្យគេមើលដឹងពីទិន្នន័យដើម ប៉ុន្តែនៅពេលបូកបញ្ចូលគ្នា កូដសម្ងាត់ទាំងនោះនឹងរលាយបាត់ដោយស្វ័យប្រវត្តិ។	ដូចជាការដាក់សោរប្រអប់លុយវិភាគទាន ដែលគ្មាននរណាម្នាក់ដឹងថាអ្នកនីមួយៗដាក់ប៉ុន្មានទេ តែគេអាចរាប់ចំនួនលុយសរុបបានយ៉ាងត្រឹមត្រូវនៅពេលចុងក្រោយ។
Verifiable secure aggregation	យន្តការសុវត្ថិភាពដែលអនុញ្ញាតឱ្យប្រព័ន្ធបូកសរុបទិន្នន័យដែលបានអ៊ិនគ្រីប (Encrypted) រួចផ្តល់លទ្ធភាពឱ្យអ្នកប្រើប្រាស់អាចពិនិត្យនិងផ្ទៀងផ្ទាត់ឡើងវិញថា លទ្ធផលនោះមិនត្រូវបានគេលួចកែប្រែ ឬក្លែងបន្លំដោយម៉ាស៊ីនមេឡើយ។	ដូចជាការបោះឆ្នោត ដែលអ្នកបោះឆ្នោតម្នាក់ៗមានភស្តុតាងសម្រាប់ពិនិត្យផ្ទៀងផ្ទាត់បានថាសន្លឹកឆ្នោតរបស់ខ្លួនត្រូវបានរាប់ត្រឹមត្រូវដោយគ្មានការលួចបន្លំ។
Multi-region weight forwarding technology	បច្ចេកទេសបញ្ជូនទម្ងន់នៃម៉ូដែល (Model Weights) ជាបន្តបន្ទាប់ពីតំបន់មួយទៅតំបន់មួយទៀត ដើម្បីដោះស្រាយបញ្ហាឧបករណ៍ដែលខ្សោយកម្លាំងគណនាឬមានអ៊ីនធឺណិតមិនសូវល្អ កុំឱ្យដំណើរការបណ្តុះបណ្តាលទាំងមូលត្រូវគាំង។	ដូចជាការរត់បណ្តាក់ ដែលកីឡាករតំបន់ទីមួយរត់ចប់ ទើបហុចដំបងបន្តទៅឱ្យកីឡាករតំបន់ទីពីរ ដើម្បីកុំឱ្យស្ទះផ្លូវគ្នាច្រើនពេក។
Vector inner product based signature	ក្បួនដោះស្រាយហត្ថលេខាឌីជីថលបែបគណិតវិទ្យា (ការគុណវ៉ិចទ័រ) ដែលត្រូវបានប្រើប្រាស់សម្រាប់ធានាថាលទ្ធផលទិន្នន័យពិតជារបស់អ្នកប្រើប្រាស់ពិតប្រាកដ និងមិនត្រូវបានកែច្នៃ ឬបន្លំតាមផ្លូវឡើយ។	ដូចជាត្រាសម្ងាត់ពិសេសមួយដែលបោះលើឯកសារ ដែលបើសិនជាមានគេលួចលុបឬកែអក្សរសូម្បីតែមួយតួ នោះត្រានេះនឹងលែងទទួលស្គាល់ឯកសារនោះភ្លាមៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖