Original Title: Advances in Privacy-Preserving Machine Learning: Techniques, challenges, and applications
Source: urn.fi
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វឌ្ឍនភាពនៃការរៀនម៉ាស៊ីនដែលរក្សាឯកជនភាព៖ បច្ចេកទេស បញ្ហាប្រឈម និងការអនុវត្ត

ចំណងជើងដើម៖ Advances in Privacy-Preserving Machine Learning: Techniques, challenges, and applications

អ្នកនិពន្ធ៖ Tanveer Khan, Tampere University

ឆ្នាំបោះពុម្ព៖ 2025, Tampere University Dissertations 1313

វិស័យសិក្សា៖ Computer Science / Privacy-Preserving Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជាមួយនឹងការកើនឡើងនៃសេវាកម្មរៀនម៉ាស៊ីន (MLaaS) ការបញ្ជូនទិន្នន័យរសើបដូចជាកំណត់ត្រាសុខភាព ឬហិរញ្ញវត្ថុទៅកាន់ម៉ាស៊ីនមេ (Cloud) បង្កឱ្យមានក្តីបារម្ភយ៉ាងខ្លាំងអំពីឯកជនភាព និងហានិភ័យនៃការលេចធ្លាយទិន្នន័យអំឡុងពេលបណ្តុះបណ្តាល និងសន្និដ្ឋានម៉ូដែល។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះស្នើ និងវាយតម្លៃលើក្របខ័ណ្ឌគ្រីបក្រាហ្វិកកូនកាត់ថ្មីៗ ដោយរួមបញ្ចូលការរៀនសូត្របែបសហការជាមួយបច្ចេកទេសអ៊ិនគ្រីប ដើម្បីកាត់បន្ថយការលេចធ្លាយឯកជនភាព និងបង្កើនប្រសិទ្ធភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Plaintext Local/Split Model
ម៉ូដែលរៀនមូលដ្ឋាន និងបែបបំបែកធម្មតា (គ្មានការអ៊ិនគ្រីប)
ដំណើរការលឿនខ្លាំង និងផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការទស្សន៍ទាយ (Accuracy) ដោយមិនទាមទារធនធានកុំព្យូទ័រច្រើន។ គ្មានការការពារឯកជនភាពទាល់តែសោះ ហើយងាយរងគ្រោះពីការវាយប្រហារប្លន់យកទិន្នន័យ (FSHA និង Inversion Attacks) អំឡុងពេលបញ្ជូន។ សម្រេចបានភាពត្រឹមត្រូវ ៩៩.៣៦% លើទិន្នន័យ MNIST និង ៨៨.០៦% លើទិន្នន័យ MIT-BIH ជាមួយនឹងពេលវេលាបណ្តុះបណ្តាលខ្លីបំផុត។
Split Learning with Homomorphic Encryption (HESplit)
ការរៀនបែបបំបែករួមបញ្ចូលការអ៊ិនគ្រីបអូម៉ូម៉որហ្វីក
ការពារឯកជនភាពបានយ៉ាងល្អ ដោយធានាថាទិន្នន័យ Activation Maps ត្រូវបានអ៊ិនគ្រីបមុនពេលបញ្ជូនទៅកាន់ Server ការពារការលេចធ្លាយទិន្នន័យឆៅ។ ទាមទារការពន្យារពេលនិងធនធានគណនាខ្ពស់ខ្លាំង (Computationally expensive) ទោះបីជាមានការប្រើយុទ្ធសាស្ត្រ Batch Encryption ក៏ដោយ។ សម្រេចភាពត្រឹមត្រូវ ៨៣.៤៩%-៨៥.៤១% លើទិន្នន័យ MIT-BIH (ធ្លាក់ចុះប្រមាណ ២-៤%) តែលឿនជាងវិធីសាស្ត្រ HE មុនៗរហូតដល់ ៦ដង។
Function Secret Sharing-based Split Learning (Private Vanilla SL)
ការរៀនបែបបំបែកប្រើប្រាស់ការចែករំលែកអាថ៌កំបាំងអនុគមន៍
ការពារការវាយប្រហារ Feature-Space Hijacking និងប្រើប្រាស់ធនធាននិងពេលវេលាបណ្តុះបណ្តាលតិចជាងវិធីសាស្ត្រ HE យ៉ាងច្រើន។ តម្រូវឱ្យមាន Server យ៉ាងហោចណាស់ពីរដែលមិនត្រូវរ៉ូវគ្នា (Non-colluding servers) ដើម្បីរក្សាការសម្ងាត់នៃអនុគមន៍។ សម្រេចភាពត្រឹមត្រូវ ៩៧.២៦% លើទិន្នន័យ MNIST ដោយកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាល ៧ដង និងបន្ទុកទំនាក់ទំនងច្រើនជាង ២ដង ធៀបនឹងការប្រើ FSS ធម្មតា។
Hybrid Homomorphic Encryption (GuardML / 3GML)
ពិធីការអ៊ិនគ្រីបអូម៉ូម៉որហ្វីកកូនកាត់
កាត់បន្ថយបន្ទុកយ៉ាងច្រើនសម្រាប់ឧបករណ៍បញ្ជូន (Client/Edge) ដោយប្រើការអ៊ិនគ្រីបស៊ីមេទ្រី ធ្វើឱ្យស័ក្តិសមសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។ នៅតែទាមទារម៉ាស៊ីនមេ (Cloud) ដែលមានកម្លាំងខ្លាំងសម្រាប់បំប្លែង និងគណនាទិន្នន័យ ហើយលទ្ធផលអាចមានការរំខានដោយកម្រិត Noise បន្តិចបន្តួច។ ប្រើពេលត្រឹមតែ ១២.១៨ វិនាទី សម្រាប់ការទស្សន៍ទាយទិន្នន័យ ECG ១សំណាក ជាមួយនឹងភាពត្រឹមត្រូវប្រហាក់ប្រហែលនឹងការគណនាធម្មតា (Plaintext)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តបច្ចេកទេស PPML នៅក្នុងឯកសារនេះទាមទារនូវកម្លាំងម៉ាស៊ីនកុំព្យូទ័រ និងសមត្ថភាពបណ្តាញ (Network) ខុសៗគ្នា អាស្រ័យលើបច្ចេកទេសដែលជ្រើសរើស ជាពិសេសគឺតម្រូវការខ្ពស់សម្រាប់ម៉ាស៊ីនមេ (Server/Cloud)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកជាចម្បងលើសំណុំទិន្នន័យវេជ្ជសាស្រ្តពិភពលោក/លោកខាងលិច ដូចជា MIT-BIH (សហរដ្ឋអាមេរិក) និង PTB-XL (អឺរ៉ុប) ព្រមទាំងទិន្នន័យរូបភាព MNIST។ សម្រាប់ប្រទេសកម្ពុជា សមាមាត្រជំងឺបេះដូង ស្តង់ដារឧបករណ៍វាស់ស្ទង់រលកសញ្ញាបេះដូងនៅតាមមន្ទីរពេទ្យ ឬកម្រិត Noise ក្នុងទិន្នន័យអាចមានភាពខុសគ្នា ដែលតម្រូវឱ្យមានការសាកល្បងកែតម្រូវ (Fine-tuning) ជាមួយទិន្នន័យអ្នកជំងឺកម្ពុជាផ្ទាល់ទើបធានាបានប្រសិទ្ធភាពព្យាបាលជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសរក្សាឯកជនភាពទាំងនេះមានភាពពាក់ព័ន្ធ និងមានសក្តានុពលខ្ពស់សម្រាប់ការអនុវត្តនៅក្នុងបរិបទនៃការធ្វើបរិវត្តកម្មឌីជីថលរបស់ប្រទេសកម្ពុជា (Digital Transformation) ជាពិសេសក្នុងវិស័យដែលទាមទារការរក្សាការសម្ងាត់ខ្ពស់។

សរុបមក ការចាប់យកបច្ចេកវិទ្យា PPML ទាំងនេះនឹងជួយឱ្យស្ថាប័ននៅកម្ពុជាអាចទាញយកអត្ថប្រយោជន៍អតិបរមាពីបច្ចេកវិទ្យា AI ទំនើបៗ ដោយរក្សាបាននូវទំនុកចិត្តពីសាធារណជន តាមរយៈការធានាឯកជនភាពទិន្នន័យដ៏រឹងមាំ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ កសាងមូលដ្ឋានគ្រឹះ AI និង Cryptography: និស្សិតគួរចាប់ផ្តើមសិក្សាពីមូលដ្ឋាននៃការសរសេរកូដ Machine Learning (Deep Learning / CNN) ដោយប្រើប្រាស់បណ្ណាល័យ PyTorch និងស្វែងយល់ពីទ្រឹស្តីមូលដ្ឋាននៃ Homomorphic Encryption (HE) និងការគណនាពហុភាគី (SMPC)។
  2. ជំហានទី២៖ ស្វែងយល់ និងប្រើប្រាស់បណ្ណាល័យ PPML: ធ្វើការដំឡើង និងសាកល្បងសរសេរកូដជាមួយបណ្ណាល័យ Open-source ដូចជា TenSEAL (សម្រាប់ Python) ឬ Microsoft SEAL។ សាកល្បងអ៊ិនគ្រីបទិន្នន័យសាមញ្ញៗ និងធ្វើប្រមាណវិធីគណនាបូកឬគុណលើទិន្នន័យដែលបានអ៊ិនគ្រីបនោះ។
  3. ជំហានទី៣៖ អនុវត្តការរៀនបែបបំបែក (Split Learning): ទាញយកកូដស្រាវជ្រាវ (Open Source Implementation) ពីឃ្លាំង GitHub ដែលបានផ្តល់ក្នុងឯកសារនេះ រួចសាកល្បងដំណើរការស្ថាបត្យកម្ម U-shaped Split 1D CNN ទៅលើសំណុំទិន្នន័យកូដចំហរដូចជា MNIST ដើម្បីយល់ពីលំហូរការងាររវាង Client និង Server។
  4. ជំហានទី៤៖ អភិវឌ្ឍគម្រោងគំរូ Hybrid HE សម្រាប់បរិបទទិន្នន័យកម្ពុជា: បង្កើតគម្រោងស្រាវជ្រាវខ្នាតតូចមួយ (Mini-project) ដោយប្រើបច្ចេកទេស GuardML (HHE) ដែលរួមបញ្ចូលការអ៊ិនគ្រីបស៊ីមេទ្រីសម្រាប់ទូរសព្ទដៃ និង HE សម្រាប់ Server Cloud។ សាកល្បងវាលើទិន្នន័យតូចៗ ដើម្បីវាស់ស្ទង់ល្បឿន និងភាពត្រឹមត្រូវ មុននឹងឈានទៅដោះស្រាយបញ្ហាធំៗនៅក្នុងវិស័យសុខាភិបាលក្នុងស្រុក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Homomorphic Encryption (HE) វាគឺជាបច្ចេកទេសបំប្លែងទិន្នន័យ (អ៊ិនគ្រីប) មួយប្រភេទដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអាចធ្វើប្រមាណវិធីគណនា (ដូចជាបូក ឬគុណ) ទៅលើទិន្នន័យដែលបានលាក់បាំងនោះដោយផ្ទាល់ ដោយមិនចាំបាច់បំប្លែងវាត្រឡប់មកជាទម្រង់ដើមវិញឡើយ រួចផ្តល់លទ្ធផលដូចគ្នានឹងការគណនាលើទិន្នន័យដើម។ ដូចជាការឱ្យជាងជួសជុលនាឡិកាមួយគ្រឿងដែលដាក់ក្នុងប្រអប់កញ្ចក់បិទជិត ដោយគាត់អាចលូកដៃចូលធ្វើការតាមស្រោមដៃពិសេស តែមិនអាចយកនាឡិកាចេញមកក្រៅ ឬមើលឃើញច្បាស់ឡើយ។
Split Learning (SL) ជាវិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយបំបែកម៉ូដែលនោះជាពីរផ្នែក ដែលផ្នែកដំបូងដំណើរការលើឧបករណ៍អ្នកប្រើប្រាស់ផ្ទាល់ (Client) និងផ្នែកបន្តបន្ទាប់ដំណើរការលើម៉ាស៊ីនមេ (Server) ដើម្បីកុំឱ្យអ្នកប្រើប្រាស់ត្រូវផ្ញើទិន្នន័យឆៅទាំងមូលទៅកាន់ Server។ ដូចជាការចម្អិនម្ហូបរួមគ្នា ដោយអ្នកហាន់បន្លែនិងសាច់នៅផ្ទះរបស់អ្នក រួចផ្ញើតែគ្រឿងដែលហាន់រួចទៅឱ្យចុងភៅនៅភោជនីយដ្ឋានដើម្បីចម្អិនបន្ត ដើម្បីលាក់បាំងរូបមន្តដើមរបស់អ្នក។
Function Secret Sharing (FSS) គឺជាបច្ចេកទេសកុំព្យូទ័រផ្លូវការមួយក្នុង MPC ដែលបំបែកមុខងារគណនាមួយទៅជាចំណែកតូចៗ (Shares) ហើយចែកចាយទៅម៉ាស៊ីនមេផ្សេងៗគ្នា ដើម្បីឱ្យពួកវាអាចសហការគ្នាគណនាលទ្ធផលចុងក្រោយ ដោយគ្មានម៉ាស៊ីនណាមួយដឹងពីមុខងារសម្ងាត់ទាំងមូលឡើយ។ ដូចជាការយកផែនទីកំណប់មួយទៅកាត់ជាពីរចំណែក ហើយប្រគល់ឱ្យមនុស្សពីរនាក់ដែលត្រូវដើររកជាមួយគ្នា ទើបអាចរកកំណប់ឃើញ ដោយម្នាក់ៗមិនអាចដឹងផ្លូវទាំងមូលដោយឯកឯងបានទេ។
Feature-Space Hijacking Attack (FSHA) គឺជាទម្រង់នៃការវាយប្រហារតាមអ៊ីនធឺណិតទៅលើបច្ចេកទេស Split Learning ដែលម៉ាស៊ីនមេ (Server) មានចេតនាទុច្ចរិតព្យាយាមបន្លំម៉ូដែល ដើម្បីតាមដាន និងបំប្លែងទិន្នន័យលក្ខណៈដែលទទួលពី Client ឱ្យត្រឡប់ទៅជាទិន្នន័យដើម (ដូចជារូបភាពឯកជនភាព) វិញ។ ដូចជាការលួចស្តាប់កូដសម្ងាត់ដែលទាហានទាក់ទងគ្នា រួចប្រើប្រាស់វចនានុក្រមបកប្រែកូដនោះត្រឡប់មកជាសារដើមវិញ ដើម្បីដឹងពីផែនការសម្ងាត់។
Hybrid Homomorphic Encryption (HHE) ជាការច្របាច់បញ្ចូលគ្នារវាងការអ៊ិនគ្រីបបែបស៊ីមេទ្រី (Symmetric Encryption) ដែលមានល្បឿនលឿន និង Homomorphic Encryption ដែលអាចគណនាលើទិន្នន័យបាន ដើម្បីកាត់បន្ថយទំហំទិន្នន័យបញ្ជូន និងបង្កើនល្បឿនក្នុងការប្រើប្រាស់ Machine Learning លើ Cloud។ ដូចជាការប្រើប្រាស់រថយន្តស្ព័រដែលមានល្បឿនលឿនដើម្បីដឹកជញ្ជូនទំនិញទៅដល់រោងចក្រ រួចទើបប្រើមនុស្សយន្តពិសេសដើម្បីកែច្នៃទំនិញនោះដោយសុវត្ថិភាព។
Secure Multi-party Computation (SMPC) ជាពិធីការគ្រីបក្រាហ្វិកដែលអនុញ្ញាតឱ្យភាគីច្រើននាក់អាចសហការគ្នាគណនាលទ្ធផលនៃទិន្នន័យរួមរបស់ពួកគេ ដោយមិនចាំបាច់បង្ហាញទិន្នន័យផ្ទាល់ខ្លួនរបស់ភាគីនីមួយៗឱ្យអ្នកដទៃដឹងឡើយ។ ដូចជាមនុស្សមួយក្រុមចង់គណនាប្រាក់ខែជាមធ្យមរបស់ពួកគេរួមគ្នា ដោយមិនចាំបាច់ឱ្យនរណាម្នាក់ប្រាប់ពីប្រាក់ខែផ្ទាល់ខ្លួនរបស់ខ្លួនឯងទៅកាន់អ្នកផ្សេងឡើយ។
Activation Map គឺជាទិន្នន័យលទ្ធផលកម្រិតកណ្តាលដែលបង្កើតឡើងដោយស្រទាប់ Convolutional របស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត បន្ទាប់ពីវាបានច្រោះយកលក្ខណៈពិសេសៗ (Features) ចេញពីរូបភាព ឬទិន្នន័យឆៅ។ ដូចជាគំនូសព្រាងបឋមដែលវិចិត្រករគូសយកតែទម្រង់សំខាន់ៗនៃផ្ទៃមុខរបស់មនុស្ស មុននឹងបញ្ជូនទៅឱ្យអ្នកលាបពណ៌។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖