បញ្ហា (The Problem)៖ ជាមួយនឹងការកើនឡើងនៃសេវាកម្មរៀនម៉ាស៊ីន (MLaaS) ការបញ្ជូនទិន្នន័យរសើបដូចជាកំណត់ត្រាសុខភាព ឬហិរញ្ញវត្ថុទៅកាន់ម៉ាស៊ីនមេ (Cloud) បង្កឱ្យមានក្តីបារម្ភយ៉ាងខ្លាំងអំពីឯកជនភាព និងហានិភ័យនៃការលេចធ្លាយទិន្នន័យអំឡុងពេលបណ្តុះបណ្តាល និងសន្និដ្ឋានម៉ូដែល។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះស្នើ និងវាយតម្លៃលើក្របខ័ណ្ឌគ្រីបក្រាហ្វិកកូនកាត់ថ្មីៗ ដោយរួមបញ្ចូលការរៀនសូត្របែបសហការជាមួយបច្ចេកទេសអ៊ិនគ្រីប ដើម្បីកាត់បន្ថយការលេចធ្លាយឯកជនភាព និងបង្កើនប្រសិទ្ធភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Plaintext Local/Split Model ម៉ូដែលរៀនមូលដ្ឋាន និងបែបបំបែកធម្មតា (គ្មានការអ៊ិនគ្រីប) |
ដំណើរការលឿនខ្លាំង និងផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការទស្សន៍ទាយ (Accuracy) ដោយមិនទាមទារធនធានកុំព្យូទ័រច្រើន។ | គ្មានការការពារឯកជនភាពទាល់តែសោះ ហើយងាយរងគ្រោះពីការវាយប្រហារប្លន់យកទិន្នន័យ (FSHA និង Inversion Attacks) អំឡុងពេលបញ្ជូន។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៩.៣៦% លើទិន្នន័យ MNIST និង ៨៨.០៦% លើទិន្នន័យ MIT-BIH ជាមួយនឹងពេលវេលាបណ្តុះបណ្តាលខ្លីបំផុត។ |
| Split Learning with Homomorphic Encryption (HESplit) ការរៀនបែបបំបែករួមបញ្ចូលការអ៊ិនគ្រីបអូម៉ូម៉որហ្វីក |
ការពារឯកជនភាពបានយ៉ាងល្អ ដោយធានាថាទិន្នន័យ Activation Maps ត្រូវបានអ៊ិនគ្រីបមុនពេលបញ្ជូនទៅកាន់ Server ការពារការលេចធ្លាយទិន្នន័យឆៅ។ | ទាមទារការពន្យារពេលនិងធនធានគណនាខ្ពស់ខ្លាំង (Computationally expensive) ទោះបីជាមានការប្រើយុទ្ធសាស្ត្រ Batch Encryption ក៏ដោយ។ | សម្រេចភាពត្រឹមត្រូវ ៨៣.៤៩%-៨៥.៤១% លើទិន្នន័យ MIT-BIH (ធ្លាក់ចុះប្រមាណ ២-៤%) តែលឿនជាងវិធីសាស្ត្រ HE មុនៗរហូតដល់ ៦ដង។ |
| Function Secret Sharing-based Split Learning (Private Vanilla SL) ការរៀនបែបបំបែកប្រើប្រាស់ការចែករំលែកអាថ៌កំបាំងអនុគមន៍ |
ការពារការវាយប្រហារ Feature-Space Hijacking និងប្រើប្រាស់ធនធាននិងពេលវេលាបណ្តុះបណ្តាលតិចជាងវិធីសាស្ត្រ HE យ៉ាងច្រើន។ | តម្រូវឱ្យមាន Server យ៉ាងហោចណាស់ពីរដែលមិនត្រូវរ៉ូវគ្នា (Non-colluding servers) ដើម្បីរក្សាការសម្ងាត់នៃអនុគមន៍។ | សម្រេចភាពត្រឹមត្រូវ ៩៧.២៦% លើទិន្នន័យ MNIST ដោយកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាល ៧ដង និងបន្ទុកទំនាក់ទំនងច្រើនជាង ២ដង ធៀបនឹងការប្រើ FSS ធម្មតា។ |
| Hybrid Homomorphic Encryption (GuardML / 3GML) ពិធីការអ៊ិនគ្រីបអូម៉ូម៉որហ្វីកកូនកាត់ |
កាត់បន្ថយបន្ទុកយ៉ាងច្រើនសម្រាប់ឧបករណ៍បញ្ជូន (Client/Edge) ដោយប្រើការអ៊ិនគ្រីបស៊ីមេទ្រី ធ្វើឱ្យស័ក្តិសមសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។ | នៅតែទាមទារម៉ាស៊ីនមេ (Cloud) ដែលមានកម្លាំងខ្លាំងសម្រាប់បំប្លែង និងគណនាទិន្នន័យ ហើយលទ្ធផលអាចមានការរំខានដោយកម្រិត Noise បន្តិចបន្តួច។ | ប្រើពេលត្រឹមតែ ១២.១៨ វិនាទី សម្រាប់ការទស្សន៍ទាយទិន្នន័យ ECG ១សំណាក ជាមួយនឹងភាពត្រឹមត្រូវប្រហាក់ប្រហែលនឹងការគណនាធម្មតា (Plaintext)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តបច្ចេកទេស PPML នៅក្នុងឯកសារនេះទាមទារនូវកម្លាំងម៉ាស៊ីនកុំព្យូទ័រ និងសមត្ថភាពបណ្តាញ (Network) ខុសៗគ្នា អាស្រ័យលើបច្ចេកទេសដែលជ្រើសរើស ជាពិសេសគឺតម្រូវការខ្ពស់សម្រាប់ម៉ាស៊ីនមេ (Server/Cloud)។
ការសិក្សានេះពឹងផ្អែកជាចម្បងលើសំណុំទិន្នន័យវេជ្ជសាស្រ្តពិភពលោក/លោកខាងលិច ដូចជា MIT-BIH (សហរដ្ឋអាមេរិក) និង PTB-XL (អឺរ៉ុប) ព្រមទាំងទិន្នន័យរូបភាព MNIST។ សម្រាប់ប្រទេសកម្ពុជា សមាមាត្រជំងឺបេះដូង ស្តង់ដារឧបករណ៍វាស់ស្ទង់រលកសញ្ញាបេះដូងនៅតាមមន្ទីរពេទ្យ ឬកម្រិត Noise ក្នុងទិន្នន័យអាចមានភាពខុសគ្នា ដែលតម្រូវឱ្យមានការសាកល្បងកែតម្រូវ (Fine-tuning) ជាមួយទិន្នន័យអ្នកជំងឺកម្ពុជាផ្ទាល់ទើបធានាបានប្រសិទ្ធភាពព្យាបាលជាក់ស្តែង។
បច្ចេកទេសរក្សាឯកជនភាពទាំងនេះមានភាពពាក់ព័ន្ធ និងមានសក្តានុពលខ្ពស់សម្រាប់ការអនុវត្តនៅក្នុងបរិបទនៃការធ្វើបរិវត្តកម្មឌីជីថលរបស់ប្រទេសកម្ពុជា (Digital Transformation) ជាពិសេសក្នុងវិស័យដែលទាមទារការរក្សាការសម្ងាត់ខ្ពស់។
សរុបមក ការចាប់យកបច្ចេកវិទ្យា PPML ទាំងនេះនឹងជួយឱ្យស្ថាប័ននៅកម្ពុជាអាចទាញយកអត្ថប្រយោជន៍អតិបរមាពីបច្ចេកវិទ្យា AI ទំនើបៗ ដោយរក្សាបាននូវទំនុកចិត្តពីសាធារណជន តាមរយៈការធានាឯកជនភាពទិន្នន័យដ៏រឹងមាំ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Homomorphic Encryption (HE) | វាគឺជាបច្ចេកទេសបំប្លែងទិន្នន័យ (អ៊ិនគ្រីប) មួយប្រភេទដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអាចធ្វើប្រមាណវិធីគណនា (ដូចជាបូក ឬគុណ) ទៅលើទិន្នន័យដែលបានលាក់បាំងនោះដោយផ្ទាល់ ដោយមិនចាំបាច់បំប្លែងវាត្រឡប់មកជាទម្រង់ដើមវិញឡើយ រួចផ្តល់លទ្ធផលដូចគ្នានឹងការគណនាលើទិន្នន័យដើម។ | ដូចជាការឱ្យជាងជួសជុលនាឡិកាមួយគ្រឿងដែលដាក់ក្នុងប្រអប់កញ្ចក់បិទជិត ដោយគាត់អាចលូកដៃចូលធ្វើការតាមស្រោមដៃពិសេស តែមិនអាចយកនាឡិកាចេញមកក្រៅ ឬមើលឃើញច្បាស់ឡើយ។ |
| Split Learning (SL) | ជាវិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយបំបែកម៉ូដែលនោះជាពីរផ្នែក ដែលផ្នែកដំបូងដំណើរការលើឧបករណ៍អ្នកប្រើប្រាស់ផ្ទាល់ (Client) និងផ្នែកបន្តបន្ទាប់ដំណើរការលើម៉ាស៊ីនមេ (Server) ដើម្បីកុំឱ្យអ្នកប្រើប្រាស់ត្រូវផ្ញើទិន្នន័យឆៅទាំងមូលទៅកាន់ Server។ | ដូចជាការចម្អិនម្ហូបរួមគ្នា ដោយអ្នកហាន់បន្លែនិងសាច់នៅផ្ទះរបស់អ្នក រួចផ្ញើតែគ្រឿងដែលហាន់រួចទៅឱ្យចុងភៅនៅភោជនីយដ្ឋានដើម្បីចម្អិនបន្ត ដើម្បីលាក់បាំងរូបមន្តដើមរបស់អ្នក។ |
| Function Secret Sharing (FSS) | គឺជាបច្ចេកទេសកុំព្យូទ័រផ្លូវការមួយក្នុង MPC ដែលបំបែកមុខងារគណនាមួយទៅជាចំណែកតូចៗ (Shares) ហើយចែកចាយទៅម៉ាស៊ីនមេផ្សេងៗគ្នា ដើម្បីឱ្យពួកវាអាចសហការគ្នាគណនាលទ្ធផលចុងក្រោយ ដោយគ្មានម៉ាស៊ីនណាមួយដឹងពីមុខងារសម្ងាត់ទាំងមូលឡើយ។ | ដូចជាការយកផែនទីកំណប់មួយទៅកាត់ជាពីរចំណែក ហើយប្រគល់ឱ្យមនុស្សពីរនាក់ដែលត្រូវដើររកជាមួយគ្នា ទើបអាចរកកំណប់ឃើញ ដោយម្នាក់ៗមិនអាចដឹងផ្លូវទាំងមូលដោយឯកឯងបានទេ។ |
| Feature-Space Hijacking Attack (FSHA) | គឺជាទម្រង់នៃការវាយប្រហារតាមអ៊ីនធឺណិតទៅលើបច្ចេកទេស Split Learning ដែលម៉ាស៊ីនមេ (Server) មានចេតនាទុច្ចរិតព្យាយាមបន្លំម៉ូដែល ដើម្បីតាមដាន និងបំប្លែងទិន្នន័យលក្ខណៈដែលទទួលពី Client ឱ្យត្រឡប់ទៅជាទិន្នន័យដើម (ដូចជារូបភាពឯកជនភាព) វិញ។ | ដូចជាការលួចស្តាប់កូដសម្ងាត់ដែលទាហានទាក់ទងគ្នា រួចប្រើប្រាស់វចនានុក្រមបកប្រែកូដនោះត្រឡប់មកជាសារដើមវិញ ដើម្បីដឹងពីផែនការសម្ងាត់។ |
| Hybrid Homomorphic Encryption (HHE) | ជាការច្របាច់បញ្ចូលគ្នារវាងការអ៊ិនគ្រីបបែបស៊ីមេទ្រី (Symmetric Encryption) ដែលមានល្បឿនលឿន និង Homomorphic Encryption ដែលអាចគណនាលើទិន្នន័យបាន ដើម្បីកាត់បន្ថយទំហំទិន្នន័យបញ្ជូន និងបង្កើនល្បឿនក្នុងការប្រើប្រាស់ Machine Learning លើ Cloud។ | ដូចជាការប្រើប្រាស់រថយន្តស្ព័រដែលមានល្បឿនលឿនដើម្បីដឹកជញ្ជូនទំនិញទៅដល់រោងចក្រ រួចទើបប្រើមនុស្សយន្តពិសេសដើម្បីកែច្នៃទំនិញនោះដោយសុវត្ថិភាព។ |
| Secure Multi-party Computation (SMPC) | ជាពិធីការគ្រីបក្រាហ្វិកដែលអនុញ្ញាតឱ្យភាគីច្រើននាក់អាចសហការគ្នាគណនាលទ្ធផលនៃទិន្នន័យរួមរបស់ពួកគេ ដោយមិនចាំបាច់បង្ហាញទិន្នន័យផ្ទាល់ខ្លួនរបស់ភាគីនីមួយៗឱ្យអ្នកដទៃដឹងឡើយ។ | ដូចជាមនុស្សមួយក្រុមចង់គណនាប្រាក់ខែជាមធ្យមរបស់ពួកគេរួមគ្នា ដោយមិនចាំបាច់ឱ្យនរណាម្នាក់ប្រាប់ពីប្រាក់ខែផ្ទាល់ខ្លួនរបស់ខ្លួនឯងទៅកាន់អ្នកផ្សេងឡើយ។ |
| Activation Map | គឺជាទិន្នន័យលទ្ធផលកម្រិតកណ្តាលដែលបង្កើតឡើងដោយស្រទាប់ Convolutional របស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត បន្ទាប់ពីវាបានច្រោះយកលក្ខណៈពិសេសៗ (Features) ចេញពីរូបភាព ឬទិន្នន័យឆៅ។ | ដូចជាគំនូសព្រាងបឋមដែលវិចិត្រករគូសយកតែទម្រង់សំខាន់ៗនៃផ្ទៃមុខរបស់មនុស្ស មុននឹងបញ្ជូនទៅឱ្យអ្នកលាបពណ៌។ |
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖