Original Title: Privacy-Preserving Federated Learning for Skin Cancer Detection Using Homomorphic Encryption and Advanced Deep Learning Techniques
Source: orcid.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនសូត្របែបសហព័ន្ធរក្សាឯកជនភាពសម្រាប់ការរកឃើញជំងឺមហារីកស្បែកដោយប្រើប្រាស់ការអ៊ិនគ្រីប Homomorphic និងបច្ចេកទេស Deep Learning កម្រិតខ្ពស់

ចំណងជើងដើម៖ Privacy-Preserving Federated Learning for Skin Cancer Detection Using Homomorphic Encryption and Advanced Deep Learning Techniques

អ្នកនិពន្ធ៖ Sahar Ebadinezhad (Near East University, Nicosia, North Cyprus), Noor Amer Ahmed (Near East University, Nicosia, North Cyprus)

ឆ្នាំបោះពុម្ព៖ 2025 IAENG International Journal of Computer Science

វិស័យសិក្សា៖ Computer Science / Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៃឯកជនភាព និងសុវត្ថិភាពទិន្នន័យវេជ្ជសាស្ត្រដ៏រសើប ក្នុងអំឡុងពេលបណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិតសម្រាប់ការវិភាគជំងឺមហារីកស្បែក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងការរៀនសូត្របែបសហព័ន្ធ (Federated Learning) ជាមួយនឹងការអ៊ិនគ្រីបដែលអាចគណនាបាន (Homomorphic Encryption) ដើម្បីហ្វឹកហាត់ម៉ូដែលដោយមិនចាំបាច់ប្រមូលផ្តុំទិន្នន័យផ្ទាល់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
PPFL-E (Proposed Model using ResNet-101 & EfficientNet)
ម៉ូដែល PPFL-E ស្នើឡើង (ប្រើប្រាស់ ResNet-101 និង EfficientNet ជាមួយ HE+FL)
មានតុល្យភាពល្អប្រសើររវាងភាពត្រឹមត្រូវខ្ពស់ក្នុងការវិភាគ និងការរក្សាឯកជនភាពទិន្នន័យយ៉ាងតឹងរ៉ឹងដោយប្រើអ៊ិនគ្រីប។ ទាមទារធនធានគណនាខ្ពស់និងពេលវេលាច្រើនជាងមុនដោយសារតែដំណើរការអ៊ិនគ្រីប Homomorphic។ ទទួលបានភាពត្រឹមត្រូវ ៩១% លើសំណុំទិន្នន័យ HAM10000។
Guo et al. (Homomorphic Encryption + Federated Learning)
ម៉ូដែលរបស់ Guo et al. (ប្រើប្រាស់ HE+FL គ្មានបញ្ជាក់ ResNet)
ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងចំណោមម៉ូដែលដែលបានប្រៀបធៀបក្នុងតារាង។ ឯកសារមិនបានបញ្ជាក់លម្អិតអំពីស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Learning Architecture) ដែលត្រូវបានប្រើប្រាស់។ ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៣.៤០%។
Sun et al. (ResNet-50 without Encryption)
ម៉ូដែលរបស់ Sun et al. (ប្រើប្រាស់ត្រឹមតែ ResNet-50 ដោយគ្មានការអ៊ិនគ្រីប)
មិនមានបន្ទុកក្នុងការគណនាស៊ីជម្រៅសម្រាប់ការអ៊ិនគ្រីប ដែលធ្វើឱ្យដំណើរការហ្វឹកហាត់មានភាពរហ័ស។ ខ្វះការការពារឯកជនភាពទិន្នន័យ ដែលមិនស្របតាមស្តង់ដារសុវត្ថិភាពទិន្នន័យវេជ្ជសាស្ត្រ និងងាយរងការវាយប្រហារ។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៧១% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានផ្នែករឹងនោះទេ ប៉ុន្តែដោយសារការប្រើប្រាស់បច្ចេកទេស Deep Learning ទំហំធំរួមជាមួយ Homomorphic Encryption វាទាមទារធនធានគណនាខ្ពស់យ៉ាងប្រាកដ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ HAM10000 ដែលប្រមូលផ្ដុំរូបភាពមហារីកស្បែកពីប្រភពអន្តរជាតិ (ភាគច្រើនជាស្បែកស)។ សម្រាប់ប្រទេសកម្ពុជា លក្ខណៈពណ៌ស្បែក (Fitzpatrick scale) និងប្រភេទជំងឺមហារីកស្បែកដែលឧស្សាហ៍ជួបប្រទះអាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យអ្នកជំងឺក្នុងស្រុកបន្ថែម ដើម្បីធានាថាម៉ូដែលនេះមានភាពសុក្រឹតនិងមិនមានភាពលម្អៀង (Bias) ពេលយកមកអនុវត្តជាក់ស្តែងសម្រាប់ប្រជាជនខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្ររៀនសូត្របែបសហព័ន្ធនេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រព័ន្ធថែទាំសុខភាពនៅកម្ពុជា ក្នុងការជំរុញការប្រើប្រាស់បញ្ញាសិប្បនិម្មិតដោយមិនបំពានសិទ្ធិឯកជនភាពរបស់អ្នកជំងឺ។

សរុបមក បច្ចេកវិទ្យានេះអាចជំរុញការធ្វើបរិវត្តកម្មឌីជីថលក្នុងវិស័យសុខាភិបាលកម្ពុជាប្រកបដោយទំនុកចិត្ត ប៉ុន្តែទាមទារការរៀបចំច្បាប់ទម្លាប់ការពារទិន្នន័យវេជ្ជសាស្ត្រ និងការវិនិយោគលើហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះកូដនីយកម្ម និងវិភាគទិន្នន័យ: ចាប់ផ្តើមរៀនភាសា Python និងបណ្ណាល័យវិភាគទិន្នន័យដូចជា NumPy, Pandas ព្រមទាំង Framework ដូចជា PyTorchTensorFlow សម្រាប់ការអភិវឌ្ឍម៉ូដែលបញ្ញាសិប្បនិម្មិត។
  2. សាកល្បងហ្វឹកហាត់ម៉ូដែលចាត់ថ្នាក់រូបភាពវេជ្ជសាស្ត្រ: ទាញយកសំណុំទិន្នន័យ HAM10000 ពីប្រភពបើកទូលាយ រួចសាកល្បងហ្វឹកហាត់ដោយប្រើប្រាស់ ResNet101 ជាមួយបច្ចេកទេស Transfer Learning និងការពង្រីកទិន្នន័យ Data Augmentation
  3. អនុវត្តការរៀនសូត្របែបសហព័ន្ធ (Federated Learning): សាកល្បងប្រើប្រាស់ Flower framework (flwr) ដើម្បីបង្កើតប្រព័ន្ធហ្វឹកហាត់ម៉ូដែលសាមញ្ញមួយរវាងកុំព្យូទ័រពីរឬច្រើន (Clients) និងម៉ាស៊ីនមេ (Server) ដោយមិនផ្ទេរទិន្នន័យរូបភាពឆៅចេញក្រៅ។
  4. ស្វែងយល់ពីបច្ចេកទេសអ៊ិនគ្រីបទិន្នន័យ (Homomorphic Encryption): សិក្សា និងសាកល្បងការប្រើប្រាស់ TenSEAL library ដែលគាំទ្រការគណនាលើទិន្នន័យដែលបានអ៊ិនគ្រីប (CKKS scheme) ដើម្បីការពារ Parameter របស់ម៉ូដែលពេលបញ្ជូនទៅ Server។
  5. អភិវឌ្ឍគម្រោងស្រាវជ្រាវពេញលេញ (Full Integration): បញ្ចូលបច្ចេកវិទ្យាទាំងបីរួមគ្នាដើម្បីបង្កើតជាគម្រោង Capstone Project មួយ ដែលក្លែងធ្វើប្រព័ន្ធវេជ្ជសាស្ត្រឆ្លាតវៃដែលអាចការពារឯកជនភាព និងមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការវិភាគរោគសញ្ញា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Federated Learning វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយមិនប្រមូលទិន្នន័យពីឧបករណ៍អ្នកប្រើប្រាស់មកដាក់រួមគ្នានៅម៉ាស៊ីនមេកណ្តាលនោះទេ។ ម៉ាស៊ីនមេគ្រាន់តែបញ្ជូនម៉ូដែលទៅកាន់ឧបករណ៍នីមួយៗ (Clients) ដើម្បីរៀនពីទិន្នន័យផ្ទាល់ រួចបញ្ជូនតែការធ្វើបច្ចុប្បន្នភាពប៉ារ៉ាម៉ែត្រ (Parameters) ត្រឡប់មកវិញប៉ុណ្ណោះ។ ដូចជាគ្រូបង្រៀនឱ្យសៀវភៅទៅសិស្សរៀននៅផ្ទះរៀងៗខ្លួន រួចប្រមូលយកតែចំណេះដឹងដែលសិស្សរៀនចេះមកបូកបញ្ចូលគ្នា ដោយមិនដកហូតយកសៀវភៅកំណត់ហេតុផ្ទាល់ខ្លួនរបស់សិស្សឡើយ។
Homomorphic Encryption បច្ចេកទេសបំប្លែងកូដទិន្នន័យ (Encryption) កម្រិតខ្ពស់ដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអាចធ្វើការគណនាលើទិន្នន័យនោះបាន ទោះបីជាវាស្ថិតក្នុងទម្រង់អ៊ិនគ្រីប (ចាក់សោ) ក៏ដោយ ដោយមិនចាំបាច់បំប្លែងវាទៅជាទម្រង់ដើម (Decrypt) វិញឡើយ។ ដូចជាការដាក់មាសចូលក្នុងប្រអប់កញ្ចក់ចាក់សោ រួចឱ្យជាងទងវាយធ្វើជាខ្សែ-កតាមរន្ធស្រោមដៃភ្ជាប់នឹងប្រអប់ ដោយជាងមិនអាចលួចយកមាសនោះចេញមកក្រៅ ឬដឹងពីទម្ងន់ពិតប្រាកដរបស់វាបានទេ។
Data Augmentation បច្ចេកទេសបង្កើតទិន្នន័យថ្មីៗបន្ថែមពីលើទិន្នន័យដើមដែលមានស្រាប់ (ដូចជាការបង្វិលរូបភាព ប្តូរពណ៌ ពង្រីក បង្រួម ឬកាត់ផ្តុំរូប) ដើម្បីបង្កើនចំនួន និងភាពចម្រុះនៃទិន្នន័យសម្រាប់ហ្វឹកហាត់ម៉ូដែល AI ឱ្យកាន់តែរឹងមាំ។ ដូចជាការថតរូបវត្ថុតែមួយពីជ្រុងផ្សេងៗគ្នា និងក្នុងស្ថានភាពពន្លឺផ្សេងៗគ្នា ដើម្បីឱ្យក្មេងម្នាក់អាចចំណាំវត្ថុនោះបានក្នុងគ្រប់កាលៈទេសៈ។
ResNet101 ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Residual Network) ដែលមានស្រទាប់វិភាគចំនួន ១០១ ស្រទាប់។ វាត្រូវបានរចនាឡើងដើម្បីចាប់យករូបភាពនិងលក្ខណៈលម្អិតស្មុគស្មាញដោយប្រើបច្ចេកទេស 'ផ្លូវកាត់' (Skip Connections) ដើម្បីដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មានពេលបណ្តាញមានជម្រៅជ្រៅពេក។ ដូចជាក្រុមអ្នកស៊ើបអង្កេត ១០១ នាក់តម្រង់ជួរគ្នាត្រួតពិនិត្យរូបភាពមួយសន្លឹកតៗគ្នា ដោយមានប្រព័ន្ធបញ្ជូនសារកាត់ពីម្នាក់ទី១ ទៅម្នាក់ទី១០ ដើម្បីកុំឱ្យព័ត៌មានដើមត្រូវបាត់បង់ពេលបញ្ជូនតៗគ្នា។
Overfitting បញ្ហាដែលម៉ូដែល AI រៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់បានល្អឥតខ្ចោះពេក ប៉ុន្តែបែរជាមិនអាចទស្សន៍ទាយឬធ្វើការវិភាគបានត្រឹមត្រូវនៅពេលយកទៅប្រើប្រាស់លើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួបពីមុន។ ដូចសិស្សដែលខំទន្ទេញចាំតែវិញ្ញាសាចាស់ៗពេលប្រឡងសាកល្បងបានពិន្ទុល្អ តែពេលប្រឡងមែនទែនចេញលំហាត់ថ្មី ឬប្តូរលេខ បែរជាធ្វើមិនបានសោះ។
Transfer Learning វិធីសាស្ត្រយកម៉ូដែល AI ដែលត្រូវបានបណ្តុះបណ្តាលរួចរាល់លើសំណុំទិន្នន័យទូទៅដ៏ធំមួយ (ឧទាហរណ៍ ImageNet) មកបន្តហ្វឹកហាត់បន្ថែមត្រឹមតែស្រទាប់ខាងចុង លើកិច្ចការងារថ្មីមួយទៀតដែលមានទិន្នន័យតិចជាង ដើម្បីសន្សំពេលវេលា និងបង្កើនប្រសិទ្ធភាពចាប់យកលក្ខណៈពិសេស។ ដូចជាអ្នកដែលចេះបើកបរឡានធំស្ទាត់ជំនាញស្រាប់ ពេលប្តូរមកហាត់បើកបរឡានតូច គឺចំណាយពេលរៀនតិចជាងអ្នកដែលមិនធ្លាប់ចេះបើកឡានសោះ ព្រោះគាត់មានមូលដ្ឋានគ្រឹះរួចទៅហើយ។
CutMix and MixUp ជាបច្ចេកទេស Data Augmentation កម្រិតខ្ពស់ដោយយកផ្នែកខ្លះនៃរូបភាពពីរផ្សេងគ្នាមកកាត់តភ្ជាប់គ្នា (CutMix) ឬច្របាច់បញ្ចូលរូបភាពពីរចូលគ្នាដោយលាយបញ្ចូលភីកសែលគ្នា (MixUp) ដើម្បីការពារម៉ូដែល AI កុំឱ្យពឹងផ្អែកតែលើចំណុចសម្គាល់តែមួយកន្លែងខ្លាំងពេកក្នុងការទស្សន៍ទាយ។ ដូចជាការយកចំណែករូបភាពក្បាលឆ្មាមកបិទលើដងខ្លួនឆ្កែ ដើម្បីសាកល្បងមើលថាតើប្រព័ន្ធនៅតែអាចស្គាល់ចំណែកនីមួយៗបានច្បាស់ឬអត់ ជាជាងចាំតែទម្រង់រួមរាងទាំងមូល។
CKKS Scheme ជាក្បួនអាល់កូរីតទមួយនៃ Homomorphic Encryption ដែលត្រូវបានបង្កើតឡើងជាពិសេសដើម្បីគាំទ្រដល់ការគណនាលេខដែលមានទសភាគ (Floating-point) លើទិន្នន័យដែលបានអ៊ិនគ្រីប ដែលស័ក្តិសមបំផុតសម្រាប់ការហ្វឹកហាត់និងគណនាទម្ងន់ប៉ារ៉ាម៉ែត្រក្នុងម៉ូដែល Machine Learning។ ដូចជាម៉ាស៊ីនគិតលេខពិសេសមួយដែលអាចបូកដកគុណចែកលេខក្បៀសបានយ៉ាងត្រឹមត្រូវ ទោះបីជាលេខទាំងនោះត្រូវបានបិទបាំងដោយភាសាសម្ងាត់ដែលម៉ាស៊ីនខ្លួនឯងមើលមិនយល់ក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖