Original Title: DATA GENERATION AND DATA ANALYSIS OF PARKINSON'S DISEASE FREEZING OF GAIT USING MACHINE LEARNING
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើតទិន្នន័យ និងការវិភាគទិន្នន័យនៃការកកស្ទះចលនាក្នុងជំងឺផាកឃីនសាន់ដោយប្រើប្រាស់ការរៀនដោយម៉ាស៊ីន

ចំណងជើងដើម៖ DATA GENERATION AND DATA ANALYSIS OF PARKINSON'S DISEASE FREEZING OF GAIT USING MACHINE LEARNING

អ្នកនិពន្ធ៖ Ghulam Murtaza (Skolkovo Institute of Science and Technology), Andrey Somov, PhD (Skolkovo Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2025 Skolkovo Institute of Science and Technology

វិស័យសិក្សា៖ Machine Learning in Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ រោគសញ្ញានៃការកកស្ទះចលនា (Freezing of Gait - FoG) ក្នុងជំងឺផាកឃីនសាន់ (Parkinson's disease) ធ្វើឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់ការដើរ ប៉ុន្តែការបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine learning) ដើម្បីរកឃើញរោគសញ្ញានេះកំពុងជួបការលំបាកដោយសារកង្វះខាតទិន្នន័យរបស់អ្នកជំងឺ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររួមបញ្ចូលទិន្នន័យចម្រុះ និងបច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតដោយប្រើប្រាស់បណ្តាញ Generative Adversarial Networks (GANs) ដើម្បីពង្រឹងការរកឃើញ FoG ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
SVM with Multimodal Sensors (EMG + ACC)
ការប្រើប្រាស់ម៉ូដែល SVM ជាមួយនឹងឧបករណ៍ចាប់សញ្ញាចម្រុះ (សាច់ដុំ និងឧបករណ៍វាស់ល្បឿន)
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការចាប់យករោគសញ្ញា ដោយរួមបញ្ចូលទាំងទិន្នន័យចលនា និងសកម្មភាពសាច់ដុំកម្រិតជ្រៅ។ តម្រូវឱ្យអ្នកជំងឺពាក់ឧបករណ៍ចាប់សញ្ញាច្រើននៅលើដងខ្លួន ដែលអាចបង្កការរំខាន ពិបាកអនុវត្តប្រចាំថ្ងៃ និងមានតម្លៃថ្លៃក្នុងការរៀបចំ។ ទទួលបានពិន្ទុ f1 ខ្ពស់បំផុត 98.82% សម្រាប់ការធ្វើតេស្តដែលផ្អែកលើទិន្នន័យអ្នកជំងឺធ្លាប់ស្គាល់ (Subject-dependent)។
SVM with Single Modality (ACC - Waist)
ការប្រើប្រាស់ម៉ូដែល SVM ជាមួយនឹងឧបករណ៍ចាប់សញ្ញាតែមួយ (ឧបករណ៍វាស់ល្បឿននៅចង្កេះ)
ងាយស្រួលពាក់ និងប្រើប្រាស់ក្នុងជីវភាពប្រចាំថ្ងៃ កាត់បន្ថយភាពស្មុគស្មាញ និងទាមទារតែសេនស័រមួយប៉ុណ្ណោះ។ ទោះបីជាមានភាពត្រឹមត្រូវខ្ពស់លើអ្នកជំងឺដដែល ប៉ុន្តែអាចនឹងថយចុះប្រសិទ្ធភាពនៅពេលជួបប្រទះទិន្នន័យអ្នកជំងឺថ្មីដែលមិនធ្លាប់បានបង្វឹក (Subject-independent)។ ទទួលបានពិន្ទុ f1 98.78% ដែលប្រហាក់ប្រហែលនឹងការប្រើប្រាស់ឧបករណ៍ចម្រុះ។
Random Forest with Original Data (Baseline)
ការប្រើប្រាស់ម៉ូដែល Random Forest ជាមួយនឹងទិន្នន័យដើមសុទ្ធសាធ (វិធីសាស្ត្រគោល)
ដំណើរការលឿន មិនស្មុគស្មាញ និងអាចប្រើប្រាស់ទិន្នន័យដើមដោយផ្ទាល់ដោយមិនបាច់ឆ្លងកាត់ការបង្កើតទិន្នន័យសិប្បនិម្មិត។ ទទួលរងឥទ្ធិពលយ៉ាងខ្លាំងពីបញ្ហាកង្វះខាតទិន្នន័យ (Data scarcity) ធ្វើឱ្យសមត្ថភាពទស្សន៍ទាយលើអ្នកជំងឺថ្មីមានកម្រិតទាបខ្លាំង។ ពិន្ទុ f1 ទទួលបានត្រឹមតែ 0.6712 សម្រាប់កិច្ចការវាយតម្លៃអ្នកជំងឺថ្មី (Task 4)។
Random Forest with DG GAN Data Augmentation
ការប្រើប្រាស់ម៉ូដែល Random Forest រួមផ្សំជាមួយការបង្កើនទិន្នន័យសិប្បនិម្មិតតាមរយៈ DoppelGANger
ដោះស្រាយបញ្ហាកង្វះទិន្នន័យបានយ៉ាងល្អ ដោយបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមដែលរក្សាលក្ខណៈពេលវេលា និងស្ថិតិដូចទិន្នន័យពិត។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ (GPU) និងចំណាយពេលវេលាច្រើនក្នុងការបង្វឹកម៉ូដែលសរសៃប្រសាទ GAN ឱ្យបានត្រឹមត្រូវ។ ពិន្ទុ f1 កើនឡើងពី 0.6712 ដល់ 0.8327 (Task 4) ដែលបង្ហាញពីភាពប្រសើរឡើងយ៉ាងខ្លាំងសម្រាប់ការវាយតម្លៃអ្នកជំងឺថ្មី (Subject-independent)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះតម្រូវឱ្យមានផ្នែករឹងសម្រាប់ប្រមូលទិន្នន័យ (Wearable sensors) និងកម្លាំងកុំព្យូទ័រខ្ពស់សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ជាពិសេសបណ្តាញស្មុគស្មាញដូចជា GANs ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលបានប្រើប្រាស់ក្នុងការសិក្សានេះមានទំហំតូច (ប្រមូលពីអ្នកជំងឺត្រឹមតែ១២នាក់) និងយកចេញពីមន្ទីរពេទ្យប៉េកាំងសៀនវូ (Beijing Xuanwu Hospital) ប្រទេសចិន ដែលផ្តោតតែលើអ្នកជំងឺក្នុងស្ថានភាពមិនប្រើថ្នាំ (Off-medication)។ សម្រាប់ប្រទេសកម្ពុជា ភាពខុសគ្នានៃហ្សែន កាយសម្បទា របបអាហារ និងទម្លាប់រស់នៅរបស់អ្នកជំងឺកម្ពុជា អាចធ្វើឱ្យម៉ូដែលនេះមានភាពលម្អៀង និងមិនទាន់អាចឆ្លើយតបបានត្រឹមត្រូវ ១០០% ទេ ប្រសិនបើគ្មានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមនៃកង្វះខាតទិន្នន័យក្តី វិធីសាស្ត្រនៃការបង្កើតទិន្នន័យសិប្បនិម្មិត (Data Augmentation) នេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យសុខាភិបាលឌីជីថលនៅកម្ពុជា។

ជារួម បច្ចេកវិទ្យានេះមិនត្រឹមតែជាដំណោះស្រាយសម្រាប់អ្នកជំងឺផាកឃីនសាន់ប៉ុណ្ណោះទេ ថែមទាំងផ្តល់ជាគំរូដ៏ល្អស្តីពីការប្រើប្រាស់ឧបករណ៍ពាក់លើខ្លួនតម្លៃថោក បញ្ចូលជាមួយបច្ចេកវិទ្យា AI (GANs) ដើម្បីយកឈ្នះលើបញ្ហាកង្វះខាតទិន្នន័យនៅក្នុងប្រព័ន្ធសុខាភិបាលកម្ពុជាផងដែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យសញ្ញាពេលវេលា (Time-Series Signal Processing): រៀនពីរបៀបត្រង និងទាញយកលក្ខណៈពិសេស (Feature Extraction) ពីឧបករណ៍វាស់ល្បឿន (Accelerometer) ដោយប្រើប្រាស់បណ្ណាល័យ SciPy ក្នុង Python និងកសាងម៉ូដែលមូលដ្ឋានដូចជា Support Vector Machine (SVM) និង Random Forest តាមរយៈ Scikit-Learn
  2. អនុវត្តជាមួយទិន្នន័យសាធារណៈ (Open-Source Datasets): ទាញយកទិន្នន័យ Mendeley Data (ដែលមានរៀបរាប់ក្នុងឯកសារស្រាវជ្រាវនេះ) ឬ Daphnet Freezing of Gait Dataset មកសាកល្បងបង្វឹកម៉ូដែល។ អនុវត្តបច្ចេកទេស SMOTE ដើម្បីស្វែងយល់ពីរបៀបដោះស្រាយបញ្ហាលំអៀងទិន្នន័យ (Class imbalance) មុនពេលឈានដល់ការប្រើ GAN។
  3. ស្វែងយល់ស៊ីជម្រៅពីបច្ចេកវិទ្យាបង្កើតទិន្នន័យ (Generative Adversarial Networks): សិក្សាកូដ និងអត្ថបទស្រាវជ្រាវទាក់ទងនឹង DoppelGANger (DG GAN)TimeGAN ដោយប្រើប្រាស់ Framework ដូចជា PyTorch ដើម្បីរៀនពីរបៀបបង្កើតទិន្នន័យប្រភេទ Time-series ដែលរក្សាបាននូវលក្ខណៈដើមបានត្រឹមត្រូវដោយប្រើ Wasserstein loss។
  4. បង្កើតប្រព័ន្ធសាកល្បងខ្នាតតូចតាមរយៈទូរស័ព្ទដៃ (Smartphone-based Prototype): ដោយសារប្រជាជនកម្ពុជាប្រើប្រាស់ទូរស័ព្ទឆ្លាតវៃច្រើន និស្សិតអាចប្រើប្រាស់កម្មវិធីដូចជា Physics Toolbox Sensor Suite ដើម្បីប្រមូលទិន្នន័យសេនស័រពីទូរស័ព្ទ (ដាក់នៅចង្កេះ) អំឡុងពេលដើរ និងសាកល្បងបញ្ជូនទិន្នន័យនោះមកវិភាគដោយម៉ូដែល ML ដែលបានបង្វឹករួច។
  5. ប្រើប្រាស់ប្រព័ន្ធក្លោដសម្រាប់ការបង្វឹកម៉ូដែល (Cloud Computing for Training): អនុវត្តការសរសេរកូដនៅលើ Google Colab Pro ឬតម្លើង AWS EC2 (ប្រភេទមាន GPU) ដើម្បីទទួលបានថាមពលគណនាគ្រប់គ្រាន់ក្នុងការបង្វឹក GAN និងរៀនប្រើប្រាស់ Weights & Biases (Wandb) ដើម្បីតាមដានក្រាហ្វិកនិងការបាត់បង់ (Loss metrics) អំឡុងពេលបង្វឹកម៉ូដែល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Generative Adversarial Networks (GANs) ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលមានបណ្តាញសរសៃប្រសាទពីរប្រកួតប្រជែងគ្នា (មួយបង្កើតទិន្នន័យក្លែងក្លាយ មួយទៀតព្យាយាមចាប់កំហុស) ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមានលក្ខណៈដូចទិន្នន័យពិតបេះបិទ។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីបង្កើតទិន្នន័យការដើររបស់អ្នកជំងឺបន្ថែម។ ដូចជាជាងគំនូរម្នាក់ព្យាយាមគូររូបលុយប្រដេញគ្នាជាមួយអ្នកត្រួតពិនិត្យលុយក្លែងក្លាយ រហូតដល់ជាងគំនូរអាចគូរបានដូចពិតៗដែលមើលលែងដឹង។
Freezing of Gait (FoG) ជារោគសញ្ញាមួយនៃជំងឺផាកឃីនសាន់ ដែលអ្នកជំងឺមានអារម្មណ៍ថាជើងរបស់ពួកគេជាប់ស្អិតនឹងកម្រាលឥដ្ឋ ធ្វើឲ្យពួកគេមិនអាចឈានជើងដើរទៅមុខបានមួយរំពេច ដែលងាយនឹងបណ្តាលឲ្យដួល និងប៉ះពាល់ដល់ជីវិតប្រចាំថ្ងៃ។ ដូចជាឡានដែលកំពុងបើកសុខៗស្រាប់តែគាំងម៉ាស៊ីនមិនអាចទៅមុខបានមួយសន្ទុះ ទោះបីជាអ្នកបើកបរព្យាយាមជាន់ហ្គែរក៏ដោយ។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយក្នុងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលស្វែងរកបន្ទាត់ឬប្លង់ដ៏ល្អបំផុតដើម្បីបែងចែកទិន្នន័យជាពីរក្រុមផ្សេងគ្នា (ឧទាហរណ៍៖ ទិន្នន័យពេលដើរធម្មតា និងទិន្នន័យពេលកកស្ទះចលនា FoG)។ ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយដើម្បីខណ្ឌចែកសត្វឆ្កែ និងសត្វឆ្មាឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់បំផុត។
Leave-One-Subject-Out (LOSO) ជាវិធីសាស្ត្រវាយតម្លៃម៉ូដែល AI ដោយយកទិន្នន័យរបស់អ្នកជំងឺទាំងអស់មកបង្វឹកម៉ូដែល លើកលែងតែទិន្នន័យអ្នកជំងឺម្នាក់ដែលត្រូវបានទុកឡែកសម្រាប់ធ្វើតេស្ត ដើម្បីធានាថាម៉ូដែលនេះអាចដំណើរការទស្សន៍ទាយបានត្រឹមត្រូវលើអ្នកជំងឺថ្មីដែលវាមិនធ្លាប់បានរៀនពីមុនមក។ ដូចជាការឱ្យសិស្សរៀនលំហាត់ពីសៀវភៅទី១ដល់ទី៩ ហើយពេលប្រឡងគឺចេញលំហាត់ក្នុងសៀវភៅទី១០ ដែលគេមិនធ្លាប់ឃើញសោះ ដើម្បីតេស្តសមត្ថភាពពិតប្រាកដ។
Synthetic Minority Over-sampling Technique (SMOTE) ជាបច្ចេកទេសដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ ដោយវាបង្កើតទិន្នន័យថ្មីៗបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច (ដូចជាព្រឹត្តិការណ៍ FoG ដ៏កម្រ) ដើម្បីឱ្យម៉ូដែល AI រៀនចាប់កំហុសបានស្មើគ្នា និងមិនលម្អៀងទៅរកតែទិន្នន័យដែលមានចំនួនច្រើន។ ដូចជាការយកកូនសិស្សខ្សោយៗមួយក្តាប់តូចមកថតចម្លងបំបែកជាច្រើននាក់ ដើម្បីឱ្យគ្រូយកចិត្តទុកដាក់បង្រៀនពួកគេបានស្មើនឹងសិស្សពូកែដែលមានចំនួនច្រើន។
DoppelGANger (DG) ជាម៉ូដែល GAN ជំនាន់ថ្មីដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់បង្កើតទិន្នន័យប្រភេទសញ្ញាតាមពេលវេលា (Time-series data) ប្រកបដោយគុណភាពខ្ពស់ ដោយម៉ូដែលនេះរក្សាបាននូវទំនាក់ទំនង និងលំនាំប្រែប្រួលនៃសញ្ញាចលនាតាមពេលវេលាពិតប្រាកដ។ ដូចជាឧបករណ៍ថតចម្លងវីដេអូដែលអាចចម្លងចលនារបស់អ្នករាំម្នាក់បានយ៉ាងរលូនពីដើមដល់ចប់ ដោយមិនមែនគ្រាន់តែថតចម្លងជារូបភាពដាច់ៗនោះទេ។
Multimodal Sensor Fusion ជាការប្រមូល និងរួមបញ្ចូលទិន្នន័យពីប្រភពឧបករណ៍ចាប់សញ្ញាផ្សេងៗគ្នា (ដូចជាសេនស័រវាស់សាច់ដុំ EMG, សេនស័រវាស់ល្បឿនចលនា ACC, និងរលកខួរក្បាល EEG) ដើម្បីទទួលបានរូបភាពរួម និងបង្កើនភាពត្រឹមត្រូវក្នុងការវិភាគរោគសញ្ញា។ ដូចជាគ្រូពេទ្យដែលពិនិត្យទាំងចង្វាក់បេះដូង សម្ពាធឈាម និងកម្តៅខ្លួនក្នុងពេលតែមួយ ដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺឱ្យបានច្បាស់លាស់ ជាជាងមើលតែរោគសញ្ញាតែមួយមុខ។
Principal Component Analysis (PCA) ជាបច្ចេកទេសកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យដែលមានវិមាត្រច្រើន ឱ្យមកនៅត្រឹមវិមាត្រតិចតួច (ឧទាហរណ៍ពី២០អថេរ មកត្រឹម២អថេរ) ដោយទាញយកតែលក្ខណៈសំខាន់ៗបំផុត ដើម្បីងាយស្រួលក្នុងការមើលឃើញទិន្នន័យជារូបភាពក្រាហ្វិក។ ដូចជាការថតរូបភាពវត្ថុ 3D ឱ្យទៅជារូបថត 2D ប៉ុន្តែជ្រើសរើសមុំថតណាដែលបង្ហាញរូបរាងវត្ថុនោះបានច្បាស់ជាងគេបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖