Original Title: Early Diagnosis of Parkinson’s Disease via Pro-Saccadic Eye Movement Analysis: Multimodal Intermediate Fusion Framework
Source: doi.org/10.5220/0013321700003911
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសាន់ដំណាក់កាលដំបូងតាមរយៈការវិភាគចលនាភ្នែក Pro-Saccadic៖ ក្របខណ្ឌរួមបញ្ចូលគ្នានូវមធ្យោបាយពហុទម្រង់

ចំណងជើងដើម៖ Early Diagnosis of Parkinson’s Disease via Pro-Saccadic Eye Movement Analysis: Multimodal Intermediate Fusion Framework

អ្នកនិពន្ធ៖ Ji-Yun Han (Korea Institute of Science and Technology), Dae-Yong Cho (Korea Institute of Science and Technology), Dallah Yoo (Kyung Hee University Hospital), Tae-Beom Ahn (Kyung Hee University Hospital), Min-Koo Kang (Korea Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2025 (BIOSTEC - HEALTHINF)

វិស័យសិក្សា៖ Biomedical Engineering, Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាកង្វះខាតជីវសម្គាល់ (Biomarkers) ដែលអាចទុកចិត្តបានសម្រាប់ការធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសាន់ (Parkinson's Disease) នៅដំណាក់កាលដំបូង ដែលជាហេតុធ្វើឱ្យការព្យាបាលមានភាពយឺតយ៉ាវ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខណ្ឌសិក្សាស៊ីជម្រៅពហុទម្រង់ (Multimodal Intermediate Fusion Framework) ដោយរួមបញ្ចូលទិន្នន័យចលនាភ្នែកដើម្បីធ្វើចំណាត់ថ្នាក់រវាងអ្នកជំងឺ និងមនុស្សដែលមានសុខភាពល្អ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Time-series only (Transformer)
ការប្រើប្រាស់តែទិន្នន័យស៊េរីពេលវេលា (Time-series) ដោយប្រើបណ្តាញ Transformer
ប្រើប្រាស់ទិន្នន័យដើមផ្ទាល់ដោយមិនចាំបាច់បំប្លែងជារូបភាព។ សមត្ថភាពក្នុងការចាប់យកលំនាំស្មុគស្មាញមានកម្រិតទាប ជាពិសេសចំពោះទំនាក់ទំនងរវាងចំណុចពេលវេលា។ ភាពត្រឹមត្រូវ (Accuracy) ៥៧% និង អត្រា Recall ៥១% (ទាបបំផុតក្នុងការពិសោធន៍)
Encoded Time-series Image (CNN)
ការប្រើប្រាស់រូបភាពដែលបំប្លែងពីស៊េរីពេលវេលា (GAF, MTF, RP) ដោយប្រើបណ្តាញ CNN
អាចចាប់យកលក្ខណៈពិសេសនៃលំនាំចលនាភ្នែកតាមរយៈការវិភាគរូបភាព ២វិមាត្រ។ អាចបាត់បង់ព័ត៌មានលម្អិតខ្លះនៃលំដាប់ពេលវេលា (Temporal details) នៅពេលបំប្លែងជារូបភាព។ ភាពត្រឹមត្រូវ (Accuracy) ៨១% (នៅពេលប្រើបច្ចេកទេស GAF+MTF+RP រួមគ្នា)
Multimodal Intermediate Fusion (Proposed)
វិធីសាស្ត្រស្នើឡើង៖ ការរួមបញ្ចូលគ្នារវាងទិន្នន័យស៊េរីពេលវេលានិងរូបភាព (CNN + Transformer)
រួមបញ្ចូលចំណុចខ្លាំងទាំងពីរ៖ ការវិភាគបរិបទសកល (Global context) ពីរូបភាព និងព័ត៌មានលម្អិតពីស៊េរីពេលវេលា។ ទាមទារធនធានគណនាខ្ពស់ជាង និងមានរចនាសម្ព័ន្ធបណ្តាញស្មុគស្មាញជាងវិធីសាស្ត្រតែមួយ។ ភាពត្រឹមត្រូវ (Accuracy) ៨៧% និង អត្រា Recall ៩៦% (ល្អបំផុត)

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារឧបករណ៍ជំនាញសម្រាប់ការប្រមូលទិន្នន័យ និងកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល AI ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅមន្ទីរពេទ្យ Kyung Hee University ក្នុងប្រទេសកូរ៉េខាងត្បូង ដោយមានអ្នកចូលរួមសរុប ១៨៣ នាក់ (៨៤ នាក់មានជំងឺ PD)។ ទិន្នន័យនេះអាចមានភាពលំអៀងទៅលើប្រជាជនដែលមានវ័យចំណាស់នៅអាស៊ីបូព៌ា ដែលអាចមិនឆ្លុះបញ្ចាំងពេញលេញពីភាពចម្រុះនៃអ្នកជំងឺនៅក្នុងប្រទេសកម្ពុជា ឬតំបន់ផ្សេងទៀត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ជាពិសេសសម្រាប់ការធ្វើរោគវិនិច្ឆ័យជំងឺសរសៃប្រសាទនៅដំណាក់កាលដំបូងដែលមានតម្លៃសមរម្យ។

បច្ចេកវិទ្យានេះផ្តល់នូវសក្តានុពលខ្ពស់ក្នុងការកាត់បន្ថយការធ្វើរោគវិនិច្ឆ័យខុស និងជួយអ្នកជំងឺទទួលបានការព្យាបាលទាន់ពេលវេលា ដែលជាតម្រូវការចាំបាច់ក្នុងវិស័យសុខាភិបាលកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ ការយល់ដឹងពីទិន្នន័យចលនាភ្នែក: សិក្សាអំពីលក្ខណៈនៃចលនាភ្នែកដូចជា Saccades និង Fixations។ និស្សិតគួរស្វែងយល់ពីរបៀបដែលឧបករណ៍ Eye-tracker (VOG) បញ្ចេញទិន្នន័យជាកូអរដោនេ (x, y coordinates)។
  2. ជំហានទី ២៖ ការរៀបចំនិងសម្អាតទិន្នន័យ (Preprocessing): អនុវត្តបច្ចេកទេស Dynamic Time Warping (DTW) ដើម្បីតម្រឹមទិន្នន័យស៊េរីពេលវេលា និងកាត់បន្ថយទិន្នន័យមិនប្រក្រតី ដោយប្រើ Python libraries ដូចជា fastdtw។
  3. ជំហានទី ៣៖ ការបំប្លែងស៊េរីពេលវេលាជារូបភាព (Encoding): ប្រើប្រាស់បណ្ណាល័យ pyts នៅក្នុង Python ដើម្បីបំប្លែងទិន្នន័យលេខទៅជារូបភាពតាមវិធីសាស្ត្រ Gramian Angular Field (GAF), Markov Transition Field (MTF), និង Recurrence Plot (RP)។
  4. ជំហានទី ៤៖ ការកសាងម៉ូដែល Deep Learning: បង្កើតរចនាសម្ព័ន្ធបណ្តាញ CNN សម្រាប់រូបភាព និង Transformer សម្រាប់ស៊េរីពេលវេលា ដោយប្រើ PyTorch ឬ TensorFlow រួចធ្វើការបញ្ចូលគ្នា (Concatenate) នៅស្រទាប់ចុងក្រោយ។
  5. ជំហានទី ៥៖ ការវាយតម្លៃនិងពិសោធន៍: ធ្វើការបណ្តុះបណ្តាលម៉ូដែលជាមួយទិន្នន័យបើកចំហ (Open datasets) នៃជំងឺ Parkinson ប្រសិនបើគ្មានឧបករណ៍ VOG ផ្ទាល់ខ្លួន ដើម្បីវាស់វែងភាពត្រឹមត្រូវ (Accuracy) និង Recall ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Pro-Saccadic Eye Movement គឺជាចលនាភ្នែកយ៉ាងលឿនដើម្បីប្តូរការសម្លឹងពីចំណុចមួយទៅចំណុចមួយទៀត ដែលការសិក្សានេះប្រើវាដើម្បីរកមើលភាពមិនប្រក្រតី (ដូចជាចលនាយឺត ឬដាច់ៗ) នៅក្នុងអ្នកជំងឺផាកឃីនសាន់។ ដូចជាការបង្វិលកាមេរ៉ាយ៉ាងលឿនដើម្បីចាប់យករូបភាពថ្មី ឬប្តូរគោលដៅសម្លឹង។
Multimodal Intermediate Fusion Framework ជារចនាសម្ព័ន្ធនៃបច្ចេកវិទ្យា AI ដែលយកទិន្នន័យពីប្រភពផ្សេងគ្នា (ដូចជាតួលេខល្បឿន និងរូបភាពដែលបំប្លែងរួច) មកបញ្ចូលគ្នានៅដំណាក់កាលកណ្តាលនៃការបណ្តុះបណ្តាល ដើម្បីវិភាគឱ្យកាន់តែច្បាស់។ ដូចជាការវិនិច្ឆ័យម្ហូបអាហារដោយប្រើទាំងរសជាតិ និងការតុបតែងបញ្ចូលគ្នា ដើម្បីឱ្យដឹងថាឆ្ងាញ់ឬអត់។
Gramian Angular Field (GAF) គឺជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់បំប្លែងទិន្នន័យជាតួលេខតាមពេលវេលា (Time-series) ឱ្យទៅជារូបភាព ដើម្បីឱ្យកុំព្យូទ័រអាចមើលឃើញគំរូទំនាក់ទំនងនៃទិន្នន័យនោះបានងាយស្រួល។ ដូចជាការបំប្លែងសំឡេងតន្ត្រី ទៅជាអក្សរភ្លេងនៅលើក្រដាស ដើម្បីមើលឃើញរចនាសម្ព័ន្ធរបស់បទចម្រៀងតាមរយៈភ្នែក។
Dynamic Time Warping (DTW) គឺជាវិធីសាស្ត្រវាស់វែងភាពស្រដៀងគ្នានៃទិន្នន័យពីរខ្សែ ទោះបីជាល្បឿននៃការកើតឡើងមិនស្មើគ្នាក៏ដោយ ដើម្បីជម្រុះទិន្នន័យមិនល្អ (Outliers) ចេញ។ ដូចជាការប្រៀបធៀបមនុស្សពីរនាក់ដែលដើរលើផ្លូវតែមួយ ទោះបីជាម្នាក់ដើរលឿនជាងម្នាក់ទៀតក៏ដោយ ក៏នៅតែដឹងថាពួកគេដើរផ្លូវដូចគ្នា។
Video-oculography (VOG) ជាបច្ចេកវិទ្យាប្រើកាមេរ៉ាល្បឿនលឿនដើម្បីថត និងវាស់វែងចលនាភ្នែក និងការប្រែប្រួលនៃប្រស្រីភ្នែកសម្រាប់ធ្វើរោគវិនិច្ឆ័យជំងឺ។ ដូចជាការប្រើកាមេរ៉ាសុវត្ថិភាពដែលមានភាពច្បាស់ខ្ពស់ ដើម្បីតាមដានរាល់ការសម្លឹងរបស់មនុស្សយ៉ាងលម្អិត។
Transformer Networks ជាម៉ូដែល AI (Deep Learning) ដែលមានសមត្ថភាពវិភាគទិន្នន័យជាលំដាប់ (Sequence data) ដោយចេះផ្ដោតសំខាន់លើផ្នែកណាមួយនៃទិន្នន័យដែលមានប្រយោជន៍បំផុតសម្រាប់ការសន្និដ្ឋាន។ ដូចជាការអានសៀវភៅមួយក្បាល ហើយចេះគូសចំណាំតែពាក្យគន្លឹះសំខាន់ៗដើម្បីយល់អត្ថន័យ ដោយមិនចាំបាច់ចាំគ្រប់ពាក្យ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖