Original Title: The Multimodal Fusion of Voice, Gait, and Handwriting Detection of Parkinson’s Disease Using Machine Learning
Source: doi.org/10.47857/irjms.2025.v06i04.06552
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបញ្ចូលគ្នានូវពហុទម្រង់នៃសំឡេង ដំណើរ និងការសរសេរដៃ ដើម្បីរកមើលជំងឺផាកឃីនសាន់ (Parkinson's Disease) ដោយប្រើប្រាស់ម៉ាស៊ីនរៀន (Machine Learning)

ចំណងជើងដើម៖ The Multimodal Fusion of Voice, Gait, and Handwriting Detection of Parkinson’s Disease Using Machine Learning

អ្នកនិពន្ធ៖ Mirle Bhyraj Meghashree (Vidya Vikas Institute of Engineering and Technology), Karigowda Dhananjaya Kumar (Vidya Vikas Institute of Engineering and Technology), Nagaraju Vinutha (Vidya Vikas Institute of Engineering and Technology), Dinesh Akash (Vidya Vikas Institute of Engineering and Technology)

ឆ្នាំបោះពុម្ព៖ 2025 (International Research Journal of Multidisciplinary Scope)

វិស័យសិក្សា៖ Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺផាកឃីនសាន់ (Parkinson's disease) គឺពិបាកក្នុងការធ្វើរោគវិនិច្ឆ័យនៅដំណាក់កាលដំបូង ដោយសារតែរោគសញ្ញាមិនសូវច្បាស់ និងការពឹងផ្អែកលើការវាយតម្លៃគ្លីនិកដែលអាចមានកំហុស។ ការសិក្សានេះស្នើឡើងនូវការប្រើប្រាស់ម៉ាស៊ីនរៀនដើម្បីដោះស្រាយបញ្ហាប្រឈមនេះដោយផ្តល់នូវរោគវិនិច្ឆ័យដែលគួរឱ្យទុកចិត្តនិងច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតម៉ូដែលម៉ាស៊ីនរៀនពហុទម្រង់ ដែលទាញយកនិងរួមបញ្ចូលលក្ខណៈពិសេសពីប្រភពទិន្នន័យជីវមាត្រផ្សេងៗគ្នាដោយមិនពឹងផ្អែកខ្លាំងលើទិន្នន័យដែលមានស្លាកចំណាត់ថ្នាក់ជាមុន។

ការវិភាគសំឡេង (Voice Analysis): ការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដើម្បីរកមើលភាពប្រែប្រួលនៃកម្រិតសំឡេង និងភាពញ័រ
ការវិភាគដំណើរ (Gait Analysis): ការប្រើប្រាស់ទិន្នន័យចលនារាងកាយដូចជា ប្រវែងជំហាន និងល្បឿននៃការដើរ
ការវិភាគការសរសេរដៃ (Handwriting Analysis): ការពិនិត្យមើលប្រវែងគំនូស ល្បឿនសរសេរ និងសម្ពាធដើម្បីរកមើលភាពមិនប្រក្រតីនៃចលនា
ការរៀនដោយខ្លួនឯង និងការបញ្ចូលគ្នា (Self-Supervised Learning & Transformer Fusion): ការប្រើប្រាស់ម៉ូដែល SimCLR និង Multimodal Transformer ជាមួយនឹងយន្តការ Cross-Attention

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលនេះទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៦,៥% ក្នុងការធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសាន់លើសំណុំទិន្នន័យមនុស្សចំនួន ១.០០០ នាក់។
ប្រព័ន្ធនេះសម្រេចបានអត្រា Precision ៩៥,២% និង Recall ៩៧,៣% ដែលបង្ហាញពីសមត្ថភាពយ៉ាងល្អក្នុងការចាប់យកករណីជំងឺពិតប្រាកដ។
ការរួមបញ្ចូលទិន្នន័យពហុទម្រង់ (សំឡេង ដំណើរ និងការសរសេរដៃ) ផ្តល់លទ្ធផលល្អប្រសើរខ្លាំងជាងការប្រើប្រាស់វិធីសាស្ត្រទិន្នន័យតែមួយទម្រង់ដាច់ដោយឡែក។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Multimodal Transformer with Self-Supervised Learning (Proposed) ម៉ូដែលបំប្លែងពហុទម្រង់ដោយប្រើប្រាស់ការរៀនដោយខ្លួនឯង	អាចចាប់យកទំនាក់ទំនងដ៏ស្មុគស្មាញរវាងប្រព័ន្ធរាងកាយផ្សេងៗគ្នាដោយស្វ័យប្រវត្តិ និងមិនសូវពឹងផ្អែកលើទិន្នន័យដែលមានស្លាកចំណាត់ថ្នាក់ជាមុន។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំងសម្រាប់ការហ្វឹកហាត់ និងមានភាពស្មុគស្មាញក្នុងការរៀបចំយន្តការ Cross-Attention។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៦,៥% ជាមួយនឹងពិន្ទុ F1 ៩៦,២% ក្នុងការធ្វើរោគវិនិច្ឆ័យ។
Single-Modality Machine Learning (e.g., SVM, CNN) ម៉ាស៊ីនរៀនផ្អែកលើទិន្នន័យតែមួយទម្រង់ (ឧទាហរណ៍ SVM ឬ CNN)	មានភាពសាមញ្ញ ដំណើរការលឿន និងទាមទារធនធានកុំព្យូទ័រនិងទិន្នន័យតិចជាងសម្រាប់ការបណ្តុះបណ្តាល។	មិនអាចផ្តល់រូបភាពរួមនៃរោគសញ្ញាជំងឺផាកឃីនសាន់បានពេញលេញ ធ្វើឱ្យភាពត្រឹមត្រូវមានកម្រិតទាបនៅពេលរោគសញ្ញាមិនសូវច្បាស់លាស់។	ទទួលបានភាពត្រឹមត្រូវចន្លោះពី ៧០% ទៅ ៩៦,៣% (អាស្រ័យលើប្រភេទក្បួន និងទម្រង់ទិន្នន័យ) តែមិនសូវមានស្ថិរភាព។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រនិងទិន្នន័យកម្រិតខ្ពស់ ដោយសារការប្រើប្រាស់បច្ចេកវិទ្យា Self-Supervised Learning (SSL) និងម៉ូដែល Transformer ដ៏ស្មុគស្មាញ។

Hardware: ទាមទារម៉ាស៊ីនដែលមានអង្គគណនាទិន្នន័យក្រាហ្វិក (GPU) ខ្លាំង ដើម្បីដំណើរការនិងបណ្តុះបណ្តាលម៉ូដែល Multimodal Transformer ។
Dataset: ត្រូវការទិន្នន័យមនុស្សចំនួន ១.០០០ នាក់ រួមមានសំឡេង ដំណើរ និងការសរសេរដៃ (បានមកពី UCI Machine Learning Repository) រួមបញ្ចូលគ្នា។
Software: ទាមទារក្របខ័ណ្ឌអភិវឌ្ឍន៍ Deep Learning ដូចជា PyTorch ឬ TensorFlow និងក្បួនដោះស្រាយកំហុស SimCLR ។
Expertise: តម្រូវឱ្យមានជំនាញវិទ្យាសាស្ត្រទិន្នន័យកម្រិតខ្ពស់ និងការយល់ដឹងពីប្រព័ន្ធប្រសាទសាស្ត្រដើម្បីវាយតម្លៃលទ្ធផលគ្លីនិក។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើក្នុងការសិក្សានេះភាគច្រើនត្រូវបានដកស្រង់ចេញពី UCI Machine Learning Repository ដែលអាចតំណាងឱ្យតែប្រជាជនលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា ទម្រង់នៃការសរសេរដៃ (អក្សរខ្មែរ) លក្ខណៈសូរសព្ទនៃភាសាខ្មែរ និងទម្លាប់នៃការដើរអាចមានភាពខុសគ្នាស្រឡះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីឱ្យម៉ូដែលនេះដំណើរការបានល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងផ្តល់អត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ប្រព័ន្ធសុខាភិបាលនៅកម្ពុជា ដែលកំពុងខ្វះខាតគ្រូពេទ្យឯកទេសសរសៃប្រសាទ។

មន្ទីរពេទ្យបង្អែក និងគ្លីនិកនៅតំបន់ដាច់ស្រយាល (ឧទាហរណ៍៖ រតនគិរី, មណ្ឌលគិរី): វេជ្ជបណ្ឌិតកម្រិតមូលដ្ឋានអាចប្រើប្រាស់ស្មាតហ្វូនដើម្បីថតសំឡេង និងការសរសេរដៃរបស់អ្នកជំងឺសម្រាប់ការវិភាគបឋម ដោយមិនបាច់ឱ្យអ្នកជំងឺចំណាយប្រាក់ធ្វើដំណើរមកទីក្រុង។
មន្ទីរពេទ្យថ្នាក់ជាតិ (ឧទាហរណ៍៖ មន្ទីរពេទ្យកាល់ម៉ែត, មន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត): អាចត្រូវបានប្រើប្រាស់ជាប្រព័ន្ធជំនួយក្នុងការបែងចែកអ្នកជំងឺ (Triage) ដើម្បីជួយសន្សំសំចៃពេលវេលានិងថវិកា មុននឹងសម្រេចចិត្តបញ្ជូនអ្នកជំងឺទៅថត MRI ឬ PET scan ដែលមានតម្លៃថ្លៃ។
កម្មវិធីថែទាំមនុស្សចាស់ និងអង្គការក្រៅរដ្ឋាភិបាល: អាចប្រើប្រាស់ឧបករណ៍តាមដាន (Wearable Sensors) ឬកាមេរ៉ាស្មាតហ្វូនដើម្បីពិនិត្យមើលដំណើររបស់មនុស្សចាស់ជាប្រចាំ ដើម្បីរកមើលរោគសញ្ញាដំបូងនៃជំងឺផាកឃីនសាន់។

សរុបមក ការអនុវត្តបច្ចេកវិទ្យាបញ្ជូលគ្នាពហុទម្រង់តាមរយៈឧបករណ៍ចល័ត គឺជាដំណោះស្រាយប្រកបដោយនវានុវត្តន៍ និងចំណាយតិច ដែលស័ក្តិសមបំផុតសម្រាប់បរិបទប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងរៀបចំទិន្នន័យបន្សាំទៅនឹងបរិបទខ្មែរ: ផ្តើមប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ ការសរសេរអក្សរខ្មែរ និងទិន្នន័យចលនាដើររបស់អ្នកជំងឺក្នុងស្រុក។ អ្នកអាចប្រើប្រាស់ Librosa សម្រាប់ទាញយកលក្ខណៈពិសេសពីសំឡេង និង OpenCV សម្រាប់ការវិភាគទម្រង់អក្សរ។
ការអនុវត្តបច្ចេកទេសរៀនដោយខ្លួនឯង (Self-Supervised Learning): ដោយសារទិន្នន័យពេទ្យនៅកម្ពុជាមានកម្រិត សូមប្រើប្រាស់ PyTorch រួមជាមួយក្របខ័ណ្ឌ SimCLR ដើម្បីហ្វឹកហាត់ម៉ូដែលឱ្យរៀនទាញយកលក្ខណៈពិសេសពីទិន្នន័យដើម (Raw Data) ដោយមិនបាច់ចំណាយពេលបិទស្លាកចំណាត់ថ្នាក់។
ការរចនាម៉ូដែលបញ្ចូលគ្នា (Multimodal Transformer Development): បង្កើតម៉ូដែល AI ដោយប្រើប្រាស់បណ្ណាល័យ Hugging Face ដើម្បីរចនាយន្តការ Cross-Attention ដែលអាចវិភាគទំនាក់ទំនងរវាងភាពញ័រនៃសំឡេង ភាពមិនប្រក្រតីនៃការដើរ និងការសរសេរអក្សរតូចៗ (Micrographia) ក្នុងពេលតែមួយ។
ការធ្វើតេស្តសាកល្បងគ្លីនិកនៅតាមមន្ទីរពេទ្យ: សហការជាមួយសាស្ត្រាចារ្យពេទ្យសរសៃប្រសាទនៅកម្ពុជា ដើម្បីវាយតម្លៃម៉ូដែលដោយប្រើប្រាស់ Scikit-learn សម្រាប់វាស់ស្ទង់ពិន្ទុ F1-Score, Precision និង Recall លើអ្នកជំងឺពិតប្រាកដ។
ការបង្កើតកម្មវិធីទូរស័ព្ទ (Mobile App Deployment): ប្រើប្រាស់ React Native សម្រាប់ការរចនាផ្នែកខាងមុខ (Frontend) និង FastAPI ជាផ្នែកខាងក្រោយ (Backend) ដើម្បីបង្កើតកម្មវិធីទូរស័ព្ទដែលវេជ្ជបណ្ឌិតអាចប្រើប្រាស់យ៉ាងងាយស្រួលសម្រាប់ការធ្វើរោគវិនិច្ឆ័យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Self-Supervised Learning (SSL)	ជាបច្ចេកទេសបង្រៀនម៉ាស៊ីន (Machine Learning) ដែលម៉ូដែលអាចរៀនស្វែងយល់ពីលក្ខណៈសម្គាល់នៃទិន្នន័យដោយខ្លួនឯងចេញពីទិន្នន័យឆៅ (Raw Data) ដោយមិនតម្រូវឱ្យមនុស្សចំណាយពេលបិទស្លាកចំណាត់ថ្នាក់ (Labels) លើទិន្នន័យទាំងនោះជាមុនឡើយ។ នៅក្នុងការសិក្សានេះ វាជួយដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យពេទ្យ។	ដូចជាក្មេងម្នាក់ដែលរៀនពីរបៀបផ្គុំរូប (Puzzle) ដោយសង្កេតមើលរាងនិងពណ៌នៃបំណែកនីមួយៗដោយខ្លួនឯង ដោយមិនបាច់មានអ្នកប្រាប់ថាមួយណាត្រូវនឹងមួយណា។
Multimodal Transformer	ជាទម្រង់ស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ ដែលមានសមត្ថភាពទទួលយកនិងដំណើរការទិន្នន័យច្រើនទម្រង់ផ្សេងៗគ្នា (ដូចជា សំឡេង ដំណើរ និងការសរសេរដៃ) ក្នុងពេលតែមួយ ដើម្បីស្វែងរកទំនាក់ទំនងនិងធ្វើការសន្និដ្ឋានរួមគ្នាជាធ្លុងមួយ។	ដូចជាក្រុមគ្រូពេទ្យឯកទេស៣នាក់ (អ្នកពិនិត្យសំឡេង អ្នកពិនិត្យចលនា និងអ្នកពិនិត្យសរសៃប្រសាទ) អង្គុយប្រជុំគ្នាដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺតែមួយរួមគ្នា ដើម្បីឱ្យលទ្ធផលកាន់តែច្បាស់លាស់។
Cross-Attention Mechanism	ជាយន្តការគណិតវិទ្យានៅក្នុងម៉ូដែល Transformer ដែលជួយឱ្យម៉ូដែលដឹងថា តើផ្នែកណាមួយនៃទិន្នន័យមួយ (ឧទាហរណ៍ ភាពញ័រនៃសំឡេង) មានទំនាក់ទំនងឬត្រូវផ្តល់សារៈសំខាន់ជាងគេ ធៀបនឹងទិន្នន័យមួយទៀត (ឧទាហរណ៍ ល្បឿននៃចលនាដើរ)។	ដូចជាពេលយើងកំពុងមើលកុន ហើយភ្នែករបស់យើងផ្តោតទៅលើមាត់តួអង្គដែលកំពុងនិយាយ ខណៈត្រចៀករបស់យើងផ្តោតទៅលើសំឡេង ដើម្បីភ្ជាប់សាច់រឿងចូលគ្នាឱ្យបានត្រឹមត្រូវ។
Contrastive Loss (SimCLR)	ជាក្បួនគណនាចន្លោះខ្វះខាត (Loss Function) ក្នុងពេលហ្វឹកហាត់ម៉ូដែល ដែលជំរុញឱ្យម៉ូដែលទាញទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នា (ឧទាហរណ៍ ទិន្នន័យរបស់អ្នកជំងឺតែមួយដែលត្រូវបានបំប្លែង) ឱ្យនៅជិតគ្នា និងរុញទិន្នន័យខុសគ្នាឱ្យនៅឆ្ងាយពីគ្នាក្នុងលំហទិន្នន័យ។	ដូចជាការបង្រៀនក្មេងឱ្យចេះបែងចែកផ្លែឈើ ដោយដាក់ផ្លែប៉ោមគ្រប់ប្រភេទនៅម្ខាង និងផ្លែក្រូចគ្រប់ប្រភេទនៅម្ខាងទៀត ដើម្បីឱ្យពួកគេឃើញភាពខុសគ្នាច្បាស់។
Bradykinesia	ជារោគសញ្ញាគ្លីនិកចម្បងមួយនៃជំងឺផាកឃីនសាន់ ដែលសំដៅលើភាពយឺតយ៉ាវនៃចលនារាងកាយ និងការពិបាកក្នុងការផ្តើមធ្វើចលនាអ្វីមួយ។	ដូចជាម៉ាស៊ីនឡានដែលស្ទះប្រេងរំអិល ធ្វើឱ្យការបញ្ឆេះ និងការរត់មានសភាពយឺតយ៉ាវនិងទាក់ៗខុសពីធម្មតា។
Micrographic	ជារោគសញ្ញាមួយដែលអ្នកជំងឺសរសេរអក្សរទៅៗកាន់តែតូច និងញាប់ញ័រ ដែលបណ្តាលមកពីការថយចុះនៃការគ្រប់គ្រងសាច់ដុំតូចៗ (Fine motor skills) ដោយសារជំងឺផាកឃីនសាន់។	ដូចជាការសរសេរអក្សរលើក្រដាសក្នុងរថយន្តដែលកំពុងបើកបរលើផ្លូវរលាក់ ធ្វើឱ្យអក្សររួញតូច និងញ័រមិនច្បាស់។
Hypokinetic dysarthria	ជាបញ្ហានៃការនិយាយដែលបណ្តាលមកពីភាពរឹង និងខ្សោយនៃសាច់ដុំបញ្ចេញសំឡេង ធ្វើឱ្យអ្នកជំងឺនិយាយខ្សោយៗ ស្អកៗ មិនច្បាស់ និងមានចង្វាក់មិនប្រក្រតី (ញ័រ ឬតឹង)។	ដូចជាឧបករណ៍បំពងសំឡេង (Speaker) ដែលខូចខ្សែភ្លើង ឬខ្វះថ្ម បន្លឺសំឡេងបានតែខ្សោយៗ ដាច់ៗ និងមិនច្បាស់។
Receiver Operating Characteristic (ROC)	ជាខ្សែកោងក្រាហ្វិកប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classification Model) ក្នុងការបែងចែករវាងក្រុមអ្នកឈឺ និងក្រុមអ្នកជាសះស្បើយ ដោយប្រៀបធៀបអត្រានៃការទស្សន៍ទាយត្រូវ (True Positive Rate) និងអត្រានៃការទស្សន៍ទាយខុស (False Positive Rate)។	ដូចជាតារាងពិន្ទុដែលបង្ហាញពីសមត្ថភាពរបស់អ្នកយាមទ្វារ ថាតើគាត់ចាប់ចោរបានត្រូវប៉ុន្មាននាក់ និងចាប់ច្រឡំមនុស្សល្អថាជាចោរប៉ុន្មាននាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖