Original Title: Automatic Diagnosis of Parkinson’s Disease using Handwriting Patterns
Source: journal.esrgroups.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសុន (Parkinson) ដោយស្វ័យប្រវត្តិ តាមរយៈទម្រង់នៃការសរសេរដោយដៃ

ចំណងជើងដើម៖ Automatic Diagnosis of Parkinson’s Disease using Handwriting Patterns

អ្នកនិពន្ធ៖ T. Nagamani, K. Java Venkata Sai Jayadeep, J. Sandhya, K. Sri Sai Lahari, G. Prakash Babu

ឆ្នាំបោះពុម្ព៖ 2024 J. Electrical Systems

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញជំងឺផាកឃីនសុន (Parkinson's Disease) នៅដំណាក់កាលដំបូង ដោយប្រើប្រាស់បច្ចេកទេសមិនរាតត្បាត (Non-invasive) តាមរយៈការវិភាគលើភាពខុសគ្នានៃទម្រង់គំនូសសរសេរដោយដៃ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រភ្នែក (Computer Vision) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវិភាគទិន្នន័យគំនូសរាងខ្យង និងរលកដែលគូរដោយអ្នកជំងឺនិងមនុស្សដែលមានសុខភាពល្អ។

ការបង្កើនទិន្នន័យ (Data Augmentation) ដូចជាការបង្វិល ការកែតម្រូវពន្លឺ និងការផ្លាស់ប្តូរបណ្តាញពណ៌ ដើម្បីបង្កើនភាពចម្រុះនៃសំណុំទិន្នន័យ។
ការទាញយកលក្ខណៈពិសេសដោយប្រើគំនូសតាងនៃជម្រាលទិសដៅ (Histogram of Oriented Gradients - HOG) ដើម្បីចាប់យករូបរាងនិងវាយនភាពនៃគំនូស។
ការចាត់ថ្នាក់ទិន្នន័យដោយប្រើក្បួនដោះស្រាយ Random Forest សម្រាប់រូបភាពរាងខ្យង (Spiral patterns) និង K-Nearest Neighbours (KNN) សម្រាប់រូបភាពរាងរលក (Wave patterns)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលចំណាត់ថ្នាក់ Random Forest ទទួលបានភាពត្រឹមត្រូវ ៨៦,៦៧% ក្នុងការវាយតម្លៃលើទម្រង់គំនូសរាងខ្យង។
ម៉ូដែល K-Nearest Neighbours (KNN) ទទួលបានភាពត្រឹមត្រូវ ៧៦,៦៧% ក្នុងការចាត់ថ្នាក់ទម្រង់គំនូសរាងរលក។
ការរួមបញ្ចូលគ្នានៃបច្ចេកទេស HOG ជាមួយម៉ូដែល Machine Learning បង្ហាញពីសក្តានុពលខ្ពស់ក្នុងការបង្កើតប្រព័ន្ធធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសុនប្រកបដោយភាពត្រឹមត្រូវនិងអាចទុកចិត្តបានសម្រាប់គ្លីនិកជាក់ស្តែងនាពេលអនាគត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Forest Classifier (for Spiral Images) ចំណាត់ថ្នាក់ Random Forest (សម្រាប់គំនូសរាងខ្យង)	មានភាពត្រឹមត្រូវខ្ពស់ និងអាចកាត់បន្ថយបញ្ហា Overfitting បានល្អតាមរយៈបច្ចេកទេស Ensemble ដែលបូកបញ្ចូលដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន។	ត្រូវការកម្លាំងគណនា និងអង្គចងចាំច្រើនជាងម៉ូដែលសាមញ្ញបន្តិច ទោះបីជាវានៅតែលឿនធៀបនឹង Deep Learning ក៏ដោយ។	ទទួលបានកម្រិតភាពត្រឹមត្រូវ (Accuracy) ៨៦,៦៧% ល្អក្នុងការបែងចែកអ្នកជំងឺនិងអ្នកមានសុខភាពល្អ។
K-Nearest Neighbours (for Wave Images) ក្បួនដោះស្រាយ K-Nearest Neighbours ឬ KNN (សម្រាប់គំនូសរាងរលក)	ងាយស្រួលយល់ និងអនុវត្ត ជាប្រភេទ Lazy Learner ដែលមិនត្រូវការពេលវេលា Train យូរ និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលបានរៀបចំរួច។	ងាយរងឥទ្ធិពលពី Noise ក្នុងទិន្នន័យ និងអាចដំណើរការយឺតនៅពេលទំហំសំណុំទិន្នន័យធំ ព្រោះវាត្រូវគណនាចម្ងាយគ្រប់ចំណុច។	ទទួលបានកម្រិតភាពត្រឹមត្រូវ (Accuracy) ៧៦,៦៧% ដែលនៅមានកម្រិតទាបជាង Random Forest។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីការប្រើប្រាស់ធនធានកុំព្យូទ័រខ្នាតធំនោះទេ ដោយសារវាប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning ប្រភេទបុរាណ ដែលមានទម្ងន់ស្រាល និងអាចដំណើរការលើកុំព្យូទ័រទូទៅបានយ៉ាងងាយស្រួល។

Software: បណ្ណាល័យកូដប្រភេទ Open-source ដូចជា Python, Scikit-Learn សម្រាប់ម៉ូដែល និង OpenCV សម្រាប់ការទាញយកលក្ខណៈរូបភាព (HOG)។
Hardware: កុំព្យូទ័រយួរដៃធម្មតាដែលមាន CPU ស្តង់ដារគឺគ្រប់គ្រាន់សម្រាប់ដំណើរការ និង Train ម៉ូដែល (មិនតម្រូវឲ្យមាន GPU ថ្លៃៗឡើយ)។
Dataset: សំណុំទិន្នន័យពីវេទិកា Kaggle ដែលមានរូបភាពគំនូសរាងខ្យងចំនួន ១០២ និងរាងរលកចំនួន ១០២ សន្លឹក រួចធ្វើការ Augmentation។
Expertise: អ្នកស្រាវជ្រាវត្រូវការចំណេះដឹងមូលដ្ឋានផ្នែក Computer Vision (ការប្រើប្រាស់ HOG) និង Data Science សម្រាប់វាយតម្លៃម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើប្រាស់ត្រូវបានទាញយកពីវេទិកា Kaggle ដែលមានទំហំតូច (ត្រឹមតែ ១០២ រូបភាពសម្រាប់ប្រភេទនីមួយៗមុនការបង្កើន) និងមិនបានបញ្ជាក់ពីប្រភពប្រជាសាស្ត្រ (អាយុ ភេទ ឬជាតិសាសន៍)។ សម្រាប់ប្រទេសកម្ពុជា វាមានសារៈសំខាន់ណាស់ក្នុងការប្រមូលទិន្នន័យជាក់ស្តែងពីចាស់ជរាក្នុងស្រុក ព្រោះទម្លាប់នៃការកាន់ប៊ិច ឬការសរសេររបស់ប្រជាជនខ្មែរអាចមានលក្ខណៈខុសប្លែកពីប្រជាជននៅអឺរ៉ុប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមបំផុតសម្រាប់អនុវត្តនៅក្នុងប្រព័ន្ធសុខាភិបាលប្រទេសកម្ពុជា ដោយសារចំណាយទាប និងមិនមានការរាតត្បាតដល់រាងកាយ (Non-invasive)។

មណ្ឌលសុខភាពជនបទ (Rural Health Centers): អាចប្រើប្រាស់ជាឧបករណ៍ធ្វើតេស្តបឋម (Screening tool) ដោយគ្រាន់តែឲ្យអ្នកជំងឺគូរគំនូសលើក្រដាស រួចថតរូបវិភាគតាមស្មាតហ្វូន ដោយមិនចាំបាច់ប្រើឧបករណ៍ទំនើបថ្លៃៗដូចជា MRI ដែលមិនមាននៅតាមទីជនបទ។
មន្ទីរពេទ្យបង្អែកខេត្តនិងស្រុក (Provincial Hospitals): ជួយសម្រួលដល់គ្រូពេទ្យទូទៅដែលមិនមែនជាវេជ្ជបណ្ឌិតឯកទេសសរសៃប្រសាទ ក្នុងការវាយតម្លៃរោគសញ្ញាជំងឺផាកឃីនសុនបានលឿន មុននឹងសម្រេចចិត្តបញ្ជូនអ្នកជំងឺមកមន្ទីរពេទ្យធំៗនៅភ្នំពេញ។
អង្គការថែទាំមនុស្សចាស់ក្នុងសហគមន៍ (Elderly Care NGOs): បុគ្គលិកសង្គមកិច្ចអាចរួមបញ្ចូលការធ្វើតេស្តគូររូបនេះ ទៅក្នុងយុទ្ធនាការពិនិត្យសុខភាពចល័តនៅតាមភូមិ ដើម្បីរកឃើញអ្នកដែលមានហានិភ័យតាំងពីដំណាក់កាលដំបូង។

ការបំប្លែងវិធីសាស្ត្រស្រាវជ្រាវនេះទៅជាកម្មវិធីទូរស័ព្ទដៃ (Mobile App) នឹងជួយពង្រីកលទ្ធភាពនៃការធ្វើរោគវិនិច្ឆ័យជំងឺសរសៃប្រសាទនៅកម្ពុជាឲ្យកាន់តែទូលំទូលាយ មានភាពងាយស្រួល និងចំណាយតិចបំផុត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីបច្ចេកទេសទាញយកលក្ខណៈពិសេសរូបភាព: អនុវត្តការប្រើប្រាស់បណ្ណាល័យ OpenCV នៅក្នុង Python ដោយផ្តោតលើបច្ចេកទេស Histogram of Oriented Gradients (HOG) ដើម្បីយល់ពីរបៀបបំប្លែងរូបភាពគំនូសសរសេរដោយដៃ ទៅជាទិន្នន័យលេខសម្រាប់កុំព្យូទ័រ។
អនុវត្តការកែច្នៃទិន្នន័យដើម្បីដោះស្រាយបញ្ហាទិន្នន័យតូច (Data Augmentation): សាកល្បងសរសេរកូដដើម្បីធ្វើការបង្វិលរូបភាព (Rotation) និងការកែប្រែពន្លឺ (Brightness adjustment) ដោយប្រើ Keras ImageDataGenerator ឬ Albumentations ដើម្បីបង្កើនទំហំសំណុំទិន្នន័យ។
កសាងនិងវាយតម្លៃម៉ូដែល Machine Learning: ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ដើម្បីបង្កើតម៉ូដែល Random Forest និង KNN រួចប្រៀបធៀបលទ្ធផលតាមរយៈរង្វាស់រង្វាល់ Accuracy, Precision, Recall, F1-Score និងកសាង Confusion Matrix។
ប្រមូលទិន្នន័យសាកល្បងផ្ទាល់ក្នុងបរិបទកម្ពុជា: សហការជាមួយសាស្ត្រាចារ្យ ឬគ្លីនិក ដើម្បីប្រមូលគំរូគំនូសរាងខ្យងនិងរលកពីមនុស្សចាស់នៅកម្ពុជា ចំនួនប្រហែល ៥០-១០០ សន្លឹក ដើម្បីយកមកធ្វើតេស្តផ្ទៀងផ្ទាត់ (Validation) លើម៉ូដែលដែលបានបង្កើត។
អភិវឌ្ឍកម្មវិធីគំរូជាទម្រង់វេបសាយ ឬកម្មវិធីទូរស័ព្ទ (Prototype Development): សិក្សាពីការតភ្ជាប់ម៉ូដែល Machine Learning ទៅកាន់ប្រព័ន្ធបង្ហាញផ្ទាល់ ដោយប្រើប្រាស់ Streamlit ឬ Gradio ដើម្បីបង្កើតកម្មវិធីដែលអាចឲ្យអ្នកប្រើប្រាស់បង្ហោះរូបភាពគំនូស និងទទួលបានលទ្ធផលរោគវិនិច្ឆ័យភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Histogram of Oriented Gradients (HOG)	វាជាបច្ចេកទេសក្នុងកុំព្យូទ័រភ្នែក (Computer Vision) ដែលទាញយកលក្ខណៈពិសេសនៃរូបភាព ដោយគណនាទិសដៅ និងទំហំនៃបម្រែបម្រួលកម្រិតពន្លឺ (ពីងងឹតទៅភ្លឺ) នៅក្នុងប្លុកតូចៗ ដើម្បីចាប់យករូបរាងនិងគែមនៃវត្ថុ។	ដូចជាការគូររូបដោយប្រើតែបន្ទាត់ខ្លីៗចង្អុលប្រាប់ទិសដៅនៃពន្លឺនិងស្រមោល ដើម្បីបង្កើតចេញជារូបរាងរួមនៃគំនូស។
Random Forest Classifier	ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ចំនួនច្រើន ហើយប្រមូលយកលទ្ធផលបោះឆ្នោតភាគច្រើនពីដើមឈើទាំងអស់នោះ ដើម្បីធ្វើការទស្សន៍ទាយចុងក្រោយ។	ដូចជាការសួរយោបល់ពីក្រុមគ្រូពេទ្យជំនាញជាច្រើននាក់ ដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺរួមគ្នា ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។
K-Nearest Neighbours (KNN)	ជាក្បួនដោះស្រាយដែលចាត់ថ្នាក់ទិន្នន័យថ្មីមួយ ដោយពឹងផ្អែកលើភាពស្រដៀងគ្នាទៅនឹងទិន្នន័យចាស់ៗដែលនៅជិតវាបំផុតចំនួន K (ឧទាហរណ៍ ៣ ឬ ៥ ចំណុចដែលនៅជិតជាងគេ) នៅក្នុងលំហទិន្នន័យ។	ដូចជាការវាយតម្លៃថាមនុស្សម្នាក់ជាសិស្សពូកែ ប្រសិនបើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ភាគច្រើនសុទ្ធតែជាសិស្សពូកែ។
Data Augmentation	ជាបច្ចេកទេសបង្កើនចំនួនទិន្នន័យសម្រាប់បង្ហាត់ម៉ូដែល ដោយយកទិន្នន័យដើមមកកែច្នៃបន្តិចបន្តួច ដូចជាការបង្វិល ការផ្លាស់ប្តូរពន្លឺ ឬពណ៌ ដើម្បីឲ្យម៉ូដែលស្គាល់ទម្រង់ដែលប្រែប្រួលផ្សេងៗ។	ដូចជាការបង្រៀនក្មេងឲ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបថតឆ្កែដដែល ប៉ុន្តែថតពីជ្រុងខុសៗគ្នា ឬក្នុងពន្លឺខុសៗគ្នា។
Confusion Matrix	ជាតារាងម៉ាទ្រីសដែលប្រើសម្រាប់វាយតម្លៃកម្រិតភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ ដោយបង្ហាញយ៉ាងច្បាស់ពីចំនួនទិន្នន័យដែលម៉ូដែលទាយត្រូវ (True Positives/Negatives) និងចំនួនដែលម៉ូដែលទាយខុស (False Positives/Negatives)។	ដូចជារបាយការណ៍លទ្ធផលប្រឡងដែលមិនត្រឹមតែប្រាប់ពិន្ទុរួម តែបញ្ជាក់ថាអ្នកធ្វើត្រូវប៉ុន្មានសំណួរ និងធ្លាក់លើមុខវិជ្ជាណាខ្លះយ៉ាងច្បាស់លាស់។
Ensemble learning	វិធីសាស្ត្រនៃការបូកបញ្ចូលម៉ូដែលរៀនដោយម៉ាស៊ីនជាច្រើនចូលគ្នា (ដូចជាក្នុង Random Forest) ដើម្បីបង្កើតជាម៉ូដែលមួយដែលមានភាពរឹងមាំ និងអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវជាងម៉ូដែលទោល។	ដូចជាការប្រគុំតន្ត្រីវង់ធំ ដែលការរួមបញ្ចូលគ្នានៃឧបករណ៍ភ្លេងជាច្រើនបង្កើតបានជាសម្លេងពិរោះនិងមានតុល្យភាពជាងការលេងឧបករណ៍តែមួយ។
F1 score	ជារង្វាស់វាយតម្លៃម៉ូដែលដែលគណនាមធ្យមភាគអប្បរមា (Harmonic mean) រវាង Precision (ភាពសុក្រឹតនៃការទាយ) និង Recall (សមត្ថភាពស្វែងរកករណីពិត) ដែលមានប្រយោជន៍ខ្លាំងពេលទិន្នន័យមិនមានតុល្យភាព។	ដូចជាការវាយតម្លៃអ្នកចាំទី ដោយមើលលើសមត្ថភាពចាប់បាល់ជាប់ (មិនរបូត) ផង និងសមត្ថភាពលោតទៅទាន់បាល់ទាំងអស់ដែលស៊ុតមកផង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖