Original Title: Automatic Diagnosis of Parkinson’s Disease using Handwriting Patterns
Source: journal.esrgroups.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសុន (Parkinson) ដោយស្វ័យប្រវត្តិ តាមរយៈទម្រង់នៃការសរសេរដោយដៃ

ចំណងជើងដើម៖ Automatic Diagnosis of Parkinson’s Disease using Handwriting Patterns

អ្នកនិពន្ធ៖ T. Nagamani, K. Java Venkata Sai Jayadeep, J. Sandhya, K. Sri Sai Lahari, G. Prakash Babu

ឆ្នាំបោះពុម្ព៖ 2024 J. Electrical Systems

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញជំងឺផាកឃីនសុន (Parkinson's Disease) នៅដំណាក់កាលដំបូង ដោយប្រើប្រាស់បច្ចេកទេសមិនរាតត្បាត (Non-invasive) តាមរយៈការវិភាគលើភាពខុសគ្នានៃទម្រង់គំនូសសរសេរដោយដៃ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រភ្នែក (Computer Vision) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវិភាគទិន្នន័យគំនូសរាងខ្យង និងរលកដែលគូរដោយអ្នកជំងឺនិងមនុស្សដែលមានសុខភាពល្អ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Forest Classifier (for Spiral Images)
ចំណាត់ថ្នាក់ Random Forest (សម្រាប់គំនូសរាងខ្យង)
មានភាពត្រឹមត្រូវខ្ពស់ និងអាចកាត់បន្ថយបញ្ហា Overfitting បានល្អតាមរយៈបច្ចេកទេស Ensemble ដែលបូកបញ្ចូលដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន។ ត្រូវការកម្លាំងគណនា និងអង្គចងចាំច្រើនជាងម៉ូដែលសាមញ្ញបន្តិច ទោះបីជាវានៅតែលឿនធៀបនឹង Deep Learning ក៏ដោយ។ ទទួលបានកម្រិតភាពត្រឹមត្រូវ (Accuracy) ៨៦,៦៧% ល្អក្នុងការបែងចែកអ្នកជំងឺនិងអ្នកមានសុខភាពល្អ។
K-Nearest Neighbours (for Wave Images)
ក្បួនដោះស្រាយ K-Nearest Neighbours ឬ KNN (សម្រាប់គំនូសរាងរលក)
ងាយស្រួលយល់ និងអនុវត្ត ជាប្រភេទ Lazy Learner ដែលមិនត្រូវការពេលវេលា Train យូរ និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលបានរៀបចំរួច។ ងាយរងឥទ្ធិពលពី Noise ក្នុងទិន្នន័យ និងអាចដំណើរការយឺតនៅពេលទំហំសំណុំទិន្នន័យធំ ព្រោះវាត្រូវគណនាចម្ងាយគ្រប់ចំណុច។ ទទួលបានកម្រិតភាពត្រឹមត្រូវ (Accuracy) ៧៦,៦៧% ដែលនៅមានកម្រិតទាបជាង Random Forest។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីការប្រើប្រាស់ធនធានកុំព្យូទ័រខ្នាតធំនោះទេ ដោយសារវាប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning ប្រភេទបុរាណ ដែលមានទម្ងន់ស្រាល និងអាចដំណើរការលើកុំព្យូទ័រទូទៅបានយ៉ាងងាយស្រួល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើប្រាស់ត្រូវបានទាញយកពីវេទិកា Kaggle ដែលមានទំហំតូច (ត្រឹមតែ ១០២ រូបភាពសម្រាប់ប្រភេទនីមួយៗមុនការបង្កើន) និងមិនបានបញ្ជាក់ពីប្រភពប្រជាសាស្ត្រ (អាយុ ភេទ ឬជាតិសាសន៍)។ សម្រាប់ប្រទេសកម្ពុជា វាមានសារៈសំខាន់ណាស់ក្នុងការប្រមូលទិន្នន័យជាក់ស្តែងពីចាស់ជរាក្នុងស្រុក ព្រោះទម្លាប់នៃការកាន់ប៊ិច ឬការសរសេររបស់ប្រជាជនខ្មែរអាចមានលក្ខណៈខុសប្លែកពីប្រជាជននៅអឺរ៉ុប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមបំផុតសម្រាប់អនុវត្តនៅក្នុងប្រព័ន្ធសុខាភិបាលប្រទេសកម្ពុជា ដោយសារចំណាយទាប និងមិនមានការរាតត្បាតដល់រាងកាយ (Non-invasive)។

ការបំប្លែងវិធីសាស្ត្រស្រាវជ្រាវនេះទៅជាកម្មវិធីទូរស័ព្ទដៃ (Mobile App) នឹងជួយពង្រីកលទ្ធភាពនៃការធ្វើរោគវិនិច្ឆ័យជំងឺសរសៃប្រសាទនៅកម្ពុជាឲ្យកាន់តែទូលំទូលាយ មានភាពងាយស្រួល និងចំណាយតិចបំផុត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីបច្ចេកទេសទាញយកលក្ខណៈពិសេសរូបភាព: អនុវត្តការប្រើប្រាស់បណ្ណាល័យ OpenCV នៅក្នុង Python ដោយផ្តោតលើបច្ចេកទេស Histogram of Oriented Gradients (HOG) ដើម្បីយល់ពីរបៀបបំប្លែងរូបភាពគំនូសសរសេរដោយដៃ ទៅជាទិន្នន័យលេខសម្រាប់កុំព្យូទ័រ។
  2. អនុវត្តការកែច្នៃទិន្នន័យដើម្បីដោះស្រាយបញ្ហាទិន្នន័យតូច (Data Augmentation): សាកល្បងសរសេរកូដដើម្បីធ្វើការបង្វិលរូបភាព (Rotation) និងការកែប្រែពន្លឺ (Brightness adjustment) ដោយប្រើ Keras ImageDataGeneratorAlbumentations ដើម្បីបង្កើនទំហំសំណុំទិន្នន័យ។
  3. កសាងនិងវាយតម្លៃម៉ូដែល Machine Learning: ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ដើម្បីបង្កើតម៉ូដែល Random Forest និង KNN រួចប្រៀបធៀបលទ្ធផលតាមរយៈរង្វាស់រង្វាល់ Accuracy, Precision, Recall, F1-Score និងកសាង Confusion Matrix
  4. ប្រមូលទិន្នន័យសាកល្បងផ្ទាល់ក្នុងបរិបទកម្ពុជា: សហការជាមួយសាស្ត្រាចារ្យ ឬគ្លីនិក ដើម្បីប្រមូលគំរូគំនូសរាងខ្យងនិងរលកពីមនុស្សចាស់នៅកម្ពុជា ចំនួនប្រហែល ៥០-១០០ សន្លឹក ដើម្បីយកមកធ្វើតេស្តផ្ទៀងផ្ទាត់ (Validation) លើម៉ូដែលដែលបានបង្កើត។
  5. អភិវឌ្ឍកម្មវិធីគំរូជាទម្រង់វេបសាយ ឬកម្មវិធីទូរស័ព្ទ (Prototype Development): សិក្សាពីការតភ្ជាប់ម៉ូដែល Machine Learning ទៅកាន់ប្រព័ន្ធបង្ហាញផ្ទាល់ ដោយប្រើប្រាស់ StreamlitGradio ដើម្បីបង្កើតកម្មវិធីដែលអាចឲ្យអ្នកប្រើប្រាស់បង្ហោះរូបភាពគំនូស និងទទួលបានលទ្ធផលរោគវិនិច្ឆ័យភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Histogram of Oriented Gradients (HOG) វាជាបច្ចេកទេសក្នុងកុំព្យូទ័រភ្នែក (Computer Vision) ដែលទាញយកលក្ខណៈពិសេសនៃរូបភាព ដោយគណនាទិសដៅ និងទំហំនៃបម្រែបម្រួលកម្រិតពន្លឺ (ពីងងឹតទៅភ្លឺ) នៅក្នុងប្លុកតូចៗ ដើម្បីចាប់យករូបរាងនិងគែមនៃវត្ថុ។ ដូចជាការគូររូបដោយប្រើតែបន្ទាត់ខ្លីៗចង្អុលប្រាប់ទិសដៅនៃពន្លឺនិងស្រមោល ដើម្បីបង្កើតចេញជារូបរាងរួមនៃគំនូស។
Random Forest Classifier ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ចំនួនច្រើន ហើយប្រមូលយកលទ្ធផលបោះឆ្នោតភាគច្រើនពីដើមឈើទាំងអស់នោះ ដើម្បីធ្វើការទស្សន៍ទាយចុងក្រោយ។ ដូចជាការសួរយោបល់ពីក្រុមគ្រូពេទ្យជំនាញជាច្រើននាក់ ដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺរួមគ្នា ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។
K-Nearest Neighbours (KNN) ជាក្បួនដោះស្រាយដែលចាត់ថ្នាក់ទិន្នន័យថ្មីមួយ ដោយពឹងផ្អែកលើភាពស្រដៀងគ្នាទៅនឹងទិន្នន័យចាស់ៗដែលនៅជិតវាបំផុតចំនួន K (ឧទាហរណ៍ ៣ ឬ ៥ ចំណុចដែលនៅជិតជាងគេ) នៅក្នុងលំហទិន្នន័យ។ ដូចជាការវាយតម្លៃថាមនុស្សម្នាក់ជាសិស្សពូកែ ប្រសិនបើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ភាគច្រើនសុទ្ធតែជាសិស្សពូកែ។
Data Augmentation ជាបច្ចេកទេសបង្កើនចំនួនទិន្នន័យសម្រាប់បង្ហាត់ម៉ូដែល ដោយយកទិន្នន័យដើមមកកែច្នៃបន្តិចបន្តួច ដូចជាការបង្វិល ការផ្លាស់ប្តូរពន្លឺ ឬពណ៌ ដើម្បីឲ្យម៉ូដែលស្គាល់ទម្រង់ដែលប្រែប្រួលផ្សេងៗ។ ដូចជាការបង្រៀនក្មេងឲ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបថតឆ្កែដដែល ប៉ុន្តែថតពីជ្រុងខុសៗគ្នា ឬក្នុងពន្លឺខុសៗគ្នា។
Confusion Matrix ជាតារាងម៉ាទ្រីសដែលប្រើសម្រាប់វាយតម្លៃកម្រិតភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ ដោយបង្ហាញយ៉ាងច្បាស់ពីចំនួនទិន្នន័យដែលម៉ូដែលទាយត្រូវ (True Positives/Negatives) និងចំនួនដែលម៉ូដែលទាយខុស (False Positives/Negatives)។ ដូចជារបាយការណ៍លទ្ធផលប្រឡងដែលមិនត្រឹមតែប្រាប់ពិន្ទុរួម តែបញ្ជាក់ថាអ្នកធ្វើត្រូវប៉ុន្មានសំណួរ និងធ្លាក់លើមុខវិជ្ជាណាខ្លះយ៉ាងច្បាស់លាស់។
Ensemble learning វិធីសាស្ត្រនៃការបូកបញ្ចូលម៉ូដែលរៀនដោយម៉ាស៊ីនជាច្រើនចូលគ្នា (ដូចជាក្នុង Random Forest) ដើម្បីបង្កើតជាម៉ូដែលមួយដែលមានភាពរឹងមាំ និងអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវជាងម៉ូដែលទោល។ ដូចជាការប្រគុំតន្ត្រីវង់ធំ ដែលការរួមបញ្ចូលគ្នានៃឧបករណ៍ភ្លេងជាច្រើនបង្កើតបានជាសម្លេងពិរោះនិងមានតុល្យភាពជាងការលេងឧបករណ៍តែមួយ។
F1 score ជារង្វាស់វាយតម្លៃម៉ូដែលដែលគណនាមធ្យមភាគអប្បរមា (Harmonic mean) រវាង Precision (ភាពសុក្រឹតនៃការទាយ) និង Recall (សមត្ថភាពស្វែងរកករណីពិត) ដែលមានប្រយោជន៍ខ្លាំងពេលទិន្នន័យមិនមានតុល្យភាព។ ដូចជាការវាយតម្លៃអ្នកចាំទី ដោយមើលលើសមត្ថភាពចាប់បាល់ជាប់ (មិនរបូត) ផង និងសមត្ថភាពលោតទៅទាន់បាល់ទាំងអស់ដែលស៊ុតមកផង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖