Original Title: Detection of Parkinson's Disease using Machine Learning Algorithms and Handwriting Analysis
Source: doi.org/10.46610/JoDMM.2023.v08i01.004
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញជំងឺផាកឃីនសាន់ (Parkinson's Disease) ដោយប្រើប្រាស់ក្បួនដោះស្រាយការរៀនដោយម៉ាស៊ីន និងការវិភាគការសរសេរដោយដៃ

ចំណងជើងដើម៖ Detection of Parkinson's Disease using Machine Learning Algorithms and Handwriting Analysis

អ្នកនិពន្ធ៖ Nihar M. Ranjan (Rajarshi Shahu College of Engineering), Gitanjali Mate (Rajarshi Shahu College of Engineering), Maya Bembde (Rajarshi Shahu College of Engineering)

ឆ្នាំបោះពុម្ព៖ 2023, Journal of Data Mining and Management

វិស័យសិក្សា៖ Health Informatics, Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញជំងឺផាកឃីនសាន់ (Parkinson's disease) នៅដំណាក់កាលដំបូង ដោយសារតែបច្ចុប្បន្នមិនទាន់មានតេស្តច្បាស់លាស់ណាមួយដែលអាចចាប់យករោគសញ្ញាស្រាលៗបានលឿននិងមានប្រសិទ្ធភាពនោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើប្រព័ន្ធវិភាគរូបភាពគំនូរសរសេរដោយដៃ ដោយប្រើប្រាស់បច្ចេកវិទ្យារៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីចាប់យករោគសញ្ញាញ័ររបស់អ្នកជំងឺ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Forest with HOG (Spiral Drawings)
ចំណាត់ថ្នាក់ Random Forest ជាមួយ HOG (ប្រើគំនូររាងស្ពីរ៉ាល់)
ងាយស្រួលក្នុងការប្រមូលទិន្នន័យ និងមានភាពស៊ាំខ្ពស់ក្នុងការចាប់យកចលនាញ័រ (Shake) ជាងការគូររាងផ្សេងៗ។ ទាមទារឱ្យអ្នកជំងឺមានសមត្ថភាពមូលដ្ឋានក្នុងការកាន់ប៊ិច ដែលអាចពិបាកសម្រាប់អ្នកជំងឺនៅដំណាក់កាលធ្ងន់ធ្ងរ។ ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៨៦,៦៧% (Accuracy) ក្នុងការធ្វើតេស្ត។
Random Forest with HOG (Wave Drawings)
ចំណាត់ថ្នាក់ Random Forest ជាមួយ HOG (ប្រើគំនូររាងរលក)
ជាជម្រើសគំនូរដ៏សាមញ្ញមួយទៀត ដែលជួយផ្ទៀងផ្ទាត់និងបញ្ជាក់បន្ថែមលើរោគសញ្ញាញ័រនៃសាច់ដុំដៃ។ ផ្តល់នូវអត្រាភាពត្រឹមត្រូវទាបជាងការវិភាគលើគំនូររាងស្ពីរ៉ាល់បន្តិច ដោយសារទម្រង់រលកអាចមានភាពប្រែប្រួលច្របូកច្របល់ច្រើន។ ទទួលបានអត្រាភាពត្រឹមត្រូវ ៨៣,៣០% (Accuracy) ក្នុងការធ្វើតេស្ត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះមិនទាមទារធនធានកុំព្យូទ័រធំដុំនោះទេ ដោយសារវាប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning បុរាណ (Random Forest) ដែលអាចដំណើរការបានយ៉ាងរលូនលើកុំព្យូទ័រទូទៅ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យតូចមែនទែន (ត្រឹមតែ ១០៨ រូបភាព) ដែលធ្វើឱ្យម៉ូដែលងាយនឹងជួបបញ្ហា Overfitting និងមិនទាន់គ្រប់គ្រាន់ក្នុងការធានាប្រសិទ្ធភាពទូទៅនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមទៀត ដើម្បីធានាថាវាឆ្លើយតបទៅនឹងទម្លាប់នៃការកាន់ប៊ិច សម្ពាធដៃ និងកម្រិតអក្ខរកម្មរបស់មនុស្សចាស់នៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងមានប្រយោជន៍ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ដោយសារវាជាឧបករណ៍ពិនិត្យបឋមដែលមានតម្លៃថោក និងមិនប៉ះពាល់ដល់រាងកាយ (Non-invasive)។

សរុបមក ការអនុវត្តបច្ចេកវិទ្យានេះទាមទារហេដ្ឋារចនាសម្ព័ន្ធតិចតួចបំផុត ប៉ុន្តែអាចជួយលើកកម្ពស់អត្រានៃការរកឃើញជំងឺផាកឃីនសាន់នៅដំណាក់កាលដំបូងក្នុងបរិបទប្រទេសដែលកំពុងអភិវឌ្ឍន៍បានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូលនិងរៀបចំទិន្នន័យគំនូរក្នុងស្រុក: សហការជាមួយមន្ទីរពេទ្យ (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត ឬ មន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត) ដើម្បីប្រមូលទិន្នន័យគំនូររាងស្ពីរ៉ាល់និងរលកពីមនុស្សចាស់នៅកម្ពុជា ដោយប្រើក្រដាសនិងប៊ិចធម្មតា រួចស្កេនជាទម្រង់ឌីជីថល។
  2. អនុវត្តការរៀបចំរូបភាពបឋម (Pre-processing): ប្រើប្រាស់បណ្ណាល័យ OpenCV ក្នុង Python ដើម្បីកាត់បន្ថយរំខាន (Noise) នៅក្នុងរូបភាព ដោយប្រើប្រាស់ Mean និង Median Filters ដូចដែលបានរៀបរាប់ក្នុងឯកសារ។
  3. ទាញយកលក្ខណៈពិសេសដោយប្រើ HOG: ប្រើប្រាស់មុខងារ hog ពីបណ្ណាល័យ skimage.feature (Scikit-Image) ដើម្បីទាញយកទិសដៅនៃកម្រិតញ័រ និងបំលែងរូបភាពទៅជាទិន្នន័យវ៉ិចទ័រ (Feature Vector)។
  4. បណ្តុះបណ្តាលម៉ូដែល Random Forest: ប្រើប្រាស់ RandomForestClassifier ពីបណ្ណាល័យ Scikit-learn ដើម្បីបណ្តុះបណ្តាលម៉ូដែល ដោយបែងចែកទិន្នន័យជា ៨០% សម្រាប់ Training និង ២០% សម្រាប់ Testing រួចវាស់ស្ទង់ Confusion Matrix។
  5. អភិវឌ្ឍចំណុចប្រទាក់សម្រាប់អ្នកប្រើប្រាស់ (UI Deployment): បង្កើតកម្មវិធី Web App សាមញ្ញមួយដោយប្រើ Streamlit ដើម្បីអនុញ្ញាតឱ្យគ្រូពេទ្យ ឬអ្នកជំងឺអាចបញ្ចូល (Upload) រូបភាពគំនូរ និងទទួលបានលទ្ធផលទស្សន៍ទាយភ្លាមៗពីម៉ូដែលបញ្ញាសិប្បនិម្មិត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Histogram of Oriented Gradients (HOG) ជាបច្ចេកទេសក្នុងកុំព្យូទ័រទស្សនៈ (Computer Vision) ដែលប្រើសម្រាប់ទាញយកលក្ខណៈពិសេសពីរូបភាព ដោយវាស់ស្ទង់ទិសដៅនិងកម្លាំងនៃការប្រែប្រួលពន្លឺ (គែមឬស្រមោល) នៃភីកសែល ដើម្បីចាប់យករូបរាងវត្ថុ ឬក្នុងករណីនេះគឺកម្រិតញ័រនៃគំនូររបស់អ្នកជំងឺ។ ដូចជាការគូសវាសស៊ុមជុំវិញវត្ថុមួយដោយប្រើព្រួញតូចៗដើម្បីបង្ហាញថាតើគែមរបស់វាបែរទៅទិសណាខ្លះ ដែលជួយឱ្យកុំព្យូទ័រស្គាល់រូបរាងវត្ថុនោះបាន។
Random Forest Classifier ជាក្បួនដោះស្រាយការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលបង្កើតជាដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន ហើយជ្រើសរើសចម្លើយចុងក្រោយដោយផ្អែកលើការបោះឆ្នោតភាគច្រើនពីដើមឈើទាំងអស់នោះ ដើម្បីធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (ឧទាហរណ៍៖ ទាយថាជាអ្នកជំងឺ ឬអ្នកមានសុខភាពល្អ)។ ដូចជាការសួរសំណួរទៅកាន់ក្រុមអ្នកជំនាញច្រើននាក់ ហើយយកចម្លើយណាដែលមានអ្នកគាំទ្រច្រើនជាងគេធ្វើជាការសម្រេចចិត្តចុងក្រោយ។
Feature Extraction ជាដំណើរការនៃការបំប្លែងទិន្នន័យឆៅ (ដូចជារូបភាពគំនូរ) ទៅជាទិន្នន័យវ៉ិចទ័រដែលមានទំហំតូចជាង ប៉ុន្តែនៅតែរក្សាបាននូវព័ត៌មាននិងលក្ខណៈសំខាន់ៗបំផុត ដើម្បីងាយស្រួលដល់ម៉ាស៊ីនកុំព្យូទ័រក្នុងការរៀននិងវិភាគរកភាពខុសប្រក្រតី។ ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយក្បាល ឱ្យនៅត្រឹមតែចំណុចសំខាន់ៗ២ ទៅ ៣ទំព័រ ដើម្បីឱ្យអ្នកអានឆាប់យល់ពីសាច់រឿងដោយមិនបាច់អានទាំងអស់។
Confusion Matrix ជាតារាងម៉ាទ្រីសដែលប្រើសម្រាប់វាយតម្លៃដំណើរការរបស់ម៉ូដែលចំណាត់ថ្នាក់ ដោយបង្ហាញពីចំនួនទិន្នន័យដែលម៉ូដែលទស្សន៍ទាយត្រូវ និងចំនួនដែលទស្សន៍ទាយខុស (True Positive, False Positive, True Negative, False Negative) ដើម្បីគណនាភាគរយនៃភាពត្រឹមត្រូវ។ ដូចជាតារាងពិន្ទុដែលកត់ត្រាថា តើសិស្សម្នាក់ឆ្លើយត្រូវប៉ុន្មានសំណួរ និងឆ្លើយខុស (ភាន់ច្រឡំ) ប៉ុន្មានសំណួរនៅក្នុងការប្រឡងមួយ។
Pre-processing គឺជាជំហានដំបូងក្នុងការរៀបចំនិងសម្អាតទិន្នន័យ (ដូចជាការកាត់បន្ថយភាពស្រអាប់ ឬសំឡេងរំខានពីរូបភាព) មុននឹងបញ្ជូនវាទៅឱ្យក្បួនដោះស្រាយម៉ាស៊ីនរៀន ដើម្បីឱ្យលទ្ធផលនៃការវិភាគកាន់តែមានភាពច្បាស់លាស់និងត្រឹមត្រូវ។ ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ឱ្យបានស្អាតល្អ មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។
Median filter ជាបច្ចេកទេសកាត់បន្ថយរំខាន (Noise) នៅក្នុងរូបភាពឌីជីថល ដោយជំនួសតម្លៃពន្លឺនៃភីកសែលនីមួយៗជាមួយតម្លៃមេដ្យាន (តម្លៃកណ្តាល) នៃភីកសែលដែលនៅជុំវិញវា ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការលុបរំខានប្រភេទអំបិល-ម្រេច (Salt-and-pepper noise) ដោយមិនធ្វើឱ្យគែមរូបភាពព្រិល។ ដូចជាការសួរអាយុមនុស្សមួយក្រុម រួចយកអាយុអ្នកនៅកណ្តាលគេមកតំណាង ដើម្បីកុំឱ្យទិន្នន័យរងឥទ្ធិពលពីអ្នកដែលចាស់ពេក ឬក្មេងពេកខុសគេក្នងក្រុម។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយ Machine Learning សម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដោយវាព្យាយាមស្វែងរកបន្ទាត់ ឬប្លង់ (Hyperplane) ដ៏ល្អបំផុតដែលអាចខណ្ឌចែកក្រុមទិន្នន័យពីរប្រភេទឱ្យនៅឆ្ងាយពីគ្នាបំផុត។ ដូចជាការគូសបន្ទាត់មួយនៅលើដី ដើម្បីបែងចែកក្រុមក្មេងលេងបាល់ទាត់ និងក្រុមក្មេងលេងបាល់ទះ ឱ្យនៅដាច់ពីគ្នាច្បាស់លាស់មិនច្របូកច្របល់គ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖