Original Title: Machine learning-based early detection of Parkinson’s disease using handwriting and vocal features
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញជំងឺផាកឃីនសុន (Parkinson) ដំណាក់កាលដំបូងផ្អែកលើម៉ាស៊ីនរៀន (Machine Learning) ដោយប្រើប្រាស់លក្ខណៈពិសេសនៃការសរសេរដោយដៃ និងសំឡេង

ចំណងជើងដើម៖ Machine learning-based early detection of Parkinson’s disease using handwriting and vocal features

អ្នកនិពន្ធ៖ Ashok R S (Dept. of ECE, BMS Institute of Technology and Management), Anil Kumar D (Dept. of ECE, BMS Institute of Technology and Management)

ឆ្នាំបោះពុម្ព៖ 2025, Research on Engineering Structures & Materials

វិស័យសិក្សា៖ Machine Learning in Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការធ្វើរោគវិនិច្ឆ័យជំងឺផាកឃីនសុន (Parkinson's disease) តាមបែបប្រពៃណីជាទូទៅមានភាពយឺតយ៉ាវ និងពឹងផ្អែកលើការវាយតម្លៃរោគសញ្ញាគ្លីនិកដែលងាយនឹងមានកំហុស ដែលធ្វើឱ្យការរកឃើញនៅដំណាក់កាលដំបូងជួបការលំបាក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររួមបញ្ចូលគ្នាដោយវិភាគទាំងរោគសញ្ញាចលនា និងមិនមែនចលនាតាមរយៈការប្រើប្រាស់ក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) កម្រិតខ្ពស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
DenseNet-121
ម៉ូដែលបណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ (DenseNet-121) សម្រាប់ការវិភាគគំនូរ
មានភាពត្រឹមត្រូវខ្ពស់ មានស្ថិរភាព និងកាត់បន្ថយការបាត់បង់ទិន្នន័យ (Loss) ពេលកំពុងហ្វឹកហាត់បានយ៉ាងល្អ។ ទាមទារថាមពលកុំព្យូទ័រក្នុងការហ្វឹកហាត់ច្រើនជាងម៉ូដែលសាមញ្ញ និងទាមទារការកំណត់រចនាសម្ព័ន្ធត្រឹមត្រូវដើម្បីចៀសវាង Overfitting។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៨៥.១៧% ក្នុងការវិភាគការសរសេរដោយដៃ។
Support Vector Machine (SVM)
ចំណាត់ថ្នាក់គាំទ្រវ៉ិចទ័រម៉ាស៊ីន (SVM) សម្រាប់ការវិភាគសំឡេង
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានតុល្យភាពល្អឥតខ្ចោះរវាងការទស្សន៍ទាយវិជ្ជមានពិត (Precision) និងការចងចាំ (Recall)។ ត្រូវការការទាញយកលក្ខណៈពិសេស (Feature extraction) ច្បាស់លាស់ជាមុន មិនអាចទាញយកលក្ខណៈពិសេសដោយស្វ័យប្រវត្តិដូច Deep Learning នោះទេ។ ទទួលបានភាពត្រឹមត្រូវ ៨៩.៧៤% ជាមួយនឹង F1-Score ៩៣.៩៤% និងមានទំនុកចិត្តខ្ពស់ក្នុងការទស្សន៍ទាយ។
ResNet-50
ម៉ូដែលបណ្ដាញសរសៃប្រសាទ (ResNet-50)
ជារចនាសម្ព័ន្ធបណ្តាញជ្រៅដែលអាចទាញយកលក្ខណៈពិសេសស្មុគស្មាញពីរូបភាពបានយ៉ាងច្រើន។ មានបញ្ហា Overfitting និងមានការថយចុះភាពត្រឹមត្រូវគួរឱ្យកត់សម្គាល់ក្នុងពេលធ្វើតេស្តជាក់ស្តែង (Validation)។ ដំណើរការមិនសូវបានល្អ ដោយទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៦៦.៦៧% ប៉ុណ្ណោះ។
XGBoost Classifier
ក្បួនដោះស្រាយ XGBoost សម្រាប់ការវិភាគសំឡេង
មានល្បឿនលឿន និងមានភាពជាក់លាក់ (Precision) ខ្ពស់រហូតដល់ ៩៥.៦៥%។ មានអត្រា Recall ទាប (៧០.៩៧%) ដែលមានន័យថាវាខកខានក្នុងការរកឃើញអ្នកជំងឺពិតប្រាកដជាច្រើន និងមានកំហុស Log Loss ខ្ពស់។ ទទួលបានភាពត្រឹមត្រូវសរុបត្រឹមតែ ៧៤.៣៦% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ឧបករណ៍ចំណាយទាប និងកូដបើកចំហរ (Open-source) ប៉ុន្តែទាមទារសមត្ថភាពកុំព្យូទ័រមធ្យមទៅខ្ពស់សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Deep Learning មុនពេលដាក់ឱ្យដំណើរការលើឧបករណ៍តូចៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើប្រាស់ក្នុងការសិក្សានេះត្រូវបានប្រមូលពីស្ថាប័ននៅលោកខាងលិច (សហរដ្ឋអាមេរិក) ដែលលក្ខណៈសូរសព្ទនៃភាសានិយាយ និងទម្លាប់នៃការសរសេរអាចមានភាពខុសគ្នាបន្តិចបន្តួចពីអ្នកជំងឺនៅកម្ពុជា។ ទោះបីជាលក្ខណៈជីវសាស្រ្តទូទៅនៃការញ័រមានសភាពដូចគ្នាក៏ដោយ ការយកមកអនុវត្តនៅកម្ពុជាតម្រូវឱ្យមានការប្រមូលទិន្នន័យសំឡេងអ្នកជំងឺនិយាយភាសាខ្មែរ ដើម្បីធានាបាននូវភាពត្រឹមត្រូវខ្ពស់បំផុត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដែលពឹងផ្អែកលើឧបករណ៍សាមញ្ញ និងមិនមានការចាក់ ឬវះកាត់នេះ គឺពិតជាស័ក្តិសម និងមានសក្តានុពលខ្ពស់សម្រាប់ប្រព័ន្ធសុខាភិបាលនៅក្នុងប្រទេសកម្ពុជា។

ជារួម ការដាក់ពង្រាយប្រព័ន្ធនេះនៅកម្ពុជានឹងជួយកាត់បន្ថយចំណាយលើការធ្វើរោគវិនិច្ឆ័យ និងពង្រីកលទ្ធភាពនៃការរកឃើញជំងឺពីដំណាក់កាលដំបូង ដែលជួយឱ្យការព្យាបាលមានប្រសិទ្ធភាពជាងមុន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning និងសូរសព្ទ: ចាប់ផ្តើមអនុវត្តភាសា Python ដោយប្រើប្រាស់ Scikit-learn សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យធម្មតា និងរៀនប្រើ Librosa ដើម្បីយល់ដឹងពីការទាញយកលក្ខណៈពិសេសពីសំឡេង (ដូចជា MFCC, Jitter, Shimmer)។
  2. ការវិភាគ និងដំណើរការរូបភាព (Image Processing): ប្រើប្រាស់ OpenCV ដើម្បីរៀនពីរបៀបបំប្លែងទំហំ កាត់ និងរៀបចំរូបភាពគំនូរគូទខ្យង (Spiral Drawings) ឱ្យស្ថិតក្នុងទម្រង់ស្តង់ដារមុននឹងបញ្ចូលទៅក្នុងម៉ូដែល។
  3. អភិវឌ្ឍម៉ូដែល Deep Learning: ស្វែងយល់ និងអនុវត្តការសរសេរកូដបង្កើតម៉ូដែល CNNs កម្រិតខ្ពស់ (ដូចជា DenseNet-121 និង ResNet) ដោយប្រើប្រាស់ PyTorch និង torchvision
  4. ការដាក់ពង្រាយលើឧបករណ៍ (Hardware Deployment): សាកល្បងនាំយកម៉ូដែលដែលបានហ្វឹកហាត់រួច (Pre-trained Models) ទៅដំឡើងនៅលើ Raspberry Pi 4 ដោយភ្ជាប់ជាមួយកាមេរ៉ា និងមីក្រូហ្វូន ដើម្បីអភិវឌ្ឍប្រព័ន្ធដំណើរការតាមពេលវេលាពិត (Real-time)។
  5. ការប្រមូលទិន្នន័យ និងសហការផ្នែកគ្លីនិក: បង្កើតគម្រោងស្រាវជ្រាវដោយសហការជាមួយមន្ទីរពេទ្យក្នុងស្រុក (ឧ. មន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត) ដើម្បីប្រមូលទិន្នន័យសំឡេងអ្នកជំងឺជនជាតិខ្មែរ ហើយយកមកកែសម្រួលម៉ូដែល (Fine-tuning) ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងបរិបទកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
DenseNet-121 ជាទម្រង់នៃបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Learning Architecture) ដែលស្រទាប់នីមួយៗតភ្ជាប់ទៅកាន់គ្រប់ស្រទាប់បន្ទាប់ទាំងអស់។ ការធ្វើបែបនេះជួយឱ្យម៉ូដែលប្រើប្រាស់លក្ខណៈពិសេសពីរូបភាពឡើងវិញបានល្អ កាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រ និងការពារកុំឱ្យបាត់បង់ព័ត៌មានពេលកំពុងហ្វឹកហាត់។ ដូចជាការធ្វើការងារជាក្រុម ដែលសមាជិកម្នាក់ៗតែងតែចែករំលែកព័ត៌មានដែលខ្លួនមានទៅកាន់សមាជិកផ្សេងទៀតទាំងអស់ដោយផ្ទាល់ ដើម្បីកុំឱ្យបាត់បង់ព័ត៌មានសំខាន់។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលព្យាយាមស្វែងរកបន្ទាត់ ឬប្លង់ (Hyperplane) ដ៏ល្អបំផុតដើម្បីខណ្ឌចែកទិន្នន័យជាក្រុមផ្សេងៗគ្នា ដោយធានាថារក្សាគម្លាតឱ្យបានធំបំផុតរវាងក្រុមទាំងនោះ។ ដូចជាការសង់របងមួយនៅចំកណ្តាលទីធ្លា ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែ ដោយទុកគម្លាតឱ្យឆ្ងាយពីគ្នាបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីងាយស្រួលចំណាំ។
Mel Frequency Cepstral Coefficients (MFCC) ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសពីសំឡេង ដោយបំប្លែងរលកសំឡេងទៅជាទម្រង់ទិន្នន័យដែលម៉ាស៊ីនអាចយល់បាន ដែលវាមានលក្ខណៈស្រដៀងទៅនឹងរបៀបដែលត្រចៀកមនុស្សចាប់យកកម្រិតប្រេកង់សំឡេង។ ដូចជាឧបករណ៍បំពងសំឡេង (Equalizer) ដែលកាត់បំបែកបទចម្រៀងទៅជាកម្រិតសម្លេងខ្ពស់ ទាប និងកណ្តាល ដើម្បីឱ្យយើងងាយស្រួលស្តាប់ដឹងពីប្រភេទឧបករណ៍ភ្លេងនីមួយៗ។
Jitter ជារង្វាស់នៃការប្រែប្រួលនៃរលកប្រេកង់ (Frequency) ពីមួយខួបទៅមួយខួបនៃសំឡេងនិយាយ ដែលបង្ហាញពីភាពមិនប្រក្រតី ឬការញ័រនៃខ្សែចំណងសំឡេង (Vocal cords) ដែលជាញឹកញាប់កើតមានលើអ្នកជំងឺផាកឃីនសុន។ ដូចជារថយន្តមួយដែលបើកបរក្នុងល្បឿនមិនថេរ ដោយអ្នកបើកបរជាន់ហ្គែរនិងជាន់ហ្វ្រាំងឆ្លាស់គ្នាជាប់ជានិច្ច ធ្វើឱ្យការធ្វើដំណើរញ័រតាក់ៗមិនរលូន។
Bradykinesia ជារោគសញ្ញាគ្លីនិកមួយនៃជំងឺផាកឃីនសុន ដែលអ្នកជំងឺមានការថយចុះល្បឿនក្នុងការធ្វើចលនារាងកាយ និងមានការលំបាកក្នុងការចាប់ផ្តើមធ្វើសកម្មភាពផ្សេងៗ (ដូចជាការដើរ ឬការចាប់កាន់វត្ថុ)។ ដូចជាការចាក់បញ្ចាំងវីដេអូក្នុងល្បឿនយឺត (Slow-motion) ដែលធ្វើឱ្យរាល់ចលនាមើលទៅហាក់ដូចជាមានភាពធ្ងន់ និងមិនអាចធ្វើបានលឿនតាមចិត្តចង់។
Correlation of Inter-Stroke Pressure (CISP) ជាលក្ខណៈពិសេសកម្រិតខ្ពស់ដែលទាញយកពីការសរសេរដោយដៃ ដើម្បីវាស់ស្ទង់ការប្រែប្រួលនៃកម្លាំងសង្កត់ប៊ិចពីគំនូសមួយទៅគំនូសមួយទៀត ដែលជួយវាយតម្លៃកម្រិតធ្ងន់ធ្ងរនៃការបាត់បង់ការគ្រប់គ្រងចលនាដៃ។ ដូចជាការតាមដានស្នាមជើងរបស់អ្នកដើរលើខ្សាច់ បើស្នាមជើងខ្លះជ្រៅ ខ្លះរាក់ខុសប្រក្រតី នោះបញ្ជាក់ថាអ្នកដើរមិនមានលំនឹងជើងល្អនោះទេ។
Overfitting ជាបញ្ហានៅពេលដែលម៉ូដែលម៉ាស៊ីនរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់បានល្អពេក (រាប់បញ្ចូលទាំងកំហុសតូចតាចក្នុងទិន្នន័យនោះ) តែមិនអាចយកទៅប្រើដើម្បីទស្សន៍ទាយទិន្នន័យថ្មីៗផ្សេងទៀតបានត្រឹមត្រូវឡើយ។ ដូចជាសិស្សដែលខិតខំទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់ៗយ៉ាងស្ទាត់ជំនាញ តែប្រឡងធ្លាក់នៅពេលគ្រូចេញសំណួរថ្មីដែលគ្រាន់តែប្តូរលេខបន្តិចបន្តួច។
Hyperplane ជាបន្ទាត់ ឬផ្ទៃព្រំដែនសិប្បនិម្មិតក្នុងលំហវិមាត្រខ្ពស់ (High-dimensional space) ដែលក្បួនដោះស្រាយ (ដូចជា SVM) បង្កើតឡើងដើម្បីខណ្ឌចែកចំណុចទិន្នន័យទៅជាក្រុមផ្សេងៗគ្នាសម្រាប់ការធ្វើចំណាត់ថ្នាក់។ ដូចជាការយកបន្ទាត់មួយទៅគូសកាត់ចំកណ្តាលក្រដាស ដើម្បីបំបែកគ្រាប់សណ្តែកក្រហមឱ្យនៅម្ខាង និងសណ្តែកខៀវឱ្យនៅម្ខាងទៀតដោយដាច់ស្រឡះពីគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖