Original Title: How can gender be identified from heart rate data? Evaluation using ALLSTAR heart rate variability big data analysis
Source: doi.org/10.1186/s13104-022-06270-2
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

តើភេទអាចត្រូវបានកំណត់អត្តសញ្ញាណពីទិន្នន័យអត្រាបេះដូងបានដែរឬទេ? ការវាយតម្លៃដោយប្រើការវិភាគទិន្នន័យធំនៃបំរែបំរួលអត្រាបេះដូង ALLSTAR

ចំណងជើងដើម៖ How can gender be identified from heart rate data? Evaluation using ALLSTAR heart rate variability big data analysis

អ្នកនិពន្ធ៖ Itaru Kaneko (Tohoku University), Junichiro Hayano (Nagoya City University), Emi Yuda (Tohoku University)

ឆ្នាំបោះពុម្ព៖ 2023, BMC Research Notes

វិស័យសិក្សា៖ Health Informatics / Biomedical Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះមានគោលបំណងស៊ើបអង្កេតថាតើគេអាចកំណត់អត្តសញ្ញាណភេទរបស់បុគ្គលម្នាក់បានយ៉ាងត្រឹមត្រូវដែរឬទេ ដោយគ្រាន់តែប្រើប្រាស់ទិន្នន័យនៃបំរែបំរួលអត្រាបេះដូង (Heart Rate Variability) ដើម្បីវាយតម្លៃពីហានិភ័យឯកជនភាពក្នុងទិន្នន័យវេជ្ជសាស្រ្ត។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការវិភាគលើទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ (Big Data) ពីឧបករណ៍វាស់ចង្វាក់បេះដូង ដោយប្រើប្រាស់វិធីសាស្ត្រស្ថិតិ និងក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ជាច្រើន។

ការប្រើប្រាស់មូលដ្ឋានទិន្នន័យ ALLSTAR ដែលមានសំណាកជាង ៤២០,០០០ ពីឧបករណ៍ Holter ECG រយៈពេល ២៤ ម៉ោង។
ការទាញយកលក្ខណៈពិសេសស្ថិតិចំនួន ១០ (10 dimensional statistics) ពីទិន្នន័យចង្វាក់បេះដូង ដូចជា SDNN និង rMSSD ជាដើម។
ការប្រៀបធៀបក្បួនដោះស្រាយចំណាត់ថ្នាក់ (Classification methods) រួមមាន Random Forest, SVM, Logistic Regression, និង k-means។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

កម្រិតភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតដែលទទួលបានគឺ ០.៦៨ (ប្រហែល ៦៨%) ដោយប្រើវិធីសាស្ត្រ Random Forest សម្រាប់ក្រុមមនុស្សដែលមានអាយុក្រោម ៥០ ឆ្នាំ។
ទោះបីជាលទ្ធផលបង្ហាញថាមានភាពខុសគ្នាតាមស្ថិតិរវាងភេទក៏ដោយ ប៉ុន្តែវាមិនមានភាពត្រឹមត្រូវគ្រប់គ្រាន់ក្នុងការកំណត់ភេទរបស់បុគ្គលម្នាក់ៗជាក់លាក់នោះទេ។
ការសិក្សានេះសន្និដ្ឋានថា ការកំណត់ភេទពីការប្រែប្រួលចង្វាក់បេះដូងគឺពិបាកធ្វើឱ្យបានច្បាស់លាស់ ដោយសារមានការត្រួតស៊ីគ្នាច្រើនរវាងទិន្នន័យបុរសនិងស្ត្រី។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Forest ក្បួនដោះស្រាយ Random Forest (ការរៀនម៉ាស៊ីនបែបក្រុម)	មានសមត្ថភាពខ្ពស់បំផុតក្នុងការចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear) ហើយផ្តល់លទ្ធផលល្អបំផុតក្នុងការសិក្សានេះ។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងចំណាយពេលយូរក្នុងការបណ្តុះបណ្តាលលើទិន្នន័យធំ។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់បំផុតគឺ ០.៦៨១៩២៧ សម្រាប់ក្រុមអាយុក្រោម ៥០ ឆ្នាំ។
K-means Clustering ក្បួនដោះស្រាយ K-means (ការរៀនម៉ាស៊ីនបែបគ្មានការត្រួតពិនិត្យ)	ងាយស្រួលអនុវត្ត និងរហ័សសម្រាប់ការបែងចែកក្រុមទិន្នន័យជាមូលដ្ឋាន។	មិនមានប្រសិទ្ធភាពសម្រាប់ការចាត់ថ្នាក់ភេទក្នុងករណីនេះ ដោយសារលទ្ធផលគឺប្រហាក់ប្រហែលនឹងការទាយដោយចៃដន្យ។	ទទួលបានភាពត្រឹមត្រូវទាបត្រឹមតែ ០.៥១២ សម្រាប់ក្រុមអាយុក្រោម ៥០ ឆ្នាំ។
Support Vector Machine (SVM) ក្បួនដោះស្រាយ SVM	ជាធម្មតាមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានវិមាត្រខ្ពស់ ប៉ុន្តែមិនសូវមានប្រសិទ្ធភាពក្នុងករណីនេះ។	ចំណាយពេលយូរខ្លាំងក្នុងការដំណើរការលើទិន្នន័យដែលមានចំនួនច្រើន (Big Data)។	ទទួលបានភាពត្រឹមត្រូវប្រហែល ០.៥១១ ដែលបង្ហាញថាវាមិនអាចបែងចែកភេទបានល្អទេ។
Regression Algorithms (Lasso, Elastic Net, etc.) ក្បួនដោះស្រាយតម្រែតម្រង់ (Regression)	អាចបង្ហាញពីទំនាក់ទំនងលីនេអ៊ែររវាងអថេរ។	បរាជ័យទាំងស្រុងក្នុងការកំណត់ភេទ ដោយសារពិន្ទុ R-squared ទាបខ្លាំង។	ពិន្ទុ R-squared ជិតដល់ ០ ឬអវិជ្ជមាន ដែលមានន័យថាមិនអាចប្រើប្រាស់បាន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រខ្ពស់គួរសម ដោយសារទំហំទិន្នន័យធំ (Big Data) និងតម្រូវការក្នុងការដំណើរការក្បួនដោះស្រាយលើសំណាករាប់សែន។

Dataset: មូលដ្ឋានទិន្នន័យ ALLSTAR ដែលមានកំណត់ត្រា Holter ECG រយៈពេល ២៤ ម៉ោង ចំនួនជាង ៤២០,០០០ សំណាក។
Computational Power: ត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ដើម្បីដំណើរការ (Machine Learning) លើទិន្នន័យដ៏ច្រើន (Computational cost is large)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ ALLSTAR ដែលប្រមូលផ្តុំនៅប្រទេសជប៉ុន ដោយមានសំណាកជាង ៤២០,០០០។ សម្រាប់កម្ពុជា នេះជាចំណុចគួរពិចារណាព្រោះកត្តាជាតិសាសន៍ និងរបៀបនៃការរស់នៅអាចជះឥទ្ធិពលលើសូចនាករ HRV (Heart Rate Variability) ខ្លះៗ ទោះបីជាជាទូទៅវាមានលក្ខណៈសកលក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍សម្រាប់អ្នកស្រាវជ្រាវកម្ពុជាក្នុងការយល់ដឹងអំពីការការពារឯកជនភាពទិន្នន័យវេជ្ជសាស្រ្ត និងបច្ចេកទេសវិភាគទិន្នន័យធំ (Big Data Analysis)។

សន្តិសុខទិន្នន័យវេជ្ជសាស្រ្ត (Medical Data Privacy): លទ្ធផលបង្ហាញថា ភេទមិនអាចកំណត់បានងាយស្រួលពីទិន្នន័យបេះដូងទេ ដែលនេះជាដំណឹងល្អសម្រាប់ឯកជនភាពអ្នកជំងឺនៅតាមមន្ទីរពេទ្យនានាក្នុងកម្ពុជា។
ការស្រាវជ្រាវវិស្វកម្មជីវវេជ្ជសាស្ត្រ (Biomedical Engineering): ជួយដល់និស្សិតនៅសាកលវិទ្យាល័យបច្ចេកវិទ្យាក្នុងការរៀនពីរបៀបទាញយកលក្ខណៈពិសេស (Feature Extraction) ពីសញ្ញា ECG។

ទោះបីជាបច្ចេកទេសនេះមិនអាចយកទៅប្រើដើម្បីកំណត់ភេទបានជាក់ស្តែងក៏ដោយ វាជាគំរូដ៏ល្អនៃការប្រើប្រាស់ Machine Learning ដើម្បីវិភាគទិន្នន័យសុខភាពឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាមូលដ្ឋានគ្រឹះនៃ HRV: និស្សិតគួរសិក្សាអំពីសូចនាករ HRV ដូចជា SDNN, rMSSD, និងការវិភាគប្រេកង់ (LF/HF) ដើម្បីយល់ពីទិន្នន័យ។
២. ការរៀបចំទិន្នន័យ: សាកល្បងទាញយកទិន្នន័យ ECG សាធារណៈពីគេហទំព័រ (PhysioNet) ដើម្បីអនុវត្តការទាញយកលក្ខណៈពិសេស (Feature Extraction) ដោយប្រើបណ្ណាល័យ Python ដូចជា (SciPy) ឬ (BioSPPy)។
៣. ការអនុវត្តម៉ូដែល Machine Learning: ប្រើប្រាស់ (Scikit-learn) ដើម្បីបង្កើតម៉ូដែល Random Forest និង SVM សម្រាប់បែងចែកទិន្នន័យ ដោយចាប់ផ្តើមពីទិន្នន័យតូចៗសិនមុននឹងឈានទៅទិន្នន័យធំ។
៤. ការវាយតម្លៃលទ្ធផល: ធ្វើការប្រៀបធៀបលទ្ធផលដោយប្រើ Cross-validation និងគណនាពិន្ទុ F1-score ដើម្បីបញ្ជាក់ពីភាពត្រឹមត្រូវនៃម៉ូដែលដែលបានបង្កើត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Heart rate variability (HRV)	ជាការវាស់វែងពីបម្រែបម្រួលនៃចន្លោះពេលរវាងការលោតនៃបេះដូងមួយទៅមួយ។ វាមិនមែនជាល្បឿនបេះដូងទេ ប៉ុន្តែជាភាពមិនស្មើគ្នានៃចង្វាក់ ដែលបង្ហាញពីសុខភាពនៃប្រព័ន្ធសរសៃប្រសាទ។	ដូចជាតន្ត្រីដែលមានចង្វាក់លឿនយឺតទៅតាមអារម្មណ៍ មិនមែនដូចនាឡិកាដែលដើរស្មើៗគ្នារហូតនោះទេ។
Holter electrocardiograph	ជាឧបករណ៍តូចមួយដែលអាចពាក់ជាប់ខ្លួនដើម្បីកត់ត្រាសកម្មភាពអគ្គិសនីរបស់បេះដូង (ECG) ជាប់ៗគ្នារយៈពេលយូរ (ជាធម្មតា ២៤ ម៉ោង ឬលើសពីនេះ) ដើម្បីតាមដានភាពមិនប្រក្រតីដែលមិនអាចរកឃើញក្នុងការពិនិត្យរយៈពេលខ្លី។	ដូចជាការបំពាក់កាមេរ៉ាសុវត្ថិភាពថតសកម្មភាពពេញមួយថ្ងៃ ជាជាងការថតរូបមួយសន្លឹកនៅពេលទៅជួបគ្រូពេទ្យ។
R-R interval	ជារយៈពេលគិតជាមិល្លីវិនាទីរវាងកំពូលនៃរលក R (ចំណុចខ្ពស់បំផុតក្នុងក្រាហ្វ ECG) ពីរជាប់គ្នា។ ទិន្នន័យនេះគឺជាមូលដ្ឋានគ្រឹះសម្រាប់គណនា HRV។	ដូចជាការវាស់ចម្ងាយពីបង្គោលភ្លើងមួយទៅបង្គោលភ្លើងមួយទៀតនៅតាមដងផ្លូវ។
Random Forest	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនដើម្បីធ្វើការទស្សន៍ទាយ ហើយយកលទ្ធផលដែលភាគច្រើនយល់ស្របគ្នា ដើម្បីកាត់បន្ថយកំហុស។	ដូចជាការសួរយោបល់ពីអ្នកជំនាញ ១០០ នាក់ រួចយកចម្លើយដែលមនុស្សភាគច្រើនបានជ្រើសរើស ជាជាងជឿលើមនុស្សតែម្នាក់។
Detrended fluctuation analysis (DFA)	ជាវិធីសាស្ត្រស្ថិតិសម្រាប់វិភាគលំនាំនៅក្នុងទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា ដោយដកចេញនូវនិន្នាការ (Trend) ខាងក្រៅ ដើម្បីស្វែងរកទំនាក់ទំនងដែលលាក់កំបាំងនៅក្នុងសញ្ញា។	ដូចជាការចម្រោះយកសំឡេងនិយាយចេញពីសំឡេងរំខាននៃខ្យល់ ឬសំឡេងឡាន ដើម្បីស្តាប់ឱ្យច្បាស់នូវអ្វីដែលគេកំពុងនិយាយ។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយសម្រាប់បែងចែកចំណាត់ថ្នាក់ទិន្នន័យ ដោយព្យាយាមរកបន្ទាត់ ឬផ្ទៃរាប (Hyperplane) ដែលអាចបំបែកក្រុមទិន្នន័យពីរប្រភេទ (ឧទាហរណ៍៖ ប្រុស និងស្រី) ឱ្យដាច់ពីគ្នាខ្លាំងបំផុត។	ដូចជាការសង់របងមួយដើម្បីបែងចែកសត្វពីរប្រភេទចេញពីគ្នា ដោយធានាថារបងនោះស្ថិតនៅចំកណ្តាលបំផុតរវាងហ្វូងសត្វទាំងពីរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖