Original Title: Machine Learning Stroke Prediction in Smart Healthcare: Integrating Fuzzy K-Nearest Neighbor and Artificial Neural Networks with Feature Selection Techniques
Source: doi.org/10.32604/cmc.2025.062605
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទស្សន៍ទាយជំងឺដាច់សរសៃឈាមខួរក្បាលដោយប្រើប្រាស់ម៉ាស៊ីនរៀនក្នុងប្រព័ន្ធថែទាំសុខភាពឆ្លាតវៃ៖ ការរួមបញ្ចូលក្បួនដោះស្រាយ Fuzzy K-Nearest Neighbor និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ជាមួយនឹងបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស

ចំណងជើងដើម៖ Machine Learning Stroke Prediction in Smart Healthcare: Integrating Fuzzy K-Nearest Neighbor and Artificial Neural Networks with Feature Selection Techniques

អ្នកនិពន្ធ៖ Abdul Ahad (Universitas Airlangga / Northwestern Polytechnical University), Ira Puspitasari (Universitas Airlangga), Jiangbin Zheng (Northwestern Polytechnical University), Shamsher Ullah (Shenzhen University), Farhan Ullah (Prince Mohammad Bin Fahd University), Sheikh Tahir Bakhsh (Cardiff Metropolitan University), Ivan Miguel Pires (Universidade de Aveiro)

ឆ្នាំបោះពុម្ព៖ 2025 Comput Mater Contin.

វិស័យសិក្សា៖ Health Informatics, Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហានៃការកើនឡើងករណីជំងឺដាច់សរសៃឈាមខួរក្បាល ដោយធ្វើការស្រាវជ្រាវបង្កើតម៉ូដែលការព្យាករណ៍ដែលមានភាពត្រឹមត្រូវខ្ពស់ និងមានប្រសិទ្ធភាពក្នុងប្រព័ន្ធថែទាំសុខភាពឆ្លាតវៃ។

វិធីសាស្ត្រ (The Methodology)៖ វិធីសាស្ត្រនៃការស្រាវជ្រាវនេះគឺប្រមូលទិន្នន័យអ្នកជំងឺ រួចធ្វើការចាត់ថ្នាក់តាមរយៈការរួមបញ្ចូលក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ជាមួយនឹងបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យកម្រិតខ្ពស់ ដើម្បីបង្កើនប្រសិទ្ធភាពការព្យាករណ៍។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Artificial Neural Networks (ANN) + Best First Search (BFS)
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) រួមជាមួយបច្ចេកទេស Best First Search
មានភាពត្រឹមត្រូវខ្ពស់បំផុត ស៊ីទំហំអង្គចងចាំតិចតួចបំផុត (១១៤.៦ KB) និងដំណើរការលឿន (៣.៩ វិនាទី) ដោយសារការកាត់បន្ថយទិន្នន័យរំខានបានល្អ។ ម៉ូដែល ANN អាចមានភាពស្មុគស្មាញក្នុងការបកស្រាយដំណើរការខាងក្នុង (Black-box nature) បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រធម្មតា។ សម្រេចបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៧.៥% និងកម្រិត ROC ៩៧.៩%។
Fuzzy K-Nearest Neighbor (F-KNN) + Best First Search (BFS)
ក្បួនដោះស្រាយ F-KNN រួមជាមួយបច្ចេកទេស Best First Search
ដំណើរការល្អក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលត្រួតស៊ីគ្នា (Overlapping data) ដោយប្រើគោលការណ៍កម្រិតភាពជាសមាជិក (Fuzzy logic)។ ស៊ីទំហំអង្គចងចាំច្រើនជាង ANN (៥៦៧.៤ KB) និងប្រើពេលយូរជាងបន្តិច (៦.៤ វិនាទី)។ សម្រេចបានភាពត្រឹមត្រូវ ៩៦.៣% និងកម្រិត ROC ៩៦.២%។
Artificial Neural Networks (ANN) + Chi-Square
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) រួមជាមួយបច្ចេកទេស Chi-Square
អាចវាយតម្លៃទំនាក់ទំនងស្ថិតិរវាងលក្ខណៈពិសេសនៃទិន្នន័យបានល្អ និងជួយចម្រាញ់ទិន្នន័យបឋម។ ប្រើប្រាស់ពេលវេលាដំណើរការយូរជាងគេ (១៧.៨ វិនាទី) និងទទួលបានភាពត្រឹមត្រូវទាបជាងការប្រើជាមួយ BFS ដោយសារវាអាចរំលងទំនាក់ទំនងទិន្នន័យដែលមិនមែនជាលីនេអ៊ែរ។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៩១.៤%។
Random Forest
ក្បួនដោះស្រាយ Random Forest (ក្បួនដោះស្រាយប្រៀបធៀប)
ជាក្បួនដោះស្រាយដែលងាយស្រួលប្រើ និងមានស្ថេរភាពក្នុងការទស្សន៍ទាយតាមរយៈការចងក្រងមែកធាងការសម្រេចចិត្ត។ ទទួលបានលទ្ធផលភាពត្រឹមត្រូវទាបជាងវិធីសាស្ត្រស្នើឡើងយ៉ាងខ្លាំង និងស៊ីទំហំផ្ទុកច្រើនគួរសម (៧៤១.៦ KB)។ សម្រេចបានភាពត្រឹមត្រូវទាបត្រឹមតែ ៨៤.២% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបានវាស់វែងយ៉ាងច្បាស់លាស់អំពីពេលវេលា និងទំហំអង្គចងចាំដែលម៉ូដែលត្រូវការ ដោយបង្ហាញថាម៉ូដែលស្នើឡើងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការប្រើប្រាស់ធនធាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីឃ្លាំងសាធារណៈស្ដង់ដារ (UCI និង Kaggle) ដែលភាគច្រើនឆ្លុះបញ្ចាំងពីប្រជាសាស្ត្រលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា កត្តាជីវភាពរស់នៅ របបអាហារដែលមានជាតិប្រៃខ្ពស់ (ដូចជាប្រហុក ឬទឹកត្រី) និងការយឺតយ៉ាវក្នុងការស្វែងរកសេវាសុខាភិបាល អាចធ្វើឱ្យកម្រិតហានិភ័យនៃជំងឺដាច់សរសៃឈាមខួរក្បាលមានទម្រង់ខុសប្លែកពីទិន្នន័យនេះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ និងម៉ូដែលស្រាវជ្រាវនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមឥតខ្ចោះក្នុងការយកមកអនុវត្តនៅក្នុងប្រព័ន្ធថែទាំសុខភាពនៅប្រទេសកម្ពុជា។

ជារួម ការរួមបញ្ចូលបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសកម្រិតខ្ពស់ (BFS) ធ្វើឱ្យម៉ូដែលស្រាល លឿន និងស៊ីធនធានតិច ដែលជាដំណោះស្រាយដ៏ល្អបំផុតសម្រាប់ប្រព័ន្ធសុខាភិបាលក្នុងប្រទេសកំពុងអភិវឌ្ឍន៍ដូចជាកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យវេជ្ជសាស្ត្រ និងការសម្អាតទិន្នន័យ: និស្សិតគួរស្វែងយល់ពីរបៀបទាញយកទិន្នន័យពី KaggleUCI Machine Learning Repository រួចរៀនប្រើប្រាស់បណ្ណាល័យ Pandas ក្នុងភាសា Python ដើម្បីសម្អាតទិន្នន័យ (ការបំពេញទិន្នន័យខ្វះចន្លោះ និងការធ្វើប្រក្រតីកម្មទិន្នន័យ)។
  2. ជំហានទី២៖ ស្វែងយល់ពីការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តការប្រើប្រាស់ក្បួនដោះស្រាយស្ថិតិដូចជា Chi-Square និងក្បួនដោះស្រាយស្វែងរក Best First Search (BFS) ដើម្បីចម្រាញ់យកតែទិន្នន័យសំខាន់ៗ ដោយអាចសាកល្បងប្រើប្រាស់កម្មវិធី WEKA ឬបណ្ណាល័យ Scikit-learn
  3. ជំហានទី៣៖ អនុវត្តការកសាងម៉ូដែល Machine Learning: ចាប់ផ្តើមសរសេរកូដដើម្បីបង្កើតម៉ូដែល Fuzzy K-Nearest Neighbor (F-KNN) និង Artificial Neural Networks (ANN) ដោយបង្ហាត់ម៉ូដែលទាំងនេះជាមួយនឹងទិន្នន័យអ្នកជំងឺដាច់សរសៃឈាមខួរក្បាលដែលបានរៀបចំរួច។
  4. ជំហានទី៤៖ វាយតម្លៃ និងប្រៀបធៀបសមត្ថភាពម៉ូដែល: រៀនប្រើប្រាស់រង្វាស់រង្វាល់ដូចជា Accuracy, Precision, Recall, F-measure និង ROC Area រួមទាំងការវាស់វែងទំហំអង្គចងចាំ និងពេលវេលាដំណើរការ ដើម្បីស្វែងរកម៉ូដែលដែលមានប្រសិទ្ធភាពបំផុត។
  5. ជំហានទី៥៖ អភិវឌ្ឍកម្មវិធីសាកល្បងសម្រាប់អ្នកប្រើប្រាស់ (Prototype Development): យកម៉ូដែល ANN+BFS ដែលមានដំណើរការល្អជាងគេ ទៅធ្វើសមាហរណកម្មជាមួយ FlaskStreamlit ដើម្បីបង្កើតជាកម្មវិធីវិប (Web App) ដែលអនុញ្ញាតឱ្យគ្រូពេទ្យបញ្ចូលទិន្នន័យ និងទទួលបានលទ្ធផលទស្សន៍ទាយភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Artificial Neural Networks (ANN) ជាម៉ូដែលកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដោយយកគំរូតាមបណ្ដាញសរសៃប្រសាទនៃខួរក្បាលមនុស្ស ដើម្បីរៀនពីលំនាំទិន្នន័យដ៏ស្មុគស្មាញ និងធ្វើការព្យាករណ៍លទ្ធផល (ដូចជាការព្យាករណ៍ជំងឺ)។ ដូចជាក្មេងម្នាក់ដែលរៀនស្គាល់សត្វឆ្កែនិងឆ្មា តាមរយៈការមើលរូបភាពច្រើនដងរហូតដល់ខួរក្បាលអាចចំណាំលក្ខណៈខុសគ្នារបស់វាបានយ៉ាងច្បាស់។
Fuzzy K-Nearest Neighbor (F-KNN) ជាក្បួនដោះស្រាយដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ ដោយវាធ្វើការវាស់ស្ទង់ចម្ងាយទិន្នន័យ និងផ្តល់តម្លៃភាគរយនៃភាពជាសមាជិក (Fuzzy membership) ថាទិន្នន័យថ្មីនោះមានភាពស្រដៀងគ្នាទៅនឹងក្រុមនីមួយៗកម្រិតណា។ ដូចជាការវាយតម្លៃមនុស្សម្នាក់ដោយមិនមែនចាត់ទុកគេថាល្អឬអាក្រក់១០០%នោះទេ តែវាយតម្លៃថាគេមានចំណុចល្អ៧០% និងចំណុចអាក្រក់៣០% ដោយមើលលើមិត្តភក្តិដែលនៅជុំវិញគេ។
Feature Selection ជាដំណើរការកាត់បន្ថយ ឬជ្រើសរើសយកតែអថេរ (Variables) ណាដែលសំខាន់បំផុតពីសំណុំទិន្នន័យដ៏ធំ ដើម្បីយកទៅបង្ហាត់ម៉ាស៊ីនរៀន ដែលវាជួយកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿនដំណើរការម៉ូដែល។ ដូចជាការរៀបចំវ៉ាលីធ្វើដំណើរដោយជ្រើសរើសយកតែសម្លៀកបំពាក់ដែលចាំបាច់បំផុតទៅជាមួយ ដើម្បីកុំឲ្យវ៉ាលីធ្ងន់ និងអាចធ្វើដំណើរបានលឿនជាងមុន។
Best First Search (BFS) ជាក្បួនស្វែងរកលក្ខណៈពិសេសនៃទិន្នន័យតាមបែបសាកល្បងនិងវាយតម្លៃ (Heuristic search) ដោយវាជ្រើសរើសយកតែលក្ខណៈណាដែលផ្តល់ព័ត៌មានមានប្រយោជន៍បំផុតមុនគេ ដើម្បីបញ្ជូនទៅឱ្យម៉ូដែលដំណើរការ។ ដូចជាការរើសកីឡាករចូលក្រុម ដោយអ្នកតែងតែរើសយកអ្នកដែលមានសមត្ថភាពលេចធ្លោជាងគេមុនគេបំផុត ជំនួសឲ្យការរើសតាមលំដាប់អក្ខរក្រម។
Chi-Square ជាវិធីសាស្ត្រវាយតម្លៃផ្នែកស្ថិតិដែលប្រើសម្រាប់វាស់ស្ទង់ទំនាក់ទំនងរវាងលក្ខណៈពិសេសនីមួយៗនៃទិន្នន័យ និងលទ្ធផលចុងក្រោយ ដើម្បីជម្រុះចោលនូវទិន្នន័យរំខានដែលមិនសូវពាក់ព័ន្ធ។ ដូចជាការប្រើប្រាស់កន្ត្រងដើម្បីរែងយកតែគ្រាប់ខ្សាច់ម៉ត់ៗសម្រាប់យកទៅសាងសង់ ហើយបោះចោលគ្រួសធំៗដែលមិនត្រូវការ។
Receiver Operating Characteristics (ROC) area ជារង្វាស់ដែលបង្ហាញពីសមត្ថភាព និងភាពសុក្រឹតរបស់ម៉ូដែលក្នុងការបែងចែករវាងក្រុមពីរ (ឧទាហរណ៍៖ ការបែងចែករវាងអ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ)។ តម្លៃកាន់តែខិតជិត១ មានន័យថាម៉ូដែលកាន់តែពូកែ។ ដូចជាពិន្ទុប្រឡងរបស់សិស្សម្នាក់ដែលបង្ហាញថា គេពូកែបែងចែករវាងចម្លើយខុស និងចម្លើយត្រូវ បានកម្រិតណា។
Synthetic Minority Over-Sampling Technique (SMOTE) ជាបច្ចេកទេសដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា (Imbalanced data) ដោយវាធ្វើការបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមគោលដៅដែលមានទិន្នន័យតិច ដើម្បីឲ្យបរិមាណស្មើនឹងក្រុមដែលមានទិន្នន័យច្រើន។ ដូចជាការថតចម្លងឯកសារសៀវភៅដែលមានតិចតួច ដើម្បីចែកឱ្យសិស្សបានគ្រប់គ្នាអាន មុននឹងចាប់ផ្តើមរៀនប្រៀបធៀបជាមួយសៀវភៅរបស់សិស្សក្រុមផ្សេងទៀត។
Backpropagation ជាដំណើរការដ៏សំខាន់នៅក្នុងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ដែលម៉ូដែលធ្វើការគណនាកំហុសរបស់វា រួចកែតម្រូវទម្ងន់ (Weights) ត្រលប់ថយក្រោយវិញពីលទ្ធផលទៅកាន់ចំណុចចាប់ផ្តើម ដើម្បីឲ្យការព្យាករណ៍លើកក្រោយកាន់តែត្រឹមត្រូវ។ ដូចជាអ្នកលេងកីឡាបាញ់ព្រួញដែលបាញ់ខុសគោលដៅ រួចគាត់គិតថយក្រោយវិញថាតើខុសត្រង់ណា ដើម្បីកែតម្រូវកម្លាំង និងទិសដៅសម្រាប់ការបាញ់លើកក្រោយឲ្យចំកណ្តាល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖