Original Title: Imbalanced Multiclass Medical Data Classification based on Learning Automata and Neural Network
Source: doi.org/10.4108/airo.3526
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្ត្រពហុថ្នាក់ដែលមិនមានតុល្យភាព ដោយផ្អែកលើការរៀនអូតូម៉ាតា និងបណ្តាញសរសៃប្រសាទ

ចំណងជើងដើម៖ Imbalanced Multiclass Medical Data Classification based on Learning Automata and Neural Network

អ្នកនិពន្ធ៖ Masoumeh Soleimani (Clemson University, SC, USA), Zahra Forouzanfar (Islamic Azad University, Isfahan, Iran), Morteza Soltani (Clemson University, SC, USA), Majid Jafari Harandi (Islamic Azad University, Khomeinishahr, Iran)

ឆ្នាំបោះពុម្ព៖ 2023 EAI Endorsed Transactions on AI and Robotics

វិស័យសិក្សា៖ Machine Learning / Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តតែងតែប្រឈមនឹងបញ្ហានៃការចែកចាយទិន្នន័យមិនមានតុល្យភាព ដែលបណ្តាលឱ្យមានកំហុសក្នុងការទស្សន៍ទាយ និងដំណើរការខ្សោយក្នុងការកំណត់អត្តសញ្ញាណទិន្នន័យភាគតិចដែលជាទិន្នន័យសំខាន់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគំរូកូនកាត់ដែលរួមបញ្ចូលការជ្រើសរើសលក្ខណៈពិសេស និងបណ្តាញសរសៃប្រសាទ ដើម្បីចាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តដែលគ្មានតុល្យភាពពីសំណុំទិន្នន័យជំងឺក្រពេញទីរ៉ូអ៊ីតរបស់ UCI ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Proposed Method (CO-SVM + Learning Automata Neural Network)
វិធីសាស្ត្រដែលបានស្នើឡើង (ការជ្រើសរើសលក្ខណៈពិសេស CO-SVM រួមជាមួយ Neural Network ផ្អែកលើ Learning Automata)
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ ដោយកាត់បន្ថយលក្ខណៈពិសេសពី ២៩ មកត្រឹម ១៣។ ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការពេលវេលាដើម្បីអភិវឌ្ឍក្បួនដោះស្រាយ Cuckoo និង Automata។ ទទួលបានភាពត្រឹមត្រូវ ៩៩.៦% និងកំហុស MSE ទាបបំផុតត្រឹមតែ ០.០២។
Standard Neural Network (MATLAB Toolbox)
បណ្តាញសរសៃប្រសាទស្តង់ដារ (ប្រើប្រាស់ MATLAB Toolbox)
ងាយស្រួលក្នុងការអនុវត្ត ដោយសារមានមុខងារស្រាប់នៅក្នុងកម្មវិធី MATLAB។ ភាពត្រឹមត្រូវទាបជាងវិធីសាស្ត្រដែលបានធ្វើឱ្យប្រសើរ និងងាយនឹងលំអៀងទៅរកទិន្នន័យភាគច្រើន (Majority Class)។ ទទួលបានភាពត្រឹមត្រូវ ៩៨.០% និងកំហុស MSE ០.០៦។
Decision Tree
ចំណាត់ថ្នាក់តាមមែកធាងការសម្រេចចិត្ត (Decision Tree)
ងាយស្រួលយល់ បកស្រាយច្បាស់លាស់ និងមិនសូវទាមទារធនធានកុំព្យូទ័រខ្ពស់។ ភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលប្រឈមមុខនឹងទិន្នន័យវេជ្ជសាស្ត្រដែលមិនមានតុល្យភាព។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨៨.០៧% ប៉ុណ្ណោះ។
Support Vector Machine (Standalone)
ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM ទោលដោយគ្មានការជ្រើសរើសលក្ខណៈពិសេសបញ្ញាសិប្បនិម្មិត)
ដំណើរការល្អសម្រាប់ទិន្នន័យដែលមានវិមាត្រខ្ពស់ (High-dimensional data)។ មិនស័ក្តិសមក្នុងការដោះស្រាយទិន្នន័យដែលលំអៀងខ្លាំង ប្រសិនបើគ្មានការធ្វើសមាហរណកម្មជាមួយក្បួនដោះស្រាយផ្សេង។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨៥.៤%។
Simple Bayesian
ចំណាត់ថ្នាក់ Simple Bayesian
ដំណើរការលឿន និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យដែលមានលក្ខណៈឯករាជ្យពីគ្នា។ ផ្តល់លទ្ធផលអន់បំផុតក្នុងការសិក្សានេះ ដោយសារទិន្នន័យវេជ្ជសាស្ត្រមានទំនាក់ទំនងគ្នាស្មុគស្មាញ។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុតគឺ ៧៨.៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើដោយប្រើកម្មវិធីកុំព្យូទ័រ ដែលទាមទារធនធានគណនាសមរម្យសម្រាប់ការដំណើរការក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាព (Metaheuristic Optimization)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពីមូលដ្ឋានទិន្នន័យ UCI នៅសហរដ្ឋអាមេរិក ដែលប្រហែលជាមិនឆ្លុះបញ្ចាំងពីលក្ខណៈជីវសាស្រ្ត របបអាហារ (ដូចជាការទទួលទានអ៊ីយ៉ូត) និងប្រវត្តិវេជ្ជសាស្ត្ររបស់អ្នកជំងឺនៅប្រទេសកម្ពុជាឡើយ។ ដើម្បីឱ្យគំរូនេះមានសុក្រឹតភាពនៅកម្ពុជា ការប្រមូលទិន្នន័យក្នុងស្រុកពីមន្ទីរពេទ្យនានាគឺជារឿងចាំបាច់បំផុត ដើម្បីជៀសវាងភាពលំអៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រដោះស្រាយទិន្នន័យមិនមានតុល្យភាពនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបញ្ញាសិប្បនិម្មិតក្នុងវិស័យសុខាភិបាលកម្ពុជា ជាពិសេសសម្រាប់ជំងឺដែលមានករណីអ្នកឈឺតិចតួច។

ជារួម ការរួមបញ្ចូលគ្នានៃការកាត់បន្ថយទំហំទិន្នន័យ និងក្បួនដោះស្រាយដែលយកចិត្តទុកដាក់លើកូនសិស្សភាគតិច (Minority Class) គឺជាគន្លឹះដ៏សំខាន់សម្រាប់ការធ្វើបរិវត្តកម្មឌីជីថលសុខាភិបាលនៅកម្ពុជាប្រកបដោយបរិយាបន្ន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីបញ្ហា Imbalanced Data និងក្បួនដោះស្រាយចំណាត់ថ្នាក់: និស្សិតត្រូវសិក្សាពីបញ្ហានៃការចាត់ថ្នាក់ទិន្នន័យដែលលំអៀង និងរៀនពីទ្រឹស្តីក្បួនដោះស្រាយដូចជា Cuckoo Optimization Algorithm (COA) និង Learning Automata តាមរយៈឯកសារស្រាវជ្រាវកម្រិតខ្ពស់។
  2. រៀបចំ និងសម្អាតសំណុំទិន្នន័យវេជ្ជសាស្ត្រ: ទាញយកទិន្នន័យវេជ្ជសាស្ត្រពី UCI Machine Learning RepositoryKaggle ហើយប្រើប្រាស់ Python (Pandas)MATLAB ដើម្បីសម្អាតតម្លៃបាត់បង់ (Missing Values) និងទិន្នន័យស្ទួនមុននឹងបន្ត។
  3. អនុវត្តការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): សរសេរកូដបង្កើតយន្តការ Wrapper Approach ដោយប្រើប្រាស់ Support Vector Machine (SVM) រួមជាមួយក្បួនដោះស្រាយ Cuckoo Search ដើម្បីកាត់បន្ថយលក្ខណៈពិសេសដែលមិនចាំបាច់ចេញពីសំណុំទិន្នន័យ។
  4. សាងសង់ម៉ូដែល Neural Network ជាមួយយន្តការកែតម្រូវស្វ័យប្រវត្តិ: រៀបចំបណ្តាញ Neural Network ហើយអនុវត្តក្បួន Learning Automata ដើម្បីឱ្យវាអាចកែតម្រូវតម្លៃ Weights និង Learning Rate ដោយស្វ័យប្រវត្តិ សំដៅកាត់បន្ថយកំហុស Mean Squared Error (MSE) ឱ្យទាបបំផុត។
  5. វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយផ្អែកលើរង្វាស់សមស្រប: កុំពឹងផ្អែកតែលើភាពត្រឹមត្រូវទូទៅ (Accuracy) តែមួយមុខ។ ត្រូវប្រើប្រាស់ Confusion Matrix, Precision, Recall, F-Measure, និង ROC Curve/AUC ដើម្បីបញ្ជាក់ថាម៉ូដែលពិតជាអាចសម្គាល់ទិន្នន័យភាគតិច (Minority Class) បានត្រឹមត្រូវមែន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Imbalanced Data សំណុំទិន្នន័យដែលចំនួនគំរូនៅក្នុងថ្នាក់នីមួយៗមានភាពខុសគ្នាខ្លាំង (ឧទាហរណ៍៖ ទិន្នន័យអ្នកជំងឺមានតិចតួចធៀបនឹងអ្នកជាសះស្បើយ) ដែលធ្វើឱ្យម៉ូដែលចំណាត់ថ្នាក់ងាយនឹងទស្សន៍ទាយលំអៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើន និងមិនអើពើចំពោះក្រុមដែលមានទិន្នន័យតិច។ ដូចជាការបោះឆ្នោតដែលមានអ្នកគាំទ្រគណបក្សមួយច្រើនលើសលប់ ដែលធ្វើឱ្យសំឡេងភាគតិចងាយនឹងត្រូវគេមើលរំលង។
Learning Automata យន្តការក្បួនដោះស្រាយដែលធ្វើការរៀនសូត្រពីបរិស្ថានតាមរយៈការសាកល្បងនិងកំហុស ដោយទទួលបានរង្វាន់ពេលជ្រើសរើសសកម្មភាពត្រូវ និងទទួលពិន័យពេលធ្វើខុស សំដៅស្វែងរកជម្រើសដែលល្អបំផុត (ដូចជាការកែតម្រូវទម្ងន់នៅក្នុងបណ្តាញសរសៃប្រសាទ) ដោយស្វ័យប្រវត្តិ។ ដូចជាកូនក្មេងដែលរៀនជិះកង់ ដោយដឹងពីរបៀបរក្សាតុល្យភាពតាមរយៈការធ្លាក់ (ពិន័យ) និងការជិះបានត្រង់ល្អ (រង្វាន់)។
Cuckoo Optimization Algorithm ក្បួនដោះស្រាយសម្រាប់ស្វែងរកដំណោះស្រាយល្អបំផុតដោយយកតម្រាប់តាមអាកប្បកិរិយារបស់សត្វចាប Cuckoo ដែលពងដាក់សំបុកសត្វដទៃ។ វាតែងតែស្វែងរកទីតាំង (ដំណោះស្រាយ) ដែលផ្តល់ផលចំណេញបំផុត។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីជ្រើសរើសលក្ខណៈពិសេសរបស់ទិន្នន័យដែលសំខាន់ៗបំផុត។ ដូចជាការស្វែងរកកន្លែងចតឡានល្អបំផុតក្នុងចំណត ដោយអ្នកបើកបរដើររកកន្លែងទំនេរដែលជិតច្រកចូលជាងគេបំផុត។
Feature Selection ដំណើរការនៃការស្កេននិងជ្រើសរើសយកតែលក្ខណៈសម្បត្តិ (អថេរ) ណាដែលសំខាន់ៗបំផុតពីក្នុងទិន្នន័យដើមដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកមកបង្វឹកម៉ូដែល ដែលជួយកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿននិងភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយ។ ដូចជាការរៀបចំបាលីដើរលេង ដោយរើសយកតែខោអាវណាដែលចាំបាច់បំផុត ហើយទុកចោលរបស់ដែលមិនត្រូវការដើម្បីកុំឱ្យធ្ងន់។
Neural Network ប្រព័ន្ធកុំព្យូទ័រដែលយកគំរូតាមបណ្តាញសរសៃប្រសាទខួរក្បាលមនុស្ស ដែលមានស្រទាប់ណឺរ៉ូនតភ្ជាប់គ្នាសម្រាប់ធ្វើការវិភាគ និងរៀនស្គាល់ទម្រង់ទិន្នន័យស្មុគស្មាញ ដើម្បីដោះស្រាយបញ្ហាដូចជាការធ្វើចំណាត់ថ្នាក់ជំងឺ។ ដូចជាក្រុមការងាររោងចក្រដែលចែកចេញជាផ្នែកៗ ដោយផ្នែកនីមួយៗទទួលព័ត៌មាន បញ្ជូនបន្ត និងសម្រេចចិត្តរួមគ្នាដើម្បីបង្កើតផលិតផលសម្រេច។
Support Vector Machine ក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើតបន្ទាត់ ឬប្លង់សម្រាប់ខណ្ឌចែកទិន្នន័យជាក្រុមផ្សេងៗគ្នាឱ្យមានគម្លាតធំបំផុតរវាងក្រុមទាំងនោះ។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីវាស់ស្ទង់គុណភាពនៃលក្ខណៈពិសេសដែលបានជ្រើសរើស។ ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយ ដើម្បីញែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាច្បាស់លាស់។
Mean Squared Error រង្វាស់សម្រាប់វាស់កម្រិតកំហុសរបស់ម៉ូដែល ដោយគណនាមធ្យមភាគនៃការ៉េនៃផលសងរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃជាក់ស្តែង។ តម្លៃកាន់តែតូច បង្ហាញថាម៉ូដែរកាន់តែសុក្រឹតនិងមានកំហុសតិច។ ដូចជាការវាស់ចម្ងាយព្រួញទាំងអស់ដែលអ្នកបាញ់ខុសពីចំណុចកណ្តាល យកមកបូកបញ្ចូលគ្នាដើម្បីវាយតម្លៃថាអ្នកបាញ់ខុសកម្រិតណាជារួម។
ROC Curve ក្រាហ្វដែលបង្ហាញពីប្រសិទ្ធភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ដោយប្រៀបធៀបរវាងអត្រានៃការទស្សន៍ទាយត្រូវត្រឹមត្រូវ (True Positive) និងអត្រានៃការទស្សន៍ទាយខុស (False Positive) នៅកម្រិតខុសៗគ្នា។ ផ្ទៃក្រោមកោង (AUC) កាន់តែធំ ម៉ូដែលកាន់តែល្អ។ ដូចជាតារាងពិន្ទុដែលបង្ហាញថា ឆ្មាំកាមេរ៉ាសុវត្ថិភាពចាប់ចោរពិតប្រាកដបានត្រូវប៉ុន្មាននាក់ ធៀបនឹងការសង្ស័យមនុស្សល្អខុសប៉ុន្មាននាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖