Original Title: IMBALANCED MEDICAL DATA ANALYSIS: DEVELOPING A MULTICLASS LOGISTIC REGRESSION CLASSIFICATION MODEL WITH PCA APPROACH
Source: doi.org/10.24507/icicel.18.06.575
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគទិន្នន័យវេជ្ជសាស្ត្រមិនមានតុល្យភាព៖ ការអភិវឌ្ឍម៉ូដែលចំណាត់ថ្នាក់តំរែតំរង់ឡូជីស្ទីកពហុថ្នាក់ជាមួយវិធីសាស្ត្រ PCA

ចំណងជើងដើម៖ IMBALANCED MEDICAL DATA ANALYSIS: DEVELOPING A MULTICLASS LOGISTIC REGRESSION CLASSIFICATION MODEL WITH PCA APPROACH

អ្នកនិពន្ធ៖ Adli Abdillah Nababan (Universitas Sumatera Utara), Sutarman (Universitas Sumatera Utara), Muhammad Zarlis (Bina Nusantara University), Erna Budhiarti Nababan (Universitas Sumatera Utara)

ឆ្នាំបោះពុម្ព៖ 2024 ICIC Express Letters

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ (class imbalance) នៅក្នុងសំណុំទិន្នន័យវេជ្ជសាស្ត្រ ដែលជារឿយៗបណ្តាលឱ្យក្បួនដោះស្រាយម៉ាស៊ីនរៀនលម្អៀងទៅរកទិន្នន័យអ្នកជំងឺមានសុខភាពល្អ និងព្រងើយកន្តើយចំពោះការព្យាករណ៍រោគសញ្ញាអ្នកជំងឺដែលជាក្រុមភាគតិច។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតម៉ូដែលចំណាត់ថ្នាក់តំរែតំរង់ឡូជីស្ទីកពហុថ្នាក់ (Multiclass Logistic Regression) ដោយរួមបញ្ចូលវិធីសាស្ត្រ PCA ដើម្បីកាត់បន្ថយវិមាត្រទិន្នន័យ និងរក្សាភាពត្រឹមត្រូវដោយមិនប្រើបច្ចេកទេសបំប្លែងទិន្នន័យ (Resampling) ឡើយ។

ការកាត់បន្ថយវិមាត្រទិន្នន័យដោយប្រើការវិភាគសមាសភាគចម្បង (Principal Component Analysis - PCA)
ចំណាត់ថ្នាក់ទិន្នន័យដោយប្រើតំរែតំរង់ឡូជីស្ទីកពហុថ្នាក់ (Multiclass Logistic Regression) និងអនុគមន៍ Softmax
ការធ្វើឱ្យប្រសើរឡើងនូវប៉ារ៉ាម៉ែត្រម៉ូដែលដោយប្រើវិធីសាស្ត្រ Gradient Descent
ការធ្វើតេស្តលើសំណុំទិន្នន័យវេជ្ជសាស្ត្រចំនួន ៤ គឺ៖ ក្រពេញទីរ៉ូអ៊ីត (thyroid), កូនកណ្តុរ (lymphography), រោគសើស្បែក (dermatology), និង Ecoli

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល M-LR ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៨,៤៦% សម្រាប់ទិន្នន័យក្រពេញទីរ៉ូអ៊ីត និង ៨៦,៦៦% សម្រាប់ទិន្នន័យកូនកណ្តុរ ដោយការប្រើប្រាស់ PCA មិនបានបន្ថែមប្រសិទ្ធភាពគួរឱ្យកត់សម្គាល់នោះទេ។
សម្រាប់ការវិភាគទិន្នន័យរោគសើស្បែក ការបន្ថែមវិធីសាស្ត្រ PCA (M-LR+PCA) បានបង្កើនភាពត្រឹមត្រូវពី ៩៧,២២% ទៅដល់ ៩៩,០៧%។
លទ្ធផលបង្ហាញថាវិធីសាស្ត្រដែលបានស្នើឡើងអាចវាយតម្លៃរោគវិនិច្ឆ័យបានយ៉ាងមានប្រសិទ្ធភាពលើទិន្នន័យវេជ្ជសាស្ត្រដែលមានអតុល្យភាព ដោយមិនចាំបាច់ពឹងផ្អែកលើបច្ចេកទេស Over-sampling ឬ Under-sampling ឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Multiclass Logistic Regression (M-LR) ចំណាត់ថ្នាក់តំរែតំរង់ឡូជីស្ទីកពហុថ្នាក់	មិនតម្រូវឱ្យមានការបំប្លែងឬថ្លឹងថ្លែងទិន្នន័យ (Resampling/SMOTE) ឡើយ តែនៅតែអាចរក្សាប្រសិទ្ធភាពខ្ពស់។ ងាយស្រួលយល់ និងប្រើប្រាស់ថាមពលគណនាតិច។	អាចមិនសូវមានប្រសិទ្ធភាពខ្ពស់បំផុត ប្រសិនបើទិន្នន័យមានលក្ខណៈស្មុគស្មាញខ្លាំង ឬមានទំហំធំមហិមា ដែលទាមទារទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear)។	ទទួលបានភាពត្រឹមត្រូវ ៩៨,៤៦% លើទិន្នន័យក្រពេញទីរ៉ូអ៊ីត (Thyroid) និង ៨៦,៦៦% លើទិន្នន័យកូនកណ្តុរ (Lymphography) ដោយមិនប្រើ PCA។
Multiclass Logistic Regression + PCA (M-LR+PCA) តំរែតំរង់ឡូជីស្ទីកពហុថ្នាក់ រួមផ្សំជាមួយវិធីសាស្ត្រកាត់បន្ថយវិមាត្រ PCA	ជួយកាត់បន្ថយវិមាត្រទិន្នន័យ លុបបំបាត់ព័ត៌មានមិនចាំបាច់ និងការពារបញ្ហា Overfitting ដែលជួយបង្កើនភាពត្រឹមត្រូវលើទិន្នន័យជាក់លាក់មួយចំនួន។	ការបង្រួមទិន្នន័យជាមួយ PCA អាចធ្វើឱ្យបាត់បង់ព័ត៌មានលម្អិតមួយចំនួន ដែលបណ្តាលឱ្យធ្លាក់ចុះភាពត្រឹមត្រូវបន្តិចបន្តួចលើសំណុំទិន្នន័យខ្លះ (ដូចជាទិន្នន័យកូនកណ្តុរ)។	បង្កើនភាពត្រឹមត្រូវយ៉ាងគួរឱ្យកត់សម្គាល់ដល់ ៩៩,០៧% លើទិន្នន័យរោគសើស្បែក (Dermatology) និង ៩៩,០៩% លើទិន្នន័យ Ecoli។
Traditional Baselines (Random Forest, XGBoost, ANN, C5.0, k-NN) ក្បួនដោះស្រាយទូទៅពីការសិក្សាមុនៗ	ជាក្បួនដោះស្រាយដែលមានភាពពេញនិយម និងមានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីទិន្នន័យស្មុគស្មាញ។	ជាទូទៅទាមទារឱ្យមានការថ្លឹងថ្លែងទិន្នន័យ (Balancing Strategy) ជាមុនទើបអាចដំណើរការបានល្អលើទិន្នន័យមិនមានតុល្យភាព ដែលអាចប្រឈមនឹងបញ្ហា Overfitting។	ទទួលបានភាពត្រឹមត្រូវទាបជាងវិធីសាស្ត្រ M-LR/M-LR+PCA ជាទូទៅ (ឧទាហរណ៍ Random Forest ទទួលបាន ៩៧,០១% និង k-NN ទទួលបាន ៧៥,៩៤%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនទាមទារធនធានកុំព្យូទ័រធំដុំនោះទេ ដោយវាអាចដំណើរការបានយ៉ាងរលូននៅលើកុំព្យូទ័រយួរដៃផ្ទាល់ខ្លួនកម្រិតមធ្យម។

Hardware: កុំព្យូទ័រដែលមានប្រព័ន្ធដំណើរការ Intel Core i5, អង្គចងចាំ (RAM) ទំហំ 4GB និងប្រព័ន្ធប្រតិបត្តិការ Windows 10។
Software: ភាសាប្រូក្រាម Python ដំណើរការតាមរយៈកម្មវិធី Jupyter Notebook សម្រាប់ការវិភាគ និងកសាងម៉ូដែល។
Dataset: សំណុំទិន្នន័យវេជ្ជសាស្ត្របើកទូលាយចំនួន ៤ ពីប្រភព UCI Machine Learning Repository (Thyroid, Lymphography, Dermatology, Ecoli)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យវេជ្ជសាស្ត្រស្តង់ដារពីឃ្លាំងទិន្នន័យសកល (UCI) ដែលមិនបានឆ្លុះបញ្ចាំងពីលក្ខណៈប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ទាមទារឱ្យមានការបង្ហាត់បន្ថែមជាមួយទិន្នន័យអ្នកជំងឺក្នុងស្រុក ដើម្បីជៀសវាងភាពលម្អៀង (Bias) ដែលបណ្តាលមកពីភាពខុសគ្នានៃហ្សែន របបអាហារ និងកត្តាបរិស្ថាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមខ្លាំងសម្រាប់ប្រព័ន្ធសុខាភិបាលនៅកម្ពុជា ដោយសារវាចំណាយធនធានតិច តែអាចដោះស្រាយបញ្ហាទិន្នន័យជំងឺកម្របានល្អ។

មន្ទីរពេទ្យថ្នាក់ជាតិ (ឧទាហរណ៍៖ មន្ទីរពេទ្យកាល់ម៉ែត ឬមន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត): អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីជួយគ្រូពេទ្យក្នុងការវិនិច្ឆ័យរោគសញ្ញាជំងឺកម្រ ឬជំងឺស្មុគស្មាញ (ដូចជាជំងឺមហារីកស្បែក) ដោយមិនបារម្ភពីបញ្ហាខ្វះខាតទិន្នន័យអ្នកជំងឺភាគតិចធៀបនឹងអ្នកជំងឺទូទៅឡើយ។
ប្រព័ន្ធទិន្នន័យសុខាភិបាលថ្នាក់ជាតិ (Ministry of Health): បច្ចេកទេស PCA អាចត្រូវបានប្រើដើម្បីបង្រួមទំហំទិន្នន័យអ្នកជំងឺរាប់លាននាក់នៅទូទាំងប្រទេស ដែលជួយសម្រួលដល់ការវិភាគរកនិន្នាការនៃជំងឺរ៉ាំរ៉ៃផ្សេងៗបានលឿន និងចំណាយថវិកាគណនាតិច។

សរុបមក នេះគឺជាដំណោះស្រាយផ្នែកបញ្ញាសិប្បនិម្មិតកម្រិតស្រាល (Lightweight AI) ដែលសមស្របសម្រាប់ការធ្វើទំនើបកម្មផ្នែករោគវិនិច្ឆ័យនៅតាមមន្ទីរពេទ្យនានាក្នុងប្រទេសកម្ពុជា ដែលមិនទាន់មានហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រទំនើបខ្លាំង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាពីមូលដ្ឋានគ្រឹះ និងការរៀបចំទិន្នន័យវេជ្ជសាស្ត្រ: ស្វែងយល់ពីរបៀបរៀបចំ សម្អាត និងធ្វើស្តង់ដារទិន្នន័យ (Z-score normalization) ដោយប្រើបណ្ណាល័យ Pandas និង Scikit-Learn នៅក្នុង Python ដើម្បីដោះស្រាយជាមួយទិន្នន័យបាត់បង់ (Missing values)។
ជំហានទី២៖ អនុវត្តបច្ចេកទេសកាត់បន្ថយវិមាត្រទិន្នន័យ: សិក្សា និងអនុវត្តការប្រើប្រាស់ Principal Component Analysis (PCA) នៅក្នុង Scikit-Learn ដើម្បីទាញយកលក្ខណៈសំខាន់ៗនៃទិន្នន័យ (Feature extraction) ដោយធានាថារក្សាបានយ៉ាងហោចណាស់ ៩៨% នៃព័ត៌មានដើម (Variance)។
ជំហានទី៣៖ កសាងម៉ូដែលចំណាត់ថ្នាក់ពហុថ្នាក់: សាកល្បងសរសេរកូដបង្កើតម៉ូដែល Multiclass Logistic Regression ដោយផ្តោតលើការយល់ដឹងពីអនុគមន៍ Softmax និងការប្រើប្រាស់វិធីសាស្ត្រ Gradient Descent ក្នុងការស្វែងរកតម្លៃ Parameter ដ៏ប្រសើរបំផុត។
ជំហានទី៤៖ វាយតម្លៃសមត្ថភាពម៉ូដែលលើទិន្នន័យអតុល្យភាព: ធ្វើការវាស់ស្ទង់ភាពត្រឹមត្រូវនៃម៉ូដែលដោយផ្តោតលើ Precision, Recall, F1-score និង ROC AUC Score ជាជាងការមើលតែលើ Accuracy តែមួយមុខ ដើម្បីធានាថាម៉ូដែលមិនមើលរំលងក្រុមជំងឺកម្រ (Minority class)។
ជំហានទី៥៖ សាកល្បងផ្ទាល់ជាមួយទិន្នន័យសុខាភិបាលកម្ពុជា: ទាក់ទងស្នើសុំទិន្នន័យវេជ្ជសាស្ត្របែបអនាមិក (Anonymized data) ពីគ្លីនិក ឬមន្ទីរពេទ្យក្នុងស្រុក (ឧទាហរណ៍ទិន្នន័យជំងឺរោគសើស្បែក) ដើម្បីយកមកធ្វើតេស្ត និងកែសម្រួលម៉ូដែលឱ្យស្របនឹងបរិបទជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Principal Component Analysis (PCA)	វិធីសាស្ត្រស្ថិតិដែលត្រូវបានប្រើដើម្បីកាត់បន្ថយចំនួនអថេរ (វិមាត្រ) នៅក្នុងសំណុំទិន្នន័យធំៗ ដោយរក្សាទុកតែព័ត៌មានដែលសំខាន់បំផុត ដើម្បីធ្វើឱ្យម៉ូដែលរៀនបានលឿន និងចៀសវាងភាពស្មុគស្មាញជ្រុល (Overfitting)។	ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយក្បាលឱ្យនៅត្រឹមមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យសំខាន់ៗទាំងស្រុង។
Multiclass logistic regression	ជាក្បួនដោះស្រាយសម្រាប់ចាត់ថ្នាក់ទិន្នន័យដែលអាចព្យាករណ៍ និងបែងចែកវត្ថុ ឬករណីទៅជាក្រុមច្រើនជាងពីរ (ឧទាហរណ៍៖ ប្រភេទជំងឺទី១ ទី២ និងទី៣) ដោយផ្អែកលើប្រូបាប៊ីលីតេ។	ដូចជាគ្រូពេទ្យដែលអាចធ្វើរោគវិនិច្ឆ័យប្រាប់អ្នកថាអ្នកមានជំងឺកម្រិតស្រាល មធ្យម ឬធ្ងន់ ដោយមិនមែនប្រាប់ត្រឹមតែថាមានជំងឺ ឬគ្មានជំងឺនោះទេ។
Gradient descent	វិធីសាស្ត្រគណនាដើម្បីស្វែងរកចំណុចទាបបំផុតនៃអនុគមន៍ (Loss function) ដែលជួយឱ្យម៉ូដែលកែតម្រូវកំហុសរបស់ខ្លួនជាបន្តបន្ទាប់រហូតដល់វាអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវបំផុត។	ដូចជាមនុស្សម្នាក់ដែលបិទភ្នែកដើរចុះពីលើភ្នំ ដោយប្រើជើងស្ទាបរកផ្លូវដែលជម្រាលចុះក្រោមរហូតដល់បានទៅដល់បាតជ្រលងភ្នំ។
Softmax function	អនុគមន៍គណិតវិទ្យាដែលបំប្លែងលទ្ធផលនៃម៉ូដែលទៅជាតម្លៃប្រូបាប៊ីលីតេចន្លោះពី ០ ទៅ ១ សម្រាប់ក្រុមនីមួយៗ ដោយធានាថាផលបូកនៃប្រូបាប៊ីលីតេទាំងអស់ស្មើនឹង ១។ វាជួយសម្រេចថាទិន្នន័យគួរធ្លាក់ទៅក្នុងក្រុមណាដែលមានភាគរយខ្ពស់ជាងគេ។	ដូចជាការបែងចែកនំមួយដុំទៅឱ្យមនុស្សច្រើននាក់ ដោយអ្នកដែលស័ក្តិសមបំផុតទទួលបានចំណែកធំជាងគេ ហើយបូកបញ្ចូលចំណែកទាំងអស់គ្នាគឺស្មើនឹងនំមួយពេញ។
Class imbalance	បញ្ហានៅក្នុងសំណុំទិន្នន័យដែលចំនួនទិន្នន័យនៅក្នុងក្រុមមួយ (ឧទាហរណ៍៖ អ្នកជំងឺមានសុខភាពល្អ) មានចំនួនច្រើនលើសលប់ធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍៖ អ្នកមានជំងឺកម្រ) ដែលធ្វើឱ្យម៉ូដែលពិបាករៀនស្គាល់ក្រុមភាគតិច។	ដូចជាការរាវរកម្ជុលក្នុងបាតសមុទ្រ ដែលមានទឹកច្រើនមហិមា (ក្រុមភាគច្រើន) តែមានម្ជុលតែមួយ (ក្រុមភាគតិច)។
Z-score normalization	បច្ចេកទេសធ្វើស្តង់ដារទិន្នន័យមុនពេលបញ្ចូលទៅក្នុងម៉ូដែល ដើម្បីកែប្រែទិន្នន័យដែលមានខ្នាតរង្វាស់ខុសៗគ្នា (ឧទាហរណ៍៖ គីឡូក្រាម និងសង់ទីម៉ែត្រ) ឱ្យមកនៅកម្រិតប្រហាក់ប្រហែលគ្នា (មធ្យម ០ និងរង្វាស់ងាករេច្បាស់លាស់ ១)។	ដូចជាការប្តូររូបិយប័ណ្ណពីប្រទេសផ្សេងៗគ្នាឱ្យទៅជាប្រាក់ដុល្លារទាំងអស់ ដើម្បីងាយស្រួលប្រៀបធៀបទំហំទឹកប្រាក់ពិតប្រាកដ។
Synthetic Minority Oversampling Technique (SMOTE)	បច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យភាគតិច (Minority class) ដើម្បីឱ្យចំនួនរបស់វាមានតុល្យភាពជាមួយក្រុមភាគច្រើន (Majority class)។	ដូចជាការថតចម្លងឯកសារសំខាន់មួយសន្លឹកឱ្យបានច្រើនច្បាប់ ដើម្បីកុំឱ្យវាបាត់ ឬត្រូវគេមើលរំលងនៅពេលយកទៅប្រើប្រាស់។
Loss function	រូបមន្តដែលវាស់ស្ទង់ថាតើម៉ូដែលទស្សន៍ទាយខុសពីលទ្ធផលពិតប្រាកដកម្រិតណា។ គោលបំណងចម្បងនៃម៉ាស៊ីនរៀនគឺដើម្បីបង្រួមតម្លៃនៃកំហុសនេះឱ្យតូចបំផុតតាមដែលអាចធ្វើទៅបាន។	ដូចជាពិន្ទុដកក្នុងពេលប្រឡង ដែលអ្នកត្រូវខិតខំកាត់បន្ថយកំហុសដើម្បីទទួលបានពិន្ទុដកតិចបំផុតទើបអាចប្រឡងជាប់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖