Original Title: SMOTE-MRS: A Novel SMOTE-Multiresolution Sampling Technique for Imbalanced Distribution to Improve Prediction of Anemia
Source: doi.org/10.1109/ACCESS.2024.3482968
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

SMOTE-MRS៖ បច្ចេកទេសយកគំរូ SMOTE-Multiresolution ថ្មីមួយសម្រាប់ការចែកចាយទិន្នន័យគ្មានតុល្យភាព ដើម្បីកែលម្អការទស្សន៍ទាយជំងឺស្លេកស្លាំង

ចំណងជើងដើម៖ SMOTE-MRS: A Novel SMOTE-Multiresolution Sampling Technique for Imbalanced Distribution to Improve Prediction of Anemia

អ្នកនិពន្ធ៖ Dimas Chaerul Ekty Saputra (Khon Kaen University), Khamron Sunat (Khon Kaen University), Tri Ratnaningsih (Gadjah Mada University)

ឆ្នាំបោះពុម្ព៖ 2024, IEEE Access

វិស័យសិក្សា៖ Machine Learning in Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យវេជ្ជសាស្រ្តដែលគ្មានតុល្យភាព (Imbalanced datasets) ដែលធ្វើឱ្យម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine learning models) ប្រពៃណីមានការលំបាកក្នុងការទស្សន៍ទាយ និងធ្វើរោគវិនិច្ឆ័យជំងឺស្លេកស្លាំង (Anemia) បានត្រឹមត្រូវ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីនកូនកាត់ថ្មីមួយឈ្មោះថា SMOTE-MRS ដោយរួមបញ្ចូលបច្ចេកទេសជាច្រើនដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពមុននឹងធ្វើការវិភាគ។

ការចង្កោមទិន្នន័យ (K-Means Clustering) ដើម្បីបែងចែកសំណុំទិន្នន័យជាក្រុមរងដែលមានលក្ខណៈស្រដៀងគ្នា។
បច្ចេកទេសបង្កើតទិន្នន័យសំយោគ (SMOTE) សម្រាប់បង្កើតទិន្នន័យសិប្បនិម្មិតតំណាងឱ្យក្រុមភាគតិចក្នុងចង្កោមនីមួយៗ។
ការយកគំរូហួសកម្រិតដោយចៃដន្យ (Random Over Sampling - ROS) ដើម្បីថតចម្លងទិន្នន័យឱ្យមានតុល្យភាពពេញលេញ។
ការវាយតម្លៃម៉ូដែលដោយប្រើក្បួនដោះស្រាយ Random Forest (RF), Naïve Bayes (NB), និង Support Vector Machine (SVM) ជាមួយនឹងវិធីសាស្ត្រ 10-fold cross-validation។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល SMOTE-MRS សម្រេចបានលទ្ធផលយ៉ាងល្អឥតខ្ចោះក្នុងការទស្សន៍ទាយជំងឺស្លេកស្លាំង ដោយទទួលបានភាពត្រឹមត្រូវ (Accuracy) ០.៩៧៣, Precision ០.៩៦៨, F1-Score ០.៩៧៩, និង AUC ០.៩៩៤។
វាបានបង្ហាញសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយការចាត់ថ្នាក់ខុស (Misclassification) និងបង្កើនភាពប្រែប្រួល (Sensitivity) បើប្រៀបធៀបទៅនឹងវិធីសាស្រ្តចាស់ៗដូចជា SMOTE ធម្មតា, SMOTE-ENC, និង ROS។
បច្ចេកទេសនេះក៏បង្ហាញពីភាពរឹងមាំ និងអាចបត់បែនបានខ្ពស់ក្នុងការអនុវត្តលើសំណុំទិន្នន័យវេជ្ជសាស្ត្រផ្សេងទៀត រួមមាន ជំងឺទឹកនោមផ្អែម មហារីកសុដន់ និងជំងឺខ្សោយតម្រងនោម។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SMOTE-MRS (Proposed) បច្ចេកទេស SMOTE-MRS (ម៉ូដែលស្នើឡើង)	អាចបង្កើតទិន្នន័យសំយោគបានយ៉ាងសុក្រឹតតាមរយៈការធ្វើចង្កោម (Clustering) ជាមុន កាត់បន្ថយការចាត់ថ្នាក់ខុស និងមានតុល្យភាពខ្ពស់រវាង Recall និង Precision។	ត្រូវការពេលវេលាគណនាច្រើនជាងគេបន្តិច (០.២៧០ វិនាទី) និងងាយរងឥទ្ធិពលពីការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ដូចជាចំនួនចង្កោមជាដើម។	សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៣%, AUC ៩៩.៤%, ភាពជាក់លាក់ (Precision) ៩៦.៨%, និងការចងចាំ (Recall) ៩៩.០%។
SMOTE (Synthetic Minority Over-sampling Technique) បច្ចេកទេស SMOTE	មានភាពពេញនិយម ងាយស្រួលប្រើប្រាស់ និងមានភាពរហ័សក្នុងការគណនាទិន្នន័យសំយោគ (០.២០៥ វិនាទី)។	អាចបង្កើតទិន្នន័យក្លែងក្លាយដែលមិនសមស្រប (Noisy or unrealistic samples) ដោយសារតែការបង្កើតទិន្នន័យថ្មីឆ្លងកាត់តំបន់ទិន្នន័យខុសៗគ្នា។	ផ្តល់ភាពត្រឹមត្រូវប្រែប្រួលពី ៨៨% ទៅ ១០០% អាស្រ័យលើភាពស្មុគស្មាញនៃសំណុំទិន្នន័យ។
SMOTE-ENC (Encoded Nominal and Continuous) បច្ចេកទេស SMOTE-ENC	មានដំណើរការលឿនជាងគេបំផុតក្នុងការសិក្សា (០.១៤៦ វិនាទី) និងអាចដោះស្រាយបានល្អជាមួយទិន្នន័យដែលមានទាំងប្រភេទ Nominal និង Continuous។	ផ្តល់លទ្ធផលមិនសូវថេរ និងមានកម្រិតភាពត្រឹមត្រូវទាបជាង SMOTE-MRS ជាពិសេសនៅពេលអនុវត្តលើក្រុមទិន្នន័យភាគតិច។	បង្ហាញភាពត្រឹមត្រូវចន្លោះពី ៧៦.៦៤% ទៅ ៧៩.២១% នៅលើសំណុំទិន្នន័យមួយចំនួន។
ROS (Random Over Sampling) ការយកគំរូហួសកម្រិតដោយចៃដន្យ	មានភាពសាមញ្ញបំផុតដោយគ្រាន់តែចម្លងទិន្នន័យដែលមានស្រាប់ ដើម្បីបង្កើនចំនួនក្រុមទិន្នន័យភាគតិច។	ងាយនឹងធ្វើឱ្យម៉ូដែលរៀនទន្ទេញ (Overfitting) ដោយសារការថតចម្លងទិន្នន័យដដែលៗ ដោយមិនបានគិតពីភាពស្មុគស្មាញនៃទិន្នន័យ។	ទោះបីជាបង្ហាញតួលេខខ្ពស់លើក្រដាស (៩៩.៨%) តែច្រើនតែមានដំណើរការជាក់ស្តែងខ្សោយជាងគេធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានវាស់វែងភាពស្មុគស្មាញនៃការគណនាដោយផ្តោតលើរយៈពេលនៃការប្រតិបត្តិ (Execution time) និងការប្រើប្រាស់អង្គចងចាំ (Memory usage) សម្រាប់បច្ចេកទេសនីមួយៗ។

Execution Time (រយៈពេលប្រតិបត្តិ): SMOTE-MRS ចំណាយពេលយូរជាងគេប្រមាណ ០.២៧០ វិនាទី ខណៈ SMOTE ប្រើពេល ០.២០៥ វិនាទី និង SMOTE-ENC លឿនជាងគេប្រើពេលត្រឹមតែ ០.១៤៦ វិនាទី។
Memory Usage (ការប្រើប្រាស់អង្គចងចាំ): ការប្រើប្រាស់អង្គចងចាំ (RAM) មានកម្រិតប្រហាក់ប្រហែលគ្នាយ៉ាងខ្លាំងសម្រាប់គ្រប់បច្ចេកទេសទាំងអស់ គឺប្រមាណ ២៤៤.៦៣ MB ដែលបង្ហាញថាការប្រើប្រាស់ធនធានមិនមានភាពខុសគ្នាខ្លាំងនោះទេ។
Machine Learning Algorithms: ត្រូវការការប្រើប្រាស់ក្បួនដោះស្រាយដូចជា Random Forest (RF), Naïve Bayes (NB), និង Support Vector Machine (SVM) សម្រាប់ការបង្ហាត់ម៉ូដែល និងវាយតម្លៃ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

សំណុំទិន្នន័យជំងឺស្លេកស្លាំងក្នុងការសិក្សានេះត្រូវបានប្រមូលពីប្រជាជនជនជាតិជ្វា (Javanese) ចំនួន ១៩០ នាក់ (ស្រី ១៦៥ នាក់, ប្រុស ២៥ នាក់) អាយុពី ១៥ ទៅ ៤១ ឆ្នាំ នៅខេត្តយុក្យាកាតា (Yogyakarta) ប្រទេសឥណ្ឌូនេស៊ី ចន្លោះឆ្នាំ ២០២០-២០២១។ ការប្រើប្រាស់ទិន្នន័យដែលមានភាពលម្អៀងខាងយេនឌ័រខ្លាំង និងកត្តាហ្សែនដាច់ដោយឡែកនេះ អាចតម្រូវឱ្យមានការកែសម្រួលនៅពេលយកមកអនុវត្តជាក់ស្តែងនៅកម្ពុជា ដើម្បីធានាបាននូវភាពសុក្រឹតខ្ពស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស SMOTE-MRS ពិតជាមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យសុខាភិបាលកម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យវេជ្ជសាស្ត្រដែលមានភាពមិនស្មើគ្នា។

ការធ្វើរោគវិនិច្ឆ័យជំងឺស្លេកស្លាំងនៅតាមមន្ទីរពេទ្យរដ្ឋ និងឯកជន: កម្ពុជាមានអត្រាអ្នកជំងឺស្លេកស្លាំងច្រើន ជាពិសេសស្ត្រីមានផ្ទៃពោះនិងកុមារ។ ម៉ូដែលនេះអាចជួយមន្ទីរពេទ្យដូចជាមន្ទីរពេទ្យគន្ធបុប្ផា ក្នុងការវិភាគទិន្នន័យឈាមដើម្បីតាមដាន និងព្យាករណ៍ជំងឺនេះបានលឿន។
ប្រព័ន្ធទស្សន៍ទាយជំងឺមិនឆ្លង (NCDs Detection): ដោយសារម៉ូដែលនេះក៏មានប្រសិទ្ធភាពខ្ពស់លើទិន្នន័យជំងឺទឹកនោមផ្អែម និងខ្សោយតម្រងនោម វាអាចត្រូវបានប្រើយកទៅស្រាវជ្រាវក្នុងប្រព័ន្ធតាមដានសុខភាពរបស់ក្រសួងសុខាភិបាល លើទិន្នន័យជំងឺមិនឆ្លងនៅកម្ពុជា។
ការស្រាវជ្រាវជីវព័ត៌មានវិទ្យា (Bioinformatics & Medical Research): សាកលវិទ្យាល័យ ឬវិទ្យាស្ថានស្រាវជ្រាវ (ឧ. វិទ្យាស្ថានប៉ាស្ទ័រកម្ពុជា) អាចប្រើប្រាស់បច្ចេកទេសនេះ ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យអ្នកជំងឺកម្រ ដែលមានចំនួនសំណាកតិចតួចធៀបនឹងអ្នកធម្មតា។

ជារួម បច្ចេកទេសនេះគឺជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពមួយដែលអាចជួយឱ្យប្រព័ន្ធថែទាំសុខភាព និងការស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា ប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI) ដើម្បីទាញយកអត្ថប្រយោជន៍អតិបរមាពីសំណុំទិន្នន័យដែលមានកម្រិត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីបញ្ហាទិន្នន័យគ្មានតុល្យភាព (Imbalanced Data): ចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃទិន្នន័យមិនស្មើគ្នា និងបច្ចេកទេស Oversampling តាមរយៈការអនុវត្តការសរសេរកូដនៅក្នុងកម្មវិធី Python ដោយប្រើប្រាស់បណ្ណាល័យ imbalanced-learn (imblearn)។
អនុវត្តក្បួនដោះស្រាយមូលដ្ឋាន: រៀនសរសេរកូដសម្រាប់ក្បួនដោះស្រាយ K-Means Clustering និង SMOTE ដោយឡែកពីគ្នា ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ដើម្បីយល់ពីដំណើរការនៃការបែងចែកចង្កោម និងការបង្កើតទិន្នន័យសំយោគ។
កសាងម៉ូដែលកូនកាត់ SMOTE-MRS: សាកល្បងសរសេរកូដបញ្ចូលគ្នាដោយប្រើ K-Means ដើម្បីចែកក្រុមទិន្នន័យ បន្ទាប់មកអនុវត្ត SMOTE បូករួមនឹង Random Over Sampling (ROS) លើក្រុមនីមួយៗ ទៅតាមជំហានដែលបានបង្ហាញក្នុងឯកសារស្រាវជ្រាវ។
បង្ហាត់ម៉ូដែលជាមួយទិន្នន័យវេជ្ជសាស្ត្រ: ស្វែងរកសំណុំទិន្នន័យសុខភាពសាធារណៈ (ឧទាហរណ៍ពី Kaggle ទាក់ទងនឹង Anemia ឬ Diabetes) ដើម្បីយកមកបង្ហាត់ម៉ូដែល Random Forest (RF) ជាមួយនឹងវិធីសាស្ត្រ 10-fold cross-validation។
វាយតម្លៃនិងកែតម្រូវប៉ារ៉ាម៉ែត្រ (Model Evaluation): ប្រៀបធៀបលទ្ធផលដោយប្រើរង្វាស់រង្វាល់ស្តង់ដារដូចជា Accuracy, Precision, Recall, F1-Score និង AUC រួចធ្វើការកែតម្រូវចំនួនចង្កោម (Number of Clusters) ដើម្បីទទួលបានលទ្ធផលល្អបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
SMOTE (Synthetic Minority Over-sampling Technique)	ជាបច្ចេកទេសក្នុងរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា ដោយការបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីៗសម្រាប់ក្រុមភាគតិច (Minority class) តាមរយៈការគណនាលាយបញ្ចូលគ្នារវាងទិន្នន័យពិតដែលមានស្រាប់ ជាជាងការថតចម្លងទិន្នន័យដដែលៗ។	ដូចជាការគូររូបមនុស្សថ្មីម្នាក់ដោយយកទម្រង់មុខឪពុកនិងម្តាយមកផ្សំបញ្ចូលគ្នា ជាជាងការថតចម្លងរូបថតរបស់ឪពុកឬម្តាយដដែលៗបន្លំធ្វើជាមនុស្សថ្មី។
K-Means Clustering	ជាក្បួនដោះស្រាយសម្រាប់បែងចែកទិន្នន័យទៅជាក្រុម (Clusters) ចំនួន K ផ្សេងៗគ្នា ដោយផ្អែកលើភាពស្រដៀងគ្នានៃលក្ខណៈទិន្នន័យ ដើម្បីធានាថាទិន្នន័យក្នុងក្រុមនីមួយៗមានភាពដូចគ្នាច្រើនបំផុត។	ដូចជាការចាត់ថ្នាក់សិស្សក្នុងសាលាទៅតាមចំណង់ចំណូលចិត្តស្រដៀងគ្នាចូលទៅក្នុងក្លឹបផ្សេងៗគ្នា ដើម្បីងាយស្រួលគ្រប់គ្រង។
Random Over Sampling (ROS)	ជាវិធីសាស្ត្រធ្វើឱ្យទិន្នន័យមានតុល្យភាព ដោយការថតចម្លង (Duplicate) ទិន្នន័យក្នុងក្រុមភាគតិចដោយចៃដន្យរហូតដល់មានចំនួនស្មើនឹងក្រុមភាគច្រើន ដែលងាយស្រួលអនុវត្តតែអាចបណ្តាលឱ្យម៉ូដែលទន្ទេញចាំទិន្នន័យ (Overfitting)។	ដូចជាការថតចម្លង (Copy) សន្លឹកកិច្ចការដដែលៗជាច្រើនច្បាប់ ដើម្បីឱ្យមើលទៅមានចំនួនច្រើនស្មើនឹងកិច្ចការរបស់អ្នកដទៃ។
10-fold cross-validation	ជាបច្ចេកទេសវាយតម្លៃម៉ូដែល ដោយបែងចែកទិន្នន័យជា ១០ ចំណែកស្មើៗគ្នា រួចយក ៩ ចំណែកទៅបង្ហាត់ម៉ូដែល និង ១ ចំណែកទៀតទៅធ្វើតេស្ត ដោយធ្វើបែបនេះឆ្លាស់គ្នាចំនួន ១០ ដង ដើម្បីធានាថាម៉ូដែលពិតជាអាចដំណើរការបានល្អមិនលម្អៀងទៅលើផ្នែកណាមួយនៃទិន្នន័យ។	ដូចជាការហ្វឹកហាត់ធ្វើលំហាត់គណិតវិទ្យា ១០ ជំពូក ដោយរៀន ៩ ជំពូក ហើយប្រឡង ១ ជំពូក ឆ្លាស់គ្នារហូតទាល់តែប្រឡងគ្រប់ជំពូកទាំងអស់ ដើម្បីប្រាកដថាអ្នកពិតជាចេះមែន។
AUC (Area Under the Curve)	ជារង្វាស់រង្វាល់ស្តង់ដារមួយដែលបង្ហាញពីសមត្ថភាពរួមរបស់ម៉ូដែលក្នុងការបែងចែករវាងក្រុមទាំងពីរឱ្យបានត្រឹមត្រូវ (ឧទាហរណ៍៖ ការបែងចែកអ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ)។ តម្លៃ AUC កាន់តែខិតជិត ១ បង្ហាញថាម៉ូដែលកាន់តែពូកែ។	ដូចជាពិន្ទុរួមប្រចាំឆ្នាំរបស់សិស្ស ដែលបង្ហាញពីសមត្ថភាពទូទៅរបស់គាត់ក្នុងការប្រឡងជាប់គ្រប់មុខវិជ្ជា។
Imbalanced Dataset	ជាសំណុំទិន្នន័យដែលមានចំនួនទិន្នន័យក្នុងក្រុមមួយច្រើនលើសលប់ (ក្រុមភាគច្រើន) ធៀបនឹងក្រុមមួយទៀត (ក្រុមភាគតិច) ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីនរៀនងាយនឹងលម្អៀងទៅរកក្រុមភាគច្រើន និងទស្សន៍ទាយក្រុមភាគតិចខុស។	ដូចជាការស្ទង់មតិក្នុងថ្នាក់ដែលមានសិស្សប្រុស ៩០ នាក់ និងសិស្សស្រី ១០ នាក់ លទ្ធផលភាគច្រើនប្រាកដជាលម្អៀងទៅតាមចំណង់ចំណូលចិត្តរបស់សិស្សប្រុស។
Random Forest (RF)	ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនប្រភេទ Ensemble ដែលបង្កើតដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន ហើយធ្វើការបោះឆ្នោតរួមគ្នាដើម្បីទាញយកលទ្ធផលចុងក្រោយ ដែលជួយកាត់បន្ថយកំហុស និងបង្កើនភាពសុក្រឹតខ្ពស់ជាងការប្រើដើមឈើសម្រេចចិត្តតែមួយ។	ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញចំនួន ១០០ នាក់ មុននឹងសម្រេចចិត្តថាអ្នកមានជំងឺអ្វី ជាជាងជឿលើការធ្វើរោគវិនិច្ឆ័យរបស់គ្រូពេទ្យតែម្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖