Original Title: SMOTE-MRS: A Novel SMOTE-Multiresolution Sampling Technique for Imbalanced Distribution to Improve Prediction of Anemia
Source: doi.org/10.1109/ACCESS.2024.3482968
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

SMOTE-MRS៖ បច្ចេកទេសយកគំរូ SMOTE-Multiresolution ថ្មីមួយសម្រាប់ការចែកចាយទិន្នន័យគ្មានតុល្យភាព ដើម្បីកែលម្អការទស្សន៍ទាយជំងឺស្លេកស្លាំង

ចំណងជើងដើម៖ SMOTE-MRS: A Novel SMOTE-Multiresolution Sampling Technique for Imbalanced Distribution to Improve Prediction of Anemia

អ្នកនិពន្ធ៖ Dimas Chaerul Ekty Saputra (Khon Kaen University), Khamron Sunat (Khon Kaen University), Tri Ratnaningsih (Gadjah Mada University)

ឆ្នាំបោះពុម្ព៖ 2024, IEEE Access

វិស័យសិក្សា៖ Machine Learning in Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យវេជ្ជសាស្រ្តដែលគ្មានតុល្យភាព (Imbalanced datasets) ដែលធ្វើឱ្យម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine learning models) ប្រពៃណីមានការលំបាកក្នុងការទស្សន៍ទាយ និងធ្វើរោគវិនិច្ឆ័យជំងឺស្លេកស្លាំង (Anemia) បានត្រឹមត្រូវ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីនកូនកាត់ថ្មីមួយឈ្មោះថា SMOTE-MRS ដោយរួមបញ្ចូលបច្ចេកទេសជាច្រើនដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពមុននឹងធ្វើការវិភាគ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
SMOTE-MRS (Proposed)
បច្ចេកទេស SMOTE-MRS (ម៉ូដែលស្នើឡើង)
អាចបង្កើតទិន្នន័យសំយោគបានយ៉ាងសុក្រឹតតាមរយៈការធ្វើចង្កោម (Clustering) ជាមុន កាត់បន្ថយការចាត់ថ្នាក់ខុស និងមានតុល្យភាពខ្ពស់រវាង Recall និង Precision។ ត្រូវការពេលវេលាគណនាច្រើនជាងគេបន្តិច (០.២៧០ វិនាទី) និងងាយរងឥទ្ធិពលពីការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ដូចជាចំនួនចង្កោមជាដើម។ សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៣%, AUC ៩៩.៤%, ភាពជាក់លាក់ (Precision) ៩៦.៨%, និងការចងចាំ (Recall) ៩៩.០%។
SMOTE (Synthetic Minority Over-sampling Technique)
បច្ចេកទេស SMOTE
មានភាពពេញនិយម ងាយស្រួលប្រើប្រាស់ និងមានភាពរហ័សក្នុងការគណនាទិន្នន័យសំយោគ (០.២០៥ វិនាទី)។ អាចបង្កើតទិន្នន័យក្លែងក្លាយដែលមិនសមស្រប (Noisy or unrealistic samples) ដោយសារតែការបង្កើតទិន្នន័យថ្មីឆ្លងកាត់តំបន់ទិន្នន័យខុសៗគ្នា។ ផ្តល់ភាពត្រឹមត្រូវប្រែប្រួលពី ៨៨% ទៅ ១០០% អាស្រ័យលើភាពស្មុគស្មាញនៃសំណុំទិន្នន័យ។
SMOTE-ENC (Encoded Nominal and Continuous)
បច្ចេកទេស SMOTE-ENC
មានដំណើរការលឿនជាងគេបំផុតក្នុងការសិក្សា (០.១៤៦ វិនាទី) និងអាចដោះស្រាយបានល្អជាមួយទិន្នន័យដែលមានទាំងប្រភេទ Nominal និង Continuous។ ផ្តល់លទ្ធផលមិនសូវថេរ និងមានកម្រិតភាពត្រឹមត្រូវទាបជាង SMOTE-MRS ជាពិសេសនៅពេលអនុវត្តលើក្រុមទិន្នន័យភាគតិច។ បង្ហាញភាពត្រឹមត្រូវចន្លោះពី ៧៦.៦៤% ទៅ ៧៩.២១% នៅលើសំណុំទិន្នន័យមួយចំនួន។
ROS (Random Over Sampling)
ការយកគំរូហួសកម្រិតដោយចៃដន្យ
មានភាពសាមញ្ញបំផុតដោយគ្រាន់តែចម្លងទិន្នន័យដែលមានស្រាប់ ដើម្បីបង្កើនចំនួនក្រុមទិន្នន័យភាគតិច។ ងាយនឹងធ្វើឱ្យម៉ូដែលរៀនទន្ទេញ (Overfitting) ដោយសារការថតចម្លងទិន្នន័យដដែលៗ ដោយមិនបានគិតពីភាពស្មុគស្មាញនៃទិន្នន័យ។ ទោះបីជាបង្ហាញតួលេខខ្ពស់លើក្រដាស (៩៩.៨%) តែច្រើនតែមានដំណើរការជាក់ស្តែងខ្សោយជាងគេធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានវាស់វែងភាពស្មុគស្មាញនៃការគណនាដោយផ្តោតលើរយៈពេលនៃការប្រតិបត្តិ (Execution time) និងការប្រើប្រាស់អង្គចងចាំ (Memory usage) សម្រាប់បច្ចេកទេសនីមួយៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

សំណុំទិន្នន័យជំងឺស្លេកស្លាំងក្នុងការសិក្សានេះត្រូវបានប្រមូលពីប្រជាជនជនជាតិជ្វា (Javanese) ចំនួន ១៩០ នាក់ (ស្រី ១៦៥ នាក់, ប្រុស ២៥ នាក់) អាយុពី ១៥ ទៅ ៤១ ឆ្នាំ នៅខេត្តយុក្យាកាតា (Yogyakarta) ប្រទេសឥណ្ឌូនេស៊ី ចន្លោះឆ្នាំ ២០២០-២០២១។ ការប្រើប្រាស់ទិន្នន័យដែលមានភាពលម្អៀងខាងយេនឌ័រខ្លាំង និងកត្តាហ្សែនដាច់ដោយឡែកនេះ អាចតម្រូវឱ្យមានការកែសម្រួលនៅពេលយកមកអនុវត្តជាក់ស្តែងនៅកម្ពុជា ដើម្បីធានាបាននូវភាពសុក្រឹតខ្ពស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស SMOTE-MRS ពិតជាមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យសុខាភិបាលកម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យវេជ្ជសាស្ត្រដែលមានភាពមិនស្មើគ្នា។

ជារួម បច្ចេកទេសនេះគឺជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពមួយដែលអាចជួយឱ្យប្រព័ន្ធថែទាំសុខភាព និងការស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា ប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI) ដើម្បីទាញយកអត្ថប្រយោជន៍អតិបរមាពីសំណុំទិន្នន័យដែលមានកម្រិត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីបញ្ហាទិន្នន័យគ្មានតុល្យភាព (Imbalanced Data): ចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃទិន្នន័យមិនស្មើគ្នា និងបច្ចេកទេស Oversampling តាមរយៈការអនុវត្តការសរសេរកូដនៅក្នុងកម្មវិធី Python ដោយប្រើប្រាស់បណ្ណាល័យ imbalanced-learn (imblearn)
  2. អនុវត្តក្បួនដោះស្រាយមូលដ្ឋាន: រៀនសរសេរកូដសម្រាប់ក្បួនដោះស្រាយ K-Means Clustering និង SMOTE ដោយឡែកពីគ្នា ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ដើម្បីយល់ពីដំណើរការនៃការបែងចែកចង្កោម និងការបង្កើតទិន្នន័យសំយោគ។
  3. កសាងម៉ូដែលកូនកាត់ SMOTE-MRS: សាកល្បងសរសេរកូដបញ្ចូលគ្នាដោយប្រើ K-Means ដើម្បីចែកក្រុមទិន្នន័យ បន្ទាប់មកអនុវត្ត SMOTE បូករួមនឹង Random Over Sampling (ROS) លើក្រុមនីមួយៗ ទៅតាមជំហានដែលបានបង្ហាញក្នុងឯកសារស្រាវជ្រាវ។
  4. បង្ហាត់ម៉ូដែលជាមួយទិន្នន័យវេជ្ជសាស្ត្រ: ស្វែងរកសំណុំទិន្នន័យសុខភាពសាធារណៈ (ឧទាហរណ៍ពី Kaggle ទាក់ទងនឹង Anemia ឬ Diabetes) ដើម្បីយកមកបង្ហាត់ម៉ូដែល Random Forest (RF) ជាមួយនឹងវិធីសាស្ត្រ 10-fold cross-validation
  5. វាយតម្លៃនិងកែតម្រូវប៉ារ៉ាម៉ែត្រ (Model Evaluation): ប្រៀបធៀបលទ្ធផលដោយប្រើរង្វាស់រង្វាល់ស្តង់ដារដូចជា Accuracy, Precision, Recall, F1-Score និង AUC រួចធ្វើការកែតម្រូវចំនួនចង្កោម (Number of Clusters) ដើម្បីទទួលបានលទ្ធផលល្អបំផុត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
SMOTE (Synthetic Minority Over-sampling Technique) ជាបច្ចេកទេសក្នុងរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា ដោយការបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីៗសម្រាប់ក្រុមភាគតិច (Minority class) តាមរយៈការគណនាលាយបញ្ចូលគ្នារវាងទិន្នន័យពិតដែលមានស្រាប់ ជាជាងការថតចម្លងទិន្នន័យដដែលៗ។ ដូចជាការគូររូបមនុស្សថ្មីម្នាក់ដោយយកទម្រង់មុខឪពុកនិងម្តាយមកផ្សំបញ្ចូលគ្នា ជាជាងការថតចម្លងរូបថតរបស់ឪពុកឬម្តាយដដែលៗបន្លំធ្វើជាមនុស្សថ្មី។
K-Means Clustering ជាក្បួនដោះស្រាយសម្រាប់បែងចែកទិន្នន័យទៅជាក្រុម (Clusters) ចំនួន K ផ្សេងៗគ្នា ដោយផ្អែកលើភាពស្រដៀងគ្នានៃលក្ខណៈទិន្នន័យ ដើម្បីធានាថាទិន្នន័យក្នុងក្រុមនីមួយៗមានភាពដូចគ្នាច្រើនបំផុត។ ដូចជាការចាត់ថ្នាក់សិស្សក្នុងសាលាទៅតាមចំណង់ចំណូលចិត្តស្រដៀងគ្នាចូលទៅក្នុងក្លឹបផ្សេងៗគ្នា ដើម្បីងាយស្រួលគ្រប់គ្រង។
Random Over Sampling (ROS) ជាវិធីសាស្ត្រធ្វើឱ្យទិន្នន័យមានតុល្យភាព ដោយការថតចម្លង (Duplicate) ទិន្នន័យក្នុងក្រុមភាគតិចដោយចៃដន្យរហូតដល់មានចំនួនស្មើនឹងក្រុមភាគច្រើន ដែលងាយស្រួលអនុវត្តតែអាចបណ្តាលឱ្យម៉ូដែលទន្ទេញចាំទិន្នន័យ (Overfitting)។ ដូចជាការថតចម្លង (Copy) សន្លឹកកិច្ចការដដែលៗជាច្រើនច្បាប់ ដើម្បីឱ្យមើលទៅមានចំនួនច្រើនស្មើនឹងកិច្ចការរបស់អ្នកដទៃ។
10-fold cross-validation ជាបច្ចេកទេសវាយតម្លៃម៉ូដែល ដោយបែងចែកទិន្នន័យជា ១០ ចំណែកស្មើៗគ្នា រួចយក ៩ ចំណែកទៅបង្ហាត់ម៉ូដែល និង ១ ចំណែកទៀតទៅធ្វើតេស្ត ដោយធ្វើបែបនេះឆ្លាស់គ្នាចំនួន ១០ ដង ដើម្បីធានាថាម៉ូដែលពិតជាអាចដំណើរការបានល្អមិនលម្អៀងទៅលើផ្នែកណាមួយនៃទិន្នន័យ។ ដូចជាការហ្វឹកហាត់ធ្វើលំហាត់គណិតវិទ្យា ១០ ជំពូក ដោយរៀន ៩ ជំពូក ហើយប្រឡង ១ ជំពូក ឆ្លាស់គ្នារហូតទាល់តែប្រឡងគ្រប់ជំពូកទាំងអស់ ដើម្បីប្រាកដថាអ្នកពិតជាចេះមែន។
AUC (Area Under the Curve) ជារង្វាស់រង្វាល់ស្តង់ដារមួយដែលបង្ហាញពីសមត្ថភាពរួមរបស់ម៉ូដែលក្នុងការបែងចែករវាងក្រុមទាំងពីរឱ្យបានត្រឹមត្រូវ (ឧទាហរណ៍៖ ការបែងចែកអ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ)។ តម្លៃ AUC កាន់តែខិតជិត ១ បង្ហាញថាម៉ូដែលកាន់តែពូកែ។ ដូចជាពិន្ទុរួមប្រចាំឆ្នាំរបស់សិស្ស ដែលបង្ហាញពីសមត្ថភាពទូទៅរបស់គាត់ក្នុងការប្រឡងជាប់គ្រប់មុខវិជ្ជា។
Imbalanced Dataset ជាសំណុំទិន្នន័យដែលមានចំនួនទិន្នន័យក្នុងក្រុមមួយច្រើនលើសលប់ (ក្រុមភាគច្រើន) ធៀបនឹងក្រុមមួយទៀត (ក្រុមភាគតិច) ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីនរៀនងាយនឹងលម្អៀងទៅរកក្រុមភាគច្រើន និងទស្សន៍ទាយក្រុមភាគតិចខុស។ ដូចជាការស្ទង់មតិក្នុងថ្នាក់ដែលមានសិស្សប្រុស ៩០ នាក់ និងសិស្សស្រី ១០ នាក់ លទ្ធផលភាគច្រើនប្រាកដជាលម្អៀងទៅតាមចំណង់ចំណូលចិត្តរបស់សិស្សប្រុស។
Random Forest (RF) ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនប្រភេទ Ensemble ដែលបង្កើតដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន ហើយធ្វើការបោះឆ្នោតរួមគ្នាដើម្បីទាញយកលទ្ធផលចុងក្រោយ ដែលជួយកាត់បន្ថយកំហុស និងបង្កើនភាពសុក្រឹតខ្ពស់ជាងការប្រើដើមឈើសម្រេចចិត្តតែមួយ។ ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញចំនួន ១០០ នាក់ មុននឹងសម្រេចចិត្តថាអ្នកមានជំងឺអ្វី ជាជាងជឿលើការធ្វើរោគវិនិច្ឆ័យរបស់គ្រូពេទ្យតែម្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖