Original Title: Classification of Biomedical Data with Class Imbalance
Source: kanazawa-u.repo.nii.ac.jp
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការចាត់ថ្នាក់ទិន្នន័យជីវវេជ្ជសាស្ត្រដែលមានវិសមាមាត្រចំណាត់ថ្នាក់ (Class Imbalance)

ចំណងជើងដើម៖ Classification of Biomedical Data with Class Imbalance

អ្នកនិពន្ធ៖ Kunti Robiatul Mahmudah (Kanazawa University), Kenji Satou (Kanazawa University)

ឆ្នាំបោះពុម្ព៖ 2021

វិស័យសិក្សា៖ Machine Learning and Bioinformatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាវិសមាមាត្រនៃចំណាត់ថ្នាក់ទិន្នន័យ (Class Imbalance) នៅក្នុងសំណុំទិន្នន័យជីវវេជ្ជសាស្ត្រ ដែលធ្វើឱ្យម៉ូដែល Machine Learning ងាយនឹងទស្សន៍ទាយខុសទៅលើទិន្នន័យក្រុមភាគតិច (ឧទាហរណ៍ ការទស្សន៍ទាយអ្នកមានជំងឺពិតប្រាកដ)។ ជាពិសេស វាផ្តោតលើការលំបាកក្នុងការអនុវត្តបច្ចេកទេសបង្កើនទិន្នន័យលើទិន្នន័យប្រភេទគោលពីរ (Binary Features) ដែលកម្រិតដែនតម្លៃមានភាពចង្អៀតពេក។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុន ដោយរួមបញ្ចូលការទាញយកលក្ខណៈពិសេសរួមជាមួយនឹងបច្ចេកទេសបង្កើតទិន្នន័យកាឡៃបន្ថែម (Oversampling) លើសំណុំទិន្នន័យហ្សែន និងសំណុំទិន្នន័យគោលពីរ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Standard Machine Learning (Base Model)
ម៉ូដែល Machine Learning ស្តង់ដារ (មិនប្រើបច្ចេកទេសតម្លើងទិន្នន័យ)
ចំណាយពេលដំណើរការលឿន ងាយស្រួលក្នុងការសរសេរកូដអនុវត្ត និងមិនត្រូវការកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្ពស់។ ងាយនឹងធ្វើការទស្សន៍ទាយខុសទៅលើទិន្នន័យក្រុមភាគតិច (Minority Class) ដោយសារវាទាញលទ្ធផលលំអៀងទៅរកក្រុមភាគច្រើន ជាពិសេសលើទិន្នន័យប្រភេទគោលពីរ (Binary Features)។ ផ្តល់ពិន្ទុ F1-score ទាប (ឧទាហរណ៍៖ ទទួលបានត្រឹមតែ ០.៨៨៦ ប៉ុណ្ណោះសម្រាប់សំណុំទិន្នន័យ SPECT ដែលប្រើយន្តការ Random Forest)។
Direct Oversampling (SMOTE/ADASYN)
ការតម្លើងទិន្នន័យកាឡៃដោយផ្ទាល់លើទិន្នន័យគោលពីរ
ជួយកាត់បន្ថយភាពលំអៀងនៃក្បួនដោះស្រាយ និងបង្កើនភាពត្រឹមត្រូវក្នុងការកំណត់អត្តសញ្ញាណទិន្នន័យក្រុមភាគតិចបានមួយកម្រិត។ មិនសូវមានប្រសិទ្ធភាពខ្ពស់ ដោយសារតម្លៃនៃលក្ខណៈពិសេសគោលពីរមានដែនកំណត់តូចចង្អៀត (មានត្រឹម ០ និង ១) ដែលធ្វើឱ្យការបង្កើតទិន្នន័យថ្មីខ្វះភាពចម្រុះនិងមិនឆ្លុះបញ្ចាំងពីសភាពពិត។ ទទួលបានអត្រា AUC ៩០% ជាមួយម៉ូដែល Multiclass LR លើទិន្នន័យជំងឺ COPD ប៉ុន្តែលទ្ធផលនៅមានកម្រិតនៅឡើយសម្រាប់សំណុំទិន្នន័យគោលពីរផ្សេងទៀត។
Feature Extraction + Oversampling (Proposed Method)
ការទាញយកលក្ខណៈពិសេសរួចបញ្ជូលជាមួយការតម្លើងទិន្នន័យ (វិធីសាស្ត្រស្នើឡើង)
ជួយបំប្លែងទិន្នន័យគោលពីរដែលចង្អៀតទៅជាទម្រង់លេខដែលមានលក្ខណៈទូលំទូលាយ ដែលជួយឱ្យការធ្វើ Oversampling ដំណើរការបានល្អឥតខ្ចោះ និងបង្កើនប្រសិទ្ធភាពម៉ូដែលយ៉ាងខ្លាំង។ ទាមទារការគណនាស៊ីជម្រៅដែលចំណាយពេលយូរក្នុងការរៀបចំទិន្នន័យជាមុន (Pre-processing) ព្រមទាំងធ្វើឱ្យអ្នកវិភាគពិបាកបកស្រាយអត្ថន័យនៃលក្ខណៈពិសេសដែលបានបំប្លែងរួច។ អត្រា F1-score កើនឡើងខ្ពស់កប់ក្ដោង (ឧទាហរណ៍៖ កើនពី ០.៨៨៦ ទៅ ០.៩៨៩ សម្រាប់សំណុំទិន្នន័យ SPECT ដោយប្រើបន្សំ RF + tSNE + RSLS)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកជាចម្បងលើការប្រើប្រាស់កម្មវិធី R និងធនធានកុំព្យូទ័រសម្រាប់ការដំណើរការម៉ូដែល Machine Learning ព្រមទាំងតម្រូវឱ្យមានទិន្នន័យជីវវេជ្ជសាស្ត្រដែលប្រមូលពីមូលដ្ឋានទិន្នន័យសាធារណៈឬមន្ទីរពេទ្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើប្រាស់ក្នុងការសិក្សានេះ ភាគច្រើនជាទិន្នន័យហ្សែនអ្នកជំងឺសួតរ៉ាំរ៉ៃ (COPD) ពីសហរដ្ឋអាមេរិក (GEO dataset) និងទិន្នន័យមេរោគពីមន្ទីរពេទ្យសាកលវិទ្យាល័យ Kanazawa នៃប្រទេសជប៉ុន។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យហ្សែន រចនាសម្ព័ន្ធមេរោគ ឬអត្រាអត្រាប្រេវ៉ាឡង់នៃជំងឺអាចមានភាពខុសគ្នាស្រឡះអាស្រ័យលើភូមិសាស្ត្រ និងកត្តារស់នៅ ដូច្នេះម៉ូដែលចាំបាច់ត្រូវមានការបង្ហាត់សារជាថ្មីដោយប្រើទិន្នន័យក្នុងស្រុកទើបមានសុក្រឹតភាពខ្ពស់សម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានប្រភពពីប្រទេសអភិវឌ្ឍន៍ក៏ដោយ ប៉ុន្តែវិធីសាស្ត្រនិងបច្ចេកទេសស្នើឡើងនេះមានអត្ថប្រយោជន៍ និងអាចយកមកអនុវត្តបានយ៉ាងទូលំទូលាយសម្រាប់វិស័យស្រាវជ្រាវ និងបច្ចេកវិទ្យានៅកម្ពុជា។

សរុបមក ការរួមបញ្ចូលគ្នារវាងការបំប្លែងលក្ខណៈពិសេស និងការបង្កើនទិន្នន័យ (Oversampling) គឺជាក្បួនដ៏រឹងមាំមួយដែលអាចជួយឱ្យស្ថាប័នកម្ពុជាដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ ឬការវិភាគលើទិន្នន័យក្រុមភាគតិចប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃទិន្នន័យវិទ្យា និងកម្មវិធី R: និស្សិតគួរបង្កើនសមត្ថភាពក្នុងការសរសេរកូដភាសា R និងស្វែងយល់ពីរបៀបប្រើប្រាស់កញ្ចប់វិភាគទិន្នន័យដូចជា caret និង e1017 សម្រាប់ការកសាងម៉ូដែលចាត់ថ្នាក់ទិន្នន័យ (Classification Models)។
  2. អនុវត្តបច្ចេកទេសបំប្លែងទិន្នន័យកាត់បន្ថយវិមាត្រ (Dimensionality Reduction): សាកល្បងសរសេរកូដដើម្បីទាញយកលក្ខណៈពិសេសពីសំណុំទិន្នន័យទម្រង់គោលពីរ (Binary Data) ដោយប្រើប្រាស់ក្បួន PCA, ICA, t-SNE, ឬ UMAP ដើម្បីយល់ច្បាស់ពីរបៀបដែលកុំព្យូទ័របំប្លែងទិន្នន័យទៅជាទម្រង់លេខបន្តបន្ទាប់។
  3. សិក្សាពីបច្ចេកទេសតម្លើងទិន្នន័យ (Oversampling Techniques): ប្រើប្រាស់កញ្ចប់ DMwRsmotefamily ដើម្បីអនុវត្តក្បួន SMOTE, ADASYN, និង RSLS ក្នុងការដោះស្រាយបញ្ហាវិសមាមាត្រចំណាត់ថ្នាក់ (Class Imbalance) ដោយសង្កេតមើលការផ្លាស់ប្តូរនៃចំនួនសំណាក។
  4. ការរួមបញ្ចូលបច្ចេកទេស និងការវាយតម្លៃម៉ូដែល: សរសេរកូដផ្គុំបច្ចេកទេស (Feature Extraction បូកជាមួយ Oversampling) រួចដំណើរការម៉ូដែល Random ForestSVM ហើយធ្វើការវាយតម្លៃលទ្ធផលដោយផ្តោតលើរង្វាស់ F1-score និង AUC ជាជាងការមើលត្រឹមតែ Accuracy
  5. អនុវត្តលើគម្រោងស្រាវជ្រាវជាក់ស្តែង: ប្រមូលទិន្នន័យអ្នកជំងឺ ឬទិន្នន័យហិរញ្ញវត្ថុក្នុងស្រុកពីស្ថាប័ននានា (ដែលមានលក្ខណៈជា Imbalanced Data និង Binary Features) រួចអនុវត្តក្បួនដែលបានរៀនខាងលើដើម្បីបង្កើតជាប្រព័ន្ធទស្សន៍ទាយមួយដែលជួយដោះស្រាយបញ្ហាជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Class Imbalance វាគឺជាស្ថានភាពនៃសំណុំទិន្នន័យដែលចំនួនសំណាកក្នុងក្រុមមួយមានបរិមាណតិចតួចបំផុតធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍ អ្នកឈឺមានតិចតួចធៀបនឹងអ្នកជា) ដែលធ្វើឱ្យកុំព្យូទ័ររៀនទន្ទេញតែពីលក្ខណៈរបស់ក្រុមភាគច្រើន និងងាយទស្សន៍ទាយខុសលើក្រុមភាគតិច។ ដូចជាសាលារៀនមួយដែលមានសិស្សប្រុស១ពាន់នាក់ តែមានសិស្សស្រីតែ២នាក់ ដែលធ្វើឱ្យគ្រូពិបាកកត់សម្គាល់ពីអត្តចរិតរបស់សិស្សស្រី។
SMOTE ជាក្បួនដោះស្រាយសម្រាប់បង្កើតទិន្នន័យថ្មីៗបន្ថែមដោយស្វ័យប្រវត្តិ (ចម្លងនិងបង្កាត់តាមទិន្នន័យចាស់ដែលមានស្រាប់) សម្រាប់ក្រុមភាគតិច ដើម្បីឱ្យវាមានចំនួនប្រហាក់ប្រហែលនឹងក្រុមភាគច្រើន ងាយស្រួលដល់ការបង្ហាត់ម៉ូដែល Machine Learning។ ដូចជាការថតចម្លងនិងកែច្នៃរូបថតសត្វកម្រដែលជិតផុតពូជបន្តិចបន្តួច ឱ្យទៅជារូបថតរាប់ពាន់សន្លឹកក្នុងប្លង់ខុសៗគ្នា ដើម្បីឱ្យកុំព្យូទ័រឆាប់ចំណាំវាបាន។
Feature Extraction គឺជាដំណើរការបង្រួមនិងទាញយកតែលក្ខណៈសម្បត្តិស្នូលពីទិន្នន័យធំៗនិងស្មុគស្មាញ (ដូចជាទិន្នន័យហ្សែនរាប់ម៉ឺន) បំប្លែងទៅជាទម្រង់ថ្មីដែលតូចជាងមុន ជួយឱ្យកុំព្យូទ័រអាចដំណើរការគណនាបានលឿននិងមិនមានភាពរអាក់រអួលដោយសារទិន្នន័យរំខាន (Noise)។ ដូចជាការសង្ខេបសាច់រឿងសៀវភៅ១០០ទំព័រ មកត្រឹម១ទំព័រ ដោយរក្សាទុកតែអត្ថន័យសំខាន់បំផុតដើម្បីងាយយល់និងចំណេញពេលអាន។
Binary Features គឺជាប្រភេទលក្ខណៈនៃទិន្នន័យដែលមានតែជម្រើសតម្លៃពីរគត់ (ឧទាហរណ៍៖ មានឬគ្មាន, ពិតឬមិនពិត, លេខ០ឬលេខ១) ដែលវាធ្វើឱ្យបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែមមានការលំបាក ដោយសារដែនកំណត់វាតូចចង្អៀតពេក។ ដូចជាកុងតាក់ភ្លើងដែលមានតែស្ថានភាពបើក និង បិទប៉ុណ្ណោះ គឺគ្មានកម្រិតពន្លឺភ្លឺព្រិលៗនៅចន្លោះកណ្តាលនោះទេ។
AUC ជារង្វាស់ជាលេខ (ពី ០ ដល់ ១) សម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលថាតើវាអាចញែកដាច់រវាងក្រុមទិន្នន័យវិជ្ជមាន (អ្នកឈឺ) និងអវិជ្ជមាន (អ្នកមិនឈឺ) បានល្អកម្រិតណា (ពិន្ទុកាន់តែជិត ១ កាន់តែល្អ)។ ដូចជាពិន្ទុប្រឡងចុងឆ្នាំដែលវាស់ស្ទង់សមត្ថភាពសិស្ស ថាតើគេអាចញែកដាច់រវាងចម្លើយត្រូវនិងចម្លើយខុសបានច្បាស់លាស់កម្រិតណា។
F1-score ជារង្វាស់មធ្យមភាគដែលថ្លឹងថ្លែងភាពស៊ីចង្វាក់គ្នារវាង 'ភាពត្រឹមត្រូវនៃអ្វីដែលម៉ូដែលបានទាយ (Precision)' និង 'ការរកឃើញទិន្នន័យពិតប្រាកដដែលមិនបាត់បង់ (Recall)' ដែលវាមានប្រសិទ្ធភាពខ្លាំងក្នុងការវាស់ស្ទង់ទិន្នន័យដែលមានវិសមាមាត្រ។ ដូចជារង្វាស់ទម្ងន់នៃភាពជោគជ័យរបស់អ្នកនេសាទ ដែលគិតទាំងបរិមាណត្រីដែលចាប់បាន និងត្រូវប្រាកដថាអួនមិនជាប់ដោយកាកសំណល់ប្លាស្ទិកមកជាមួយ។
t-SNE ជាក្បួនគណនាមួយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យដ៏ស្មុគស្មាញ ដោយយកទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាទៅដាក់ផ្តុំគ្នានៅជិតៗគ្នាក្នុងទម្រង់ប្លង់ 2D ឬ 3D ដើម្បីងាយស្រួលក្នុងការមើលឃើញក្រុមនិងវិភាគចំណាត់ថ្នាក់។ ដូចជាការចាត់ថ្នាក់មនុស្សរាប់ពាន់នាក់ឱ្យឈរជាក្រុមៗនៅលើតារាងបាល់ទាត់តាមចំណង់ចំណូលចិត្តស្រដៀងគ្នា ដើម្បីងាយស្រួលមើលការប្រមូលផ្តុំពីលើអាកាស។
Microarray Gene Expression Data គឺជាទិន្នន័យជីវសាស្ត្រដែលវាស់ស្ទង់និងបង្ហាញពីកម្រិតនៃសកម្មភាព ឬការបញ្ចេញហ្សែនរាប់ពាន់ទៅរាប់ម៉ឺននៅក្នុងកោសិកាក្នុងពេលតែមួយ ដែលជួយអ្នកស្រាវជ្រាវវែកញែករកហ្សែនខុសប្រក្រតីដែលបង្កជំងឺ។ ដូចជាផ្ទាំងបញ្ជា (Dashboard) ដ៏ធំមួយដែលមានភ្លើងលោតរាប់ម៉ឺនគ្រាប់ ដើម្បីប្រាប់យើងឱ្យដឹងច្បាស់ថាគ្រឿងម៉ាស៊ីនមួយណាដំណើរការល្អ និងមួយណាកំពុងខូចខាតនៅក្នុងរោងចក្រ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖