Original Title: The study of preprocessing methods' utility in analysis of multidimensional and highly imbalanced medical data
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាពីអត្ថប្រយោជន៍នៃវិធីសាស្ត្ររៀបចំបឋមក្នុងការវិភាគទិន្នន័យវេជ្ជសាស្ត្រដែលមានវិមាត្រច្រើន និងអតុល្យភាពខ្លាំង

ចំណងជើងដើម៖ The study of preprocessing methods' utility in analysis of multidimensional and highly imbalanced medical data

អ្នកនិពន្ធ៖ Aleksandra Werner, Silesian University of Technology, Gliwice, Poland, Małgorzata Bach, Silesian University of Technology, Gliwice, Poland, Wojciech Pluskiewicz, Medical University of Silesia, Katowice, Poland

ឆ្នាំបោះពុម្ព៖ 2016

វិស័យសិក្សា៖ Health Informatics / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរៀបចំទិន្នន័យវេជ្ជសាស្ត្រដែលមានវិមាត្រច្រើន និងមានអតុល្យភាពខ្លាំង (multidimensional and highly imbalanced medical data) ដើម្បីបង្កើតឧបករណ៍គណនាហានិភ័យនៃជំងឺពុកឆ្អឹង (osteoporosis risk calculator)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើតេស្ត និងប្រៀបធៀបបច្ចេកទេសរៀបចំទិន្នន័យបឋមរួមមានវិធីសាស្ត្រកាត់បន្ថយ និងបង្កើនចំនួនទិន្នន័យ ព្រមទាំងការកាត់បន្ថយលក្ខណៈពិសេសរបស់ទិន្នន័យ រួចធ្វើការវាយតម្លៃជាមួយម៉ូដែលចំណាត់ថ្នាក់ផ្សេងៗ។

បច្ចេកទេសបង្កើន និងកាត់បន្ថយទិន្នន័យ (SMOTE Over-sampling and Under-sampling)
វិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសទិន្នន័យ (Feature selection methods: CFS, InfoGain, GainRatio, MeanDecreaseGini)
ក្បួនច្បាប់ចំណាត់ថ្នាក់ (Classifiers: C4.5, Random Forest, Naive Bayes, ADTree)
រង្វាស់វាយតម្លៃសមត្ថភាពម៉ូដែល (Evaluation metrics: ROC, GMean, Specificity, Sensitivity)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់បច្ចេកទេស SMOTE ជាមួយម៉ូដែល Random Forest ផ្តល់លទ្ធផលល្អបំផុត និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការទស្សន៍ទាយអ្នកជំងឺពុកឆ្អឹង។
ការកាត់បន្ថយលក្ខណៈពិសេស (Feature reduction) មិនត្រឹមតែជួយសម្រួលដល់ការបកស្រាយលទ្ធផលប៉ុណ្ណោះទេ ថែមទាំងមិនមានផលប៉ះពាល់អវិជ្ជមានដល់ភាពសុក្រឹតនៃការធ្វើចំណាត់ថ្នាក់ (classification accuracy) ឡើយក្នុងករណីភាគច្រើន។
ពេលវេលាដែលប្រើសម្រាប់ការធ្វើចំណាត់ថ្នាក់លើទិន្នន័យដែលបានកាត់បន្ថយអថេរួច (reduced features' vector) គឺលឿនជាងមុនជាមធ្យម ៧៥% បើធៀបនឹងការប្រើទិន្នន័យដើមទាំងស្រុង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Forest (with SMOTE & Feature Selection) ក្បួនច្បាប់ Random Forest (ប្រើជាមួយ SMOTE និងការកាត់បន្ថយលក្ខណៈទិន្នន័យ)	ផ្តល់លទ្ធផលល្អបំផុតក្នុងការទស្សន៍ទាយ និងដំណើរការបានល្អជាមួយទិន្នន័យដែលមានវិមាត្រច្រើន។ វាជួយរក្សាភាពត្រឹមត្រូវខ្ពស់ទោះបីជាលក្ខណៈពិសេស (Features) ត្រូវបានកាត់បន្ថយក៏ដោយ។	អាចត្រូវការធនធានកុំព្យូទ័រក្នុងការគណនាច្រើន ប្រសិនបើមិនមានការកាត់បន្ថយលក្ខណៈទិន្នន័យជាមុន។	ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុតដោយរក្សាបាននូវតម្លៃ AUC និង GMean ខ្ពស់ (ឧ. AUC 0.979 នៅ 600% SMOTE)។
ADTree (with Wrappers or CFS) ក្បួនច្បាប់ ADTree (ប្រើជាមួយបច្ចេកទេស Wrappers ឬ CFS)	ដំណើរការបានយ៉ាងល្អជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈទិន្នន័យប្រភេទ Wrappers និង CFS ដែលជួយកែលម្អគុណភាពនៃការទស្សន៍ទាយបានយ៉ាងច្រើន។	នៅក្នុងកម្មវិធី Weka ក្បួនច្បាប់នេះគាំទ្រតែចំណាត់ថ្នាក់ទិន្នន័យដែលមានពីរថ្នាក់ (Two-class problems) ប៉ុណ្ណោះ។	ទទួលបានលទ្ធផលល្អប្រសើរជាងមុនពេលប្រើប្រាស់ជាមួយបច្ចេកទេស Wrappers បើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ Filters ធម្មតា។
Naive Bayes ក្បួនច្បាប់ Naive Bayes	មានដំណើរការរហ័ស និងបង្ហាញតម្លៃ Sensitivity ព្រមទាំង GMean ខ្ពស់គួរសមនៅលើទិន្នន័យដើមដែលមិនទាន់បានកែច្នៃ។	គុណភាពនៃការទស្សន៍ទាយមិនសូវមានការកើនឡើងគួរឲ្យកត់សម្គាល់នោះទេ ទោះបីជាមានការប៉ុនប៉ងថ្លឹងថ្លែងទិន្នន័យដោយប្រើ SMOTE ក៏ដោយ។	ត្រូវបានដកចេញពីការវិភាគស៊ីជម្រៅបន្ទាប់ ព្រោះតម្លៃ AUC របស់វាមិនអាចឈានដល់កម្រិតស្តង់ដារពេទ្យ (ចន្លោះ 0.8 ដល់ 0.95) ឡើយ។
C4.5 (J48) ក្បួនច្បាប់ដើមឈើសម្រេចចិត្ត C4.5 (ជំនាន់ J48)	ងាយស្រួលក្នុងការយល់ដឹងពីក្បួនច្បាប់ (If-then rules) ដែលវាបង្កើតឡើង និងដំណើរការបានល្អជាមួយបច្ចេកទេស MeanDecreaseGini។	នៅពេលប្រើលើទិន្នន័យដើមដែលគ្មានការថ្លឹងថ្លែង វាទស្សន៍ទាយលម្អៀងទៅរកក្រុមទិន្នន័យភាគច្រើនដោយតម្លៃ Sensitivity ធ្លាក់ដល់ 0។	តម្លៃ AUC បានកើនឡើងជាលំដាប់រហូតដល់ 0.892 នៅពេលដែលទិន្នន័យក្រុមភាគតិចត្រូវបានបង្កើនដល់ 600%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកម្មវិធីកុំព្យូទ័រសម្រាប់ការវិភាគទិន្នន័យ និងចំណាយពេលវេលាគណនាខ្ពស់សម្រាប់បច្ចេកទេសមួយចំនួន។

Software: ទាមទារកម្មវិធីរៀបចំ និងវិភាគទិន្នន័យដូចជា Weka (ជំនាន់ 3.7.13) និង R Software Environment។
Data: ត្រូវការប្រមូលទិន្នន័យប្រវត្តិវេជ្ជសាស្ត្រគ្លីនិកជាក់ស្តែង ដែលមានភាពស្មុគស្មាញ និងទាមទារការសម្អាតទិន្នន័យ (Data cleaning) យ៉ាងហ្មត់ចត់។
Computational Time: ការប្រើប្រាស់បច្ចេកទេស Wrappers ត្រូវការពេលវេលាគណនាយូរជាងវិធីសាស្ត្រ Filters ចំណែកឯការកាត់បន្ថយលក្ខណៈទិន្នន័យរួចជួយកាត់បន្ថយពេលចំណាត់ថ្នាក់បាន ៧៥%។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយផ្អែកលើទិន្នន័យអ្នកជំងឺចំនួន ៧២៩ នាក់ មកពីតំបន់ Racibórz ភាគខាងត្បូងប្រទេសប៉ូឡូញ។ កត្តាប្រឈមនៃជំងឺពុកឆ្អឹងអាចមានការប្រែប្រួលទៅតាមតំបន់នីមួយៗលើពិភពលោក ដោយសារអាកាសធាតុ របបអាហារ ហ្សែន និងស្ថានភាពសេដ្ឋកិច្ច។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើដោយផ្ទាល់អាចនឹងមិនត្រឹមត្រូវ ១០០% ទេ លុះត្រាតែមានការបង្វឹកឡើងវិញជាមួយនឹងទិន្នន័យអ្នកជំងឺកម្ពុជាផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យប្រភពមកពីតំបន់អឺរ៉ុបក៏ដោយ វិធីសាស្ត្របច្ចេកទេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យអតុល្យភាពនេះ គឺមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អនៅកម្ពុជា។

វិស័យសុខភាពសាធារណៈ (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត ឬ មន្ទីរពេទ្យគន្ធបុប្ផា): បច្ចេកទេស SMOTE អាចត្រូវបានប្រើដើម្បីទស្សន៍ទាយជំងឺកម្រ ឬករណីអ្នកជំងឺធ្ងន់ធ្ងរ ដែលទិន្នន័យអ្នកជំងឺប្រភេទនេះមានចំនួនតិចតួចធៀបនឹងចំនួនអ្នកជំងឺធម្មតាទូទៅនៅក្នុងមូលដ្ឋានទិន្នន័យមន្ទីរពេទ្យ។
ការស្រាវជ្រាវរោគរាតត្បាតនៅតាមបណ្តាខេត្ត: វិធីសាស្ត្រ Feature Selection (ដូចជា MeanDecreaseGini) អាចជួយអ្នកស្រាវជ្រាវកម្ពុជាក្នុងការទាញយកកត្តាចម្បងៗ (Risk factors) តែពីរបីចំណុច ពីក្នុងកម្រងសំណួរដ៏វែង ដើម្បីសន្សំពេលវេលាស្ទង់មតិនៅតាមតំបន់ជនបទ។

ការអនុវត្តវិធីសាស្ត្ររៀបចំទិន្នន័យបឋមទាំងនេះ នឹងជួយស្ថាប័នវេជ្ជសាស្ត្រកម្ពុជាអាចបង្កើតប្រព័ន្ធវាយតម្លៃហានិភ័យជំងឺប្រកបដោយភាពសុក្រឹត ទោះបីជាកំពុងប្រឈមនឹងបញ្ហាកង្វះខាតទិន្នន័យអ្នកជំងឺ (Imbalanced data) ក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីឧបករណ៍វិភាគទិន្នន័យម៉ាស៊ីន (Machine Learning Tools): ចាប់ផ្តើមរៀនប្រើប្រាស់កម្មវិធីកុំព្យូទ័រ Weka និង R Software ដើម្បីអនុវត្តការសម្អាត និងធ្វើចំណាត់ថ្នាក់ទិន្នន័យបឋម។
អនុវត្តបច្ចេកទេសថ្លឹងថ្លែងទិន្នន័យ: យកទិន្នន័យវេជ្ជសាស្ត្រក្នុងស្រុក (ដែលជាទូទៅមានអតុល្យភាព) មកធ្វើការពិសោធន៍ជាមួយនឹងបច្ចេកទេស SMOTE ដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិតសម្រាប់ក្រុមទិន្នន័យភាគតិច។
កាត់បន្ថយទំហំវិមាត្រទិន្នន័យ (Dimensionality Reduction): សាកល្បងប្រើប្រាស់វិធីសាស្ត្រ Filter ដូចជា MeanDecreaseGini និង CFS (Correlation-based Feature Selection) ដើម្បីច្រោះយកតែអថេរណាដែលពិតជាមានឥទ្ធិពលលើការទស្សន៍ទាយជំងឺ។
ប្រៀបធៀប និងវាយតម្លៃម៉ូដែល: បង្វឹកម៉ូដែលកុំព្យូទ័រដោយប្រើ Random Forest និង ADTree រួចធ្វើការប្រៀបធៀបលទ្ធផលដោយប្រើរង្វាស់ AUC (Area Under the Curve) និង GMean។
អភិវឌ្ឍឧបករណ៍សម្រាប់ប្រើប្រាស់ជាក់ស្តែង: ផ្អែកលើម៉ូដែលដែលទទួលបានលទ្ធផលល្អបំផុត សូមសហការជាមួយអ្នកជំនាញដើម្បីបង្កើតជា Online Risk Calculator សម្រាប់ឲ្យវេជ្ជបណ្ឌិត ឬប្រជាជននៅកម្ពុជាអាចចូលទៅវាយតម្លៃហានិភ័យសុខភាពដោយខ្លួនឯងបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Data imbalancing	ស្ថានភាពដែលទិន្នន័យក្នុងក្រុមមួយមានចំនួនច្រើនលើសលប់ធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍៖ ទិន្នន័យអ្នកជំងឺពុកឆ្អឹងមានត្រឹមតែ ៧% ចំណែកអ្នកដែលគ្មានជំងឺមានរហូតដល់ ៩៣%) ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនទាយលម្អៀងទៅរកក្រុមដែលមានគ្នាច្រើន។	ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យស្គាល់សត្វ ដោយបង្ហាញរូបឆ្កែចំនួន១០០សន្លឹក និងរូបឆ្មាតែ១សន្លឹក ដែលធ្វើឱ្យក្មេងនោះងាយនឹងទាយខុសថាឆ្មាគឺជាឆ្កែនៅពេលក្រោយ។
SMOTE	បច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដោយយកលក្ខណៈទិន្នន័យចាស់ដែលនៅជិតគ្នាមកបូកបញ្ចូលគ្នា ដើម្បីធ្វើឱ្យចំនួនទិន្នន័យរវាងក្រុមទាំងពីរមានតុល្យភាពក្នុងការបង្វឹកកុំព្យូទ័រ។	ដូចជាការយកពិន្ទុ និងលក្ខណៈរបស់សិស្សពូកែពីរនាក់ដែលអង្គុយជិតគ្នា មកគណនាបង្កើតជាទិន្នន័យ "សិស្សពូកែសិប្បនិម្មិត" ម្នាក់ទៀត ដើម្បីបង្កើនចំនួនសិស្សពូកែក្នុងបញ្ជី។
Data multidimensionality	ស្ថានភាពដែលទិន្នន័យមានផ្ទុកចំនួនអថេរ (Variables) ឬលក្ខណៈពិសេសច្រើនសន្ធឹកសន្ធាប់ពេកសម្រាប់សំណាកនីមួយៗ (ឧទាហរណ៍៖ អ្នកជំងឺម្នាក់មានលក្ខណៈសម្បត្តិនិងប្រវត្តិរហូតដល់ ២២០ ចំណុច) ដែលធ្វើឱ្យការគណនាវិភាគមានភាពស្មុគស្មាញ និងស៊ីពេលយូរ។	ដូចជាការតម្រូវឱ្យពណ៌នារូបរាងមនុស្សម្នាក់ ដោយត្រូវចងចាំព័ត៌មានរាប់រយចំណុចតាំងពីទំហំសរសៃសក់ ចំនួនរោមចិញ្ចើម រហូតដល់កម្រាស់ក្រចកជើង។
Feature selection	ដំណើរការនៃការជ្រើសរើសយកតែលក្ខណៈពិសេស ឬអថេរណាដែលសំខាន់បំផុត និងមានឥទ្ធិពលខ្លាំងក្នុងការទស្សន៍ទាយលទ្ធផលជំងឺ ដោយបោះបង់ចោលទិន្នន័យដែលមិនចាំបាច់ ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿនគណនារបស់ម៉ូដែល។	ដូចជាការរៀបចំវ៉ាលីធ្វើដំណើរ ដោយរើសយកតែខោអាវណាដែលត្រូវពាក់ពិតប្រាកដ និងដករបស់របរមិនចាំបាច់ចេញ ដើម្បីកុំឱ្យធ្ងន់ពេក និងងាយស្រួលដើរ។
Random Forest	ក្បួនច្បាប់បញ្ញាសិប្បនិម្មិត (Machine Learning Algorithm) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនបំបែកពីគ្នា រួចយកលទ្ធផលនៃការទស្សន៍ទាយរបស់ដើមឈើនីមួយៗមកបោះឆ្នោតជ្រើសរើសយកចម្លើយដែលមានសម្លេងគាំទ្រច្រើនជាងគេ ដើម្បីទទួលបានភាពត្រឹមត្រូវខ្ពស់ក្នុងការកំណត់រោគវិនិច្ឆ័យ។	ដូចជាការសួរសំណួរទៅកាន់ទីប្រឹក្សា១០០នាក់ផ្សេងគ្នា រួចយកចម្លើយដែលអ្នកទាំងនោះភាគច្រើនឆ្លើយស្របគ្នា មកធ្វើជាការសម្រេចចិត្តចុងក្រោយ។
Sensitivity	រង្វាស់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលកុំព្យូទ័រ ក្នុងការទស្សន៍ទាយរកអ្នកដែលមានជំងឺពិតប្រាកដ (វិជ្ជមានពិត) ឱ្យបានត្រឹមត្រូវចេញពីចំណោមអ្នកដែលមានជំងឺទាំងអស់ ជៀសវាងការប្រាប់អ្នកជំងឺថាគាត់មិនមានជំងឺ។	ដូចជាសមត្ថភាពរបស់ម៉ាស៊ីនស្កេនអាវុធនៅព្រលានយន្តហោះ ដែលអាចរកឃើញកាំភ្លើងពិតប្រាកដគ្រប់រាល់ពេលដែលជនសង្ស័យលាក់វាតាមខ្លួន ដោយមិនរំលង។
Specificity	រង្វាស់វាយតម្លៃសមត្ថភាពម៉ូដែល ក្នុងការកំណត់អត្តសញ្ញាណអ្នកដែលគ្មានជំងឺ (អវិជ្ជមានពិត) ឱ្យបានត្រឹមត្រូវ១០០% ដែលជួយកាត់បន្ថយការប្រកាសអាសន្នមិនពិត (ការប្រាប់មនុស្សធម្មតាថាមានជំងឺ)។	ដូចជាឆ្កែប៉ូលីសដែលព្រុសតែពេលហិតក្លិនឃើញគ្រឿងញៀនពិតប្រាកដ និងមិនព្រុសផ្តេសផ្តាសពេលហិតប៉ះម្សៅទឹកដោះគោធម្មតា។
AUC	តំណាងឱ្យ Area Under the Curve វាជាតម្លៃទូទៅចាប់ពី 0.5 ដល់ 1 ដែលវាស់ស្ទង់សមត្ថភាពសរុបរបស់ម៉ូដែលចំណាត់ថ្នាក់ក្នុងការបែងចែករវាងក្រុមមានជំងឺ និងក្រុមគ្មានជំងឺ (តម្លៃកាន់តែខិតជិត 1 មានន័យថាម៉ូដែលកាន់តែពូកែ)។	ដូចជាពិន្ទុមធ្យមភាគប្រចាំឆ្នាំរបស់សិស្សម្នាក់ ដែលសរុបបញ្ចូលគ្នានូវគ្រប់មុខវិជ្ជា ដើម្បីបញ្ជាក់ពីសមត្ថភាពទូទៅរបស់គាត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖