បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរៀបចំទិន្នន័យវេជ្ជសាស្ត្រដែលមានវិមាត្រច្រើន និងមានអតុល្យភាពខ្លាំង (multidimensional and highly imbalanced medical data) ដើម្បីបង្កើតឧបករណ៍គណនាហានិភ័យនៃជំងឺពុកឆ្អឹង (osteoporosis risk calculator)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើតេស្ត និងប្រៀបធៀបបច្ចេកទេសរៀបចំទិន្នន័យបឋមរួមមានវិធីសាស្ត្រកាត់បន្ថយ និងបង្កើនចំនួនទិន្នន័យ ព្រមទាំងការកាត់បន្ថយលក្ខណៈពិសេសរបស់ទិន្នន័យ រួចធ្វើការវាយតម្លៃជាមួយម៉ូដែលចំណាត់ថ្នាក់ផ្សេងៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest (with SMOTE & Feature Selection) ក្បួនច្បាប់ Random Forest (ប្រើជាមួយ SMOTE និងការកាត់បន្ថយលក្ខណៈទិន្នន័យ) |
ផ្តល់លទ្ធផលល្អបំផុតក្នុងការទស្សន៍ទាយ និងដំណើរការបានល្អជាមួយទិន្នន័យដែលមានវិមាត្រច្រើន។ វាជួយរក្សាភាពត្រឹមត្រូវខ្ពស់ទោះបីជាលក្ខណៈពិសេស (Features) ត្រូវបានកាត់បន្ថយក៏ដោយ។ | អាចត្រូវការធនធានកុំព្យូទ័រក្នុងការគណនាច្រើន ប្រសិនបើមិនមានការកាត់បន្ថយលក្ខណៈទិន្នន័យជាមុន។ | ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុតដោយរក្សាបាននូវតម្លៃ AUC និង GMean ខ្ពស់ (ឧ. AUC 0.979 នៅ 600% SMOTE)។ |
| ADTree (with Wrappers or CFS) ក្បួនច្បាប់ ADTree (ប្រើជាមួយបច្ចេកទេស Wrappers ឬ CFS) |
ដំណើរការបានយ៉ាងល្អជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈទិន្នន័យប្រភេទ Wrappers និង CFS ដែលជួយកែលម្អគុណភាពនៃការទស្សន៍ទាយបានយ៉ាងច្រើន។ | នៅក្នុងកម្មវិធី Weka ក្បួនច្បាប់នេះគាំទ្រតែចំណាត់ថ្នាក់ទិន្នន័យដែលមានពីរថ្នាក់ (Two-class problems) ប៉ុណ្ណោះ។ | ទទួលបានលទ្ធផលល្អប្រសើរជាងមុនពេលប្រើប្រាស់ជាមួយបច្ចេកទេស Wrappers បើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ Filters ធម្មតា។ |
| Naive Bayes ក្បួនច្បាប់ Naive Bayes |
មានដំណើរការរហ័ស និងបង្ហាញតម្លៃ Sensitivity ព្រមទាំង GMean ខ្ពស់គួរសមនៅលើទិន្នន័យដើមដែលមិនទាន់បានកែច្នៃ។ | គុណភាពនៃការទស្សន៍ទាយមិនសូវមានការកើនឡើងគួរឲ្យកត់សម្គាល់នោះទេ ទោះបីជាមានការប៉ុនប៉ងថ្លឹងថ្លែងទិន្នន័យដោយប្រើ SMOTE ក៏ដោយ។ | ត្រូវបានដកចេញពីការវិភាគស៊ីជម្រៅបន្ទាប់ ព្រោះតម្លៃ AUC របស់វាមិនអាចឈានដល់កម្រិតស្តង់ដារពេទ្យ (ចន្លោះ 0.8 ដល់ 0.95) ឡើយ។ |
| C4.5 (J48) ក្បួនច្បាប់ដើមឈើសម្រេចចិត្ត C4.5 (ជំនាន់ J48) |
ងាយស្រួលក្នុងការយល់ដឹងពីក្បួនច្បាប់ (If-then rules) ដែលវាបង្កើតឡើង និងដំណើរការបានល្អជាមួយបច្ចេកទេស MeanDecreaseGini។ | នៅពេលប្រើលើទិន្នន័យដើមដែលគ្មានការថ្លឹងថ្លែង វាទស្សន៍ទាយលម្អៀងទៅរកក្រុមទិន្នន័យភាគច្រើនដោយតម្លៃ Sensitivity ធ្លាក់ដល់ 0។ | តម្លៃ AUC បានកើនឡើងជាលំដាប់រហូតដល់ 0.892 នៅពេលដែលទិន្នន័យក្រុមភាគតិចត្រូវបានបង្កើនដល់ 600%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកម្មវិធីកុំព្យូទ័រសម្រាប់ការវិភាគទិន្នន័យ និងចំណាយពេលវេលាគណនាខ្ពស់សម្រាប់បច្ចេកទេសមួយចំនួន។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយផ្អែកលើទិន្នន័យអ្នកជំងឺចំនួន ៧២៩ នាក់ មកពីតំបន់ Racibórz ភាគខាងត្បូងប្រទេសប៉ូឡូញ។ កត្តាប្រឈមនៃជំងឺពុកឆ្អឹងអាចមានការប្រែប្រួលទៅតាមតំបន់នីមួយៗលើពិភពលោក ដោយសារអាកាសធាតុ របបអាហារ ហ្សែន និងស្ថានភាពសេដ្ឋកិច្ច។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើដោយផ្ទាល់អាចនឹងមិនត្រឹមត្រូវ ១០០% ទេ លុះត្រាតែមានការបង្វឹកឡើងវិញជាមួយនឹងទិន្នន័យអ្នកជំងឺកម្ពុជាផ្ទាល់។
ទោះបីជាទិន្នន័យប្រភពមកពីតំបន់អឺរ៉ុបក៏ដោយ វិធីសាស្ត្របច្ចេកទេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យអតុល្យភាពនេះ គឺមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អនៅកម្ពុជា។
ការអនុវត្តវិធីសាស្ត្ររៀបចំទិន្នន័យបឋមទាំងនេះ នឹងជួយស្ថាប័នវេជ្ជសាស្ត្រកម្ពុជាអាចបង្កើតប្រព័ន្ធវាយតម្លៃហានិភ័យជំងឺប្រកបដោយភាពសុក្រឹត ទោះបីជាកំពុងប្រឈមនឹងបញ្ហាកង្វះខាតទិន្នន័យអ្នកជំងឺ (Imbalanced data) ក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Data imbalancing | ស្ថានភាពដែលទិន្នន័យក្នុងក្រុមមួយមានចំនួនច្រើនលើសលប់ធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍៖ ទិន្នន័យអ្នកជំងឺពុកឆ្អឹងមានត្រឹមតែ ៧% ចំណែកអ្នកដែលគ្មានជំងឺមានរហូតដល់ ៩៣%) ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនទាយលម្អៀងទៅរកក្រុមដែលមានគ្នាច្រើន។ | ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យស្គាល់សត្វ ដោយបង្ហាញរូបឆ្កែចំនួន១០០សន្លឹក និងរូបឆ្មាតែ១សន្លឹក ដែលធ្វើឱ្យក្មេងនោះងាយនឹងទាយខុសថាឆ្មាគឺជាឆ្កែនៅពេលក្រោយ។ |
| SMOTE | បច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដោយយកលក្ខណៈទិន្នន័យចាស់ដែលនៅជិតគ្នាមកបូកបញ្ចូលគ្នា ដើម្បីធ្វើឱ្យចំនួនទិន្នន័យរវាងក្រុមទាំងពីរមានតុល្យភាពក្នុងការបង្វឹកកុំព្យូទ័រ។ | ដូចជាការយកពិន្ទុ និងលក្ខណៈរបស់សិស្សពូកែពីរនាក់ដែលអង្គុយជិតគ្នា មកគណនាបង្កើតជាទិន្នន័យ "សិស្សពូកែសិប្បនិម្មិត" ម្នាក់ទៀត ដើម្បីបង្កើនចំនួនសិស្សពូកែក្នុងបញ្ជី។ |
| Data multidimensionality | ស្ថានភាពដែលទិន្នន័យមានផ្ទុកចំនួនអថេរ (Variables) ឬលក្ខណៈពិសេសច្រើនសន្ធឹកសន្ធាប់ពេកសម្រាប់សំណាកនីមួយៗ (ឧទាហរណ៍៖ អ្នកជំងឺម្នាក់មានលក្ខណៈសម្បត្តិនិងប្រវត្តិរហូតដល់ ២២០ ចំណុច) ដែលធ្វើឱ្យការគណនាវិភាគមានភាពស្មុគស្មាញ និងស៊ីពេលយូរ។ | ដូចជាការតម្រូវឱ្យពណ៌នារូបរាងមនុស្សម្នាក់ ដោយត្រូវចងចាំព័ត៌មានរាប់រយចំណុចតាំងពីទំហំសរសៃសក់ ចំនួនរោមចិញ្ចើម រហូតដល់កម្រាស់ក្រចកជើង។ |
| Feature selection | ដំណើរការនៃការជ្រើសរើសយកតែលក្ខណៈពិសេស ឬអថេរណាដែលសំខាន់បំផុត និងមានឥទ្ធិពលខ្លាំងក្នុងការទស្សន៍ទាយលទ្ធផលជំងឺ ដោយបោះបង់ចោលទិន្នន័យដែលមិនចាំបាច់ ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿនគណនារបស់ម៉ូដែល។ | ដូចជាការរៀបចំវ៉ាលីធ្វើដំណើរ ដោយរើសយកតែខោអាវណាដែលត្រូវពាក់ពិតប្រាកដ និងដករបស់របរមិនចាំបាច់ចេញ ដើម្បីកុំឱ្យធ្ងន់ពេក និងងាយស្រួលដើរ។ |
| Random Forest | ក្បួនច្បាប់បញ្ញាសិប្បនិម្មិត (Machine Learning Algorithm) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ជាច្រើនបំបែកពីគ្នា រួចយកលទ្ធផលនៃការទស្សន៍ទាយរបស់ដើមឈើនីមួយៗមកបោះឆ្នោតជ្រើសរើសយកចម្លើយដែលមានសម្លេងគាំទ្រច្រើនជាងគេ ដើម្បីទទួលបានភាពត្រឹមត្រូវខ្ពស់ក្នុងការកំណត់រោគវិនិច្ឆ័យ។ | ដូចជាការសួរសំណួរទៅកាន់ទីប្រឹក្សា១០០នាក់ផ្សេងគ្នា រួចយកចម្លើយដែលអ្នកទាំងនោះភាគច្រើនឆ្លើយស្របគ្នា មកធ្វើជាការសម្រេចចិត្តចុងក្រោយ។ |
| Sensitivity | រង្វាស់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលកុំព្យូទ័រ ក្នុងការទស្សន៍ទាយរកអ្នកដែលមានជំងឺពិតប្រាកដ (វិជ្ជមានពិត) ឱ្យបានត្រឹមត្រូវចេញពីចំណោមអ្នកដែលមានជំងឺទាំងអស់ ជៀសវាងការប្រាប់អ្នកជំងឺថាគាត់មិនមានជំងឺ។ | ដូចជាសមត្ថភាពរបស់ម៉ាស៊ីនស្កេនអាវុធនៅព្រលានយន្តហោះ ដែលអាចរកឃើញកាំភ្លើងពិតប្រាកដគ្រប់រាល់ពេលដែលជនសង្ស័យលាក់វាតាមខ្លួន ដោយមិនរំលង។ |
| Specificity | រង្វាស់វាយតម្លៃសមត្ថភាពម៉ូដែល ក្នុងការកំណត់អត្តសញ្ញាណអ្នកដែលគ្មានជំងឺ (អវិជ្ជមានពិត) ឱ្យបានត្រឹមត្រូវ១០០% ដែលជួយកាត់បន្ថយការប្រកាសអាសន្នមិនពិត (ការប្រាប់មនុស្សធម្មតាថាមានជំងឺ)។ | ដូចជាឆ្កែប៉ូលីសដែលព្រុសតែពេលហិតក្លិនឃើញគ្រឿងញៀនពិតប្រាកដ និងមិនព្រុសផ្តេសផ្តាសពេលហិតប៉ះម្សៅទឹកដោះគោធម្មតា។ |
| AUC | តំណាងឱ្យ Area Under the Curve វាជាតម្លៃទូទៅចាប់ពី 0.5 ដល់ 1 ដែលវាស់ស្ទង់សមត្ថភាពសរុបរបស់ម៉ូដែលចំណាត់ថ្នាក់ក្នុងការបែងចែករវាងក្រុមមានជំងឺ និងក្រុមគ្មានជំងឺ (តម្លៃកាន់តែខិតជិត 1 មានន័យថាម៉ូដែលកាន់តែពូកែ)។ | ដូចជាពិន្ទុមធ្យមភាគប្រចាំឆ្នាំរបស់សិស្សម្នាក់ ដែលសរុបបញ្ចូលគ្នានូវគ្រប់មុខវិជ្ជា ដើម្បីបញ្ជាក់ពីសមត្ថភាពទូទៅរបស់គាត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖