បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាវិសមាមាត្រនៃចំណាត់ថ្នាក់ទិន្នន័យ (Class Imbalance) នៅក្នុងសំណុំទិន្នន័យជីវវេជ្ជសាស្ត្រ ដែលធ្វើឱ្យម៉ូដែល Machine Learning ងាយនឹងទស្សន៍ទាយខុសទៅលើទិន្នន័យក្រុមភាគតិច (ឧទាហរណ៍ ការទស្សន៍ទាយអ្នកមានជំងឺពិតប្រាកដ)។ ជាពិសេស វាផ្តោតលើការលំបាកក្នុងការអនុវត្តបច្ចេកទេសបង្កើនទិន្នន័យលើទិន្នន័យប្រភេទគោលពីរ (Binary Features) ដែលកម្រិតដែនតម្លៃមានភាពចង្អៀតពេក។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុន ដោយរួមបញ្ចូលការទាញយកលក្ខណៈពិសេសរួមជាមួយនឹងបច្ចេកទេសបង្កើតទិន្នន័យកាឡៃបន្ថែម (Oversampling) លើសំណុំទិន្នន័យហ្សែន និងសំណុំទិន្នន័យគោលពីរ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard Machine Learning (Base Model) ម៉ូដែល Machine Learning ស្តង់ដារ (មិនប្រើបច្ចេកទេសតម្លើងទិន្នន័យ) |
ចំណាយពេលដំណើរការលឿន ងាយស្រួលក្នុងការសរសេរកូដអនុវត្ត និងមិនត្រូវការកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្ពស់។ | ងាយនឹងធ្វើការទស្សន៍ទាយខុសទៅលើទិន្នន័យក្រុមភាគតិច (Minority Class) ដោយសារវាទាញលទ្ធផលលំអៀងទៅរកក្រុមភាគច្រើន ជាពិសេសលើទិន្នន័យប្រភេទគោលពីរ (Binary Features)។ | ផ្តល់ពិន្ទុ F1-score ទាប (ឧទាហរណ៍៖ ទទួលបានត្រឹមតែ ០.៨៨៦ ប៉ុណ្ណោះសម្រាប់សំណុំទិន្នន័យ SPECT ដែលប្រើយន្តការ Random Forest)។ |
| Direct Oversampling (SMOTE/ADASYN) ការតម្លើងទិន្នន័យកាឡៃដោយផ្ទាល់លើទិន្នន័យគោលពីរ |
ជួយកាត់បន្ថយភាពលំអៀងនៃក្បួនដោះស្រាយ និងបង្កើនភាពត្រឹមត្រូវក្នុងការកំណត់អត្តសញ្ញាណទិន្នន័យក្រុមភាគតិចបានមួយកម្រិត។ | មិនសូវមានប្រសិទ្ធភាពខ្ពស់ ដោយសារតម្លៃនៃលក្ខណៈពិសេសគោលពីរមានដែនកំណត់តូចចង្អៀត (មានត្រឹម ០ និង ១) ដែលធ្វើឱ្យការបង្កើតទិន្នន័យថ្មីខ្វះភាពចម្រុះនិងមិនឆ្លុះបញ្ចាំងពីសភាពពិត។ | ទទួលបានអត្រា AUC ៩០% ជាមួយម៉ូដែល Multiclass LR លើទិន្នន័យជំងឺ COPD ប៉ុន្តែលទ្ធផលនៅមានកម្រិតនៅឡើយសម្រាប់សំណុំទិន្នន័យគោលពីរផ្សេងទៀត។ |
| Feature Extraction + Oversampling (Proposed Method) ការទាញយកលក្ខណៈពិសេសរួចបញ្ជូលជាមួយការតម្លើងទិន្នន័យ (វិធីសាស្ត្រស្នើឡើង) |
ជួយបំប្លែងទិន្នន័យគោលពីរដែលចង្អៀតទៅជាទម្រង់លេខដែលមានលក្ខណៈទូលំទូលាយ ដែលជួយឱ្យការធ្វើ Oversampling ដំណើរការបានល្អឥតខ្ចោះ និងបង្កើនប្រសិទ្ធភាពម៉ូដែលយ៉ាងខ្លាំង។ | ទាមទារការគណនាស៊ីជម្រៅដែលចំណាយពេលយូរក្នុងការរៀបចំទិន្នន័យជាមុន (Pre-processing) ព្រមទាំងធ្វើឱ្យអ្នកវិភាគពិបាកបកស្រាយអត្ថន័យនៃលក្ខណៈពិសេសដែលបានបំប្លែងរួច។ | អត្រា F1-score កើនឡើងខ្ពស់កប់ក្ដោង (ឧទាហរណ៍៖ កើនពី ០.៨៨៦ ទៅ ០.៩៨៩ សម្រាប់សំណុំទិន្នន័យ SPECT ដោយប្រើបន្សំ RF + tSNE + RSLS)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកជាចម្បងលើការប្រើប្រាស់កម្មវិធី R និងធនធានកុំព្យូទ័រសម្រាប់ការដំណើរការម៉ូដែល Machine Learning ព្រមទាំងតម្រូវឱ្យមានទិន្នន័យជីវវេជ្ជសាស្ត្រដែលប្រមូលពីមូលដ្ឋានទិន្នន័យសាធារណៈឬមន្ទីរពេទ្យ។
ទិន្នន័យដែលប្រើប្រាស់ក្នុងការសិក្សានេះ ភាគច្រើនជាទិន្នន័យហ្សែនអ្នកជំងឺសួតរ៉ាំរ៉ៃ (COPD) ពីសហរដ្ឋអាមេរិក (GEO dataset) និងទិន្នន័យមេរោគពីមន្ទីរពេទ្យសាកលវិទ្យាល័យ Kanazawa នៃប្រទេសជប៉ុន។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យហ្សែន រចនាសម្ព័ន្ធមេរោគ ឬអត្រាអត្រាប្រេវ៉ាឡង់នៃជំងឺអាចមានភាពខុសគ្នាស្រឡះអាស្រ័យលើភូមិសាស្ត្រ និងកត្តារស់នៅ ដូច្នេះម៉ូដែលចាំបាច់ត្រូវមានការបង្ហាត់សារជាថ្មីដោយប្រើទិន្នន័យក្នុងស្រុកទើបមានសុក្រឹតភាពខ្ពស់សម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។
ទោះបីជាទិន្នន័យមានប្រភពពីប្រទេសអភិវឌ្ឍន៍ក៏ដោយ ប៉ុន្តែវិធីសាស្ត្រនិងបច្ចេកទេសស្នើឡើងនេះមានអត្ថប្រយោជន៍ និងអាចយកមកអនុវត្តបានយ៉ាងទូលំទូលាយសម្រាប់វិស័យស្រាវជ្រាវ និងបច្ចេកវិទ្យានៅកម្ពុជា។
សរុបមក ការរួមបញ្ចូលគ្នារវាងការបំប្លែងលក្ខណៈពិសេស និងការបង្កើនទិន្នន័យ (Oversampling) គឺជាក្បួនដ៏រឹងមាំមួយដែលអាចជួយឱ្យស្ថាប័នកម្ពុជាដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ ឬការវិភាគលើទិន្នន័យក្រុមភាគតិចប្រកបដោយប្រសិទ្ធភាពខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Class Imbalance | វាគឺជាស្ថានភាពនៃសំណុំទិន្នន័យដែលចំនួនសំណាកក្នុងក្រុមមួយមានបរិមាណតិចតួចបំផុតធៀបនឹងក្រុមមួយទៀត (ឧទាហរណ៍ អ្នកឈឺមានតិចតួចធៀបនឹងអ្នកជា) ដែលធ្វើឱ្យកុំព្យូទ័ររៀនទន្ទេញតែពីលក្ខណៈរបស់ក្រុមភាគច្រើន និងងាយទស្សន៍ទាយខុសលើក្រុមភាគតិច។ | ដូចជាសាលារៀនមួយដែលមានសិស្សប្រុស១ពាន់នាក់ តែមានសិស្សស្រីតែ២នាក់ ដែលធ្វើឱ្យគ្រូពិបាកកត់សម្គាល់ពីអត្តចរិតរបស់សិស្សស្រី។ |
| SMOTE | ជាក្បួនដោះស្រាយសម្រាប់បង្កើតទិន្នន័យថ្មីៗបន្ថែមដោយស្វ័យប្រវត្តិ (ចម្លងនិងបង្កាត់តាមទិន្នន័យចាស់ដែលមានស្រាប់) សម្រាប់ក្រុមភាគតិច ដើម្បីឱ្យវាមានចំនួនប្រហាក់ប្រហែលនឹងក្រុមភាគច្រើន ងាយស្រួលដល់ការបង្ហាត់ម៉ូដែល Machine Learning។ | ដូចជាការថតចម្លងនិងកែច្នៃរូបថតសត្វកម្រដែលជិតផុតពូជបន្តិចបន្តួច ឱ្យទៅជារូបថតរាប់ពាន់សន្លឹកក្នុងប្លង់ខុសៗគ្នា ដើម្បីឱ្យកុំព្យូទ័រឆាប់ចំណាំវាបាន។ |
| Feature Extraction | គឺជាដំណើរការបង្រួមនិងទាញយកតែលក្ខណៈសម្បត្តិស្នូលពីទិន្នន័យធំៗនិងស្មុគស្មាញ (ដូចជាទិន្នន័យហ្សែនរាប់ម៉ឺន) បំប្លែងទៅជាទម្រង់ថ្មីដែលតូចជាងមុន ជួយឱ្យកុំព្យូទ័រអាចដំណើរការគណនាបានលឿននិងមិនមានភាពរអាក់រអួលដោយសារទិន្នន័យរំខាន (Noise)។ | ដូចជាការសង្ខេបសាច់រឿងសៀវភៅ១០០ទំព័រ មកត្រឹម១ទំព័រ ដោយរក្សាទុកតែអត្ថន័យសំខាន់បំផុតដើម្បីងាយយល់និងចំណេញពេលអាន។ |
| Binary Features | គឺជាប្រភេទលក្ខណៈនៃទិន្នន័យដែលមានតែជម្រើសតម្លៃពីរគត់ (ឧទាហរណ៍៖ មានឬគ្មាន, ពិតឬមិនពិត, លេខ០ឬលេខ១) ដែលវាធ្វើឱ្យបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែមមានការលំបាក ដោយសារដែនកំណត់វាតូចចង្អៀតពេក។ | ដូចជាកុងតាក់ភ្លើងដែលមានតែស្ថានភាពបើក និង បិទប៉ុណ្ណោះ គឺគ្មានកម្រិតពន្លឺភ្លឺព្រិលៗនៅចន្លោះកណ្តាលនោះទេ។ |
| AUC | ជារង្វាស់ជាលេខ (ពី ០ ដល់ ១) សម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលថាតើវាអាចញែកដាច់រវាងក្រុមទិន្នន័យវិជ្ជមាន (អ្នកឈឺ) និងអវិជ្ជមាន (អ្នកមិនឈឺ) បានល្អកម្រិតណា (ពិន្ទុកាន់តែជិត ១ កាន់តែល្អ)។ | ដូចជាពិន្ទុប្រឡងចុងឆ្នាំដែលវាស់ស្ទង់សមត្ថភាពសិស្ស ថាតើគេអាចញែកដាច់រវាងចម្លើយត្រូវនិងចម្លើយខុសបានច្បាស់លាស់កម្រិតណា។ |
| F1-score | ជារង្វាស់មធ្យមភាគដែលថ្លឹងថ្លែងភាពស៊ីចង្វាក់គ្នារវាង 'ភាពត្រឹមត្រូវនៃអ្វីដែលម៉ូដែលបានទាយ (Precision)' និង 'ការរកឃើញទិន្នន័យពិតប្រាកដដែលមិនបាត់បង់ (Recall)' ដែលវាមានប្រសិទ្ធភាពខ្លាំងក្នុងការវាស់ស្ទង់ទិន្នន័យដែលមានវិសមាមាត្រ។ | ដូចជារង្វាស់ទម្ងន់នៃភាពជោគជ័យរបស់អ្នកនេសាទ ដែលគិតទាំងបរិមាណត្រីដែលចាប់បាន និងត្រូវប្រាកដថាអួនមិនជាប់ដោយកាកសំណល់ប្លាស្ទិកមកជាមួយ។ |
| t-SNE | ជាក្បួនគណនាមួយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យដ៏ស្មុគស្មាញ ដោយយកទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាទៅដាក់ផ្តុំគ្នានៅជិតៗគ្នាក្នុងទម្រង់ប្លង់ 2D ឬ 3D ដើម្បីងាយស្រួលក្នុងការមើលឃើញក្រុមនិងវិភាគចំណាត់ថ្នាក់។ | ដូចជាការចាត់ថ្នាក់មនុស្សរាប់ពាន់នាក់ឱ្យឈរជាក្រុមៗនៅលើតារាងបាល់ទាត់តាមចំណង់ចំណូលចិត្តស្រដៀងគ្នា ដើម្បីងាយស្រួលមើលការប្រមូលផ្តុំពីលើអាកាស។ |
| Microarray Gene Expression Data | គឺជាទិន្នន័យជីវសាស្ត្រដែលវាស់ស្ទង់និងបង្ហាញពីកម្រិតនៃសកម្មភាព ឬការបញ្ចេញហ្សែនរាប់ពាន់ទៅរាប់ម៉ឺននៅក្នុងកោសិកាក្នុងពេលតែមួយ ដែលជួយអ្នកស្រាវជ្រាវវែកញែករកហ្សែនខុសប្រក្រតីដែលបង្កជំងឺ។ | ដូចជាផ្ទាំងបញ្ជា (Dashboard) ដ៏ធំមួយដែលមានភ្លើងលោតរាប់ម៉ឺនគ្រាប់ ដើម្បីប្រាប់យើងឱ្យដឹងច្បាស់ថាគ្រឿងម៉ាស៊ីនមួយណាដំណើរការល្អ និងមួយណាកំពុងខូចខាតនៅក្នុងរោងចក្រ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖