បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការទស្សន៍ទាយជំងឺមហារីកមាត់ស្បូន (Cervical Cancer) ដែលបណ្តាលមកពីទិន្នន័យវេជ្ជសាស្រ្តមានភាពមិនមានតុល្យភាព (Imbalanced Data) និងកម្រិតភាពត្រឹមត្រូវទាបនៃគំរូទស្សន៍ទាយមុនៗក្នុងការកំណត់អត្តសញ្ញាណអ្នកជំងឺ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអភិវឌ្ឍគំរូព្យាករណ៍មួយដោយប្រើប្រាស់ក្បួនដោះស្រាយ Decision Tree រួមបញ្ចូលជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈសម្បត្តិសំខាន់ៗ និងការធ្វើឱ្យទិន្នន័យមានតុល្យភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Basic Decision Tree (Classifier I) គំរូ Decision Tree ធម្មតាដោយគ្មានការជ្រើសរើសលក្ខណៈពិសេស ឬធ្វើឱ្យទិន្នន័យមានតុល្យភាព |
ងាយស្រួលក្នុងការយល់ និងបកស្រាយលទ្ធផល ប៉ុន្តែដំណើរការបានល្អតែលើទិន្នន័យទូទៅ។ | មិនអាចកំណត់អត្តសញ្ញាណករណីវិជ្ជមាន (អ្នកមានជំងឺ) បានល្អទេ ដោយសារបញ្ហាទិន្នន័យមិនមានតុល្យភាព។ | ភាពត្រឹមត្រូវ (Accuracy) ៩៦% និងភាពរសើប (Sensitivity) ៨៦% |
| Decision Tree + RFE (Classifier II) ការប្រើប្រាស់ Decision Tree រួមជាមួយបច្ចេកទេស Recursive Feature Elimination (RFE) ដើម្បីជ្រើសរើសលក្ខណៈពិសេស |
កាត់បន្ថយចំនួនទិន្នន័យដែលមិនចាំបាច់ និងបង្កើនភាពត្រឹមត្រូវជារួម។ | នៅតែមានកម្រិតទាបក្នុងការចាប់យកករណីវិជ្ជមាន (Sensitivity មិនមានការផ្លាស់ប្តូរ)។ | ភាពត្រឹមត្រូវ (Accuracy) ៩៨% និងភាពរសើប (Sensitivity) ៨៦% |
| DT + RFE + SMOTETomek (Classifier III - Proposed) វិធីសាស្ត្រដែលស្នើឡើង៖ Decision Tree រួមជាមួយ RFE និងបច្ចេកទេស SMOTETomek សម្រាប់តុល្យភាពទិន្នន័យ |
ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នាបានយ៉ាងមានប្រសិទ្ធភាព និងអាចកំណត់អត្តសញ្ញាណអ្នកជំងឺបានគ្រប់ករណី។ | តម្រូវឱ្យមានការគណនាបន្ថែមលើការបង្កើតទិន្នន័យសិប្បនិម្មិត (Oversampling) និងការកាត់បន្ថយទិន្នន័យ (Undersampling)។ | ភាពត្រឹមត្រូវ (Accuracy) ៩៨% និងភាពរសើប (Sensitivity) ១០០% |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីតម្លៃធនធានផ្ទាល់ទេ ប៉ុន្តែផ្អែកលើបច្ចេកទេសដែលប្រើ វាត្រូវការធនធានកុំព្យូទ័រកម្រិតមធ្យម។
ទិន្នន័យដែលប្រើប្រាស់បានមកពីមន្ទីរពេទ្យនៅប្រទេសវេណេស៊ុយអេឡា (Venezuela) ដែលកត្តាប្រជាសាស្ត្រ ហ្សែន និងការរស់នៅអាចខុសគ្នាពីស្ត្រីនៅកម្ពុជា។ លើសពីនេះ ទិន្នន័យមានភាពមិនមានតុល្យភាពខ្លាំង និងមានទិន្នន័យបាត់បង់ (Missing Values) ច្រើន ដែលទាមទារការសម្អាតយ៉ាងប្រុងប្រយ័ត្នមុននឹងយកមកប្រើ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ជាពិសេសក្នុងការជួយគាំទ្រការសម្រេចចិត្តរបស់គ្រូពេទ្យ។
ទោះបីជាគំរូនេះមានប្រសិទ្ធភាពក៏ដោយ វាចាំបាច់ត្រូវមានការបណ្តុះបណ្តាលឡើងវិញ (Retraining) ជាមួយទិន្នន័យអ្នកជំងឺកម្ពុជា ដើម្បីធានាបាននូវភាពត្រឹមត្រូវខ្ពស់បំផុត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Decision Tree (DT) | ជាគំរូនៃបញ្ញាសិប្បនិម្មិតដែលមានរាងដូចដើមឈើ ដែលបំបែកទិន្នន័យជាជំហានៗដោយផ្អែកលើលក្ខខណ្ឌ ឬសំណួរ ដើម្បីឈានទៅរកការសម្រេចចិត្តចុងក្រោយ ឬការចាត់ថ្នាក់។ | ដូចជាការលេងល្បែងទាយសត្វ ដោយសួរថា "តើវាមានស្លាបទេ?" បើមាន ទៅសួរទៀត "តើវាចេះហោះទេ?" រហូតទាល់តែទាយត្រូវ។ |
| Recursive Feature Elimination (RFE) | ជាបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសដោយកាត់បន្ថយទិន្នន័យម្តងមួយៗ។ វាដំណើរការដោយលុបចោលកត្តាដែលមិនសូវសំខាន់ចេញពីការវិភាគ ដើម្បីទុកតែកត្តាដែលជះឥទ្ធិពលខ្លាំងបំផុតលើលទ្ធផល។ | ដូចជាការរៀបចំកាបូបដើរលេង ដោយដករបស់ដែលមិនចាំបាច់ចេញម្តងមួយៗ រហូតដល់សល់តែរបស់សំខាន់បំផុតដែលត្រូវតែមាន។ |
| SMOTETomek | ជាវិធីសាស្ត្រកូនកាត់ដែលរួមបញ្ចូលគ្នានូវការបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិច (SMOTE) និងការលុបចោលទិន្នន័យដែលស្រពេចស្រពិល (Tomek Links) ដើម្បីឱ្យទិន្នន័យមានតុល្យភាព។ | ដូចជាការបន្ថែមសិស្សក្នុងក្រុមតូចឱ្យមានគ្នាច្រើន និងដកសិស្សដែលអង្គុយលាយឡំគ្នាខុសកន្លែងចេញ ដើម្បីឱ្យគ្រូងាយស្រួលបែងចែកក្រុមសិស្សឱ្យដាច់ពីគ្នា។ |
| Sensitivity | ជាសមត្ថភាពរបស់ម៉ាស៊ីនក្នុងការរកឃើញករណីវិជ្ជមាន (អ្នកមានជំងឺ) យ៉ាងត្រឹមត្រូវ។ ក្នុងវិស័យវេជ្ជសាស្ត្រ វាសំខាន់ជាងភាពត្រឹមត្រូវទូទៅ ព្រោះយើងមិនចង់ឱ្យអ្នកមានជំងឺត្រូវបានវិភាគថា "គ្មានជំងឺ"។ | ដូចជាប្រព័ន្ធការពារភ្លើងឆេះដែលត្រូវតែរោទិ៍រាល់ពេលមានផ្សែង ដើម្បីធានាថាមិនខកខានពេលមានភ្លើងឆេះពិតប្រាកដ។ |
| Specificity | ជាសមត្ថភាពរបស់ម៉ាស៊ីនក្នុងការកំណត់អត្តសញ្ញាណអ្នកដែលមិនមានជំងឺ (ករណីអវិជ្ជមាន) បានយ៉ាងត្រឹមត្រូវ។ | ដូចជាការត្រួតពិនិត្យសំបុត្រដែលមិនចាប់ច្រឡំមនុស្សធម្មតាថាជាចោរ។ |
| Class Imbalance | ស្ថានភាពដែលទិន្នន័យមួយក្រុមមានចំនួនច្រើនលើសលប់ជាងមួយក្រុមទៀត (ឧទាហរណ៍៖ មនុស្សដែលមានសុខភាពល្អមានច្រើនជាងអ្នកកើតមហារីក) ដែលធ្វើឱ្យកុំព្យូទ័រពិបាករៀនស្គាល់ក្រុមដែលមានចំនួនតិច។ | ដូចជាការស្វែងរកម្ជុលក្នុងគំនរចំបើង; ដោយសារចំបើងមានច្រើនពេក វាពិបាកនឹងរកឃើញម្ជុលដែលជាគោលដៅសំខាន់។ |
| Overfitting | ជាបញ្ហាដែលកុំព្យូទ័ររៀនទិន្នន័យលម្អិតពេក រហូតដល់ចងចាំទាំងចំណុចមិនសំខាន់ ឬកំហុសតូចតាច ធ្វើឱ្យវាមិនអាចទស្សន៍ទាយទិន្នន័យថ្មីៗបានត្រឹមត្រូវ។ | ដូចជាសិស្សដែលទន្ទេញចម្លើយប្រឡងចាំរត់មាត់ ប៉ុន្តែពេលចេញវិញ្ញាសាដែលប្លែកបន្តិច គាត់ធ្វើមិនបានព្រោះមិនយល់ពីខ្លឹមសារពិតប្រាកដ។ |
| K-fold Cross-validation | ជាវិធីសាស្ត្រវាយតម្លៃប្រសិទ្ធភាពរបស់គំរូដោយបែងចែកទិន្នន័យជាផ្នែកតូចៗជាច្រើន (K-fold) ហើយធ្វើការបណ្តុះបណ្តាល និងធ្វើតេស្តឆ្លាស់គ្នាជាច្រើនដង ដើម្បីធានាថាគំរូនេះពិតជាល្អ។ | ដូចជាការសាកល្បងម្ហូបឱ្យមនុស្ស ១០ នាក់ផ្សេងគ្នាភ្លក់ ដើម្បីធានាថាវាពិតជាឆ្ងាញ់សម្រាប់មនុស្សទូទៅ មិនមែនត្រូវមាត់តែចំពោះបុគ្គលម្នាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖