Original Title: A Contemporary Machine Learning Method for Accurate Prediction of Cervical Cancer
Source: doi.org/10.1051/shsconf/202110204004
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រសិក្សាម៉ាស៊ីន (Machine Learning) ដ៏ទំនើបសម្រាប់ការទស្សន៍ទាយជំងឺមហារីកមាត់ស្បូនយ៉ាងត្រឹមត្រូវ

ចំណងជើងដើម៖ A Contemporary Machine Learning Method for Accurate Prediction of Cervical Cancer

អ្នកនិពន្ធ៖ Jesse Jeremiah Tanimu (Bayero University, Nigeria), Mohamed Hamada (University of Aizu, Japan), Mohammed Hassan (Bayero University, Nigeria), Saratu Yusuf Ilu (Bayero University, Nigeria)

ឆ្នាំបោះពុម្ព៖ 2021 - SHS Web of Conferences

វិស័យសិក្សា៖ Computer Science, Medical Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការទស្សន៍ទាយជំងឺមហារីកមាត់ស្បូន (Cervical Cancer) ដែលបណ្តាលមកពីទិន្នន័យវេជ្ជសាស្រ្តមានភាពមិនមានតុល្យភាព (Imbalanced Data) និងកម្រិតភាពត្រឹមត្រូវទាបនៃគំរូទស្សន៍ទាយមុនៗក្នុងការកំណត់អត្តសញ្ញាណអ្នកជំងឺ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអភិវឌ្ឍគំរូព្យាករណ៍មួយដោយប្រើប្រាស់ក្បួនដោះស្រាយ Decision Tree រួមបញ្ចូលជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈសម្បត្តិសំខាន់ៗ និងការធ្វើឱ្យទិន្នន័យមានតុល្យភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Basic Decision Tree (Classifier I)
គំរូ Decision Tree ធម្មតាដោយគ្មានការជ្រើសរើសលក្ខណៈពិសេស ឬធ្វើឱ្យទិន្នន័យមានតុល្យភាព
ងាយស្រួលក្នុងការយល់ និងបកស្រាយលទ្ធផល ប៉ុន្តែដំណើរការបានល្អតែលើទិន្នន័យទូទៅ។ មិនអាចកំណត់អត្តសញ្ញាណករណីវិជ្ជមាន (អ្នកមានជំងឺ) បានល្អទេ ដោយសារបញ្ហាទិន្នន័យមិនមានតុល្យភាព។ ភាពត្រឹមត្រូវ (Accuracy) ៩៦% និងភាពរសើប (Sensitivity) ៨៦%
Decision Tree + RFE (Classifier II)
ការប្រើប្រាស់ Decision Tree រួមជាមួយបច្ចេកទេស Recursive Feature Elimination (RFE) ដើម្បីជ្រើសរើសលក្ខណៈពិសេស
កាត់បន្ថយចំនួនទិន្នន័យដែលមិនចាំបាច់ និងបង្កើនភាពត្រឹមត្រូវជារួម។ នៅតែមានកម្រិតទាបក្នុងការចាប់យកករណីវិជ្ជមាន (Sensitivity មិនមានការផ្លាស់ប្តូរ)។ ភាពត្រឹមត្រូវ (Accuracy) ៩៨% និងភាពរសើប (Sensitivity) ៨៦%
DT + RFE + SMOTETomek (Classifier III - Proposed)
វិធីសាស្ត្រដែលស្នើឡើង៖ Decision Tree រួមជាមួយ RFE និងបច្ចេកទេស SMOTETomek សម្រាប់តុល្យភាពទិន្នន័យ
ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នាបានយ៉ាងមានប្រសិទ្ធភាព និងអាចកំណត់អត្តសញ្ញាណអ្នកជំងឺបានគ្រប់ករណី។ តម្រូវឱ្យមានការគណនាបន្ថែមលើការបង្កើតទិន្នន័យសិប្បនិម្មិត (Oversampling) និងការកាត់បន្ថយទិន្នន័យ (Undersampling)។ ភាពត្រឹមត្រូវ (Accuracy) ៩៨% និងភាពរសើប (Sensitivity) ១០០%

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីតម្លៃធនធានផ្ទាល់ទេ ប៉ុន្តែផ្អែកលើបច្ចេកទេសដែលប្រើ វាត្រូវការធនធានកុំព្យូទ័រកម្រិតមធ្យម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើប្រាស់បានមកពីមន្ទីរពេទ្យនៅប្រទេសវេណេស៊ុយអេឡា (Venezuela) ដែលកត្តាប្រជាសាស្ត្រ ហ្សែន និងការរស់នៅអាចខុសគ្នាពីស្ត្រីនៅកម្ពុជា។ លើសពីនេះ ទិន្នន័យមានភាពមិនមានតុល្យភាពខ្លាំង និងមានទិន្នន័យបាត់បង់ (Missing Values) ច្រើន ដែលទាមទារការសម្អាតយ៉ាងប្រុងប្រយ័ត្នមុននឹងយកមកប្រើ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ជាពិសេសក្នុងការជួយគាំទ្រការសម្រេចចិត្តរបស់គ្រូពេទ្យ។

ទោះបីជាគំរូនេះមានប្រសិទ្ធភាពក៏ដោយ វាចាំបាច់ត្រូវមានការបណ្តុះបណ្តាលឡើងវិញ (Retraining) ជាមួយទិន្នន័យអ្នកជំងឺកម្ពុជា ដើម្បីធានាបាននូវភាពត្រឹមត្រូវខ្ពស់បំផុត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះ Python និង Scikit-learn: និស្សិតគួរចាប់ផ្តើមរៀនសរសេរកូដ Python ដោយផ្តោតលើបណ្ណាល័យ Scikit-learn សម្រាប់ការបង្កើត Decision Tree ។
  2. ស្វែងយល់ពីការគ្រប់គ្រងទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data): សិក្សាពីរបៀបប្រើប្រាស់បណ្ណាល័យ Imbalanced-learn ជាពិសេសបច្ចេកទេស SMOTE និង Tomek Links ដែលជាស្នូលនៃការសិក្សានេះ។
  3. អនុវត្តបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): រៀនប្រើប្រាស់ Recursive Feature Elimination (RFE) ដើម្បីកំណត់ថាកត្តាហានិភ័យណាខ្លះដែលសំខាន់បំផុតសម្រាប់ជំងឺមហារីក។
  4. ការពិសោធន៍ជាមួយទិន្នន័យជាក់ស្តែង: ទាញយកទិន្នន័យ UCI Cervical Cancer (https://archive.ics.uci.edu) ហើយព្យាយាមបង្កើតគំរូឡើងវិញតាមការណែនាំក្នុងឯកសារ។
  5. គម្រោងសហការស្រាវជ្រាវ: ស្នើសុំធ្វើគម្រោងបញ្ចប់ការសិក្សាដោយសហការជាមួយមន្ទីរពេទ្យក្នុងស្រុក ដើម្បីសាកល្បងគំរូនេះជាមួយទិន្នន័យអនាមិករបស់អ្នកជំងឺនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Decision Tree (DT) ជាគំរូនៃបញ្ញាសិប្បនិម្មិតដែលមានរាងដូចដើមឈើ ដែលបំបែកទិន្នន័យជាជំហានៗដោយផ្អែកលើលក្ខខណ្ឌ ឬសំណួរ ដើម្បីឈានទៅរកការសម្រេចចិត្តចុងក្រោយ ឬការចាត់ថ្នាក់។ ដូចជាការលេងល្បែងទាយសត្វ ដោយសួរថា "តើវាមានស្លាបទេ?" បើមាន ទៅសួរទៀត "តើវាចេះហោះទេ?" រហូតទាល់តែទាយត្រូវ។
Recursive Feature Elimination (RFE) ជាបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសដោយកាត់បន្ថយទិន្នន័យម្តងមួយៗ។ វាដំណើរការដោយលុបចោលកត្តាដែលមិនសូវសំខាន់ចេញពីការវិភាគ ដើម្បីទុកតែកត្តាដែលជះឥទ្ធិពលខ្លាំងបំផុតលើលទ្ធផល។ ដូចជាការរៀបចំកាបូបដើរលេង ដោយដករបស់ដែលមិនចាំបាច់ចេញម្តងមួយៗ រហូតដល់សល់តែរបស់សំខាន់បំផុតដែលត្រូវតែមាន។
SMOTETomek ជាវិធីសាស្ត្រកូនកាត់ដែលរួមបញ្ចូលគ្នានូវការបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិច (SMOTE) និងការលុបចោលទិន្នន័យដែលស្រពេចស្រពិល (Tomek Links) ដើម្បីឱ្យទិន្នន័យមានតុល្យភាព។ ដូចជាការបន្ថែមសិស្សក្នុងក្រុមតូចឱ្យមានគ្នាច្រើន និងដកសិស្សដែលអង្គុយលាយឡំគ្នាខុសកន្លែងចេញ ដើម្បីឱ្យគ្រូងាយស្រួលបែងចែកក្រុមសិស្សឱ្យដាច់ពីគ្នា។
Sensitivity ជាសមត្ថភាពរបស់ម៉ាស៊ីនក្នុងការរកឃើញករណីវិជ្ជមាន (អ្នកមានជំងឺ) យ៉ាងត្រឹមត្រូវ។ ក្នុងវិស័យវេជ្ជសាស្ត្រ វាសំខាន់ជាងភាពត្រឹមត្រូវទូទៅ ព្រោះយើងមិនចង់ឱ្យអ្នកមានជំងឺត្រូវបានវិភាគថា "គ្មានជំងឺ"។ ដូចជាប្រព័ន្ធការពារភ្លើងឆេះដែលត្រូវតែរោទិ៍រាល់ពេលមានផ្សែង ដើម្បីធានាថាមិនខកខានពេលមានភ្លើងឆេះពិតប្រាកដ។
Specificity ជាសមត្ថភាពរបស់ម៉ាស៊ីនក្នុងការកំណត់អត្តសញ្ញាណអ្នកដែលមិនមានជំងឺ (ករណីអវិជ្ជមាន) បានយ៉ាងត្រឹមត្រូវ។ ដូចជាការត្រួតពិនិត្យសំបុត្រដែលមិនចាប់ច្រឡំមនុស្សធម្មតាថាជាចោរ។
Class Imbalance ស្ថានភាពដែលទិន្នន័យមួយក្រុមមានចំនួនច្រើនលើសលប់ជាងមួយក្រុមទៀត (ឧទាហរណ៍៖ មនុស្សដែលមានសុខភាពល្អមានច្រើនជាងអ្នកកើតមហារីក) ដែលធ្វើឱ្យកុំព្យូទ័រពិបាករៀនស្គាល់ក្រុមដែលមានចំនួនតិច។ ដូចជាការស្វែងរកម្ជុលក្នុងគំនរចំបើង; ដោយសារចំបើងមានច្រើនពេក វាពិបាកនឹងរកឃើញម្ជុលដែលជាគោលដៅសំខាន់។
Overfitting ជាបញ្ហាដែលកុំព្យូទ័ររៀនទិន្នន័យលម្អិតពេក រហូតដល់ចងចាំទាំងចំណុចមិនសំខាន់ ឬកំហុសតូចតាច ធ្វើឱ្យវាមិនអាចទស្សន៍ទាយទិន្នន័យថ្មីៗបានត្រឹមត្រូវ។ ដូចជាសិស្សដែលទន្ទេញចម្លើយប្រឡងចាំរត់មាត់ ប៉ុន្តែពេលចេញវិញ្ញាសាដែលប្លែកបន្តិច គាត់ធ្វើមិនបានព្រោះមិនយល់ពីខ្លឹមសារពិតប្រាកដ។
K-fold Cross-validation ជាវិធីសាស្ត្រវាយតម្លៃប្រសិទ្ធភាពរបស់គំរូដោយបែងចែកទិន្នន័យជាផ្នែកតូចៗជាច្រើន (K-fold) ហើយធ្វើការបណ្តុះបណ្តាល និងធ្វើតេស្តឆ្លាស់គ្នាជាច្រើនដង ដើម្បីធានាថាគំរូនេះពិតជាល្អ។ ដូចជាការសាកល្បងម្ហូបឱ្យមនុស្ស ១០ នាក់ផ្សេងគ្នាភ្លក់ ដើម្បីធានាថាវាពិតជាឆ្ងាញ់សម្រាប់មនុស្សទូទៅ មិនមែនត្រូវមាត់តែចំពោះបុគ្គលម្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖