Original Title: A Contemporary Machine Learning Method for Accurate Prediction of Cervical Cancer
Source: doi.org/10.1051/shsconf/202110204004
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រសិក្សាម៉ាស៊ីន (Machine Learning) ដ៏ទំនើបសម្រាប់ការទស្សន៍ទាយជំងឺមហារីកមាត់ស្បូនយ៉ាងត្រឹមត្រូវ

ចំណងជើងដើម៖ A Contemporary Machine Learning Method for Accurate Prediction of Cervical Cancer

អ្នកនិពន្ធ៖ Jesse Jeremiah Tanimu (Bayero University, Nigeria), Mohamed Hamada (University of Aizu, Japan), Mohammed Hassan (Bayero University, Nigeria), Saratu Yusuf Ilu (Bayero University, Nigeria)

ឆ្នាំបោះពុម្ព៖ 2021 - SHS Web of Conferences

វិស័យសិក្សា៖ Computer Science, Medical Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការទស្សន៍ទាយជំងឺមហារីកមាត់ស្បូន (Cervical Cancer) ដែលបណ្តាលមកពីទិន្នន័យវេជ្ជសាស្រ្តមានភាពមិនមានតុល្យភាព (Imbalanced Data) និងកម្រិតភាពត្រឹមត្រូវទាបនៃគំរូទស្សន៍ទាយមុនៗក្នុងការកំណត់អត្តសញ្ញាណអ្នកជំងឺ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអភិវឌ្ឍគំរូព្យាករណ៍មួយដោយប្រើប្រាស់ក្បួនដោះស្រាយ Decision Tree រួមបញ្ចូលជាមួយបច្ចេកទេសជ្រើសរើសលក្ខណៈសម្បត្តិសំខាន់ៗ និងការធ្វើឱ្យទិន្នន័យមានតុល្យភាព។

ការប្រើប្រាស់ទិន្នន័យពី UCI Machine Learning Repository ដែលមានអ្នកជំងឺចំនួន ៨៥៨ នាក់ និងកត្តាហានិភ័យចំនួន ៣២
ការប្រើប្រាស់បច្ចេកទេស SMOTETomek ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data)
ការប្រើប្រាស់ Recursive Feature Elimination (RFE) ដើម្បីកាត់បន្ថយចំនួនវិមាត្រទិន្នន័យ និងជ្រើសរើសតែលក្ខណៈពិសេសដែលសំខាន់បំផុត
ការវាយតម្លៃគំរូដោយប្រើបច្ចេកទេស 10-fold cross-validation លើក្បួនដោះស្រាយ Decision Tree (DT)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូដែលបានស្នើឡើងសម្រេចបាននូវកម្រិតភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ ៩៨% ក្នុងការទស្សន៍ទាយលទ្ធផលជំងឺ។
លទ្ធផលបង្ហាញថាគំរូនេះមានភាពរសើប (Sensitivity) ១០០% ដែលមានន័យថាវាអាចកំណត់អត្តសញ្ញាណករណីវិជ្ជមាននៃជំងឺមហារីកបានយ៉ាងល្អបំផុត។
ការរួមបញ្ចូលគ្នានៃការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) និង SMOTETomek បានបង្កើនប្រសិទ្ធភាពនៃក្បួនដោះស្រាយ Decision Tree យ៉ាងខ្លាំងបើធៀបនឹងវិធីសាស្ត្រធម្មតា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Basic Decision Tree (Classifier I) គំរូ Decision Tree ធម្មតាដោយគ្មានការជ្រើសរើសលក្ខណៈពិសេស ឬធ្វើឱ្យទិន្នន័យមានតុល្យភាព	ងាយស្រួលក្នុងការយល់ និងបកស្រាយលទ្ធផល ប៉ុន្តែដំណើរការបានល្អតែលើទិន្នន័យទូទៅ។	មិនអាចកំណត់អត្តសញ្ញាណករណីវិជ្ជមាន (អ្នកមានជំងឺ) បានល្អទេ ដោយសារបញ្ហាទិន្នន័យមិនមានតុល្យភាព។	ភាពត្រឹមត្រូវ (Accuracy) ៩៦% និងភាពរសើប (Sensitivity) ៨៦%
Decision Tree + RFE (Classifier II) ការប្រើប្រាស់ Decision Tree រួមជាមួយបច្ចេកទេស Recursive Feature Elimination (RFE) ដើម្បីជ្រើសរើសលក្ខណៈពិសេស	កាត់បន្ថយចំនួនទិន្នន័យដែលមិនចាំបាច់ និងបង្កើនភាពត្រឹមត្រូវជារួម។	នៅតែមានកម្រិតទាបក្នុងការចាប់យកករណីវិជ្ជមាន (Sensitivity មិនមានការផ្លាស់ប្តូរ)។	ភាពត្រឹមត្រូវ (Accuracy) ៩៨% និងភាពរសើប (Sensitivity) ៨៦%
DT + RFE + SMOTETomek (Classifier III - Proposed) វិធីសាស្ត្រដែលស្នើឡើង៖ Decision Tree រួមជាមួយ RFE និងបច្ចេកទេស SMOTETomek សម្រាប់តុល្យភាពទិន្នន័យ	ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នាបានយ៉ាងមានប្រសិទ្ធភាព និងអាចកំណត់អត្តសញ្ញាណអ្នកជំងឺបានគ្រប់ករណី។	តម្រូវឱ្យមានការគណនាបន្ថែមលើការបង្កើតទិន្នន័យសិប្បនិម្មិត (Oversampling) និងការកាត់បន្ថយទិន្នន័យ (Undersampling)។	ភាពត្រឹមត្រូវ (Accuracy) ៩៨% និងភាពរសើប (Sensitivity) ១០០%

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីតម្លៃធនធានផ្ទាល់ទេ ប៉ុន្តែផ្អែកលើបច្ចេកទេសដែលប្រើ វាត្រូវការធនធានកុំព្យូទ័រកម្រិតមធ្យម។

Dataset: ទិន្នន័យពី UCI Repository ដែលមានកំណត់ត្រាអ្នកជំងឺចំនួន ៨៥៨ នាក់ (អាចដំណើរការលើម៉ាស៊ីនកុំព្យូទ័រទូទៅ)។
Software: ភាសា Python និងបណ្ណាល័យដូចជា Scikit-learn និង Imbalanced-learn សម្រាប់បច្ចេកទេស SMOTETomek ។
Computational Power: មិនតម្រូវឱ្យមាន GPU ខ្លាំងក្លាទេ CPU ធម្មតាអាចដំណើរការ Decision Tree និង RFE លើទិន្នន័យទំហំនេះបាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើប្រាស់បានមកពីមន្ទីរពេទ្យនៅប្រទេសវេណេស៊ុយអេឡា (Venezuela) ដែលកត្តាប្រជាសាស្ត្រ ហ្សែន និងការរស់នៅអាចខុសគ្នាពីស្ត្រីនៅកម្ពុជា។ លើសពីនេះ ទិន្នន័យមានភាពមិនមានតុល្យភាពខ្លាំង និងមានទិន្នន័យបាត់បង់ (Missing Values) ច្រើន ដែលទាមទារការសម្អាតយ៉ាងប្រុងប្រយ័ត្នមុននឹងយកមកប្រើ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់វិស័យសុខាភិបាលនៅកម្ពុជា ជាពិសេសក្នុងការជួយគាំទ្រការសម្រេចចិត្តរបស់គ្រូពេទ្យ។

មន្ទីរពេទ្យកាល់ម៉ែត (Calmette Hospital) ឬ មន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត: អាចប្រើប្រាស់គំរូនេះដើម្បីវិភាគហានិភ័យបឋមសម្រាប់អ្នកជំងឺដែលមកពិនិត្យសុខភាពមាត់ស្បូន ដោយកាត់បន្ថយការរង់ចាំលទ្ធផល Biopsy យូរ។
ការស្រាវជ្រាវនៅសាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល (UHS): និស្សិតវេជ្ជសាស្ត្រនិង IT អាចសហការគ្នាដើម្បីប្រមូលទិន្នន័យក្នុងស្រុក និងបង្កើតគំរូស្រដៀងគ្នានេះសម្រាប់ប្រជាជនខ្មែរ។
មណ្ឌលសុខភាពតាមខេត្ត: អាចប្រើជាឧបករណ៍ស្គ្រីន (Screening Tool) បឋម ដើម្បីកំណត់ថាអ្នកជំងឺណាគួរត្រូវបានបញ្ជូនមកពិនិត្យនៅភ្នំពេញជាបន្ទាន់។

ទោះបីជាគំរូនេះមានប្រសិទ្ធភាពក៏ដោយ វាចាំបាច់ត្រូវមានការបណ្តុះបណ្តាលឡើងវិញ (Retraining) ជាមួយទិន្នន័យអ្នកជំងឺកម្ពុជា ដើម្បីធានាបាននូវភាពត្រឹមត្រូវខ្ពស់បំផុត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះ Python និង Scikit-learn: និស្សិតគួរចាប់ផ្តើមរៀនសរសេរកូដ Python ដោយផ្តោតលើបណ្ណាល័យ Scikit-learn សម្រាប់ការបង្កើត Decision Tree ។
ស្វែងយល់ពីការគ្រប់គ្រងទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data): សិក្សាពីរបៀបប្រើប្រាស់បណ្ណាល័យ Imbalanced-learn ជាពិសេសបច្ចេកទេស SMOTE និង Tomek Links ដែលជាស្នូលនៃការសិក្សានេះ។
អនុវត្តបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): រៀនប្រើប្រាស់ Recursive Feature Elimination (RFE) ដើម្បីកំណត់ថាកត្តាហានិភ័យណាខ្លះដែលសំខាន់បំផុតសម្រាប់ជំងឺមហារីក។
ការពិសោធន៍ជាមួយទិន្នន័យជាក់ស្តែង: ទាញយកទិន្នន័យ UCI Cervical Cancer (https://archive.ics.uci.edu) ហើយព្យាយាមបង្កើតគំរូឡើងវិញតាមការណែនាំក្នុងឯកសារ។
គម្រោងសហការស្រាវជ្រាវ: ស្នើសុំធ្វើគម្រោងបញ្ចប់ការសិក្សាដោយសហការជាមួយមន្ទីរពេទ្យក្នុងស្រុក ដើម្បីសាកល្បងគំរូនេះជាមួយទិន្នន័យអនាមិករបស់អ្នកជំងឺនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Decision Tree (DT)	ជាគំរូនៃបញ្ញាសិប្បនិម្មិតដែលមានរាងដូចដើមឈើ ដែលបំបែកទិន្នន័យជាជំហានៗដោយផ្អែកលើលក្ខខណ្ឌ ឬសំណួរ ដើម្បីឈានទៅរកការសម្រេចចិត្តចុងក្រោយ ឬការចាត់ថ្នាក់។	ដូចជាការលេងល្បែងទាយសត្វ ដោយសួរថា "តើវាមានស្លាបទេ?" បើមាន ទៅសួរទៀត "តើវាចេះហោះទេ?" រហូតទាល់តែទាយត្រូវ។
Recursive Feature Elimination (RFE)	ជាបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសដោយកាត់បន្ថយទិន្នន័យម្តងមួយៗ។ វាដំណើរការដោយលុបចោលកត្តាដែលមិនសូវសំខាន់ចេញពីការវិភាគ ដើម្បីទុកតែកត្តាដែលជះឥទ្ធិពលខ្លាំងបំផុតលើលទ្ធផល។	ដូចជាការរៀបចំកាបូបដើរលេង ដោយដករបស់ដែលមិនចាំបាច់ចេញម្តងមួយៗ រហូតដល់សល់តែរបស់សំខាន់បំផុតដែលត្រូវតែមាន។
SMOTETomek	ជាវិធីសាស្ត្រកូនកាត់ដែលរួមបញ្ចូលគ្នានូវការបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិច (SMOTE) និងការលុបចោលទិន្នន័យដែលស្រពេចស្រពិល (Tomek Links) ដើម្បីឱ្យទិន្នន័យមានតុល្យភាព។	ដូចជាការបន្ថែមសិស្សក្នុងក្រុមតូចឱ្យមានគ្នាច្រើន និងដកសិស្សដែលអង្គុយលាយឡំគ្នាខុសកន្លែងចេញ ដើម្បីឱ្យគ្រូងាយស្រួលបែងចែកក្រុមសិស្សឱ្យដាច់ពីគ្នា។
Sensitivity	ជាសមត្ថភាពរបស់ម៉ាស៊ីនក្នុងការរកឃើញករណីវិជ្ជមាន (អ្នកមានជំងឺ) យ៉ាងត្រឹមត្រូវ។ ក្នុងវិស័យវេជ្ជសាស្ត្រ វាសំខាន់ជាងភាពត្រឹមត្រូវទូទៅ ព្រោះយើងមិនចង់ឱ្យអ្នកមានជំងឺត្រូវបានវិភាគថា "គ្មានជំងឺ"។	ដូចជាប្រព័ន្ធការពារភ្លើងឆេះដែលត្រូវតែរោទិ៍រាល់ពេលមានផ្សែង ដើម្បីធានាថាមិនខកខានពេលមានភ្លើងឆេះពិតប្រាកដ។
Specificity	ជាសមត្ថភាពរបស់ម៉ាស៊ីនក្នុងការកំណត់អត្តសញ្ញាណអ្នកដែលមិនមានជំងឺ (ករណីអវិជ្ជមាន) បានយ៉ាងត្រឹមត្រូវ។	ដូចជាការត្រួតពិនិត្យសំបុត្រដែលមិនចាប់ច្រឡំមនុស្សធម្មតាថាជាចោរ។
Class Imbalance	ស្ថានភាពដែលទិន្នន័យមួយក្រុមមានចំនួនច្រើនលើសលប់ជាងមួយក្រុមទៀត (ឧទាហរណ៍៖ មនុស្សដែលមានសុខភាពល្អមានច្រើនជាងអ្នកកើតមហារីក) ដែលធ្វើឱ្យកុំព្យូទ័រពិបាករៀនស្គាល់ក្រុមដែលមានចំនួនតិច។	ដូចជាការស្វែងរកម្ជុលក្នុងគំនរចំបើង; ដោយសារចំបើងមានច្រើនពេក វាពិបាកនឹងរកឃើញម្ជុលដែលជាគោលដៅសំខាន់។
Overfitting	ជាបញ្ហាដែលកុំព្យូទ័ររៀនទិន្នន័យលម្អិតពេក រហូតដល់ចងចាំទាំងចំណុចមិនសំខាន់ ឬកំហុសតូចតាច ធ្វើឱ្យវាមិនអាចទស្សន៍ទាយទិន្នន័យថ្មីៗបានត្រឹមត្រូវ។	ដូចជាសិស្សដែលទន្ទេញចម្លើយប្រឡងចាំរត់មាត់ ប៉ុន្តែពេលចេញវិញ្ញាសាដែលប្លែកបន្តិច គាត់ធ្វើមិនបានព្រោះមិនយល់ពីខ្លឹមសារពិតប្រាកដ។
K-fold Cross-validation	ជាវិធីសាស្ត្រវាយតម្លៃប្រសិទ្ធភាពរបស់គំរូដោយបែងចែកទិន្នន័យជាផ្នែកតូចៗជាច្រើន (K-fold) ហើយធ្វើការបណ្តុះបណ្តាល និងធ្វើតេស្តឆ្លាស់គ្នាជាច្រើនដង ដើម្បីធានាថាគំរូនេះពិតជាល្អ។	ដូចជាការសាកល្បងម្ហូបឱ្យមនុស្ស ១០ នាក់ផ្សេងគ្នាភ្លក់ ដើម្បីធានាថាវាពិតជាឆ្ងាញ់សម្រាប់មនុស្សទូទៅ មិនមែនត្រូវមាត់តែចំពោះបុគ្គលម្នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖