Original Title: INTELLIGENT IMPUTATION OF MISSING DATA USING BIDIRECTIONAL NEIGHBOR GRAPH MODELING FOR DIABETIC RISK PREDICTION
Source: www.jatit.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបញ្ចូលទិន្នន័យដែលបាត់បង់ដោយវៃឆ្លាតដោយប្រើប្រាស់គំរូក្រាហ្វអ្នកជិតខាងទ្វេទិសសម្រាប់ការទស្សន៍ទាយហានិភ័យនៃជំងឺទឹកនោមផ្អែម

ចំណងជើងដើម៖ INTELLIGENT IMPUTATION OF MISSING DATA USING BIDIRECTIONAL NEIGHBOR GRAPH MODELING FOR DIABETIC RISK PREDICTION

អ្នកនិពន្ធ៖ BASHAR HAMAD AUBAIDAN (Institute of visual informatics, Universiti Kebangsaan Malaysia), RABIAH ABDUL KADIR (Institute of visual informatics, Universiti Kebangsaan Malaysia), MOHAMAD TAHA LJAB (Institute of visual informatics, Universiti Kebangsaan Malaysia), BAKR AHMED TAHA (Department of Electrical, Electronic and Systems Engineering, University Kebangsaan Malaysia)

ឆ្នាំបោះពុម្ព៖ 2024 Journal of Theoretical and Applied Information Technology

វិស័យសិក្សា៖ Health Informatics / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទិន្នន័យដែលបាត់បង់នៅក្នុងសំណុំទិន្នន័យវេជ្ជសាស្ត្រ ជាពិសេសទិន្នន័យជំងឺទឹកនោមផ្អែម ធ្វើឱ្យប៉ះពាល់ដល់ភាពជឿជាក់ និងប្រសិទ្ធភាពនៃម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning) ក្នុងការទស្សន៍ទាយ និងធ្វើរោគវិនិច្ឆ័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររៀនម៉ាស៊ីនពាក់កណ្តាលមានការគ្រប់គ្រង ដោយប្រើប្រាស់គំរូក្រាហ្វអ្នកជិតខាងទ្វេទិស ដើម្បីបញ្ចូលទិន្នន័យដែលបាត់បង់ និងវាយតម្លៃការព្យាករណ៍តាមរយៈសំណុំទិន្នន័យ Pima Indian Diabetes។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Bidirectional Neighbor Graph (BNG)
គំរូក្រាហ្វអ្នកជិតខាងទ្វេទិស (BNG)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការគ្រប់គ្រងទិន្នន័យដែលបាត់បង់ និងអាចចាប់យកទំនាក់ទំនងទ្វេទិសរវាងទិន្នន័យបានយ៉ាងល្អ ដែលធ្វើឱ្យការទស្សន៍ទាយកាន់តែច្បាស់លាស់។ មានភាពស្មុគស្មាញក្នុងការគណនា ជាពិសេសនៅពេលអនុវត្តលើសំណុំទិន្នន័យធំៗដែលមានវិមាត្រច្រើន។ សម្រេចបានភាពត្រឹមត្រូវ 86%, ភាពជាក់លាក់ 87%, និងពិន្ទុ AUC 0.86។
K-Nearest Neighbors (KNN)
ក្បួនដោះស្រាយអ្នកជិតខាងជិតបំផុត (KNN)
ងាយស្រួលយល់ និងជាវិធីសាស្ត្រទូទៅបំផុតសម្រាប់ប្រើប្រាស់ក្នុងការបញ្ចូលទិន្នន័យដែលបាត់។ ពឹងផ្អែកខ្លាំងលើគុណភាពទិន្នន័យ និងពិបាកក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានត្រឹមត្រូវ ហើយគិតតែពីទំនាក់ទំនងឯកទិសប៉ុណ្ណោះ។ សម្រេចបានភាពត្រឹមត្រូវ 82%, ភាពជាក់លាក់ 84%, និងពិន្ទុ AUC 0.84។
Support Vector Machine (SVM)
ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)
មានសមត្ថភាពខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលមានវិមាត្រច្រើន និងជួយការពារការរៀនទន្ទេញ (Overfitting)។ ត្រូវការពេលវេលាច្រើនក្នុងការស្វែងរកប៉ារ៉ាម៉ែត្រដែលល្អបំផុត (Hyperparameter tuning) និងមិនសូវពូកែដោះស្រាយទិន្នន័យបាត់បង់ដោយខ្លួនឯងនោះទេ។ សម្រេចបានភាពត្រឹមត្រូវ 85%, ភាពជាក់លាក់ 86%, និងពិន្ទុ AUC 0.85។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃ ប៉ុន្តែដំណើរការនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់សម្រាប់ដំណើរការក្បួនដោះស្រាយដ៏ស្មុគស្មាញនេះ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ Pima Indian ដែលផ្តោតតែលើស្ត្រីជនជាតិដើមអាមេរិកនៅម៉ិកស៊ិក និងអារីហ្សូណា។ ឯកសារបានទទួលស្គាល់យ៉ាងច្បាស់ថា ទិន្នន័យនេះមានបញ្ហាផ្នែកភាពជាក់លាក់ និងការធ្វើឱ្យទូទៅ (Generalizability) ដែលធ្វើឱ្យវាមិនសូវស័ក្តិសមសម្រាប់ប្រជាជនផ្សេងទៀតឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចនឹងមិនសុក្រឹត ដោយសារភាពខុសគ្នានៃហ្សែន និងរបៀបរស់នៅ ដូច្នេះចាំបាច់ត្រូវបង្ហាត់ម៉ូដែលនេះឡើងវិញជាមួយសំណុំទិន្នន័យអ្នកជំងឺកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្របញ្ចូលទិន្នន័យតាមរយៈក្រាហ្វទ្វេទិសនេះ មានសក្តានុពលខ្ពស់សម្រាប់ជួយពង្រឹងគុណភាពប្រព័ន្ធទិន្នន័យសុខាភិបាលនៅកម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាខ្វះចន្លោះព័ត៌មានអ្នកជំងឺ។

សរុបមក បច្ចេកវិទ្យានេះគឺជាដំណោះស្រាយដ៏ឆ្លាតវៃក្នុងការដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញនៅកម្ពុជា ដែលនឹងជួយលើកកម្ពស់ភាពជឿជាក់នៃម៉ូដែលទស្សន៍ទាយវេជ្ជសាស្ត្រ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីការរៀបចំទិន្នន័យជាមុន (Data Pre-processing): រៀនពីរបៀបសម្អាតទិន្នន័យ និងកំណត់អត្តសញ្ញាណតម្លៃដែលបាត់ (Missing Values) ដោយប្រើប្រាស់បណ្ណាល័យ Pandas ព្រមទាំងអនុវត្តការធ្វើលក្ខណៈស្តង់ដារ (Standardization) ជាមួយ Scikit-learn
  2. ស្វែងយល់ពីទ្រឹស្តីក្រាហ្វ (Graph Theory & BNG): សិក្សាពីរបៀបបង្កើតក្រាហ្វបណ្តាញអ្នកជិតខាង និងការស្វែងរកទំនាក់ទំនងទ្វេទិសដោយប្រើប្រាស់ឧបករណ៍ដូចជា NetworkX នៅក្នុង Python ដើម្បីរៀបចំការបញ្ចូលទិន្នន័យ (Imputation) យ៉ាងមានប្រសិទ្ធភាព។
  3. អនុវត្តម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Modeling): សាកល្បងបង្ហាត់ម៉ូដែល Support Vector Machine (SVM) ជាមួយ Radial Basis Function (RBF) kernel និងធ្វើការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យប្រសើរបំផុត (Hyperparameter Tuning) លើទិន្នន័យវេជ្ជសាស្ត្រខ្នាតតូច។
  4. វាយតម្លៃដំណើរការម៉ូដែល (Model Evaluation): រៀនបង្កើត និងបកស្រាយ Confusion Matrix ព្រមទាំងគណនាពិន្ទុ ROC/AUC ដោយប្រៀបធៀបប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកជាមួយក្បួនដោះស្រាយផ្សេងៗដូចជា KNN ដើម្បីកំណត់ភាពត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Bidirectional Neighbor Graph ជាទម្រង់រចនាសម្ព័ន្ធទិន្នន័យ (Data Structure) មួយប្រភេទដែលតភ្ជាប់ចំណុចទិន្នន័យ (Nodes) ទៅកាន់អ្នកជិតខាងរបស់វាទាំងសងខាង (ទិសដៅទៅនិងមក) ដោយផ្អែកលើភាពស្រដៀងគ្នា ដើម្បីជួយចាប់យកទំនាក់ទំនងទិន្នន័យបានទូលំទូលាយ និងប៉ាន់ស្មានទិន្នន័យដែលបាត់បង់បានកាន់តែសុក្រឹត។ ដូចជាការសួរអ្នកជិតខាងទាំងខាងឆ្វេង និងខាងស្តាំផ្ទះរបស់អ្នក ដើម្បីស្វែងរកព័ត៌មានពេញលេញអំពីព្រឹត្តិការណ៍ណាមួយក្នុងភូមិដែលអ្នកមិនបានដឹង។
Missing Data Imputation គឺជាដំណើរការនៃការប៉ាន់ស្មាន ឬបំពេញតម្លៃទិន្នន័យដែលបាត់បង់នៅក្នុងសំណុំទិន្នន័យ ដោយប្រើប្រាស់វិធីសាស្ត្រគណិតវិទ្យា ឬក្បួនដោះស្រាយ (Algorithms) ដើម្បីរក្សាបរិមាណ និងគុណភាពទិន្នន័យសម្រាប់ការវិភាគ។ ដូចជាការបំពេញចន្លោះពាក្យដែលបាត់នៅក្នុងប្រយោគ ដោយសាកល្បងទាយតាមរយៈអត្ថន័យនៃពាក្យដែលនៅជុំវិញវា។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning Algorithm) ដ៏មានអានុភាពដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ ដោយបង្កើតបន្ទាត់ ឬប្លង់ (Hyperplane) ដ៏ល្អបំផុតមួយ ដើម្បីបំបែកក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យនៅដាច់ពីគ្នា។ ដូចជាការគូសបន្ទាត់ត្រង់មួយនៅលើទីលាន ដើម្បីបែងចែកក្រុមសិស្សពាក់អាវស និងអាវខៀវឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់បំផុត។
Radial Basis Function (RBF) kernel ជាអនុគមន៍គណិតវិទ្យាមួយដែលប្រើនៅក្នុងម៉ូដែល SVM ដើម្បីដោះស្រាយការចាត់ថ្នាក់ទិន្នន័យដែលស្មុគស្មាញ (មិនមែនជាបន្ទាត់ត្រង់) ដោយវាស់ស្ទង់ចម្ងាយរវាងចំណុចទិន្នន័យទៅនឹងចំណុចកណ្តាលណាមួយក្នុងលំហវិមាត្រខ្ពស់។ ដូចជាការបោះដុំថ្មចូលទៅក្នុងទឹក ហើយរលកទឹកដែលរីកធំជាវង់ជុំវិញនោះ ជួយយើងកំណត់ថាតើវត្ថុណាខ្លះនៅជិតគ្នាក្នុងរង្វង់នៃរលកនោះ។
Area Under the Curve (AUC) ជារង្វាស់ស្ថិតិមួយប្រើដើម្បីវាយតម្លៃប្រសិទ្ធភាពទូទៅនៃម៉ូដែលចាត់ថ្នាក់ (Classification Model)។ ពិន្ទុ AUC ដែលខិតជិត ១ មានន័យថាម៉ូដែលនោះមានសមត្ថភាពខ្ពស់ក្នុងការបែងចែកបានយ៉ាងត្រឹមត្រូវរវាងលទ្ធផលវិជ្ជមាន និងអវិជ្ជមាន។ ដូចជាពិន្ទុប្រលងរបស់សិស្សម្នាក់ ដែលពិន្ទុកាន់តែខិតជិត ១០០ (ឬទីនេះគឺ ១.០) បង្ហាញថាសិស្សនោះរៀនកាន់តែពូកែ និងអាចបែងចែកចម្លើយត្រូវឬខុសបានយ៉ាងច្បាស់។
Confusion Matrix ជាតារាងម៉ាទ្រីកសង្ខេបមួយដែលបង្ហាញពីដំណើរការនៃម៉ូដែលទស្សន៍ទាយ ដោយបែងចែកជា ៤ ផ្នែក៖ ទាយត្រូវថាមានជំងឺ (True Positive), ទាយត្រូវថាគ្មានជំងឺ (True Negative), ទាយខុសថាមានជំងឺ (False Positive), និងទាយខុសថាគ្មានជំងឺ (False Negative)។ ដូចជារបាយការណ៍ត្រួតពិនិត្យសុខភាពដែលប្រាប់អ្នកយ៉ាងច្បាស់ថា តើពេទ្យធ្វើរោគវិនិច្ឆ័យត្រូវប៉ុន្មានដង និងខុសប៉ុន្មានដង។
semi-supervised learning ជាវិធីសាស្ត្របង្ហាត់ម៉ូដែលរៀនម៉ាស៊ីន ដែលប្រើប្រាស់ទិន្នន័យមានស្លាកបញ្ជាក់ (Labeled data) មួយចំនួនតូច រួមបញ្ចូលគ្នាជាមួយទិន្នន័យគ្មានស្លាកបញ្ជាក់ (Unlabeled data) យ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្កើនភាពត្រឹមត្រូវ និងកាត់បន្ថយពេលវេលាគណនា។ ដូចជាគ្រូបង្រៀនពន្យល់លំហាត់គំរូតែ ២-៣ សំណួរ ហើយទុកឱ្យសិស្សរៀនដោះស្រាយលំហាត់រាប់រយទៀតដោយខ្លួនឯង ដោយផ្អែកលើគំរូនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖