Original Title: INTELLIGENT IMPUTATION OF MISSING DATA USING BIDIRECTIONAL NEIGHBOR GRAPH MODELING FOR DIABETIC RISK PREDICTION
Source: www.jatit.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបញ្ចូលទិន្នន័យដែលបាត់បង់ដោយវៃឆ្លាតដោយប្រើប្រាស់គំរូក្រាហ្វអ្នកជិតខាងទ្វេទិសសម្រាប់ការទស្សន៍ទាយហានិភ័យនៃជំងឺទឹកនោមផ្អែម

ចំណងជើងដើម៖ INTELLIGENT IMPUTATION OF MISSING DATA USING BIDIRECTIONAL NEIGHBOR GRAPH MODELING FOR DIABETIC RISK PREDICTION

អ្នកនិពន្ធ៖ BASHAR HAMAD AUBAIDAN (Institute of visual informatics, Universiti Kebangsaan Malaysia), RABIAH ABDUL KADIR (Institute of visual informatics, Universiti Kebangsaan Malaysia), MOHAMAD TAHA LJAB (Institute of visual informatics, Universiti Kebangsaan Malaysia), BAKR AHMED TAHA (Department of Electrical, Electronic and Systems Engineering, University Kebangsaan Malaysia)

ឆ្នាំបោះពុម្ព៖ 2024 Journal of Theoretical and Applied Information Technology

វិស័យសិក្សា៖ Health Informatics / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទិន្នន័យដែលបាត់បង់នៅក្នុងសំណុំទិន្នន័យវេជ្ជសាស្ត្រ ជាពិសេសទិន្នន័យជំងឺទឹកនោមផ្អែម ធ្វើឱ្យប៉ះពាល់ដល់ភាពជឿជាក់ និងប្រសិទ្ធភាពនៃម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning) ក្នុងការទស្សន៍ទាយ និងធ្វើរោគវិនិច្ឆ័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្ររៀនម៉ាស៊ីនពាក់កណ្តាលមានការគ្រប់គ្រង ដោយប្រើប្រាស់គំរូក្រាហ្វអ្នកជិតខាងទ្វេទិស ដើម្បីបញ្ចូលទិន្នន័យដែលបាត់បង់ និងវាយតម្លៃការព្យាករណ៍តាមរយៈសំណុំទិន្នន័យ Pima Indian Diabetes។

ការប្រមូល និងរៀបចំទិន្នន័យជាមុន (Data Collection & Pre-processing)
ការបញ្ចូលទិន្នន័យដែលបាត់បង់ដោយប្រើក្រាហ្វអ្នកជិតខាងទ្វេទិស (Missing Value Imputation using Bidirectional Neighbor Graph)
ការចាត់ថ្នាក់ទិន្នន័យដោយប្រើម៉ាស៊ីនវ៉ិចទ័រគាំទ្រដែលមានមុខងារ Radial Basis (Classification using Support Vector Machine with RBF kernel)
ការវាយតម្លៃដំណើរការម៉ូដែល (Model Performance Evaluation using ROC and AUC)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល BNG សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៨៦% និងពិន្ទុ AUC ០.៨៦ ដែលមានប្រសិទ្ធភាពខ្ពស់ជាងវិធីសាស្ត្រប្រពៃណីដូចជា KNN (៨២%) និង SVM (៨៥%)។
ការប្រើប្រាស់ទំនាក់ទំនងទ្វេទិសរវាងទិន្នន័យ (Bidirectional relationship) ជួយបង្កើនភាពច្បាស់លាស់ និងភាពជឿជាក់ក្នុងការទាញយកលក្ខណៈពិសេសលម្អិតពីទិន្នន័យដែលស្មុគស្មាញ។
ក្បួនដោះស្រាយ BNG បង្ហាញពីប្រសិទ្ធភាពក្នុងការគណនាខ្ពស់ និងភាពបត់បែន ដែលស័ក្តិសមជាឧបករណ៍ដ៏រឹងមាំសម្រាប់ការវិភាគទិន្នន័យវេជ្ជសាស្ត្រក្នុងទ្រង់ទ្រាយធំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Bidirectional Neighbor Graph (BNG) គំរូក្រាហ្វអ្នកជិតខាងទ្វេទិស (BNG)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការគ្រប់គ្រងទិន្នន័យដែលបាត់បង់ និងអាចចាប់យកទំនាក់ទំនងទ្វេទិសរវាងទិន្នន័យបានយ៉ាងល្អ ដែលធ្វើឱ្យការទស្សន៍ទាយកាន់តែច្បាស់លាស់។	មានភាពស្មុគស្មាញក្នុងការគណនា ជាពិសេសនៅពេលអនុវត្តលើសំណុំទិន្នន័យធំៗដែលមានវិមាត្រច្រើន។	សម្រេចបានភាពត្រឹមត្រូវ 86%, ភាពជាក់លាក់ 87%, និងពិន្ទុ AUC 0.86។
K-Nearest Neighbors (KNN) ក្បួនដោះស្រាយអ្នកជិតខាងជិតបំផុត (KNN)	ងាយស្រួលយល់ និងជាវិធីសាស្ត្រទូទៅបំផុតសម្រាប់ប្រើប្រាស់ក្នុងការបញ្ចូលទិន្នន័យដែលបាត់។	ពឹងផ្អែកខ្លាំងលើគុណភាពទិន្នន័យ និងពិបាកក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានត្រឹមត្រូវ ហើយគិតតែពីទំនាក់ទំនងឯកទិសប៉ុណ្ណោះ។	សម្រេចបានភាពត្រឹមត្រូវ 82%, ភាពជាក់លាក់ 84%, និងពិន្ទុ AUC 0.84។
Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)	មានសមត្ថភាពខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យដែលមានវិមាត្រច្រើន និងជួយការពារការរៀនទន្ទេញ (Overfitting)។	ត្រូវការពេលវេលាច្រើនក្នុងការស្វែងរកប៉ារ៉ាម៉ែត្រដែលល្អបំផុត (Hyperparameter tuning) និងមិនសូវពូកែដោះស្រាយទិន្នន័យបាត់បង់ដោយខ្លួនឯងនោះទេ។	សម្រេចបានភាពត្រឹមត្រូវ 85%, ភាពជាក់លាក់ 86%, និងពិន្ទុ AUC 0.85។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃ ប៉ុន្តែដំណើរការនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់សម្រាប់ដំណើរការក្បួនដោះស្រាយដ៏ស្មុគស្មាញនេះ។

Dataset: ទិន្នន័យ Pima Indian Diabetes ដែលមាន ៧៦៨ កំណត់ត្រា (អាចទាញយកបានដោយឥតគិតថ្លៃពី Kaggle)។
Hardware: ត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ (CPU/GPU ល្អ) សម្រាប់ការបង្កើតក្រាហ្វ (Graph Construction) និងដំណើរការស្វែងរកប៉ារ៉ាម៉ែត្រ SVM ល្អបំផុត។
Software: កម្មវិធីសរសេរកូដ និងបណ្ណាល័យវិទ្យាសាស្ត្រទិន្នន័យសម្រាប់ការបង្កើតក្រាហ្វ និងការរៀនម៉ាស៊ីន។
Expertise: ទាមទារអ្នកស្រាវជ្រាវដែលមានចំណេះដឹងស៊ីជម្រៅលើវិទ្យាសាស្ត្រទិន្នន័យ ទ្រឹស្តីក្រាហ្វ (Graph Theory) និងការកែសម្រួលម៉ូដែល SVM។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ Pima Indian ដែលផ្តោតតែលើស្ត្រីជនជាតិដើមអាមេរិកនៅម៉ិកស៊ិក និងអារីហ្សូណា។ ឯកសារបានទទួលស្គាល់យ៉ាងច្បាស់ថា ទិន្នន័យនេះមានបញ្ហាផ្នែកភាពជាក់លាក់ និងការធ្វើឱ្យទូទៅ (Generalizability) ដែលធ្វើឱ្យវាមិនសូវស័ក្តិសមសម្រាប់ប្រជាជនផ្សេងទៀតឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចនឹងមិនសុក្រឹត ដោយសារភាពខុសគ្នានៃហ្សែន និងរបៀបរស់នៅ ដូច្នេះចាំបាច់ត្រូវបង្ហាត់ម៉ូដែលនេះឡើងវិញជាមួយសំណុំទិន្នន័យអ្នកជំងឺកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្របញ្ចូលទិន្នន័យតាមរយៈក្រាហ្វទ្វេទិសនេះ មានសក្តានុពលខ្ពស់សម្រាប់ជួយពង្រឹងគុណភាពប្រព័ន្ធទិន្នន័យសុខាភិបាលនៅកម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាខ្វះចន្លោះព័ត៌មានអ្នកជំងឺ។

មន្ទីរពេទ្យរដ្ឋ និងឯកជនធំៗ: មន្ទីរពេទ្យកាល់ម៉ែត ឬមន្ទីរពេទ្យគន្ធបុប្ផា អាចប្រើប្រាស់បច្ចេកទេសនេះ ដើម្បីបំពេញព័ត៌មានវេជ្ជសាស្ត្រដែលបាត់បង់របស់អ្នកជំងឺ មុននឹងបញ្ចូលទិន្នន័យទៅវិភាគដើម្បីធ្វើរោគវិនិច្ឆ័យ។
ប្រព័ន្ធគ្រប់គ្រងព័ត៌មានសុខាភិបាល (HMIS): ក្រសួងសុខាភិបាលអាចរួមបញ្ចូលក្បួនដោះស្រាយនេះ ដើម្បីធ្វើឱ្យទិន្នន័យជំងឺរ៉ាំរ៉ៃ (ដូចជាទឹកនោមផ្អែម) នៅទូទាំងប្រទេសមានភាពពេញលេញ និងអាចទស្សន៍ទាយនិន្នាការសុខភាពបានកាន់តែច្បាស់។
ការស្រាវជ្រាវវេជ្ជសាស្ត្រដោយសាកលវិទ្យាល័យ: សាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល (UHS) អាចយកវិធីសាស្ត្រនេះទៅអនុវត្តក្នុងការស្រាវជ្រាវរបស់ខ្លួន ទីកន្លែងដែលទិន្នន័យប្រមូលបានមានការខ្វះខាតច្រើនដោយសារកត្តាប្រឈមក្នុងការប្រមូលទិន្នន័យមូលដ្ឋាន។

សរុបមក បច្ចេកវិទ្យានេះគឺជាដំណោះស្រាយដ៏ឆ្លាតវៃក្នុងការដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញនៅកម្ពុជា ដែលនឹងជួយលើកកម្ពស់ភាពជឿជាក់នៃម៉ូដែលទស្សន៍ទាយវេជ្ជសាស្ត្រ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការរៀបចំទិន្នន័យជាមុន (Data Pre-processing): រៀនពីរបៀបសម្អាតទិន្នន័យ និងកំណត់អត្តសញ្ញាណតម្លៃដែលបាត់ (Missing Values) ដោយប្រើប្រាស់បណ្ណាល័យ Pandas ព្រមទាំងអនុវត្តការធ្វើលក្ខណៈស្តង់ដារ (Standardization) ជាមួយ Scikit-learn។
ស្វែងយល់ពីទ្រឹស្តីក្រាហ្វ (Graph Theory & BNG): សិក្សាពីរបៀបបង្កើតក្រាហ្វបណ្តាញអ្នកជិតខាង និងការស្វែងរកទំនាក់ទំនងទ្វេទិសដោយប្រើប្រាស់ឧបករណ៍ដូចជា NetworkX នៅក្នុង Python ដើម្បីរៀបចំការបញ្ចូលទិន្នន័យ (Imputation) យ៉ាងមានប្រសិទ្ធភាព។
អនុវត្តម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning Modeling): សាកល្បងបង្ហាត់ម៉ូដែល Support Vector Machine (SVM) ជាមួយ Radial Basis Function (RBF) kernel និងធ្វើការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យប្រសើរបំផុត (Hyperparameter Tuning) លើទិន្នន័យវេជ្ជសាស្ត្រខ្នាតតូច។
វាយតម្លៃដំណើរការម៉ូដែល (Model Evaluation): រៀនបង្កើត និងបកស្រាយ Confusion Matrix ព្រមទាំងគណនាពិន្ទុ ROC/AUC ដោយប្រៀបធៀបប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកជាមួយក្បួនដោះស្រាយផ្សេងៗដូចជា KNN ដើម្បីកំណត់ភាពត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Bidirectional Neighbor Graph	ជាទម្រង់រចនាសម្ព័ន្ធទិន្នន័យ (Data Structure) មួយប្រភេទដែលតភ្ជាប់ចំណុចទិន្នន័យ (Nodes) ទៅកាន់អ្នកជិតខាងរបស់វាទាំងសងខាង (ទិសដៅទៅនិងមក) ដោយផ្អែកលើភាពស្រដៀងគ្នា ដើម្បីជួយចាប់យកទំនាក់ទំនងទិន្នន័យបានទូលំទូលាយ និងប៉ាន់ស្មានទិន្នន័យដែលបាត់បង់បានកាន់តែសុក្រឹត។	ដូចជាការសួរអ្នកជិតខាងទាំងខាងឆ្វេង និងខាងស្តាំផ្ទះរបស់អ្នក ដើម្បីស្វែងរកព័ត៌មានពេញលេញអំពីព្រឹត្តិការណ៍ណាមួយក្នុងភូមិដែលអ្នកមិនបានដឹង។
Missing Data Imputation	គឺជាដំណើរការនៃការប៉ាន់ស្មាន ឬបំពេញតម្លៃទិន្នន័យដែលបាត់បង់នៅក្នុងសំណុំទិន្នន័យ ដោយប្រើប្រាស់វិធីសាស្ត្រគណិតវិទ្យា ឬក្បួនដោះស្រាយ (Algorithms) ដើម្បីរក្សាបរិមាណ និងគុណភាពទិន្នន័យសម្រាប់ការវិភាគ។	ដូចជាការបំពេញចន្លោះពាក្យដែលបាត់នៅក្នុងប្រយោគ ដោយសាកល្បងទាយតាមរយៈអត្ថន័យនៃពាក្យដែលនៅជុំវិញវា។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning Algorithm) ដ៏មានអានុភាពដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ ដោយបង្កើតបន្ទាត់ ឬប្លង់ (Hyperplane) ដ៏ល្អបំផុតមួយ ដើម្បីបំបែកក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យនៅដាច់ពីគ្នា។	ដូចជាការគូសបន្ទាត់ត្រង់មួយនៅលើទីលាន ដើម្បីបែងចែកក្រុមសិស្សពាក់អាវស និងអាវខៀវឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់បំផុត។
Radial Basis Function (RBF) kernel	ជាអនុគមន៍គណិតវិទ្យាមួយដែលប្រើនៅក្នុងម៉ូដែល SVM ដើម្បីដោះស្រាយការចាត់ថ្នាក់ទិន្នន័យដែលស្មុគស្មាញ (មិនមែនជាបន្ទាត់ត្រង់) ដោយវាស់ស្ទង់ចម្ងាយរវាងចំណុចទិន្នន័យទៅនឹងចំណុចកណ្តាលណាមួយក្នុងលំហវិមាត្រខ្ពស់។	ដូចជាការបោះដុំថ្មចូលទៅក្នុងទឹក ហើយរលកទឹកដែលរីកធំជាវង់ជុំវិញនោះ ជួយយើងកំណត់ថាតើវត្ថុណាខ្លះនៅជិតគ្នាក្នុងរង្វង់នៃរលកនោះ។
Area Under the Curve (AUC)	ជារង្វាស់ស្ថិតិមួយប្រើដើម្បីវាយតម្លៃប្រសិទ្ធភាពទូទៅនៃម៉ូដែលចាត់ថ្នាក់ (Classification Model)។ ពិន្ទុ AUC ដែលខិតជិត ១ មានន័យថាម៉ូដែលនោះមានសមត្ថភាពខ្ពស់ក្នុងការបែងចែកបានយ៉ាងត្រឹមត្រូវរវាងលទ្ធផលវិជ្ជមាន និងអវិជ្ជមាន។	ដូចជាពិន្ទុប្រលងរបស់សិស្សម្នាក់ ដែលពិន្ទុកាន់តែខិតជិត ១០០ (ឬទីនេះគឺ ១.០) បង្ហាញថាសិស្សនោះរៀនកាន់តែពូកែ និងអាចបែងចែកចម្លើយត្រូវឬខុសបានយ៉ាងច្បាស់។
Confusion Matrix	ជាតារាងម៉ាទ្រីកសង្ខេបមួយដែលបង្ហាញពីដំណើរការនៃម៉ូដែលទស្សន៍ទាយ ដោយបែងចែកជា ៤ ផ្នែក៖ ទាយត្រូវថាមានជំងឺ (True Positive), ទាយត្រូវថាគ្មានជំងឺ (True Negative), ទាយខុសថាមានជំងឺ (False Positive), និងទាយខុសថាគ្មានជំងឺ (False Negative)។	ដូចជារបាយការណ៍ត្រួតពិនិត្យសុខភាពដែលប្រាប់អ្នកយ៉ាងច្បាស់ថា តើពេទ្យធ្វើរោគវិនិច្ឆ័យត្រូវប៉ុន្មានដង និងខុសប៉ុន្មានដង។
semi-supervised learning	ជាវិធីសាស្ត្របង្ហាត់ម៉ូដែលរៀនម៉ាស៊ីន ដែលប្រើប្រាស់ទិន្នន័យមានស្លាកបញ្ជាក់ (Labeled data) មួយចំនួនតូច រួមបញ្ចូលគ្នាជាមួយទិន្នន័យគ្មានស្លាកបញ្ជាក់ (Unlabeled data) យ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីបង្កើនភាពត្រឹមត្រូវ និងកាត់បន្ថយពេលវេលាគណនា។	ដូចជាគ្រូបង្រៀនពន្យល់លំហាត់គំរូតែ ២-៣ សំណួរ ហើយទុកឱ្យសិស្សរៀនដោះស្រាយលំហាត់រាប់រយទៀតដោយខ្លួនឯង ដោយផ្អែកលើគំរូនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖