Original Title: Gated Graph Sequence Neural Network-Based Prediction of Drug-Gene Association for Nucleoside Proteins in Oral Cancer
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍ទំនាក់ទំនងរវាងថ្នាំនិងហ្សែនសម្រាប់ប្រូតេអ៊ីននីយក្លេអូស៊ីត (Nucleoside) ក្នុងជំងឺមហារីកមាត់ដោយផ្អែកលើបណ្ដាញសរសៃប្រសាទក្រាហ្វតាមលំដាប់លំដោយ (GGSNN)

ចំណងជើងដើម៖ Gated Graph Sequence Neural Network-Based Prediction of Drug-Gene Association for Nucleoside Proteins in Oral Cancer

អ្នកនិពន្ធ៖ Dr. Soundharya Manogaran, Dr. Subasree S, Dr. Ramya Ramadoss, Dr. Pradeep Kumar Yadalam

ឆ្នាំបោះពុម្ព៖ 2025 SEEJPH

វិស័យសិក្សា៖ Bioinformatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺមហារីកមាត់គឺជាបញ្ហាសុខភាពសាធារណៈដ៏ធំមួយដោយសារការធ្វើរោគវិនិច្ឆ័យយឺតយ៉ាវ និងភាពស៊ាំនឹងការព្យាបាល ខណៈការកំណត់អត្តសញ្ញាណទំនាក់ទំនងរវាងថ្នាំនិងហ្សែនមានសារៈសំខាន់សម្រាប់ការស្វែងរកការព្យាបាលចំគោលដៅ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យអន្តរកម្មរវាងថ្នាំនិងហ្សែន ដើម្បីបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទក្រាហ្វក្នុងការទស្សន៍ទាយទំនាក់ទំនងទាំងនេះសម្រាប់គោលបំណងវេជ្ជសាស្ត្រជាក់លាក់។

ការអនុវត្តស្ថាបត្យកម្មម៉ូដែលបណ្ដាញសរសៃប្រសាទក្រាហ្វតាមលំដាប់លំដោយ (Gated Graph Sequence Neural Networks - GGSNN) ចំនួនពីរស្រទាប់
ការបែងចែកទិន្នន័យក្នុងសមាមាត្រ ៨០:២០ សម្រាប់ការបង្វឹក និងការធ្វើតេស្ត (Train-Test Split) ចំនួន ១០០ អេប៉ុក (Epochs)
ការប្រើប្រាស់កម្មវិធី Cytoscape សម្រាប់ការបង្ហាញបណ្ដាញអន្តរកម្មជីវសាស្ត្រ និង PyTorch សម្រាប់ប្រតិបត្តិការក្រាហ្វ (Graph Operations)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល GGSNN សម្រេចបាននូវភាពសុក្រឹតជាមធ្យម (Average Precision) ៧៦.៩៤% អត្រារំលឹក (Recall Rate) ៨៥.៩៥% និងពិន្ទុ F1 (F1 Score) ៧២.៤២%។
កម្រិតកំហុសនៃការព្យាករណ៍ជាមធ្យម (Mean Absolute Error - MAE) មានកម្រិតទាបត្រឹម ០.០៦៨៥ ខណៈដែលតម្លៃ R-squared (R²) ទទួលបាន ២៦.៦៦% ដែលបង្ហាញថាម៉ូដែលត្រូវការការកែលម្អបន្ថែមលើការពន្យល់ពីបំរែបំរួលទិន្នន័យ។
កម្រិតចាប់សញ្ញាដ៏ប្រសើរបំផុត (Optimal Threshold) នៅត្រឹម -០.០១៤៧ បានផ្តល់នូវតុល្យភាពយ៉ាងល្អរវាងភាពសុក្រឹតនិងអត្រារំលឹក ដែលបញ្ជាក់ពីសក្តានុពលនៃម៉ូដែលនេះសម្រាប់ការរកឃើញថ្នាំព្យាបាលជំងឺមហារីកមាត់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Gated Graph Sequence Neural Network (GGSNN) បណ្ដាញសរសៃប្រសាទក្រាហ្វតាមលំដាប់លំដោយ (ម៉ូដែលស្នើឡើង)	ទទួលបានតុល្យភាពល្អរវាងភាពសុក្រឹត (Precision) និងអត្រារំលឹក (Recall) ព្រមទាំងដំណើរការបានលឿនក្នុងកម្រិត ០.៣៧២ វិនាទីសម្រាប់ការវិភាគ។	តម្លៃ R-squared នៅមានកម្រិតមធ្យម ដែលបង្ហាញថាម៉ូដែលត្រូវការទិន្នន័យបន្ថែមទៀតដើម្បីពន្យល់ពីបំរែបំរួលនៃទិន្នន័យឱ្យបានពេញលេញ។	F1 Score ៧២.៤២%, Precision ៧៦.៩៤%, Recall ៨៥.៩៥%, MAE ០.០៦៨៥
Conventional Machine Learning Approach វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនប្រពៃណី (យោងតាមឯកសារយោងទី៣៦)	មានភាពសាមញ្ញ ងាយស្រួលយល់ និងងាយស្រួលក្នុងការអនុវត្តជាងបណ្តាញសរសៃប្រសាទកម្រិតខ្ពស់។	មិនសូវមានសមត្ថភាពក្នុងការចាប់យកទំនាក់ទំនងដ៏ស្មុគស្មាញនៃបណ្តាញទិន្នន័យជីវសាស្ត្រពហុវិមាត្រ។	ភាពត្រឹមត្រូវទូទៅ (Accuracy) ៧៤.២%
Sophisticated Ensemble Method វិធីសាស្ត្រ Ensemble ដ៏ស្មុគស្មាញ (យោងតាមឯកសារយោងទី៤១)	ទទួលបានភាពសុក្រឹត (Precision) ខ្ពស់ខ្លាំងក្នុងការកំណត់អត្តសញ្ញាណអន្តរកម្ម។	មានអត្រារំលឹក (Recall) ទាបខ្លាំងត្រឹម ៦៨.៤% ដែលអាចបណ្តាលឱ្យខកខានក្នុងការរកឃើញអន្តរកម្មថ្នាំនិងហ្សែនសំខាន់ៗ (False Negatives)។	Precision ៨៩.២%, Recall ៦៨.៤%
Deep Learning Approach for DTI វិធីសាស្ត្ររៀនស៊ីជម្រៅសម្រាប់ការទស្សន៍ទាយអន្តរកម្មថ្នាំ-គោលដៅ (យោងតាមឯកសារយោងទី៣៤)	អាចធ្វើការទស្សន៍ទាយបានល្អគួរសម និងជួយកំណត់មុខសញ្ញាថ្នាំបានរហ័ស។	ប្រើប្រាស់សំណុំទិន្នន័យតូចជាង (ត្រឹម ៣,៥០០ អន្តរកម្ម) និងទទួលបានអត្រារំលឹកទាបជាងម៉ូដែល GGSNN ។	Precision ៧២.៣%, Recall ៧៩.៨%

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការបង្វឹកម៉ូដែលកម្រិតជ្រៅ និងកម្មវិធីជំនាញសម្រាប់វិភាគទិន្នន័យក្រាហ្វជីវសាស្ត្រ។

Software: ត្រូវការកម្មវិធី PyTorch សម្រាប់ការរៀនស៊ីជម្រៅ, PyTorch Geometric សម្រាប់ទិន្នន័យក្រាហ្វ, Cytoscape សម្រាប់បង្ហាញបណ្តាញជីវសាស្ត្រ និង Scikit-learn ព្រមទាំង Matplotlib សម្រាប់ការវិភាគរង្វាស់។
Hardware: ត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាព CPU និង GPU សមរម្យសម្រាប់ការបង្វឹកម៉ូដែលចំនួន ១០០ អេប៉ុក (Epochs) ទោះបីជាពេលវិភាគទិន្នន័យពេលបញ្ជូលរួច (Inference) ប្រើពេលត្រឹម ០.៣៧២ វិនាទីក៏ដោយ។
Dataset: ទាមទារសំណុំទិន្នន័យអន្តរកម្មថ្នាំនិងហ្សែន ដែលមានចំនួនយ៉ាងហោចណាស់ ១,១២៤ ណូត (Nodes) និង ៣,២០១ ជ្រុងអន្តរកម្ម (Edges)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើក្នុងការសិក្សានេះផ្ដោតលើអន្តរកម្មជីវសាស្ត្រកម្រិតម៉ូលេគុលទូទៅ ដោយមិនបានបញ្ជាក់ពីប្រភពប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ យ៉ាងណាមិញ សម្រាប់ប្រទេសកម្ពុជាដែលមានអត្រាប្រជាជនជក់បារី ពិសាស្រា និងទំពារស្លាម្លូខ្ពស់ ដែលសុទ្ធសឹងជាហានិភ័យចម្បងនៃជំងឺមហារីកមាត់ ការសិក្សានេះមានសារៈសំខាន់ខ្លាំងណាស់ ទោះបីជាការខ្វះខាតទិន្នន័យហ្សែនប្រចាំតំបន់ជាក់លាក់របស់ប្រជាជនអាស៊ីអាគ្នេយ៍អាចជាកម្រិតកំណត់មួយក្នុងការអនុវត្តជាក់ស្តែងក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រអភិវឌ្ឍម៉ូដែលបញ្ញាសិប្បនិម្មិតនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័នស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា ក្នុងការវាយតម្លៃថ្នាំព្យាបាលជំងឺមហារីកមាត់ដោយចំណាយពេលនិងធនធានតិច។

University of Health Sciences (UHS): អាចបញ្ជូលការសិក្សានេះទៅក្នុងកម្មវិធីសិក្សាផ្នែកជីវព័ត៌មានវិទ្យា (Bioinformatics) ដើម្បីឱ្យនិស្សិតពេទ្យយល់ដឹងពីការវិភាគហ្សែន និងថ្នាំតាមប្រព័ន្ធកុំព្យូទ័រ។
National Cancer Center (Calmette Hospital): អាចប្រើប្រាស់ទ្រឹស្តីនៃម៉ូដែលនេះជាមូលដ្ឋានក្នុងការស្រាវជ្រាវថ្នាំព្យាបាលចំគោលដៅ (Targeted Therapy) សម្រាប់អ្នកជំងឺមហារីកមាត់ដែលកំពុងតែមានការកើនឡើង។
Institut Pasteur du Cambodge: អាចអនុវត្តបច្ចេកវិទ្យាក្រាហ្វ (Graph Neural Networks) នេះដើម្បីវិភាគហ្សែនមហារីក និងក្លែងធ្វើការធ្វើតេស្តសាកល្បងថ្នាំថ្មីៗមុននឹងឈានដល់ការសាកល្បងក្នុងមន្ទីរពិសោធន៍ពិតប្រាកដ (In-vitro)។

ការរួមបញ្ចូលគ្នារវាងជីវព័ត៌មានវិទ្យានិងបញ្ញាសិប្បនិម្មិត អាចជួយឱ្យវិស័យសុខាភិបាលកម្ពុជាដើរទាន់និន្នាការនៃការព្យាបាលវេជ្ជសាស្ត្របែបជាក់លាក់ (Precision Medicine) នាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះទិន្នន័យក្រាហ្វ និងបណ្ដាញសរសៃប្រសាទ: ស្វែងយល់ពីទ្រឹស្តី Graph Neural Networks (GNN) និងការរៀបចំទិន្នន័យជាទម្រង់ Nodes (ហ្សែន/ថ្នាំ) និង Edges (អន្តរកម្ម) តាមរយៈការអនុវត្តផ្ទាល់ជាមួយកូដកូដបើកទូលាយ PyTorch Geometric។
ជំហានទី២៖ ប្រមូល និងសម្អាតទិន្នន័យជីវសាស្ត្រ: ទាញយកទិន្នន័យអន្តរកម្មរវាងថ្នាំនិងហ្សែនពីប្រភពបើកទូលាយ (Open Data ដូចជា Probes & Drugs portal) រួចប្រើប្រាស់ Scikit-learn ក្នុងការសម្អាតទិន្នន័យដែលបាត់បង់ (Missing Values) និងធ្វើការកែសម្រួលខ្នាតទិន្នន័យ (Feature Scaling)។
ជំហានទី៣៖ បង្ហាញនិងវិភាគបណ្តាញអន្តរកម្មដោយមើលឃើញ: នាំចូលទិន្នន័យដែលបានសម្អាតរួចទៅក្នុងកម្មវិធី Cytoscape ដើម្បីបង្កើតជាគំនូសបណ្តាញអន្តរកម្មរវាងប្រូតេអ៊ីននីយក្លេអូស៊ីតនិងថ្នាំ និងដើម្បីវិភាគលើរចនាសម្ព័ន្ធបណ្តាញរួមមាន Clustering Coefficient និង Network Density។
ជំហានទី៤៖ អភិវឌ្ឍនិងបង្វឹកម៉ូដែល GGSNN: សរសេរកូដបង្កើតម៉ូដែល GatedGraphConv ដែលមាន២ស្រទាប់ដោយប្រើកម្មវិធី PyTorch រួចធ្វើការបង្វឹកម៉ូដែលចំនួន ១០០ Epochs ដោយប្រើ Adam Optimizer ជាមួយ Learning Rate កម្រិត 0.001 ដូចដែលបានអនុវត្តក្នុងការសិក្សាស្រាវជ្រាវនេះ។
ជំហានទី៥៖ វាយតម្លៃប្រសិទ្ធភាព និងកែលម្អម៉ូដែល: ប្រើប្រាស់កម្មវិធី Scikit-learn ដើម្បីវាស់ស្ទង់សមត្ថភាពម៉ូដែលតាមរយៈការគណនា Precision, Recall, F1 Score និង Mean Absolute Error រួចបង្កើតក្រាហ្វវិភាគកំហុសដោយប្រើ Matplotlib មុននឹងសម្រេចយកម៉ូដែលទៅវិភាគលើទិន្នន័យពិតប្រាកដថ្មីៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Gated Graph Sequence Neural Networks	ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលរៀនពីទិន្នន័យដែលមានទម្រង់ជាបណ្ដាញ (Graph) ដូចជាអន្តរកម្មរវាងម៉ូលេគុល ដោយប្រើប្រាស់យន្តការទ្វារ (Gates) ដើម្បីគ្រប់គ្រងការបញ្ជូនព័ត៌មានពីចំណុចមួយទៅចំណុចមួយទៀត (Nodes) និងចងចាំទិន្នន័យតាមលំដាប់លំដោយ។	ដូចជាប្រព័ន្ធបញ្ជូនសារតាមបណ្ដាញសង្គម ដែលបុគ្គលម្នាក់ៗ (Node) សម្រេចចិត្តថាតើត្រូវបញ្ជូនព័ត៌មានបន្ត ឬទប់វាទុក (Gate) ផ្អែកលើសារៈសំខាន់នៃព័ត៌មាននោះ។
Nucleoside proteins	ប្រូតេអ៊ីនដែលមានតួនាទីដឹកជញ្ជូន និងធ្វើមេតាបូលីសសារធាតុនីយក្លេអូស៊ីតចូលទៅក្នុងកោសិកា ដែលដំណើរការនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់ការសំយោគ DNA និងការបំបែកកោសិកា ជាពិសេសមានឥទ្ធិពលខ្លាំងក្នុងកោសិកាមហារីក។	ដូចជារថយន្តដឹកជញ្ជូនសម្ភារៈសំណង់ (នីយក្លេអូស៊ីត) យកទៅសាងសង់និងជួសជុលអគារ (DNA) នៅក្នុងរាងកាយ។
Drug-Gene Association	ជាទំនាក់ទំនងរវាងថ្នាំព្យាបាលនិងហ្សែន ឬប្រូតេអ៊ីនជាក់លាក់ណាមួយក្នុងរាងកាយ ដែលបង្ហាញពីរបៀបដែលថ្នាំនោះមានប្រតិកម្ម អន្តរកម្ម ឬប្រសិទ្ធភាពទៅលើមុខងាររបស់ហ្សែននោះក្នុងការបញ្ឈប់ជំងឺ។	ដូចជាការស្វែងរកកូនសោ (ថ្នាំ) ឱ្យមានរាងស៊ីគ្នាទៅនឹងមេកូនសោ (ហ្សែន) ដើម្បីបើកឬបិទដំណើរការអ្វីមួយ។
Message passing	ជាដំណើរការនៅក្នុងបណ្ដាញសរសៃប្រសាទក្រាហ្វ (GNN) ដែលចំណុច (Nodes) នីមួយៗផ្លាស់ប្តូរ និងប្រមូលព័ត៌មានពីចំណុចដែលនៅជិតខាងខ្លួន ដើម្បីស្វែងយល់ពីលក្ខណៈទូទៅនិងទំនាក់ទំនងដ៏ស្មុគស្មាញនៃបណ្តាញទាំងមូល។	ដូចជាអ្នកជិតខាងជជែកគ្នាពីព័ត៌មានក្នុងភូមិ ធ្វើឱ្យអ្នករាល់គ្នាដឹងពីស្ថានការណ៍ទូទៅក្នុងសហគមន៍ទោះបីមិនបានដើរមើលគ្រប់ផ្ទះក៏ដោយ។
Mean Absolute Error (MAE)	ជារង្វាស់ស្ថិតិដែលប្រើសម្រាប់គណនាកម្រិតកំហុសជាមធ្យមរវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ ដោយវាស់ចម្ងាយដាច់ខាតដោយមិនគិតពីសញ្ញាបូក ឬដក។ តម្លៃកាន់តែតូច បង្ហាញថាម៉ូដែលកាន់តែសុក្រឹត។	ដូចជាការវាស់ចម្ងាយខុសគោលដៅជាមធ្យមនៃការបាញ់ព្រួញ មិនថាខុសទៅឆ្វេងឬស្តាំទេ គឺគេបូកបញ្ចូលចម្ងាយខុសទាំងអស់ចែកនឹងចំនួនដងនៃការបាញ់។
Node Embeddings	ជាការបំប្លែងទិន្នន័យនៃចំណុចនីមួយៗ (Nodes) ក្នុងបណ្ដាញ (Graph) ទៅជាទម្រង់វ៉ិចទ័រលេខ (Vectors) ជាស៊េរី ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងរៀនពីលក្ខណៈ ឬទំនាក់ទំនងរបស់វាបានយ៉ាងងាយស្រួលនៅក្នុងលំហពហុវិមាត្រ។	ដូចជាការបកប្រែអត្តសញ្ញាណនិងចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ៗទៅជាលេខកូដសម្ងាត់ ដើម្បីឱ្យម៉ាស៊ីនអាចចំណាំនិងប្រៀបធៀបភាពស្រដៀងគ្នាបានលឿន។
Precision-Recall Curve	ជាខ្សែកោងក្រាហ្វិកដែលបង្ហាញពីការប្រៀបធៀបរវាងភាពសុក្រឹតក្នុងការរកឃើញភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពក្នុងការមិនរំលងទិន្នន័យដែលត្រឹមត្រូវ (Recall) នៅតាមកម្រិតកំណត់នៃការចាប់សញ្ញា (Thresholds) ផ្សេងៗគ្នា។	ដូចជាការថ្លឹងថ្លែងរវាងការព្យាយាមចាប់ត្រីឱ្យបានច្រើនបំផុត (Recall) ធៀបនឹងការព្យាយាមចាប់ឱ្យបានតែត្រីដែលយើងចង់បានដោយមិនឱ្យជាប់សម្រាម (Precision)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ការរៀនម៉ាស៊ីនសម្រាប់ថង់ក្រៅកោសិកា ដើម្បីជំរុញបច្ចេកវិទ្យាណាណូជីវសាស្ត្រផ្នែករោគវិនិច្ឆ័យ និងការព្យាបាល
Machine learning for extracellular vesicles enables diagnostic and therapeutic nanobiotechnology

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖