Original Title: Gated Graph Sequence Neural Network-Based Prediction of Drug-Gene Association for Nucleoside Proteins in Oral Cancer
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការព្យាករណ៍ទំនាក់ទំនងរវាងថ្នាំនិងហ្សែនសម្រាប់ប្រូតេអ៊ីននីយក្លេអូស៊ីត (Nucleoside) ក្នុងជំងឺមហារីកមាត់ដោយផ្អែកលើបណ្ដាញសរសៃប្រសាទក្រាហ្វតាមលំដាប់លំដោយ (GGSNN)

ចំណងជើងដើម៖ Gated Graph Sequence Neural Network-Based Prediction of Drug-Gene Association for Nucleoside Proteins in Oral Cancer

អ្នកនិពន្ធ៖ Dr. Soundharya Manogaran, Dr. Subasree S, Dr. Ramya Ramadoss, Dr. Pradeep Kumar Yadalam

ឆ្នាំបោះពុម្ព៖ 2025 SEEJPH

វិស័យសិក្សា៖ Bioinformatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំងឺមហារីកមាត់គឺជាបញ្ហាសុខភាពសាធារណៈដ៏ធំមួយដោយសារការធ្វើរោគវិនិច្ឆ័យយឺតយ៉ាវ និងភាពស៊ាំនឹងការព្យាបាល ខណៈការកំណត់អត្តសញ្ញាណទំនាក់ទំនងរវាងថ្នាំនិងហ្សែនមានសារៈសំខាន់សម្រាប់ការស្វែងរកការព្យាបាលចំគោលដៅ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់សំណុំទិន្នន័យអន្តរកម្មរវាងថ្នាំនិងហ្សែន ដើម្បីបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទក្រាហ្វក្នុងការទស្សន៍ទាយទំនាក់ទំនងទាំងនេះសម្រាប់គោលបំណងវេជ្ជសាស្ត្រជាក់លាក់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Gated Graph Sequence Neural Network (GGSNN)
បណ្ដាញសរសៃប្រសាទក្រាហ្វតាមលំដាប់លំដោយ (ម៉ូដែលស្នើឡើង)
ទទួលបានតុល្យភាពល្អរវាងភាពសុក្រឹត (Precision) និងអត្រារំលឹក (Recall) ព្រមទាំងដំណើរការបានលឿនក្នុងកម្រិត ០.៣៧២ វិនាទីសម្រាប់ការវិភាគ។ តម្លៃ R-squared នៅមានកម្រិតមធ្យម ដែលបង្ហាញថាម៉ូដែលត្រូវការទិន្នន័យបន្ថែមទៀតដើម្បីពន្យល់ពីបំរែបំរួលនៃទិន្នន័យឱ្យបានពេញលេញ។ F1 Score ៧២.៤២%, Precision ៧៦.៩៤%, Recall ៨៥.៩៥%, MAE ០.០៦៨៥
Conventional Machine Learning Approach
វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនប្រពៃណី (យោងតាមឯកសារយោងទី៣៦)
មានភាពសាមញ្ញ ងាយស្រួលយល់ និងងាយស្រួលក្នុងការអនុវត្តជាងបណ្តាញសរសៃប្រសាទកម្រិតខ្ពស់។ មិនសូវមានសមត្ថភាពក្នុងការចាប់យកទំនាក់ទំនងដ៏ស្មុគស្មាញនៃបណ្តាញទិន្នន័យជីវសាស្ត្រពហុវិមាត្រ។ ភាពត្រឹមត្រូវទូទៅ (Accuracy) ៧៤.២%
Sophisticated Ensemble Method
វិធីសាស្ត្រ Ensemble ដ៏ស្មុគស្មាញ (យោងតាមឯកសារយោងទី៤១)
ទទួលបានភាពសុក្រឹត (Precision) ខ្ពស់ខ្លាំងក្នុងការកំណត់អត្តសញ្ញាណអន្តរកម្ម។ មានអត្រារំលឹក (Recall) ទាបខ្លាំងត្រឹម ៦៨.៤% ដែលអាចបណ្តាលឱ្យខកខានក្នុងការរកឃើញអន្តរកម្មថ្នាំនិងហ្សែនសំខាន់ៗ (False Negatives)។ Precision ៨៩.២%, Recall ៦៨.៤%
Deep Learning Approach for DTI
វិធីសាស្ត្ររៀនស៊ីជម្រៅសម្រាប់ការទស្សន៍ទាយអន្តរកម្មថ្នាំ-គោលដៅ (យោងតាមឯកសារយោងទី៣៤)
អាចធ្វើការទស្សន៍ទាយបានល្អគួរសម និងជួយកំណត់មុខសញ្ញាថ្នាំបានរហ័ស។ ប្រើប្រាស់សំណុំទិន្នន័យតូចជាង (ត្រឹម ៣,៥០០ អន្តរកម្ម) និងទទួលបានអត្រារំលឹកទាបជាងម៉ូដែល GGSNN ។ Precision ៧២.៣%, Recall ៧៩.៨%

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការបង្វឹកម៉ូដែលកម្រិតជ្រៅ និងកម្មវិធីជំនាញសម្រាប់វិភាគទិន្នន័យក្រាហ្វជីវសាស្ត្រ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលប្រើក្នុងការសិក្សានេះផ្ដោតលើអន្តរកម្មជីវសាស្ត្រកម្រិតម៉ូលេគុលទូទៅ ដោយមិនបានបញ្ជាក់ពីប្រភពប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ យ៉ាងណាមិញ សម្រាប់ប្រទេសកម្ពុជាដែលមានអត្រាប្រជាជនជក់បារី ពិសាស្រា និងទំពារស្លាម្លូខ្ពស់ ដែលសុទ្ធសឹងជាហានិភ័យចម្បងនៃជំងឺមហារីកមាត់ ការសិក្សានេះមានសារៈសំខាន់ខ្លាំងណាស់ ទោះបីជាការខ្វះខាតទិន្នន័យហ្សែនប្រចាំតំបន់ជាក់លាក់របស់ប្រជាជនអាស៊ីអាគ្នេយ៍អាចជាកម្រិតកំណត់មួយក្នុងការអនុវត្តជាក់ស្តែងក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រអភិវឌ្ឍម៉ូដែលបញ្ញាសិប្បនិម្មិតនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័នស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា ក្នុងការវាយតម្លៃថ្នាំព្យាបាលជំងឺមហារីកមាត់ដោយចំណាយពេលនិងធនធានតិច។

ការរួមបញ្ចូលគ្នារវាងជីវព័ត៌មានវិទ្យានិងបញ្ញាសិប្បនិម្មិត អាចជួយឱ្យវិស័យសុខាភិបាលកម្ពុជាដើរទាន់និន្នាការនៃការព្យាបាលវេជ្ជសាស្ត្របែបជាក់លាក់ (Precision Medicine) នាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះទិន្នន័យក្រាហ្វ និងបណ្ដាញសរសៃប្រសាទ: ស្វែងយល់ពីទ្រឹស្តី Graph Neural Networks (GNN) និងការរៀបចំទិន្នន័យជាទម្រង់ Nodes (ហ្សែន/ថ្នាំ) និង Edges (អន្តរកម្ម) តាមរយៈការអនុវត្តផ្ទាល់ជាមួយកូដកូដបើកទូលាយ PyTorch Geometric។
  2. ជំហានទី២៖ ប្រមូល និងសម្អាតទិន្នន័យជីវសាស្ត្រ: ទាញយកទិន្នន័យអន្តរកម្មរវាងថ្នាំនិងហ្សែនពីប្រភពបើកទូលាយ (Open Data ដូចជា Probes & Drugs portal) រួចប្រើប្រាស់ Scikit-learn ក្នុងការសម្អាតទិន្នន័យដែលបាត់បង់ (Missing Values) និងធ្វើការកែសម្រួលខ្នាតទិន្នន័យ (Feature Scaling)។
  3. ជំហានទី៣៖ បង្ហាញនិងវិភាគបណ្តាញអន្តរកម្មដោយមើលឃើញ: នាំចូលទិន្នន័យដែលបានសម្អាតរួចទៅក្នុងកម្មវិធី Cytoscape ដើម្បីបង្កើតជាគំនូសបណ្តាញអន្តរកម្មរវាងប្រូតេអ៊ីននីយក្លេអូស៊ីតនិងថ្នាំ និងដើម្បីវិភាគលើរចនាសម្ព័ន្ធបណ្តាញរួមមាន Clustering Coefficient និង Network Density។
  4. ជំហានទី៤៖ អភិវឌ្ឍនិងបង្វឹកម៉ូដែល GGSNN: សរសេរកូដបង្កើតម៉ូដែល GatedGraphConv ដែលមាន២ស្រទាប់ដោយប្រើកម្មវិធី PyTorch រួចធ្វើការបង្វឹកម៉ូដែលចំនួន ១០០ Epochs ដោយប្រើ Adam Optimizer ជាមួយ Learning Rate កម្រិត 0.001 ដូចដែលបានអនុវត្តក្នុងការសិក្សាស្រាវជ្រាវនេះ។
  5. ជំហានទី៥៖ វាយតម្លៃប្រសិទ្ធភាព និងកែលម្អម៉ូដែល: ប្រើប្រាស់កម្មវិធី Scikit-learn ដើម្បីវាស់ស្ទង់សមត្ថភាពម៉ូដែលតាមរយៈការគណនា Precision, Recall, F1 Score និង Mean Absolute Error រួចបង្កើតក្រាហ្វវិភាគកំហុសដោយប្រើ Matplotlib មុននឹងសម្រេចយកម៉ូដែលទៅវិភាគលើទិន្នន័យពិតប្រាកដថ្មីៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Gated Graph Sequence Neural Networks ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលរៀនពីទិន្នន័យដែលមានទម្រង់ជាបណ្ដាញ (Graph) ដូចជាអន្តរកម្មរវាងម៉ូលេគុល ដោយប្រើប្រាស់យន្តការទ្វារ (Gates) ដើម្បីគ្រប់គ្រងការបញ្ជូនព័ត៌មានពីចំណុចមួយទៅចំណុចមួយទៀត (Nodes) និងចងចាំទិន្នន័យតាមលំដាប់លំដោយ។ ដូចជាប្រព័ន្ធបញ្ជូនសារតាមបណ្ដាញសង្គម ដែលបុគ្គលម្នាក់ៗ (Node) សម្រេចចិត្តថាតើត្រូវបញ្ជូនព័ត៌មានបន្ត ឬទប់វាទុក (Gate) ផ្អែកលើសារៈសំខាន់នៃព័ត៌មាននោះ។
Nucleoside proteins ប្រូតេអ៊ីនដែលមានតួនាទីដឹកជញ្ជូន និងធ្វើមេតាបូលីសសារធាតុនីយក្លេអូស៊ីតចូលទៅក្នុងកោសិកា ដែលដំណើរការនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់ការសំយោគ DNA និងការបំបែកកោសិកា ជាពិសេសមានឥទ្ធិពលខ្លាំងក្នុងកោសិកាមហារីក។ ដូចជារថយន្តដឹកជញ្ជូនសម្ភារៈសំណង់ (នីយក្លេអូស៊ីត) យកទៅសាងសង់និងជួសជុលអគារ (DNA) នៅក្នុងរាងកាយ។
Drug-Gene Association ជាទំនាក់ទំនងរវាងថ្នាំព្យាបាលនិងហ្សែន ឬប្រូតេអ៊ីនជាក់លាក់ណាមួយក្នុងរាងកាយ ដែលបង្ហាញពីរបៀបដែលថ្នាំនោះមានប្រតិកម្ម អន្តរកម្ម ឬប្រសិទ្ធភាពទៅលើមុខងាររបស់ហ្សែននោះក្នុងការបញ្ឈប់ជំងឺ។ ដូចជាការស្វែងរកកូនសោ (ថ្នាំ) ឱ្យមានរាងស៊ីគ្នាទៅនឹងមេកូនសោ (ហ្សែន) ដើម្បីបើកឬបិទដំណើរការអ្វីមួយ។
Message passing ជាដំណើរការនៅក្នុងបណ្ដាញសរសៃប្រសាទក្រាហ្វ (GNN) ដែលចំណុច (Nodes) នីមួយៗផ្លាស់ប្តូរ និងប្រមូលព័ត៌មានពីចំណុចដែលនៅជិតខាងខ្លួន ដើម្បីស្វែងយល់ពីលក្ខណៈទូទៅនិងទំនាក់ទំនងដ៏ស្មុគស្មាញនៃបណ្តាញទាំងមូល។ ដូចជាអ្នកជិតខាងជជែកគ្នាពីព័ត៌មានក្នុងភូមិ ធ្វើឱ្យអ្នករាល់គ្នាដឹងពីស្ថានការណ៍ទូទៅក្នុងសហគមន៍ទោះបីមិនបានដើរមើលគ្រប់ផ្ទះក៏ដោយ។
Mean Absolute Error (MAE) ជារង្វាស់ស្ថិតិដែលប្រើសម្រាប់គណនាកម្រិតកំហុសជាមធ្យមរវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ ដោយវាស់ចម្ងាយដាច់ខាតដោយមិនគិតពីសញ្ញាបូក ឬដក។ តម្លៃកាន់តែតូច បង្ហាញថាម៉ូដែលកាន់តែសុក្រឹត។ ដូចជាការវាស់ចម្ងាយខុសគោលដៅជាមធ្យមនៃការបាញ់ព្រួញ មិនថាខុសទៅឆ្វេងឬស្តាំទេ គឺគេបូកបញ្ចូលចម្ងាយខុសទាំងអស់ចែកនឹងចំនួនដងនៃការបាញ់។
Node Embeddings ជាការបំប្លែងទិន្នន័យនៃចំណុចនីមួយៗ (Nodes) ក្នុងបណ្ដាញ (Graph) ទៅជាទម្រង់វ៉ិចទ័រលេខ (Vectors) ជាស៊េរី ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងរៀនពីលក្ខណៈ ឬទំនាក់ទំនងរបស់វាបានយ៉ាងងាយស្រួលនៅក្នុងលំហពហុវិមាត្រ។ ដូចជាការបកប្រែអត្តសញ្ញាណនិងចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ៗទៅជាលេខកូដសម្ងាត់ ដើម្បីឱ្យម៉ាស៊ីនអាចចំណាំនិងប្រៀបធៀបភាពស្រដៀងគ្នាបានលឿន។
Precision-Recall Curve ជាខ្សែកោងក្រាហ្វិកដែលបង្ហាញពីការប្រៀបធៀបរវាងភាពសុក្រឹតក្នុងការរកឃើញភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពក្នុងការមិនរំលងទិន្នន័យដែលត្រឹមត្រូវ (Recall) នៅតាមកម្រិតកំណត់នៃការចាប់សញ្ញា (Thresholds) ផ្សេងៗគ្នា។ ដូចជាការថ្លឹងថ្លែងរវាងការព្យាយាមចាប់ត្រីឱ្យបានច្រើនបំផុត (Recall) ធៀបនឹងការព្យាយាមចាប់ឱ្យបានតែត្រីដែលយើងចង់បានដោយមិនឱ្យជាប់សម្រាម (Precision)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖