Original Title: Web-based bioinformatic resources for protein and nucleic acids sequence alignment
Source: doi.org/10.46882/FAFT/1204
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ធនធានជីវព័ត៌មានវិទ្យាលើបណ្តាញអ៊ិនធឺណិតសម្រាប់ការតម្រៀបតំណលំដាប់ប្រូតេអ៊ីន និងអាស៊ីតនុយក្លេអ៊ិច

ចំណងជើងដើម៖ Web-based bioinformatic resources for protein and nucleic acids sequence alignment

អ្នកនិពន្ធ៖ Kamel A. Abd-Elsalam (Molecular Markers Lab., Plant Pathology Research Institute, Agricultural Research Center, Orman 12619, Giza, Egypt)

ឆ្នាំបោះពុម្ព៖ 2019 (Frontiers of Agriculture and Food Technology)

វិស័យសិក្សា៖ Bioinformatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទនេះពិនិត្យមើលលើការកើនឡើងយ៉ាងឆាប់រហ័សនៃទិន្នន័យតំណលំដាប់ DNA និងប្រូតេអ៊ីន ដែលទាមទារឱ្យមានឧបករណ៍កុំព្យូទ័រ និងបណ្តាញអ៊ិនធឺណិតដ៏មានប្រសិទ្ធភាពដើម្បីចាត់ចែង ផ្ទុក និងវិភាគទិន្នន័យដ៏ធំធេងទាំងនេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រមូលផ្តុំ និងពិនិត្យឡើងវិញនូវគេហទំព័រនិងឧបករណ៍ជីវព័ត៌មានវិទ្យាសំខាន់ៗ ដែលអាចប្រើប្រាស់ជាសាធារណៈសម្រាប់ការវិភាគតម្រៀបតំណលំដាប់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
BLAST / FASTA (Pairwise Sequence Alignment)
ការស្វែងរកនិងតម្រៀបតំណលំដាប់ជាគូដោយប្រើ BLAST ឬ FASTA
មានល្បឿនលឿនខ្លាំង និងជាឧបករណ៍គោលដ៏ពេញនិយមសម្រាប់ការស្វែងរកទិន្នន័យក្នុងមូលដ្ឋានទិន្នន័យធំៗ។ FASTA អាចកំណត់អត្តសញ្ញាណតំបន់ដែលមានភាពស្រដៀងគ្នាទាបបានល្អ។ អាចនឹងមិនរកឃើញលំដាប់ហ្សែនដែលវិវត្តន៍ឃ្លាតឆ្ងាយពីគ្នាខ្លាំង (distantly related sequences) ប្រសិនបើប្រៀបធៀបតែមួយគូៗ។ ផ្តល់លទ្ធផលយ៉ាងរហ័សក្នុងការទាញយកទិន្នន័យហ្សែន ឬប្រូតេអ៊ីនដែលស្រដៀងគ្នាពីមូលដ្ឋានទិន្នន័យសាធារណៈ។
Clustal W (Multiple Sequence Alignment)
ការតម្រៀបតំណលំដាប់ជាក្រុមដោយប្រើកម្មវិធី Clustal W
ជាកម្មវិធីទូទៅដ៏មានប្រសិទ្ធភាពដែលអាចបង្កើតការតម្រៀបដែលមានន័យខាងជីវសាស្ត្រ និងអនុញ្ញាតឱ្យមើលឃើញទំនាក់ទំនងនៃការវិវត្តន៍ (Cladograms/Phylograms)។ ភាពត្រឹមត្រូវអាចមានកម្រិតបើប្រៀបធៀបជាមួយឧបករណ៍ជំនាន់ថ្មី សម្រាប់ការតម្រៀបទិន្នន័យដែលមានភាពស្រដៀងគ្នាតិចតួច។ អាចគណនារកចំណុចដូចគ្នា និងខុសគ្នា ដើម្បីវិភាគរកទំនាក់ទំនងនៃការវិវត្តន៍នៃក្រុមហ្សែន។
T-COFFEE
ការតម្រៀបតំណលំដាប់ជាក្រុមដោយកម្មវិធី T-COFFEE
មានភាពត្រឹមត្រូវខ្ពស់ជាង Clustal W សម្រាប់តំណលំដាប់ដែលមានភាពស្រដៀងគ្នាតិចជាង ៣០%។ ដំណើរការមានភាពយឺតជាងបើប្រៀបធៀបជាមួយកម្មវិធី Clustal W។ ផ្តល់ការតម្រៀបដ៏ច្បាស់លាស់សម្រាប់គ្រួសារប្រូតេអ៊ីន ឬ DNA ដែលមានភាពខុសប្លែកគ្នាខ្លាំង (divergent sequences)។
MAFFT
វិធីសាស្ត្រ MAFFT ផ្អែកលើ Fast Fourier Transform
មានល្បឿនលឿន និងផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់សម្រាប់ការតម្រៀបតំណលំដាប់ជាក្រុម (Multiple sequence alignment)។ តម្រូវឱ្យមានចំណេះដឹងក្នុងការជ្រើសរើស Algorithm ត្រឹមត្រូវ (ដូចជា L-INS-i ឬ FFT-NS-2) ដែលមាននៅក្នុង MAFFT ឱ្យស្របតាមប្រភេទសំណុំទិន្នន័យ។ អាចតម្រៀបទិន្នន័យសំណុំធំៗបានយ៉ាងលឿនដោយរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការវិភាគទិន្នន័យហ្សែនទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ប៉ុន្តែដោយសារវាជាឧបករណ៍លើបណ្តាញអ៊ិនធឺណិត (Web-based servers) អ្នកប្រើប្រាស់គ្រាន់តែត្រូវការអ៊ិនធឺណិតដើម្បីបញ្ជូនទិន្នន័យទៅឱ្យ Server ជាអ្នកគណនា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

អត្ថបទនេះគឺជាការពិនិត្យឡើងវិញនូវឧបករណ៍ជីវព័ត៌មានវិទ្យាសាធារណៈ ដោយមិនបានធ្វើការពិសោធន៍លើសំណុំទិន្នន័យនៃតំបន់ភូមិសាស្ត្រណាមួយជាក់លាក់ឡើយ។ ទោះជាយ៉ាងណាក៏ដោយ មូលដ្ឋានទិន្នន័យធំៗ (GenBank, PDB) ច្រើនតែមានភាពលម្អៀងទៅលើហ្សែននៃសារពាង្គកាយដែលត្រូវបានសិក្សាច្រើននៅប្រទេសលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យហ្សែនក្នុងស្រុក (ដូចជាពូជស្រូវរ៉ាប់រងអាកាសធាតុ ឬមេរោគក្នុងតំបន់) អាចជាបញ្ហាប្រឈមនៅពេលប្រើប្រាស់ឧបករណ៍ទាំងនេះដើម្បីស្វែងរកភាពស្រដៀងគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនិងឧបករណ៍ Web-based ទាំងនេះពិតជាមានអត្ថប្រយោជន៍ និងសក្តិសមបំផុតសម្រាប់ប្រទេសកម្ពុជា ដោយសារវាភាគច្រើនមិនគិតថ្លៃ និងមិនទាមទារកុំព្យូទ័រទំនើប។

សរុបមក ធនធានជីវព័ត៌មានវិទ្យាលើបណ្តាញអ៊ិនធឺណិតទាំងនេះផ្តល់នូវដំណោះស្រាយប្រកបដោយប្រសិទ្ធភាពខ្ពស់ និងចំណាយតិច សម្រាប់ជំរុញសមត្ថភាពស្រាវជ្រាវផ្នែកជីវសាស្ត្រ និងកសិកម្មនៅក្នុងប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាអំពីទ្រង់ទ្រាយទិន្នន័យមូលដ្ឋាន: ស្វែងយល់ពីរបៀបសរសេរ និងអានទិន្នន័យហ្សែនក្នុងទម្រង់ FASTA format ព្រមទាំងរៀនពីភាពខុសគ្នារវាង Pairwise Alignment និង Multiple Sequence Alignment (MSA)។
  2. អនុវត្តការស្វែងរកលំដាប់ហ្សែនជាគូ: ចូលទៅកាន់គេហទំព័ររបស់ NCBI ប្រើប្រាស់ឧបករណ៍ BLAST (Basic Local Alignment Search Tool) ដើម្បីសាកល្បងបញ្ចូលលំដាប់ហ្សែនមិនស្គាល់អត្តសញ្ញាណ និងស្វែងរកហ្សែនស្រដៀងគ្នានៅក្នុងមូលដ្ឋានទិន្នន័យ។
  3. អនុវត្តការតម្រៀបតំណលំដាប់ជាក្រុម: ប្រមូលសំណុំហ្សែនគ្រួសារតែមួយចាប់ពី ៣ ឡើងទៅ រួចប្រើប្រាស់ឧបករណ៍ Clustal W ឬ MAFFT (មាននៅលើគេហទំព័រ EBI) ដើម្បីតម្រៀប និងមើលពីតំបន់ហ្សែនដែលរក្សាលក្ខណៈដើម (Conserved regions)។
  4. កែសម្រួលប៉ារ៉ាម៉ែត្រកម្រិតខ្ពស់: រៀនពីរបៀបផ្លាស់ប្តូរតម្លៃពិន័យសម្រាប់ការបង្កើតចន្លោះ (Gap penalties) នៅក្នុងឧបករណ៍ T-COFFEE ដើម្បីសង្កេតមើលថាតើការផ្លាស់ប្តូរនេះធ្វើឱ្យលទ្ធផលតម្រៀបប្រែប្រួលយ៉ាងដូចម្តេចខ្លះ។
  5. អនុវត្តលើគម្រោងស្រាវជ្រាវជាក់ស្តែង: ជ្រើសរើសប្រធានបទមួយ (ឧទាហរណ៍៖ ការប្រៀបធៀបហ្សែនមេរោគគ្រុនឈាមប្រភេទផ្សេងៗគ្នា) ទាញយកទិន្នន័យពី GenBank តម្រៀបដោយប្រើកម្មវិធីខាងលើ និងបង្កើតដ្យាក្រាម Phylogenetic Tree ដើម្បីបកស្រាយលទ្ធផល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Bioinformatics (ជីវព័ត៌មានវិទ្យា) គឺជាការប្រើប្រាស់ប្រព័ន្ធកុំព្យូទ័រ និងបច្ចេកវិទ្យាព័ត៌មានវិទ្យា ដើម្បីផ្ទុក រៀបចំ និងវិភាគទិន្នន័យជីវសាស្ត្រដ៏ធំធេង ដូចជាតំណលំដាប់ DNA, RNA និងរចនាសម្ព័ន្ធប្រូតេអ៊ីន។ វាជួយឱ្យអ្នកវិទ្យាសាស្ត្រទាញយកព័ត៌មានសំខាន់ៗចេញពីកូដហ្សែនបានយ៉ាងលឿន។ ដូចជាការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រដ៏ឆ្លាតវៃ ដើម្បីអាន និងរៀបចំសៀវភៅរាប់លានក្បាលនៅក្នុងបណ្ណាល័យដែលសរសេរពីកូដសម្ងាត់នៃជីវិតសត្វនិងរុក្ខជាតិ។
Pairwise Sequence Alignment (ការតម្រៀបតំណលំដាប់ជាគូ) គឺជាដំណើរការនៃការប្រៀបធៀបតំណលំដាប់ DNA ឬប្រូតេអ៊ីនចំនួនពីរ ដើម្បីស្វែងរកកន្លែងដែលមានការផ្គូផ្គងគ្នា (ដូចគ្នា) ល្អបំផុត។ កម្មវិធីកុំព្យូទ័រនឹងគណនាពិន្ទុដោយផ្តល់រង្វាន់សម្រាប់ចំណុចដែលដូចគ្នា និងកាត់ពិន្ទុនៅពេលមានចំណុចខុសគ្នា ឬមានការដាច់ចន្លោះ។ ដូចជាការយកអត្ថបទពីរផ្ទាំងមកដាក់ទន្ទឹមគ្នាអានតួអក្សរមួយម្តងៗ ដើម្បីរកមើលថាតើមានពាក្យ ឬឃ្លាណាខ្លះដែលសរសេរដូចគ្នា។
Multiple Sequence Alignment (ការតម្រៀបតំណលំដាប់ជាក្រុម) គឺជាការប្រៀបធៀបតំណលំដាប់ហ្សែន ឬប្រូតេអ៊ីនចាប់ពីបីឡើងទៅក្នុងពេលតែមួយ។ វាត្រូវបានប្រើដើម្បីស្វែងរកតំបន់សំខាន់ៗដែលរក្សាទម្រង់ដើមមិនប្រែប្រួល (conserved regions) នៅក្នុងគ្រួសារហ្សែន និងជួយបង្ហាញពីមុខងាររបស់ហ្សែនដែលយើងមិនទាន់ស្គាល់ច្បាស់។ ដូចជាការយកសៀវភៅប្រវត្តិសាស្ត្រពីប្រទេសផ្សេងៗគ្នាច្រើនក្បាលមកប្រៀបធៀបគ្នាក្នុងពេលតែមួយ ដើម្បីរកមើលព្រឹត្តិការណ៍រួមដែលធ្លាប់កើតឡើងស្រដៀងៗគ្នា។
Orthologous (អ័រតូឡូហ្គឹស / ហ្សែនដែលមានប្រភពដើមរួមគ្នា) សំដៅលើហ្សែននៅក្នុងពូជសត្វ ឬរុក្ខជាតិផ្សេងៗគ្នា ដែលមានការវិវត្តចេញពីហ្សែនបុព្វបុរសរួមគ្នាតែមួយ (តាមរយៈការបំបែកពូជ) និងដែលជាទូទៅនៅតែរក្សាមុខងារស្រដៀងគ្នា ឬដូចគ្នាដដែល។ ដូចជារូបមន្តធ្វើនំមួយដែលត្រូវបានចែកទៅឱ្យបងប្អូនពីរនាក់ដែលរស់នៅប្រទេសផ្សេងគ្នា រូបមន្តនោះនៅតែជារូបមន្តសម្រាប់ដុតនំដដែល ទោះបីជាអ្នកទាំងពីរអាចកែច្នៃវាបន្តិចបន្តួចតាមពេលវេលាក៏ដោយ។
Hidden Markov Models / HMMs (ម៉ូដែលម៉ាកូវលាក់កំបាំង) គឺជាគំរូស្ថិតិគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់នៅក្នុងកម្មវិធីវិភាគទិន្នន័យជំនាន់ថ្មី ដើម្បីចាប់យកប្រូបាប៊ីលីតេ (លទ្ធភាព) នៃវត្តមានរបស់អាស៊ីតអាមីណេ ឬនុយក្លេអូទីតជាក់លាក់ណាមួយ ដែលអាចនឹងលេចឡើងនៅទីតាំងណាមួយនៃតំណលំដាប់។ វាជួយឱ្យការស្វែងរកហ្សែនកាន់តែមានភាពជាក់លាក់។ ដូចជាកម្មវិធីព្យាករណ៍អាកាសធាតុដែលប្រើប្រាស់ទិន្នន័យពីអតីតកាល ដើម្បីទស្សន៍ទាយថាតើថ្ងៃស្អែកនឹងមានភ្លៀងធ្លាក់ឬអត់ ដោយផ្អែកលើលំនាំដែលធ្លាប់កើតឡើងញឹកញាប់។
Phylogenetic analysis (ការវិភាគហ្វីឡូហ្សេនេទិក / ការវិភាគប្រវត្តិវិវត្តន៍) គឺជាការសិក្សាអំពីទំនាក់ទំនងនៃការវិវត្តន៍រវាងសារពាង្គកាយ ឬហ្សែនផ្សេងៗគ្នា ដោយផ្អែកលើការប្រៀបធៀបតំណលំដាប់ DNA ។ លទ្ធផលនៃការវិភាគនេះច្រើនតែត្រូវបានបង្ហាញជាទម្រង់ដ្យាក្រាមមែកធាង (Phylogenetic tree) ដើម្បីបង្ហាញថាអ្នកណាមានប្រវត្តិវិវត្តន៍ជិតស្និទ្ធជាមួយអ្នកណា។ ដូចជាការគូរគំនូសតាងមែកធាងគ្រួសារ (Family tree) ដើម្បីមើលថាតើនរណាជាជីដូនជីតាទួត និងមានទំនាក់ទំនងសាច់ញាតិជាមួយគ្នាយ៉ាងដូចម្តេចតាំងពីអតីតកាល។
Gap penalty (ការកាត់ពិន័យលើចន្លោះប្រហោង) នៅក្នុងក្បួនដោះស្រាយការតម្រៀបតំណលំដាប់ (Alignment algorithms) វាមិនមែនតែងតែផ្គូផ្គងគ្នា១០០%នោះទេ ពេលខ្លះកុំព្យូទ័រត្រូវបន្ថែមចន្លោះទទេ (Gaps) ដើម្បីឱ្យតួអក្សរបន្ទាប់អាចស៊ីគ្នា។ ការកាត់ពិន័យនេះគឺជាការកាត់ពិន្ទុ ដើម្បីកុំឱ្យកុំព្យូទ័របង្កើតចន្លោះទទេច្រើនពេក ដែលធ្វើឱ្យលទ្ធផលបាត់បង់ភាពត្រឹមត្រូវតាមបែបជីវសាស្ត្រ។ ដូចជាការត្រូវកាត់ពិន្ទុនៅក្នុងល្បែងផ្គុំពាក្យ នៅពេលដែលអ្នកស្នើសុំចន្លោះទទេមួយដើម្បីរំកិលអក្សរឱ្យត្រូវឃ្លា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖