បញ្ហា (The Problem)៖ បម្រែបម្រួលហ្សែនដែលមិនមែនជាកូដ (Noncoding genomic variations) មានសារៈសំខាន់សម្រាប់ការកំណត់លក្ខណៈនៃសត្វ ប៉ុន្តែផលប៉ះពាល់នៃមុខងាររបស់ពួកវានៅក្នុងសត្វចិញ្ចឹមនៅតែមិនទាន់ត្រូវបានសិក្សាឱ្យបានទូលំទូលាយនៅឡើយ ដោយសារកង្វះធនធានហ្សែន និងឧបករណ៍គណនាដែលសមស្របសម្រាប់ប្រភេទសត្វទាំងនេះ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតក្របខ័ណ្ឌ Deep Learning ដើម្បីទស្សន៍ទាយផលប៉ះពាល់នៃនិយតកម្មនៃបម្រែបម្រួលហ្សែននៅក្នុងសត្វគោ មាន់ ជ្រូក និងត្រីសាម៉ុង ដោយប្រើប្រាស់ទិន្នន័យហ្សែនដែលមានមុខងារ (Functional genomic data)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| DanQ (Hybrid CNN + LSTM) គំរូសរសៃប្រសាទសិប្បនិម្មិតកូនកាត់ដែលប្រើបណ្ដាញ Convolutional (CNN) សម្រាប់ចាប់យកលក្ខណៈពិសេស និង Long Short-Term Memory (LSTM) សម្រាប់ចាប់យកទំនាក់ទំនងតាមលំដាប់លំដោយ។ |
មានសមត្ថភាពចាប់យកការពឹងផ្អែករយៈចម្ងាយឆ្ងាយ (Long-range dependencies) នៅក្នុងលំដាប់ DNA បានល្អជាង ដែលធ្វើឱ្យវាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការស្វែងរកគំរូនៃនិយតកម្ម។ | ទាមទារធនធានគណនាខ្ពស់ជាង និងស្មុគស្មាញជាងក្នុងការបង្វឹកបើធៀបនឹងគំរូ CNN សុទ្ធ។ | ទទួលបានពិន្ទុ AUROC ខ្ពស់បំផុតលើគ្រប់ប្រភេទសត្វ (ឧទាហរណ៍ ០.៩១១០ សម្រាប់គោ និង ០.៩០៦៥ សម្រាប់ត្រីសាម៉ុង)។ |
| DeepSEA (Pure CNN) គំរូសរសៃប្រសាទ Convolutional (CNN) សុទ្ធសាធ ដែលផ្តោតលើការរៀនលក្ខណៈពិសេសពីលំដាប់ DNA ដោយផ្ទាល់។ |
មានរចនាសម្ព័ន្ធសាមញ្ញជាង និងលឿនជាងក្នុងការបង្វឹកបើធៀបនឹង DanQ ។ | មានកម្រិតក្នុងការចាប់យកទំនាក់ទំនងរវាងផ្នែកផ្សេងៗនៃ DNA ដែលនៅឆ្ងាយពីគ្នា។ | ដំណើរការបានល្អ (AUROC ~០.៩០ សម្រាប់គោ) ប៉ុន្តែនៅតែទាបជាង DanQ បន្តិចបន្តួចនៅក្នុងការពិសោធន៍ទាំងអស់។ |
| Functional SNP Selection (Proposed Method) ការជ្រើសរើស SNPs សម្រាប់ការទស្សន៍ទាយហ្សែន (Genomic Prediction) ដោយផ្អែកលើពិន្ទុមុខងារដែលទទួលបានពីគំរូ Deep Learning ។ |
អាចកំណត់អត្តសញ្ញាណបម្រែបម្រួលដែលមានឥទ្ធិពលពិតប្រាកដ (Causal variants) និងកាត់បន្ថយចំនួន Markers ដែលមិនចាំបាច់។ | ទាមទារឱ្យមានទិន្នន័យ Functional Genomics ដែលមានគុណភាពខ្ពស់ដើម្បីបង្កើតពិន្ទុ។ | ការប្រើប្រាស់ SNPs ដែលមានពិន្ទុមុខងារខ្ពស់បំផុត (Top functional SNPs) ផ្តល់នូវភាពត្រឹមត្រូវនៃការទស្សន៍ទាយប្រហាក់ប្រហែលនឹងការប្រើប្រាស់បន្ទះ SNP ពេញលេញ (Full SNP array)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានគណនាដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការបង្វឹកគំរូ Deep Learning និងការដោះស្រាយទិន្នន័យហ្សែនខ្នាតធំ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីពូជសត្វអឺរ៉ុប ឬពូជពាណិជ្ជកម្ម (ដូចជាគោ Holstein ឬត្រីសាម៉ុង Atlantic) ដែលអាចមានភាពខុសប្លែកគ្នានៃរចនាសម្ព័ន្ធហ្សែនបើធៀបនឹងពូជសត្វក្នុងស្រុករបស់កម្ពុជា (ដូចជាគោខ្មែរ ឬមាន់ស្រែ)។ នេះអាចធ្វើឱ្យគំរូត្រូវការការសម្របសម្រួល (Fine-tuning) មុននឹងយកមកប្រើប្រាស់ផ្ទាល់។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជាក្នុងការផ្លាស់ប្តូរពីការបង្កាត់ពូជតាមបែបប្រពៃណីទៅជាការបង្កាត់ពូជផ្អែកលើបច្ចេកវិទ្យា (Precision Breeding)។
ទោះបីជាត្រូវការធនធានបច្ចេកទេសខ្ពស់ក៏ដោយ ការចាប់ផ្តើមសិក្សាពីឥឡូវនេះនឹងជួយកម្ពុជាត្រៀមខ្លួនសម្រាប់បដិវត្តន៍កសិកម្មឌីជីថល និងបង្កើនផលិតភាពសត្វចិញ្ចឹម។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Chromatin accessibility | ភាពងាយស្រួលនៃការចូលទៅដល់ក្រូម៉ាទីន សំដៅលើតំបន់នៃ DNA ដែលបើកចំហរនិងមិនត្រូវបានរុំយ៉ាងតឹងជុំវិញប្រូតេអ៊ីន ដែលអនុញ្ញាតឱ្យម៉ាស៊ីនកោសិកាចូលទៅអានព័ត៌មានហ្សែនបាន។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីកំណត់ទីតាំងសកម្មរបស់ហ្សែន។ | ដូចជាសៀវភៅដែលបើកចំហរទំព័រដើម្បីឱ្យយើងអានបាន ផ្ទុយពីសៀវភៅដែលបិទជិត។ |
| Cis-regulatory elements (CREs) | ធាតុនិយតកម្ម Cis គឺជាផ្នែកនៃ DNA ដែលមិនបង្កើតជាប្រូតេអ៊ីន ប៉ុន្តែមានតួនាទីជាអ្នកបញ្ជា ឬ 'កុងតាក់' បើក/បិទ ដើម្បីគ្រប់គ្រងការបញ្ចេញហ្សែនដែលនៅជិតពួកវា។ | ដូចជាកុងតាក់ភ្លើងនៅលើជញ្ជាំង ដែលបញ្ជាឱ្យអំពូលភ្លើងភ្លឺ ឬរលត់។ |
| In silico saturation mutagenesis | នេះគឺជាបច្ចេកទេសពិសោធន៍នៅក្នុងកុំព្យូទ័រ ដោយធ្វើការផ្លាស់ប្តូរគ្រប់តួអក្សរនៃ DNA ម្ដងមួយៗ (Mutation) នៅលើខ្សែ DNA ដើម្បីមើលថាតើការផ្លាស់ប្តូរនីមួយៗប៉ះពាល់ដល់មុខងាររបស់ហ្សែនកម្រិតណា។ | ដូចជាការសាកល្បងផ្លាស់ប្តូរគ្រឿងផ្សំម្ហូបម្ដងមួយមុខ ដើម្បីដឹងថាមុខមួយណាធ្វើឱ្យរសជាតិប្រែប្រួលខ្លាំងបំផុត។ |
| Expression Quantitative Trait Loci (eQTL) | តំបន់នៅលើហ្សែនដែលមានបម្រែបម្រួល (Genetic variants) ដែលទាក់ទងដោយផ្ទាល់ទៅនឹងកម្រិតនៃការផលិត ឬបញ្ចេញរបស់ហ្សែន (Gene expression) នៅក្នុងកោសិកា។ គេប្រើវាដើម្បីផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវនៃគំរូទស្សន៍ទាយ។ | ដូចជាប៊ូតុងសម្លេង (Volume knob) ដែលកំណត់ថាបទចម្រៀងនឹងបន្លឺឡើងខ្លាំង ឬតិច។ |
| Genomic Prediction | ការប្រើប្រាស់ទិន្នន័យ DNA (markers) ដើម្បីទស្សន៍ទាយលក្ខណៈរូបរាង ឬផលិតភាពរបស់សត្វ (ដូចជាការលូតលាស់ ឬបរិមាណសាច់) ដោយមិនចាំបាច់រង់ចាំឱ្យសត្វនោះធំពេញវ័យ។ | ដូចជាការទស្សន៍ទាយពិន្ទុប្រឡងរបស់សិស្ស ដោយផ្អែកលើប្រវត្តិការសិក្សារបស់ពួកគេ មុនពេលថ្ងៃប្រឡងមកដល់។ |
| DanQ architecture | ឈ្មោះនៃគំរូបញ្ញាសិប្បនិម្មិត (AI Model) មួយប្រភេទដែលប្រើក្នុងឯកសារនេះ ដែលរួមបញ្ចូលគ្នានូវបច្ចេកវិទ្យាពីរគឺ CNN (សម្រាប់ចាប់យកលំនាំ) និង LSTM (សម្រាប់ចងចាំទំនាក់ទំនងវែងឆ្ងាយ) ដើម្បីវិភាគលំដាប់ DNA ។ | ដូចជាអ្នកអានសៀវភៅដែលស្គាល់ពាក្យនីមួយៗច្បាស់ (CNN) ហើយក៏យល់ពីអត្ថន័យនៃប្រយោគទាំងមូលដែលទាក់ទងគ្នាផងដែរ (LSTM)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖