Original Title: Large-scale Text Mining from Biomedical Literature with Deep Neural Networks
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកទិន្នន័យអត្ថបទទ្រង់ទ្រាយធំពីអក្សរសិល្ប៍ជីវវេជ្ជសាស្ត្រដោយប្រើបណ្ដាញសរសៃប្រសាទជ្រៅ

ចំណងជើងដើម៖ Large-scale Text Mining from Biomedical Literature with Deep Neural Networks

អ្នកនិពន្ធ៖ Qiao Jin (Tsinghua University)

ឆ្នាំបោះពុម្ព៖ 2022, Tsinghua University

វិស័យសិក្សា៖ Natural Language Processing (NLP) / Biomedical Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកើនឡើងយ៉ាងឆាប់រហ័សនៃអក្សរសិល្ប៍ជីវវេជ្ជសាស្ត្រធ្វើឱ្យការវិភាគដោយដៃស្ទើរតែមិនអាចទៅរួច ដែលទាមទារឱ្យមានប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ស្វ័យប្រវត្តិដើម្បីចាត់ថ្នាក់ តំណាង បកស្រាយ និងឆ្លើយសំណួរដោយផ្អែកលើអត្ថបទស្មុគស្មាញ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានបង្កើត និងវាយតម្លៃម៉ូដែលសិក្សាជ្រៅ (Deep Learning) ចំនួនបួនផ្សេងគ្នា ដើម្បីដោះស្រាយកិច្ចការទាញយកទិន្នន័យអត្ថបទដោយប្រើប្រាស់បណ្តុំទិន្នន័យ PubMed (PubMed Corpus) ។

ការធ្វើលិបិក្រមអត្ថន័យ MeSH ដោយប្រើប្រាស់ BiGRU និងយន្តការយកចិត្តទុកដាក់ (AttentionMeSH)
ការតំណាងភាសាជីវវេជ្ជសាស្ត្រតាមបរិបទ (BioELMo)
ការពង្រីក និងបកស្រាយពាក្យកាត់ជីវវេជ្ជសាស្ត្រ (DECBAE)
ការបង្កើតសំណុំទិន្នន័យស្តង់ដារសម្រាប់ឆ្លើយសំណួរជីវវេជ្ជសាស្ត្រ (PubMedQA)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល AttentionMeSH ទទួលបានពិន្ទុ Micro-F1 ៦៨,៤៤% ក្នុងការធ្វើលិបិក្រមអត្ថន័យ ដោយផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ព្រមទាំងអាចបកស្រាយបានតាមរយៈទម្ងន់នៃការយកចិត្តទុកដាក់ (Attention Weights)។
ម៉ូដែល BioELMo ទទួលបានលទ្ធផលល្អជាងម៉ូដែលភាសាទូទៅលើភារកិច្ច NER និង NLI ហើយបានជួយកែលម្អម៉ូដែលបកស្រាយពាក្យកាត់ DECBAE ឱ្យទទួលបានភាពត្រឹមត្រូវជាង ៩០%។
សំណុំទិន្នន័យ PubMedQA ថ្មីបានផ្តល់នូវស្តង់ដារវាយតម្លៃដ៏តឹងរ៉ឹង ដោយម៉ូដែល BioBERT ដែលបានកែសម្រួលទទួលបានភាពត្រឹមត្រូវ ៦៨,១% និង Macro-F1 ៥២,៧% លើភារកិច្ចដែលទាមទារការវែកញែកស៊ីជម្រៅ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
AttentionMeSH ម៉ូដែលបណ្តាញសរសៃប្រសាទ AttentionMeSH សម្រាប់ការធ្វើលិបិក្រមអត្ថន័យវេជ្ជសាស្ត្រ	ផ្តល់នូវការពន្យល់លម្អិតអំពីមូលហេតុនៃការសម្រេចចិត្ត (Interpretability) និងដំណើរការបានលឿន។	ការកំណត់កម្រិត (Threshold tuning) មានភាពស្មុគស្មាញ ហើយនៅតែមានកម្រិតបើប្រៀបធៀបនឹងការវិភាគដោយមនុស្ស។	ទទួលបានពិន្ទុ Micro-F1 ៦៨,៤៤% លើសំណុំទិន្នន័យវាយតម្លៃ BioASQ កម្រិត 6a ដែលប្រហាក់ប្រហែលនឹងម៉ូដែលកំពូល។
BioELMo vs General ELMo ការប្រើប្រាស់ BioELMo ប្រៀបធៀបជាមួយ ELMo ទូទៅលើភារកិច្ច NER	មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់អត្ថន័យពិតនៃពាក្យកាត់វេជ្ជសាស្ត្រ និងទំនាក់ទំនងបរិបទ។	ទាមទារពេលវេលាហ្វឹកហាត់យូរ និងធនធានកុំព្យូទ័រធំធេង។	BioELMo សម្រេចបានពិន្ទុ F1 ៩០,៣% ល្អជាងម៉ូដែល ELMo ទូទៅដែលទទួលបានត្រឹម ៨៧,០%។
BioBERT (Multi-phase Fine-tuning) ការកែសម្រួលម៉ូដែល BioBERT ច្រើនដំណាក់កាលសម្រាប់ការឆ្លើយសំណួរ	អាចធ្វើការវែកញែកស៊ីជម្រៅដើម្បីឆ្លើយសំណួរស្មុគស្មាញ (បាទ/ទេ/ប្រហែល) ពីអត្ថបទស្រាវជ្រាវ។	អាស្រ័យខ្លាំងលើទិន្នន័យដែលមានការដាក់ស្លាកដោយមនុស្សដើម្បីទទួលបានលទ្ធផលល្អឥតខ្ចោះ។	សម្រេចបានភាពត្រឹមត្រូវ ៦៨,០៨% និង Macro-F1 ៥២,៧២% លើសំណុំទិន្នន័យ PubMedQA យកឈ្នះម៉ូដែល Baseline ផ្សេងៗ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រខ្នាតធំ និងសំណុំទិន្នន័យអត្ថបទរាប់លានឯកសារដើម្បីហ្វឹកហាត់ម៉ូដែល។

Hardware: ត្រូវការ GPU កម្រិតខ្ពស់សម្រាប់ហ្វឹកហាត់ (ឧទាហរណ៍ 2x GeForce GTX TITAN X សម្រាប់ AttentionMeSH ចំណាយពេល ១០០ម៉ោង និង ១៧០០ម៉ោង GPU សម្រាប់ BioELMo)។
Software: ប្រើប្រាស់ Framework សម្រាប់ Deep Learning ដូចជា PyTorch និង TensorFlow។
Dataset: ត្រូវការទិន្នន័យអត្ថបទដ៏ធំសំបើម ដូចជាអត្ថបទសង្ខេបពី PubMed ចំនួន ១០លានឯកសារ និងទិន្នន័យ BioASQ ១3,៥ លានឯកសារ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យអក្សរសាស្ត្រជាភាសាអង់គ្លេសពីបណ្ដាញ PubMed ដែលភាគច្រើនឆ្លុះបញ្ចាំងពីបរិបទវេជ្ជសាស្ត្រលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា ម៉ូដែលនេះអាចខ្វះទិន្នន័យតំណាងឱ្យជំងឺក្នុងតំបន់ (Tropical diseases) និងមិនទាន់មានសមត្ថភាពគាំទ្រការប្រើប្រាស់អត្ថបទវេជ្ជសាស្ត្រជាភាសាខ្មែរនៅឡើយទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមខាងភាសា ក៏បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ជួយសម្រួលដល់ការស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា។

សាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល (UHS): និស្សិតពេទ្យ និងសាស្ត្រាចារ្យអាចប្រើប្រាស់វាដើម្បីទាញយកសេចក្តីសង្ខេប និងស្វែងរកឯកសារយោងពីអត្ថបទវេជ្ជសាស្ត្ររាប់ពាន់បានយ៉ាងឆាប់រហ័ស។
វិទ្យាស្ថានជាតិសុខភាពសាធារណៈ (NIPH): អាចប្រើដើម្បីតាមដាន និងទាញយកទិន្នន័យរោគរាតត្បាត ឬការវិភាគលើជំងឺឆ្លងនានា (ដូចជា គ្រុនឈាម គ្រុនចាញ់) ពីការស្រាវជ្រាវអន្តរជាតិ។
មន្ទីរពេទ្យកាល់ម៉ែត (Calmette Hospital): វេជ្ជបណ្ឌិតអាចប្រើប្រាស់ប្រព័ន្ធសួរ-ឆ្លើយ (QA System) នេះដើម្បីផ្ទៀងផ្ទាត់រោគវិនិច្ឆ័យ ឬស្វែងរកប្រសិទ្ធភាពនៃឱសថថ្មីៗក្នុងកាលៈទេសៈបន្ទាន់។

ជារួម បច្ចេកវិទ្យានេះនឹងជួយពន្លឿនការស្រាវជ្រាវ និងរកឃើញចំណេះដឹងវេជ្ជសាស្ត្រថ្មីៗនៅកម្ពុជា ប្រសិនបើត្រូវបានបន្សាំមកប្រើប្រាស់ឱ្យស្របតាមបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP ក្នុងវិស័យវេជ្ជសាស្ត្រ: និស្សិតគួរចាប់ផ្តើមសិក្សាពីការតំណាងពាក្យ (Word Embeddings) និងយន្តការ Attention តាមរយៈការអនុវត្តកូដដោយប្រើ PyTorch និងស្វែងយល់ពីម៉ូដែល BioBERT។
ទាញយក និងសាកល្បងប្រើទិន្នន័យសាធារណៈ: ប្រើប្រាស់ PubMed API ដើម្បីទាញយកអត្ថបទសង្ខេប និងហ្វឹកហាត់កែសម្រួល (Fine-tune) ម៉ូដែលលើ Google Colab ដោយប្រើសំណុំទិន្នន័យ PubMedQA បើកទូលាយ។
ប្រមូលចងក្រងទិន្នន័យវេជ្ជសាស្ត្រក្នុងស្រុក: សហការជាមួយស្ថាប័នសុខាភិបាលកម្ពុជា ដើម្បីប្រមូលឯកសារស្រាវជ្រាវ (ទាំងខ្មែរ និងអង់គ្លេស) និងបង្កើតវចនានុក្រមបកប្រែពាក្យបច្ចេកទេសពេទ្យសម្រាប់ការហ្វឹកហាត់ម៉ូដែល។
អភិវឌ្ឍប្រព័ន្ធសួរ-ឆ្លើយ (QA) សាកល្បង: បង្កើតកម្មវិធី Chatbot គំរូមួយដែលអនុញ្ញាតឱ្យនិស្សិតពេទ្យសួរសំណួរវេជ្ជសាស្ត្រជាភាសាអង់គ្លេស ហើយប្រព័ន្ធទាញយកចម្លើយពីឃ្លាំងទិន្នន័យដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Named Entity Recognition	ជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រស្វែងរក និងចាត់ថ្នាក់ពាក្យសំខាន់ៗក្នុងអត្ថបទ (ដូចជា ឈ្មោះជំងឺ ឈ្មោះថ្នាំ ឬឈ្មោះហ្សែន) ទៅក្នុងក្រុមឬប្រភេទដែលបានកំណត់ទុកមុន។	ដូចជាការគូសបន្ទាត់ពីក្រោមពាក្យគន្លឹះក្នុងសៀវភៅដោយប្រើប៊ិច Highlight ពណ៌ផ្សេងៗគ្នា ដើម្បីចំណាំថាណាមួយជាឈ្មោះមនុស្ស ទីកន្លែង ឬប្រភេទថ្នាំ។
Natural Language Inference	ជាកិច្ចការបញ្ញាសិប្បនិម្មិតដែលព្យាយាមយល់ពីទំនាក់ទំនងរវាងប្រយោគពីរ ថាតើប្រយោគទីពីរគឺពិត (Entailment) ផ្ទុយ (Contradiction) ឬមិនទាក់ទងគ្នា (Neutral) ដោយផ្អែកលើការវែកញែកពីប្រយោគទីមួយ។	ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលត្រូវសម្រេចចិត្តថា តើសម្ដីសាក្សីទីពីរស្របគ្នា ផ្ទុយគ្នា ឬអត់ប្រយោជន៍ បើធៀបទៅនឹងភស្តុតាងដែលមានស្រាប់។
Contextualized Word Embeddings	ជាការបំប្លែងពាក្យទៅជាតួលេខវ៉ិចទ័រដោយផ្អែកលើបរិបទ ឬអត្ថន័យនៃប្រយោគទាំងមូល ដែលជួយឱ្យកុំព្យូទ័រយល់អត្ថន័យពាក្យមួយ ទោះបីជាពាក្យនោះសរសេរដូចគ្នាតែមានន័យច្រើនយ៉ាងក៏ដោយ។	ដូចជាការស្មានអត្ថន័យនៃពាក្យ "លុប" តាមរយៈបរិបទ (លុបមុខ ឬ លុបអក្សរ) ជំនួសឱ្យការបកប្រែពាក្យនេះតែឯងដោយមិនខ្វល់ពីពាក្យជុំវិញវា។
Attention Mechanism	ជាយន្តការគណនាក្នុងបណ្ដាញសរសៃប្រសាទ (Neural Networks) ដែលបង្រៀនម៉ូដែលកុំព្យូទ័រឱ្យផ្ដោតការយកចិត្តទុកដាក់តែទៅលើពាក្យ ឬផ្នែកសំខាន់ៗបំផុតនៃអត្ថបទ ខណៈពេលកំពុងធ្វើការវិភាគ ឬទាញយកចម្លើយ។	ដូចជាពេលយើងអានសៀវភៅត្រៀមប្រឡង យើងមិនចាំបាច់យកចិត្តទុកដាក់គ្រប់ពាក្យទេ តែយើងសម្លឹងរកមើលនិងចាំតែពាក្យគន្លឹះណាដែលឆ្លើយតបនឹងសំណួរតែប៉ុណ្ណោះ។
Transformer	ជាទម្រង់ស្ថាបត្យកម្មនៃប្រព័ន្ធសិក្សាជ្រៅ (Deep Learning) ដែលអាចទាញយកទំនាក់ទំនងនៃពាក្យទាំងអស់ក្នុងប្រយោគព្រមៗគ្នាក្នុងពេលតែមួយដោយប្រើ Attention Mechanism ដែលធ្វើឱ្យវាដំណើរការបានលឿនជាង និងមានប្រសិទ្ធភាពខ្ពស់ជាងម៉ូដែលមុនៗ។	ដូចជាការជួលក្រុមការងារ១០នាក់ឱ្យអានឯកសាររាប់ពាន់ទំព័រព្រមៗគ្នាក្នុងពេលតែមួយ ជំនួសឱ្យការឱ្យមនុស្សម្នាក់អានម្ដងមួយទំព័រពីដើមដល់ចប់ម្នាក់ឯង។
Medical Subject Headings	ជាវចនានុក្រម ឬបញ្ជីពាក្យពេទ្យស្តង់ដារដែលប្រើប្រាស់ទូទាំងពិភពលោក (បង្កើតដោយ NLM) ដើម្បីដាក់ស្លាក ចាត់ថ្នាក់ និងធ្វើលិបិក្រមអត្ថបទស្រាវជ្រាវជីវវេជ្ជសាស្ត្រ ដើម្បីងាយស្រួលក្នុងការទាញយកទិន្នន័យ។	ដូចជាប្រព័ន្ធបិទស្លាក (Tag) ចាត់ថ្នាក់ប្រភេទសៀវភៅនៅក្នុងបណ្ណាល័យ ដែលជួយឱ្យយើងងាយស្រួលរកសៀវភៅពេទ្យដែលនិយាយអំពីប្រធានបទតែមួយ។
Machine Reading Comprehension	ជាសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការស្កេននិងអានឯកសារអត្ថបទដ៏វែង រួចធ្វើការវិភាគដើម្បីឆ្លើយសំណួរនានាដែលសួរដោយមនុស្សដោយស្វ័យប្រវត្តិ។	ដូចជាការឱ្យសិស្សអានអត្ថបទប្រវត្តិវិទ្យាមួយ រួចឱ្យពួកគេធ្វើតេស្តសួរ-ឆ្លើយដោយផ្អែកលើការចងចាំនិងការយល់ដឹងពីអត្ថបទដែលបានអាននោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖