Original Title: Large-scale Text Mining from Biomedical Literature with Deep Neural Networks
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកទិន្នន័យអត្ថបទទ្រង់ទ្រាយធំពីអក្សរសិល្ប៍ជីវវេជ្ជសាស្ត្រដោយប្រើបណ្ដាញសរសៃប្រសាទជ្រៅ

ចំណងជើងដើម៖ Large-scale Text Mining from Biomedical Literature with Deep Neural Networks

អ្នកនិពន្ធ៖ Qiao Jin (Tsinghua University)

ឆ្នាំបោះពុម្ព៖ 2022, Tsinghua University

វិស័យសិក្សា៖ Natural Language Processing (NLP) / Biomedical Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការកើនឡើងយ៉ាងឆាប់រហ័សនៃអក្សរសិល្ប៍ជីវវេជ្ជសាស្ត្រធ្វើឱ្យការវិភាគដោយដៃស្ទើរតែមិនអាចទៅរួច ដែលទាមទារឱ្យមានប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ស្វ័យប្រវត្តិដើម្បីចាត់ថ្នាក់ តំណាង បកស្រាយ និងឆ្លើយសំណួរដោយផ្អែកលើអត្ថបទស្មុគស្មាញ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានបង្កើត និងវាយតម្លៃម៉ូដែលសិក្សាជ្រៅ (Deep Learning) ចំនួនបួនផ្សេងគ្នា ដើម្បីដោះស្រាយកិច្ចការទាញយកទិន្នន័យអត្ថបទដោយប្រើប្រាស់បណ្តុំទិន្នន័យ PubMed (PubMed Corpus) ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
AttentionMeSH
ម៉ូដែលបណ្តាញសរសៃប្រសាទ AttentionMeSH សម្រាប់ការធ្វើលិបិក្រមអត្ថន័យវេជ្ជសាស្ត្រ
ផ្តល់នូវការពន្យល់លម្អិតអំពីមូលហេតុនៃការសម្រេចចិត្ត (Interpretability) និងដំណើរការបានលឿន។ ការកំណត់កម្រិត (Threshold tuning) មានភាពស្មុគស្មាញ ហើយនៅតែមានកម្រិតបើប្រៀបធៀបនឹងការវិភាគដោយមនុស្ស។ ទទួលបានពិន្ទុ Micro-F1 ៦៨,៤៤% លើសំណុំទិន្នន័យវាយតម្លៃ BioASQ កម្រិត 6a ដែលប្រហាក់ប្រហែលនឹងម៉ូដែលកំពូល។
BioELMo vs General ELMo
ការប្រើប្រាស់ BioELMo ប្រៀបធៀបជាមួយ ELMo ទូទៅលើភារកិច្ច NER
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់អត្ថន័យពិតនៃពាក្យកាត់វេជ្ជសាស្ត្រ និងទំនាក់ទំនងបរិបទ។ ទាមទារពេលវេលាហ្វឹកហាត់យូរ និងធនធានកុំព្យូទ័រធំធេង។ BioELMo សម្រេចបានពិន្ទុ F1 ៩០,៣% ល្អជាងម៉ូដែល ELMo ទូទៅដែលទទួលបានត្រឹម ៨៧,០%។
BioBERT (Multi-phase Fine-tuning)
ការកែសម្រួលម៉ូដែល BioBERT ច្រើនដំណាក់កាលសម្រាប់ការឆ្លើយសំណួរ
អាចធ្វើការវែកញែកស៊ីជម្រៅដើម្បីឆ្លើយសំណួរស្មុគស្មាញ (បាទ/ទេ/ប្រហែល) ពីអត្ថបទស្រាវជ្រាវ។ អាស្រ័យខ្លាំងលើទិន្នន័យដែលមានការដាក់ស្លាកដោយមនុស្សដើម្បីទទួលបានលទ្ធផលល្អឥតខ្ចោះ។ សម្រេចបានភាពត្រឹមត្រូវ ៦៨,០៨% និង Macro-F1 ៥២,៧២% លើសំណុំទិន្នន័យ PubMedQA យកឈ្នះម៉ូដែល Baseline ផ្សេងៗ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រខ្នាតធំ និងសំណុំទិន្នន័យអត្ថបទរាប់លានឯកសារដើម្បីហ្វឹកហាត់ម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យអក្សរសាស្ត្រជាភាសាអង់គ្លេសពីបណ្ដាញ PubMed ដែលភាគច្រើនឆ្លុះបញ្ចាំងពីបរិបទវេជ្ជសាស្ត្រលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា ម៉ូដែលនេះអាចខ្វះទិន្នន័យតំណាងឱ្យជំងឺក្នុងតំបន់ (Tropical diseases) និងមិនទាន់មានសមត្ថភាពគាំទ្រការប្រើប្រាស់អត្ថបទវេជ្ជសាស្ត្រជាភាសាខ្មែរនៅឡើយទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមខាងភាសា ក៏បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ជួយសម្រួលដល់ការស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា។

ជារួម បច្ចេកវិទ្យានេះនឹងជួយពន្លឿនការស្រាវជ្រាវ និងរកឃើញចំណេះដឹងវេជ្ជសាស្ត្រថ្មីៗនៅកម្ពុជា ប្រសិនបើត្រូវបានបន្សាំមកប្រើប្រាស់ឱ្យស្របតាមបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP ក្នុងវិស័យវេជ្ជសាស្ត្រ: និស្សិតគួរចាប់ផ្តើមសិក្សាពីការតំណាងពាក្យ (Word Embeddings) និងយន្តការ Attention តាមរយៈការអនុវត្តកូដដោយប្រើ PyTorch និងស្វែងយល់ពីម៉ូដែល BioBERT
  2. ទាញយក និងសាកល្បងប្រើទិន្នន័យសាធារណៈ: ប្រើប្រាស់ PubMed API ដើម្បីទាញយកអត្ថបទសង្ខេប និងហ្វឹកហាត់កែសម្រួល (Fine-tune) ម៉ូដែលលើ Google Colab ដោយប្រើសំណុំទិន្នន័យ PubMedQA បើកទូលាយ។
  3. ប្រមូលចងក្រងទិន្នន័យវេជ្ជសាស្ត្រក្នុងស្រុក: សហការជាមួយស្ថាប័នសុខាភិបាលកម្ពុជា ដើម្បីប្រមូលឯកសារស្រាវជ្រាវ (ទាំងខ្មែរ និងអង់គ្លេស) និងបង្កើតវចនានុក្រមបកប្រែពាក្យបច្ចេកទេសពេទ្យសម្រាប់ការហ្វឹកហាត់ម៉ូដែល។
  4. អភិវឌ្ឍប្រព័ន្ធសួរ-ឆ្លើយ (QA) សាកល្បង: បង្កើតកម្មវិធី Chatbot គំរូមួយដែលអនុញ្ញាតឱ្យនិស្សិតពេទ្យសួរសំណួរវេជ្ជសាស្ត្រជាភាសាអង់គ្លេស ហើយប្រព័ន្ធទាញយកចម្លើយពីឃ្លាំងទិន្នន័យដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Named Entity Recognition ជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រស្វែងរក និងចាត់ថ្នាក់ពាក្យសំខាន់ៗក្នុងអត្ថបទ (ដូចជា ឈ្មោះជំងឺ ឈ្មោះថ្នាំ ឬឈ្មោះហ្សែន) ទៅក្នុងក្រុមឬប្រភេទដែលបានកំណត់ទុកមុន។ ដូចជាការគូសបន្ទាត់ពីក្រោមពាក្យគន្លឹះក្នុងសៀវភៅដោយប្រើប៊ិច Highlight ពណ៌ផ្សេងៗគ្នា ដើម្បីចំណាំថាណាមួយជាឈ្មោះមនុស្ស ទីកន្លែង ឬប្រភេទថ្នាំ។
Natural Language Inference ជាកិច្ចការបញ្ញាសិប្បនិម្មិតដែលព្យាយាមយល់ពីទំនាក់ទំនងរវាងប្រយោគពីរ ថាតើប្រយោគទីពីរគឺពិត (Entailment) ផ្ទុយ (Contradiction) ឬមិនទាក់ទងគ្នា (Neutral) ដោយផ្អែកលើការវែកញែកពីប្រយោគទីមួយ។ ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលត្រូវសម្រេចចិត្តថា តើសម្ដីសាក្សីទីពីរស្របគ្នា ផ្ទុយគ្នា ឬអត់ប្រយោជន៍ បើធៀបទៅនឹងភស្តុតាងដែលមានស្រាប់។
Contextualized Word Embeddings ជាការបំប្លែងពាក្យទៅជាតួលេខវ៉ិចទ័រដោយផ្អែកលើបរិបទ ឬអត្ថន័យនៃប្រយោគទាំងមូល ដែលជួយឱ្យកុំព្យូទ័រយល់អត្ថន័យពាក្យមួយ ទោះបីជាពាក្យនោះសរសេរដូចគ្នាតែមានន័យច្រើនយ៉ាងក៏ដោយ។ ដូចជាការស្មានអត្ថន័យនៃពាក្យ "លុប" តាមរយៈបរិបទ (លុបមុខ ឬ លុបអក្សរ) ជំនួសឱ្យការបកប្រែពាក្យនេះតែឯងដោយមិនខ្វល់ពីពាក្យជុំវិញវា។
Attention Mechanism ជាយន្តការគណនាក្នុងបណ្ដាញសរសៃប្រសាទ (Neural Networks) ដែលបង្រៀនម៉ូដែលកុំព្យូទ័រឱ្យផ្ដោតការយកចិត្តទុកដាក់តែទៅលើពាក្យ ឬផ្នែកសំខាន់ៗបំផុតនៃអត្ថបទ ខណៈពេលកំពុងធ្វើការវិភាគ ឬទាញយកចម្លើយ។ ដូចជាពេលយើងអានសៀវភៅត្រៀមប្រឡង យើងមិនចាំបាច់យកចិត្តទុកដាក់គ្រប់ពាក្យទេ តែយើងសម្លឹងរកមើលនិងចាំតែពាក្យគន្លឹះណាដែលឆ្លើយតបនឹងសំណួរតែប៉ុណ្ណោះ។
Transformer ជាទម្រង់ស្ថាបត្យកម្មនៃប្រព័ន្ធសិក្សាជ្រៅ (Deep Learning) ដែលអាចទាញយកទំនាក់ទំនងនៃពាក្យទាំងអស់ក្នុងប្រយោគព្រមៗគ្នាក្នុងពេលតែមួយដោយប្រើ Attention Mechanism ដែលធ្វើឱ្យវាដំណើរការបានលឿនជាង និងមានប្រសិទ្ធភាពខ្ពស់ជាងម៉ូដែលមុនៗ។ ដូចជាការជួលក្រុមការងារ១០នាក់ឱ្យអានឯកសាររាប់ពាន់ទំព័រព្រមៗគ្នាក្នុងពេលតែមួយ ជំនួសឱ្យការឱ្យមនុស្សម្នាក់អានម្ដងមួយទំព័រពីដើមដល់ចប់ម្នាក់ឯង។
Medical Subject Headings ជាវចនានុក្រម ឬបញ្ជីពាក្យពេទ្យស្តង់ដារដែលប្រើប្រាស់ទូទាំងពិភពលោក (បង្កើតដោយ NLM) ដើម្បីដាក់ស្លាក ចាត់ថ្នាក់ និងធ្វើលិបិក្រមអត្ថបទស្រាវជ្រាវជីវវេជ្ជសាស្ត្រ ដើម្បីងាយស្រួលក្នុងការទាញយកទិន្នន័យ។ ដូចជាប្រព័ន្ធបិទស្លាក (Tag) ចាត់ថ្នាក់ប្រភេទសៀវភៅនៅក្នុងបណ្ណាល័យ ដែលជួយឱ្យយើងងាយស្រួលរកសៀវភៅពេទ្យដែលនិយាយអំពីប្រធានបទតែមួយ។
Machine Reading Comprehension ជាសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការស្កេននិងអានឯកសារអត្ថបទដ៏វែង រួចធ្វើការវិភាគដើម្បីឆ្លើយសំណួរនានាដែលសួរដោយមនុស្សដោយស្វ័យប្រវត្តិ។ ដូចជាការឱ្យសិស្សអានអត្ថបទប្រវត្តិវិទ្យាមួយ រួចឱ្យពួកគេធ្វើតេស្តសួរ-ឆ្លើយដោយផ្អែកលើការចងចាំនិងការយល់ដឹងពីអត្ថបទដែលបានអាននោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖