បញ្ហា (The Problem)៖ ការកើនឡើងយ៉ាងឆាប់រហ័សនៃអក្សរសិល្ប៍ជីវវេជ្ជសាស្ត្រធ្វើឱ្យការវិភាគដោយដៃស្ទើរតែមិនអាចទៅរួច ដែលទាមទារឱ្យមានប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ស្វ័យប្រវត្តិដើម្បីចាត់ថ្នាក់ តំណាង បកស្រាយ និងឆ្លើយសំណួរដោយផ្អែកលើអត្ថបទស្មុគស្មាញ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានបង្កើត និងវាយតម្លៃម៉ូដែលសិក្សាជ្រៅ (Deep Learning) ចំនួនបួនផ្សេងគ្នា ដើម្បីដោះស្រាយកិច្ចការទាញយកទិន្នន័យអត្ថបទដោយប្រើប្រាស់បណ្តុំទិន្នន័យ PubMed (PubMed Corpus) ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| AttentionMeSH ម៉ូដែលបណ្តាញសរសៃប្រសាទ AttentionMeSH សម្រាប់ការធ្វើលិបិក្រមអត្ថន័យវេជ្ជសាស្ត្រ |
ផ្តល់នូវការពន្យល់លម្អិតអំពីមូលហេតុនៃការសម្រេចចិត្ត (Interpretability) និងដំណើរការបានលឿន។ | ការកំណត់កម្រិត (Threshold tuning) មានភាពស្មុគស្មាញ ហើយនៅតែមានកម្រិតបើប្រៀបធៀបនឹងការវិភាគដោយមនុស្ស។ | ទទួលបានពិន្ទុ Micro-F1 ៦៨,៤៤% លើសំណុំទិន្នន័យវាយតម្លៃ BioASQ កម្រិត 6a ដែលប្រហាក់ប្រហែលនឹងម៉ូដែលកំពូល។ |
| BioELMo vs General ELMo ការប្រើប្រាស់ BioELMo ប្រៀបធៀបជាមួយ ELMo ទូទៅលើភារកិច្ច NER |
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់អត្ថន័យពិតនៃពាក្យកាត់វេជ្ជសាស្ត្រ និងទំនាក់ទំនងបរិបទ។ | ទាមទារពេលវេលាហ្វឹកហាត់យូរ និងធនធានកុំព្យូទ័រធំធេង។ | BioELMo សម្រេចបានពិន្ទុ F1 ៩០,៣% ល្អជាងម៉ូដែល ELMo ទូទៅដែលទទួលបានត្រឹម ៨៧,០%។ |
| BioBERT (Multi-phase Fine-tuning) ការកែសម្រួលម៉ូដែល BioBERT ច្រើនដំណាក់កាលសម្រាប់ការឆ្លើយសំណួរ |
អាចធ្វើការវែកញែកស៊ីជម្រៅដើម្បីឆ្លើយសំណួរស្មុគស្មាញ (បាទ/ទេ/ប្រហែល) ពីអត្ថបទស្រាវជ្រាវ។ | អាស្រ័យខ្លាំងលើទិន្នន័យដែលមានការដាក់ស្លាកដោយមនុស្សដើម្បីទទួលបានលទ្ធផលល្អឥតខ្ចោះ។ | សម្រេចបានភាពត្រឹមត្រូវ ៦៨,០៨% និង Macro-F1 ៥២,៧២% លើសំណុំទិន្នន័យ PubMedQA យកឈ្នះម៉ូដែល Baseline ផ្សេងៗ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រខ្នាតធំ និងសំណុំទិន្នន័យអត្ថបទរាប់លានឯកសារដើម្បីហ្វឹកហាត់ម៉ូដែល។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យអក្សរសាស្ត្រជាភាសាអង់គ្លេសពីបណ្ដាញ PubMed ដែលភាគច្រើនឆ្លុះបញ្ចាំងពីបរិបទវេជ្ជសាស្ត្រលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា ម៉ូដែលនេះអាចខ្វះទិន្នន័យតំណាងឱ្យជំងឺក្នុងតំបន់ (Tropical diseases) និងមិនទាន់មានសមត្ថភាពគាំទ្រការប្រើប្រាស់អត្ថបទវេជ្ជសាស្ត្រជាភាសាខ្មែរនៅឡើយទេ។
ទោះបីជាមានបញ្ហាប្រឈមខាងភាសា ក៏បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ជួយសម្រួលដល់ការស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា។
ជារួម បច្ចេកវិទ្យានេះនឹងជួយពន្លឿនការស្រាវជ្រាវ និងរកឃើញចំណេះដឹងវេជ្ជសាស្ត្រថ្មីៗនៅកម្ពុជា ប្រសិនបើត្រូវបានបន្សាំមកប្រើប្រាស់ឱ្យស្របតាមបរិបទក្នុងស្រុក។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Named Entity Recognition | ជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រស្វែងរក និងចាត់ថ្នាក់ពាក្យសំខាន់ៗក្នុងអត្ថបទ (ដូចជា ឈ្មោះជំងឺ ឈ្មោះថ្នាំ ឬឈ្មោះហ្សែន) ទៅក្នុងក្រុមឬប្រភេទដែលបានកំណត់ទុកមុន។ | ដូចជាការគូសបន្ទាត់ពីក្រោមពាក្យគន្លឹះក្នុងសៀវភៅដោយប្រើប៊ិច Highlight ពណ៌ផ្សេងៗគ្នា ដើម្បីចំណាំថាណាមួយជាឈ្មោះមនុស្ស ទីកន្លែង ឬប្រភេទថ្នាំ។ |
| Natural Language Inference | ជាកិច្ចការបញ្ញាសិប្បនិម្មិតដែលព្យាយាមយល់ពីទំនាក់ទំនងរវាងប្រយោគពីរ ថាតើប្រយោគទីពីរគឺពិត (Entailment) ផ្ទុយ (Contradiction) ឬមិនទាក់ទងគ្នា (Neutral) ដោយផ្អែកលើការវែកញែកពីប្រយោគទីមួយ។ | ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលត្រូវសម្រេចចិត្តថា តើសម្ដីសាក្សីទីពីរស្របគ្នា ផ្ទុយគ្នា ឬអត់ប្រយោជន៍ បើធៀបទៅនឹងភស្តុតាងដែលមានស្រាប់។ |
| Contextualized Word Embeddings | ជាការបំប្លែងពាក្យទៅជាតួលេខវ៉ិចទ័រដោយផ្អែកលើបរិបទ ឬអត្ថន័យនៃប្រយោគទាំងមូល ដែលជួយឱ្យកុំព្យូទ័រយល់អត្ថន័យពាក្យមួយ ទោះបីជាពាក្យនោះសរសេរដូចគ្នាតែមានន័យច្រើនយ៉ាងក៏ដោយ។ | ដូចជាការស្មានអត្ថន័យនៃពាក្យ "លុប" តាមរយៈបរិបទ (លុបមុខ ឬ លុបអក្សរ) ជំនួសឱ្យការបកប្រែពាក្យនេះតែឯងដោយមិនខ្វល់ពីពាក្យជុំវិញវា។ |
| Attention Mechanism | ជាយន្តការគណនាក្នុងបណ្ដាញសរសៃប្រសាទ (Neural Networks) ដែលបង្រៀនម៉ូដែលកុំព្យូទ័រឱ្យផ្ដោតការយកចិត្តទុកដាក់តែទៅលើពាក្យ ឬផ្នែកសំខាន់ៗបំផុតនៃអត្ថបទ ខណៈពេលកំពុងធ្វើការវិភាគ ឬទាញយកចម្លើយ។ | ដូចជាពេលយើងអានសៀវភៅត្រៀមប្រឡង យើងមិនចាំបាច់យកចិត្តទុកដាក់គ្រប់ពាក្យទេ តែយើងសម្លឹងរកមើលនិងចាំតែពាក្យគន្លឹះណាដែលឆ្លើយតបនឹងសំណួរតែប៉ុណ្ណោះ។ |
| Transformer | ជាទម្រង់ស្ថាបត្យកម្មនៃប្រព័ន្ធសិក្សាជ្រៅ (Deep Learning) ដែលអាចទាញយកទំនាក់ទំនងនៃពាក្យទាំងអស់ក្នុងប្រយោគព្រមៗគ្នាក្នុងពេលតែមួយដោយប្រើ Attention Mechanism ដែលធ្វើឱ្យវាដំណើរការបានលឿនជាង និងមានប្រសិទ្ធភាពខ្ពស់ជាងម៉ូដែលមុនៗ។ | ដូចជាការជួលក្រុមការងារ១០នាក់ឱ្យអានឯកសាររាប់ពាន់ទំព័រព្រមៗគ្នាក្នុងពេលតែមួយ ជំនួសឱ្យការឱ្យមនុស្សម្នាក់អានម្ដងមួយទំព័រពីដើមដល់ចប់ម្នាក់ឯង។ |
| Medical Subject Headings | ជាវចនានុក្រម ឬបញ្ជីពាក្យពេទ្យស្តង់ដារដែលប្រើប្រាស់ទូទាំងពិភពលោក (បង្កើតដោយ NLM) ដើម្បីដាក់ស្លាក ចាត់ថ្នាក់ និងធ្វើលិបិក្រមអត្ថបទស្រាវជ្រាវជីវវេជ្ជសាស្ត្រ ដើម្បីងាយស្រួលក្នុងការទាញយកទិន្នន័យ។ | ដូចជាប្រព័ន្ធបិទស្លាក (Tag) ចាត់ថ្នាក់ប្រភេទសៀវភៅនៅក្នុងបណ្ណាល័យ ដែលជួយឱ្យយើងងាយស្រួលរកសៀវភៅពេទ្យដែលនិយាយអំពីប្រធានបទតែមួយ។ |
| Machine Reading Comprehension | ជាសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការស្កេននិងអានឯកសារអត្ថបទដ៏វែង រួចធ្វើការវិភាគដើម្បីឆ្លើយសំណួរនានាដែលសួរដោយមនុស្សដោយស្វ័យប្រវត្តិ។ | ដូចជាការឱ្យសិស្សអានអត្ថបទប្រវត្តិវិទ្យាមួយ រួចឱ្យពួកគេធ្វើតេស្តសួរ-ឆ្លើយដោយផ្អែកលើការចងចាំនិងការយល់ដឹងពីអត្ថបទដែលបានអាននោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖