Original Title: Evaluating Ontologically-Aware Large Language Models: An Experiment in Sepsis Prediction
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃគំរូភាសាធំៗដែលយល់ដឹងពីអុនតូឡូស៊ី (Ontology): ការពិសោធន៍ក្នុងការទស្សន៍ទាយជំងឺសិបស៊ីស (Sepsis)

ចំណងជើងដើម៖ Evaluating Ontologically-Aware Large Language Models: An Experiment in Sepsis Prediction

អ្នកនិពន្ធ៖ Lucas Gomes Maddalena (Pontifical Catholic University of Rio de Janeiro), Fernanda Araujo Baião (Pontifical Catholic University of Rio de Janeiro), Tiago Prince Sales (University of Twente), Giancarlo Guizzardi (University of Twente)

ឆ្នាំបោះពុម្ព៖ 2024 Semantic Web Journal

វិស័យសិក្សា៖ Health Informatics & Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការទស្សន៍ទាយជំងឺសិបស៊ីស (Sepsis) ឱ្យបានលឿននិងត្រឹមត្រូវគឺមានសារៈសំខាន់ណាស់សម្រាប់ការសង្គ្រោះជីវិតអ្នកជំងឺ ប៉ុន្តែគំរូ Machine Learning បច្ចុប្បន្នជួបប្រទះការលំបាកក្នុងការចាប់យកអត្ថន័យពិតប្រាកដនៃអត្ថបទគ្លីនិក ដែលបណ្តាលឱ្យមានអត្រាអវិជ្ជមានមិនពិត (false negatives) ខ្ពស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រៀបធៀបគំរូភាសាធំ Clinical BERT ធម្មតា ជាមួយនឹងគំរូដែលបានកែលម្អ (Clinical KB BERT) ដែលបានរួមបញ្ចូលចំណេះដឹងពីមូលដ្ឋានទិន្នន័យវេជ្ជសាស្ត្រ (UMLS) ដើម្បីទស្សន៍ទាយជំងឺសិបស៊ីស។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Clinical BERT (Semantically Unaware Model)
គំរូ Clinical BERT ធម្មតា (មិនមានការយល់ដឹងពីអត្ថន័យវេជ្ជសាស្ត្រស៊ីជម្រៅ)
មានភាពជាក់លាក់ (Precision) និងភាពត្រឹមត្រូវសរុប (Accuracy) ខ្ពស់បន្តិច ដែលអាចកាត់បន្ថយការផ្តល់សញ្ញាព្រមានខុស (False Positives)។ មានអត្រាអវិជ្ជមានមិនពិត (False Negatives) ខ្ពស់ ដែលងាយនឹងខកខានក្នុងការរកឃើញអ្នកជំងឺដែលមានជំងឺសិបស៊ីសពិតប្រាកដ។ មានកម្រិតភាពមិនប្រាកដប្រជា (Predictive entropy) ខ្ពស់ជាង។ ទទួលបាន AUC-ROC កម្រិត 0.826, Recall ត្រឹម 0.286 និងមានការទស្សន៍ទាយខុសថាគ្មានជំងឺ (False Negatives) ចំនួន 162 ករណី ក្នុងចំណោម 227 ករណី។
Clinical KB BERT (Semantically Aware Model)
គំរូ Clinical KB BERT (មានការរួមបញ្ចូលចំណេះដឹងអុនតូឡូស៊ី UMLS)
មានសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយអត្រាអវិជ្ជមានមិនពិត (False Negatives) ជួយសង្គ្រោះអ្នកជំងឺបានទាន់ពេល និងមានភាពជឿជាក់ខ្ពស់ (Predictive Entropy ទាប)។ ទាមទារធនធានច្រើនក្នុងការបង្ហាត់ និងតម្រូវឱ្យមានប្រព័ន្ធចំណេះដឹង (Knowledge Base) ដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់ពីខាងក្រៅ ដើម្បីដំណើរការបានល្អ។ ទទួលបាន AUC-ROC កើនឡើងដល់ 0.853, Recall 0.436 និងកាត់បន្ថយការទស្សន៍ទាយខុស (False Negatives) មកត្រឹម 128 ករណី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រធុនធ្ងន់ និងទិន្នន័យវេជ្ជសាស្ត្រទំហំធំ ដើម្បីបង្ហាត់គំរូភាសាធំ (LLMs) និងប្រព័ន្ធ Deep Learning (GRU)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលបានប្រើប្រាស់ក្នុងការសិក្សានេះ (MIMIC-III) គឺប្រមូលបានពីមន្ទីរពេទ្យនៅក្នុងសហរដ្ឋអាមេរិក ដែលឆ្លុះបញ្ចាំងតែពីប្រព័ន្ធថែទាំសុខភាព របៀបសរសេរកំណត់ត្រា និងប្រជាសាស្ត្ររបស់អ្នកជំងឺអាមេរិកប៉ុណ្ណោះ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ពីព្រោះការកត់ត្រាវេជ្ជសាស្ត្រនៅទីនេះជារឿយៗសរសេរដោយដៃ លាយឡំភាសាខ្មែរ-បារាំង-អង់គ្លេស និងខ្វះស្តង់ដាររួម ដែលអាចធ្វើឱ្យម៉ូដែលមិនអាចដំណើរការបានល្អប្រសិនបើគ្មានការកែសម្រួល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យកម្រិតតំបន់ក៏ដោយ វិធីសាស្ត្រនៃការបញ្រ្ជៀបចំណេះដឹងអុនតូឡូស៊ីនេះ មានសក្តានុពលខ្ពស់ក្នុងការយកមកកែច្នៃសម្រាប់ប្រព័ន្ធថែទាំសុខភាពនៅកម្ពុជា។

ការអនុវត្តជោគជ័យទាមទារឱ្យមានការជំរុញការធ្វើបរិវតកម្មឌីជីថល (Digitalization) នៃប្រព័ន្ធកត់ត្រាវេជ្ជសាស្ត្រនៅតាមមន្ទីរពេទ្យជាមុនសិន ទើបអាចទាញយកអត្ថប្រយោជន៍ពី AI ដើម្បីជួយសង្គ្រោះជីវិតអ្នកជំងឺនៅកម្ពុជាបានពេញលេញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP ក្នុងវិស័យគ្លីនិក: ចាប់ផ្តើមរៀនពីរបៀបដែលម៉ូដែលភាសាធំៗដំណើរការ ពិសេសគឺស្ថាបត្យកម្ម BERT និង Clinical BERT តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬការអនុវត្តផ្ទាល់ជាមួយ Hugging Face Transformers
  2. ស្វែងយល់ពីប្រព័ន្ធអុនតូឡូស៊ីវេជ្ជសាស្ត្រ (Medical Ontologies): សិក្សាពីរបៀបដែលប្រព័ន្ធ UMLS (Unified Medical Language System) រៀបចំរចនាសម្ព័ន្ធចំណេះដឹងវេជ្ជសាស្ត្រ និងសាកល្បងប្រើប្រាស់ Knowledge Graph Embeddings ដើម្បីតភ្ជាប់អត្ថបទទៅនឹងអត្ថន័យពិតប្រាកដ។
  3. អនុវត្តផ្ទាល់ជាមួយទិន្នន័យ MIMIC-III: ចុះឈ្មោះស្នើសុំសិទ្ធិប្រើប្រាស់ទិន្នន័យ MIMIC-III ពីគេហទំព័រ PhysioNet ដើម្បីអនុវត្តការទាញយក (Extract) និងសម្អាតទិន្នន័យ (Data Pre-processing) ទាំងទិន្នន័យមានរចនាសម្ព័ន្ធ និងកំណត់ត្រាពេទ្យ។
  4. អភិវឌ្ឍម៉ូដែល Deep Learning ចម្រុះ (Multimodal): ប្រើប្រាស់បណ្ណាល័យ TensorFlowPyTorch ដើម្បីបង្កើតគំរូ GRU (Gated Recurrent Unit) រួចសាកល្បងបញ្ចូលទិន្នន័យអត្ថបទ (Text Embeddings) ចូលគ្នាជាមួយទិន្នន័យគ្លីនិក ដើម្បីទស្សន៍ទាយលទ្ធផល។
  5. វាយតម្លៃកម្រិតភាពមិនប្រាកដប្រជា (Predictive Entropy): អនុវត្តការវាយតម្លៃម៉ូដែលដោយមិនត្រឹមតែមើលលើ AUC-ROC ប៉ុណ្ណោះទេ តែត្រូវរៀនគណនា Predictive Entropy និងប្រើប្រាស់ Giviti Calibration Belt ដើម្បីធានាថាម៉ូដែលមិនត្រឹមតែត្រឹមត្រូវ តែថែមទាំងអាចទុកចិត្តបានកម្រិតខ្ពស់សម្រាប់ការប្រើប្រាស់នៅមន្ទីរពេទ្យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Ontology គឺជាប្រព័ន្ធចំណាត់ថ្នាក់និងរចនាសម្ព័ន្ធទិន្នន័យដែលកំណត់ពីទំនាក់ទំនងរវាងពាក្យ ឬគំនិតនានាក្នុងវិស័យណាមួយ (ដូចជាពេទ្យសាស្ត្រ) ដើម្បីឱ្យកុំព្យូទ័រយល់ពីអត្ថន័យនិងបរិបទពិតប្រាកដដោយមិនគ្រាន់តែទន្ទេញពាក្យ។ ដូចជាផែនទីខួរក្បាល (Mind map) ដែលប្រាប់កុំព្យូទ័រថា "ថ្នាំប៉ារ៉ាសេតាម៉ុល" គឺសម្រាប់ព្យាបាល "អាការៈគ្រុនក្តៅ"។
Large Language Models (LLMs) ជាកម្មវិធីបញ្ញាសិប្បនិម្មិត (AI) ដែលត្រូវបានបង្រៀនដោយប្រើទិន្នន័យអត្ថបទយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីឱ្យវាមានសមត្ថភាពយល់ដឹង បង្កើត និងវិភាគភាសាមនុស្សបានយ៉ាងស្ទាត់ជំនាញ។ ដូចជាសិស្សពូកែអានសៀវភៅរាប់លានក្បាល ដែលអាចយល់និងឆ្លើយសំណួរគ្រប់បែបយ៉ាងពីអ្វីដែលគេបានអាន។
Text Embeddings ជាដំណើរការបំប្លែងពាក្យ ឃ្លា ឬអត្ថបទទាំងស្រុង ទៅជាលេខកូដ (វ៉ិចទ័រ) ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចគណនា និងស្វែងរកទំនាក់ទំនងភាពស្រដៀងគ្នានៃអត្ថន័យពាក្យទាំងនោះ។ ដូចជាការបកប្រែភាសាមនុស្សទៅជា "ភាសាលេខ" តែមួយគត់ដែលកុំព្យូទ័រអាចយល់និងយកទៅគិតលេខបាន។
Predictive Entropy ជារង្វាស់ដែលប្រើដើម្បីវាស់កម្រិតភាពមិនច្បាស់លាស់ ឬភាពមិនប្រាកដប្រជានៃការសម្រេចចិត្តឬការទស្សន៍ទាយរបស់ម៉ូដែល AI។ តម្លៃនេះកាន់តែខ្ពស់មានន័យថាម៉ូដែលកាន់តែមិនជឿជាក់លើលទ្ធផលរបស់វា។ ដូចជាការវាស់កម្រិតនៃការ "ស្ទាក់ស្ទើរ" របស់គ្រូពេទ្យនៅពេលធ្វើរោគវិនិច្ឆ័យជំងឺដែលមិនសូវច្បាស់លក្ខណៈ។
False Negatives ក្នុងបរិបទពេទ្យសាស្ត្រ វាគឺជាករណីដែលប្រព័ន្ធ AI ឬតេស្តពេទ្យទាយថាអ្នកជំងឺ "គ្មានជំងឺ" តែការពិតគាត់ "មានជំងឺ" នេះ។ នេះជាកំហុសដ៏គ្រោះថ្នាក់បំផុតព្រោះអាចធ្វើឱ្យអ្នកជំងឺបាត់បង់ឱកាសព្យាបាល។ ដូចជាឧបករណ៍រាវរកគ្រាប់មីនដែលលោតសញ្ញាថា "មានសុវត្ថិភាព" ទាំងដែលការពិតមានគ្រាប់មីនកប់នៅទីនោះ។
AUC-ROC ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classification model) ក្នុងការបែងចែករវាងក្រុមវិជ្ជមាន និងអវិជ្ជមាន។ តម្លៃកាន់តែខិតជិត 1.0 បង្ហាញថាម៉ូដែលកាន់តែពូកែបែងចែក។ ដូចជាពិន្ទុប្រឡងសរុបដែលបញ្ជាក់ថា សិស្សម្នាក់នេះពូកែរើសយកចម្លើយត្រូវនិងចោលចម្លើយខុសបានកម្រិតណា។
Sepsis ជាស្ថានភាពគ្រោះថ្នាក់ដល់អាយុជីវិត ដែលបណ្តាលមកពីប្រព័ន្ធការពាររាងកាយមានប្រតិកម្មខ្លាំងជ្រុលតបតនឹងការឆ្លងមេរោគ រហូតធ្វើឱ្យខូចខាតដល់សរីរាង្គនិងកោសិការបស់ខ្លួនឯង។ ដូចជាកងទ័ពក្នុងរាងកាយប្រយុទ្ធជាមួយសត្រូវ (មេរោគ) ខ្លាំងពេក រហូតបំផ្លាញស្រុកទេសខ្លួនឯង។
Calibration Belt គឺជាឧបករណ៍ក្រាហ្វិកប្រើសម្រាប់វាយតម្លៃថាតើកម្រិតភាគរយដែលម៉ូដែលទស្សន៍ទាយ (Predicted probability) ស៊ីគ្នាជាមួយលទ្ធផលដែលកើតឡើងពិតប្រាកដ (Observed probability) កម្រិតណា ដើម្បីការពារការជឿជាក់ជ្រុលឬមិនជឿជាក់ជ្រុល។ ដូចជាការផ្ទៀងផ្ទាត់មើលថា អ្នកព្យាករណ៍អាកាសធាតុដែលប្រាប់ថា "មានភ្លៀង 80%" នោះ តើមានភ្លៀងធ្លាក់ពិតមែនឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖