Original Title: Evaluating Ontologically-Aware Large Language Models: An Experiment in Sepsis Prediction
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃគំរូភាសាធំៗដែលយល់ដឹងពីអុនតូឡូស៊ី (Ontology): ការពិសោធន៍ក្នុងការទស្សន៍ទាយជំងឺសិបស៊ីស (Sepsis)

ចំណងជើងដើម៖ Evaluating Ontologically-Aware Large Language Models: An Experiment in Sepsis Prediction

អ្នកនិពន្ធ៖ Lucas Gomes Maddalena (Pontifical Catholic University of Rio de Janeiro), Fernanda Araujo Baião (Pontifical Catholic University of Rio de Janeiro), Tiago Prince Sales (University of Twente), Giancarlo Guizzardi (University of Twente)

ឆ្នាំបោះពុម្ព៖ 2024 Semantic Web Journal

វិស័យសិក្សា៖ Health Informatics & Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការទស្សន៍ទាយជំងឺសិបស៊ីស (Sepsis) ឱ្យបានលឿននិងត្រឹមត្រូវគឺមានសារៈសំខាន់ណាស់សម្រាប់ការសង្គ្រោះជីវិតអ្នកជំងឺ ប៉ុន្តែគំរូ Machine Learning បច្ចុប្បន្នជួបប្រទះការលំបាកក្នុងការចាប់យកអត្ថន័យពិតប្រាកដនៃអត្ថបទគ្លីនិក ដែលបណ្តាលឱ្យមានអត្រាអវិជ្ជមានមិនពិត (false negatives) ខ្ពស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រៀបធៀបគំរូភាសាធំ Clinical BERT ធម្មតា ជាមួយនឹងគំរូដែលបានកែលម្អ (Clinical KB BERT) ដែលបានរួមបញ្ចូលចំណេះដឹងពីមូលដ្ឋានទិន្នន័យវេជ្ជសាស្ត្រ (UMLS) ដើម្បីទស្សន៍ទាយជំងឺសិបស៊ីស។

ការប្រើប្រាស់ទិន្នន័យកំណត់ត្រាសុខភាពអេឡិចត្រូនិក (Electronic Health Records) ពីមូលដ្ឋានទិន្នន័យ MIMIC-III
ការរួមបញ្ចូលចំណេះដឹងអុនតូឡូស៊ីវេជ្ជសាស្ត្រ (Medical Ontology Integration) តាមរយៈប្រព័ន្ធ UMLS
ការវាយតម្លៃដំណើរការម៉ូដែលដោយប្រើក្រាហ្វ AUC-ROC, MCC និងការវាស់ស្ទង់ភាពមិនប្រាកដប្រជា (Predictive Entropy Evaluation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូដែលយល់ដឹងពីអុនតូឡូស៊ី (Clinical KB BERT) បានបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ ដោយតម្លៃ AUC-ROC កើនឡើងពី 0.826 ដល់ 0.853 បើធៀបនឹងម៉ូដែលដើម។
ភាពមិនប្រាកដប្រជានៃការទស្សន៍ទាយសរុប (Mean predictive entropy) ត្រូវបានកាត់បន្ថយពី 0.159 មកត្រឹម 0.142 ដែលបង្ហាញពីការជឿជាក់កាន់តែខ្ពស់លើលទ្ធផល។
ម៉ូដែលថ្មីនេះបានកាត់បន្ថយករណីទស្សន៍ទាយខុសថាគ្មានជំងឺ (False Negatives) ពី 162 មកត្រឹម 128 ករណី ក្នុងចំណោមអ្នកជំងឺសិបស៊ីស 227 នាក់ ដែលជួយកាត់បន្ថយការខកខានក្នុងការធ្វើរោគវិនិច្ឆ័យបានទាន់ពេលវេលា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Clinical BERT (Semantically Unaware Model) គំរូ Clinical BERT ធម្មតា (មិនមានការយល់ដឹងពីអត្ថន័យវេជ្ជសាស្ត្រស៊ីជម្រៅ)	មានភាពជាក់លាក់ (Precision) និងភាពត្រឹមត្រូវសរុប (Accuracy) ខ្ពស់បន្តិច ដែលអាចកាត់បន្ថយការផ្តល់សញ្ញាព្រមានខុស (False Positives)។	មានអត្រាអវិជ្ជមានមិនពិត (False Negatives) ខ្ពស់ ដែលងាយនឹងខកខានក្នុងការរកឃើញអ្នកជំងឺដែលមានជំងឺសិបស៊ីសពិតប្រាកដ។ មានកម្រិតភាពមិនប្រាកដប្រជា (Predictive entropy) ខ្ពស់ជាង។	ទទួលបាន AUC-ROC កម្រិត 0.826, Recall ត្រឹម 0.286 និងមានការទស្សន៍ទាយខុសថាគ្មានជំងឺ (False Negatives) ចំនួន 162 ករណី ក្នុងចំណោម 227 ករណី។
Clinical KB BERT (Semantically Aware Model) គំរូ Clinical KB BERT (មានការរួមបញ្ចូលចំណេះដឹងអុនតូឡូស៊ី UMLS)	មានសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយអត្រាអវិជ្ជមានមិនពិត (False Negatives) ជួយសង្គ្រោះអ្នកជំងឺបានទាន់ពេល និងមានភាពជឿជាក់ខ្ពស់ (Predictive Entropy ទាប)។	ទាមទារធនធានច្រើនក្នុងការបង្ហាត់ និងតម្រូវឱ្យមានប្រព័ន្ធចំណេះដឹង (Knowledge Base) ដែលមានរចនាសម្ព័ន្ធច្បាស់លាស់ពីខាងក្រៅ ដើម្បីដំណើរការបានល្អ។	ទទួលបាន AUC-ROC កើនឡើងដល់ 0.853, Recall 0.436 និងកាត់បន្ថយការទស្សន៍ទាយខុស (False Negatives) មកត្រឹម 128 ករណី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រធុនធ្ងន់ និងទិន្នន័យវេជ្ជសាស្ត្រទំហំធំ ដើម្បីបង្ហាត់គំរូភាសាធំ (LLMs) និងប្រព័ន្ធ Deep Learning (GRU)។

Hardware: ម៉ាស៊ីនដែលមានសមត្ថភាពខ្ពស់ (ឧទាហរណ៍ GPUs ទំហំធំ) សម្រាប់ដំណើរការគំរូភាសាធំ (LLMs) និងស្ថាបត្យកម្ម GRU លើទិន្នន័យរាប់ម៉ឺនកំណត់ត្រា។
Software: បណ្ណាល័យកូដសម្រាប់ Deep Learning ដូចជា TensorFlow និងប្រើប្រាស់ Adam optimizer សម្រាប់ការបង្ហាត់ម៉ូដែល។
Dataset: ទិន្នន័យ MIMIC-III ដែលមានកំណត់ត្រាអ្នកជំងឺប្រមាណ 46,520 ករណី ដោយទាមទារទាំងទិន្នន័យរចនាសម្ព័ន្ធ (Vital signs) និងអត្ថបទកំណត់ត្រាពេទ្យ។
Expertise: ត្រូវការអ្នកជំនាញផ្នែក Natural Language Processing (NLP) ការយល់ដឹងពី Medical Ontology (UMLS) និងអ្នកវិភាគទិន្នន័យគ្លីនិក។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យដែលបានប្រើប្រាស់ក្នុងការសិក្សានេះ (MIMIC-III) គឺប្រមូលបានពីមន្ទីរពេទ្យនៅក្នុងសហរដ្ឋអាមេរិក ដែលឆ្លុះបញ្ចាំងតែពីប្រព័ន្ធថែទាំសុខភាព របៀបសរសេរកំណត់ត្រា និងប្រជាសាស្ត្ររបស់អ្នកជំងឺអាមេរិកប៉ុណ្ណោះ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ពីព្រោះការកត់ត្រាវេជ្ជសាស្ត្រនៅទីនេះជារឿយៗសរសេរដោយដៃ លាយឡំភាសាខ្មែរ-បារាំង-អង់គ្លេស និងខ្វះស្តង់ដាររួម ដែលអាចធ្វើឱ្យម៉ូដែលមិនអាចដំណើរការបានល្អប្រសិនបើគ្មានការកែសម្រួល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យកម្រិតតំបន់ក៏ដោយ វិធីសាស្ត្រនៃការបញ្រ្ជៀបចំណេះដឹងអុនតូឡូស៊ីនេះ មានសក្តានុពលខ្ពស់ក្នុងការយកមកកែច្នៃសម្រាប់ប្រព័ន្ធថែទាំសុខភាពនៅកម្ពុជា។

មន្ទីរពេទ្យជាតិធំៗ (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត): អាចចាប់ផ្តើមសាកល្បងដោយការបំប្លែងកំណត់ត្រាអ្នកជំងឺសង្គ្រោះបន្ទាន់ (ICU) ទៅជាទម្រង់ឌីជីថល (EHR) ដើម្បីបង្កើតប្រព័ន្ធប្រកាសអាសន្នជាមុន (Early Warning System) សម្រាប់ជំងឺសិបស៊ីស។
វិស័យ HealthTech និងក្រសួងសុខាភិបាល: អាចប្រើប្រាស់គំនិតនេះដើម្បីបង្កើតវចនានុក្រមវេជ្ជសាស្ត្រស្តង់ដារកម្ពុជា (Cambodian Medical Ontology) ដែលភ្ជាប់ពាក្យពេទ្យខ្មែរទៅនឹងប្រព័ន្ធស្តង់ដារអន្តរជាតិ ជួយសម្រួលដល់ការអភិវឌ្ឍ AI នាពេលអនាគត។

ការអនុវត្តជោគជ័យទាមទារឱ្យមានការជំរុញការធ្វើបរិវតកម្មឌីជីថល (Digitalization) នៃប្រព័ន្ធកត់ត្រាវេជ្ជសាស្ត្រនៅតាមមន្ទីរពេទ្យជាមុនសិន ទើបអាចទាញយកអត្ថប្រយោជន៍ពី AI ដើម្បីជួយសង្គ្រោះជីវិតអ្នកជំងឺនៅកម្ពុជាបានពេញលេញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP ក្នុងវិស័យគ្លីនិក: ចាប់ផ្តើមរៀនពីរបៀបដែលម៉ូដែលភាសាធំៗដំណើរការ ពិសេសគឺស្ថាបត្យកម្ម BERT និង Clinical BERT តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬការអនុវត្តផ្ទាល់ជាមួយ Hugging Face Transformers។
ស្វែងយល់ពីប្រព័ន្ធអុនតូឡូស៊ីវេជ្ជសាស្ត្រ (Medical Ontologies): សិក្សាពីរបៀបដែលប្រព័ន្ធ UMLS (Unified Medical Language System) រៀបចំរចនាសម្ព័ន្ធចំណេះដឹងវេជ្ជសាស្ត្រ និងសាកល្បងប្រើប្រាស់ Knowledge Graph Embeddings ដើម្បីតភ្ជាប់អត្ថបទទៅនឹងអត្ថន័យពិតប្រាកដ។
អនុវត្តផ្ទាល់ជាមួយទិន្នន័យ MIMIC-III: ចុះឈ្មោះស្នើសុំសិទ្ធិប្រើប្រាស់ទិន្នន័យ MIMIC-III ពីគេហទំព័រ PhysioNet ដើម្បីអនុវត្តការទាញយក (Extract) និងសម្អាតទិន្នន័យ (Data Pre-processing) ទាំងទិន្នន័យមានរចនាសម្ព័ន្ធ និងកំណត់ត្រាពេទ្យ។
អភិវឌ្ឍម៉ូដែល Deep Learning ចម្រុះ (Multimodal): ប្រើប្រាស់បណ្ណាល័យ TensorFlow ឬ PyTorch ដើម្បីបង្កើតគំរូ GRU (Gated Recurrent Unit) រួចសាកល្បងបញ្ចូលទិន្នន័យអត្ថបទ (Text Embeddings) ចូលគ្នាជាមួយទិន្នន័យគ្លីនិក ដើម្បីទស្សន៍ទាយលទ្ធផល។
វាយតម្លៃកម្រិតភាពមិនប្រាកដប្រជា (Predictive Entropy): អនុវត្តការវាយតម្លៃម៉ូដែលដោយមិនត្រឹមតែមើលលើ AUC-ROC ប៉ុណ្ណោះទេ តែត្រូវរៀនគណនា Predictive Entropy និងប្រើប្រាស់ Giviti Calibration Belt ដើម្បីធានាថាម៉ូដែលមិនត្រឹមតែត្រឹមត្រូវ តែថែមទាំងអាចទុកចិត្តបានកម្រិតខ្ពស់សម្រាប់ការប្រើប្រាស់នៅមន្ទីរពេទ្យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Ontology	គឺជាប្រព័ន្ធចំណាត់ថ្នាក់និងរចនាសម្ព័ន្ធទិន្នន័យដែលកំណត់ពីទំនាក់ទំនងរវាងពាក្យ ឬគំនិតនានាក្នុងវិស័យណាមួយ (ដូចជាពេទ្យសាស្ត្រ) ដើម្បីឱ្យកុំព្យូទ័រយល់ពីអត្ថន័យនិងបរិបទពិតប្រាកដដោយមិនគ្រាន់តែទន្ទេញពាក្យ។	ដូចជាផែនទីខួរក្បាល (Mind map) ដែលប្រាប់កុំព្យូទ័រថា "ថ្នាំប៉ារ៉ាសេតាម៉ុល" គឺសម្រាប់ព្យាបាល "អាការៈគ្រុនក្តៅ"។
Large Language Models (LLMs)	ជាកម្មវិធីបញ្ញាសិប្បនិម្មិត (AI) ដែលត្រូវបានបង្រៀនដោយប្រើទិន្នន័យអត្ថបទយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីឱ្យវាមានសមត្ថភាពយល់ដឹង បង្កើត និងវិភាគភាសាមនុស្សបានយ៉ាងស្ទាត់ជំនាញ។	ដូចជាសិស្សពូកែអានសៀវភៅរាប់លានក្បាល ដែលអាចយល់និងឆ្លើយសំណួរគ្រប់បែបយ៉ាងពីអ្វីដែលគេបានអាន។
Text Embeddings	ជាដំណើរការបំប្លែងពាក្យ ឃ្លា ឬអត្ថបទទាំងស្រុង ទៅជាលេខកូដ (វ៉ិចទ័រ) ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចគណនា និងស្វែងរកទំនាក់ទំនងភាពស្រដៀងគ្នានៃអត្ថន័យពាក្យទាំងនោះ។	ដូចជាការបកប្រែភាសាមនុស្សទៅជា "ភាសាលេខ" តែមួយគត់ដែលកុំព្យូទ័រអាចយល់និងយកទៅគិតលេខបាន។
Predictive Entropy	ជារង្វាស់ដែលប្រើដើម្បីវាស់កម្រិតភាពមិនច្បាស់លាស់ ឬភាពមិនប្រាកដប្រជានៃការសម្រេចចិត្តឬការទស្សន៍ទាយរបស់ម៉ូដែល AI។ តម្លៃនេះកាន់តែខ្ពស់មានន័យថាម៉ូដែលកាន់តែមិនជឿជាក់លើលទ្ធផលរបស់វា។	ដូចជាការវាស់កម្រិតនៃការ "ស្ទាក់ស្ទើរ" របស់គ្រូពេទ្យនៅពេលធ្វើរោគវិនិច្ឆ័យជំងឺដែលមិនសូវច្បាស់លក្ខណៈ។
False Negatives	ក្នុងបរិបទពេទ្យសាស្ត្រ វាគឺជាករណីដែលប្រព័ន្ធ AI ឬតេស្តពេទ្យទាយថាអ្នកជំងឺ "គ្មានជំងឺ" តែការពិតគាត់ "មានជំងឺ" នេះ។ នេះជាកំហុសដ៏គ្រោះថ្នាក់បំផុតព្រោះអាចធ្វើឱ្យអ្នកជំងឺបាត់បង់ឱកាសព្យាបាល។	ដូចជាឧបករណ៍រាវរកគ្រាប់មីនដែលលោតសញ្ញាថា "មានសុវត្ថិភាព" ទាំងដែលការពិតមានគ្រាប់មីនកប់នៅទីនោះ។
AUC-ROC	ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classification model) ក្នុងការបែងចែករវាងក្រុមវិជ្ជមាន និងអវិជ្ជមាន។ តម្លៃកាន់តែខិតជិត 1.0 បង្ហាញថាម៉ូដែលកាន់តែពូកែបែងចែក។	ដូចជាពិន្ទុប្រឡងសរុបដែលបញ្ជាក់ថា សិស្សម្នាក់នេះពូកែរើសយកចម្លើយត្រូវនិងចោលចម្លើយខុសបានកម្រិតណា។
Sepsis	ជាស្ថានភាពគ្រោះថ្នាក់ដល់អាយុជីវិត ដែលបណ្តាលមកពីប្រព័ន្ធការពាររាងកាយមានប្រតិកម្មខ្លាំងជ្រុលតបតនឹងការឆ្លងមេរោគ រហូតធ្វើឱ្យខូចខាតដល់សរីរាង្គនិងកោសិការបស់ខ្លួនឯង។	ដូចជាកងទ័ពក្នុងរាងកាយប្រយុទ្ធជាមួយសត្រូវ (មេរោគ) ខ្លាំងពេក រហូតបំផ្លាញស្រុកទេសខ្លួនឯង។
Calibration Belt	គឺជាឧបករណ៍ក្រាហ្វិកប្រើសម្រាប់វាយតម្លៃថាតើកម្រិតភាគរយដែលម៉ូដែលទស្សន៍ទាយ (Predicted probability) ស៊ីគ្នាជាមួយលទ្ធផលដែលកើតឡើងពិតប្រាកដ (Observed probability) កម្រិតណា ដើម្បីការពារការជឿជាក់ជ្រុលឬមិនជឿជាក់ជ្រុល។	ដូចជាការផ្ទៀងផ្ទាត់មើលថា អ្នកព្យាករណ៍អាកាសធាតុដែលប្រាប់ថា "មានភ្លៀង 80%" នោះ តើមានភ្លៀងធ្លាក់ពិតមែនឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖