Original Title: Offline RL with Decision Transformers for T1D Glucose Control
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងក្រៅបណ្តាញ (Offline RL) ជាមួយនឹង Decision Transformers សម្រាប់ការគ្រប់គ្រងជាតិស្ករនៃជំងឺទឹកនោមផ្អែមប្រភេទទី១ (T1D)

ចំណងជើងដើម៖ Offline RL with Decision Transformers for T1D Glucose Control

អ្នកនិពន្ធ៖ Katherine Greatwood (Stanford University)

ឆ្នាំបោះពុម្ព៖ 2025 Stanford CS224R Final Report

វិស័យសិក្សា៖ Machine Learning / Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគ្រប់គ្រងជំងឺទឹកនោមផ្អែមប្រភេទទី១ (T1D) គឺជាបញ្ហាប្រឈមដ៏ស្មុគស្មាញដោយសារកត្តាប្រែប្រួលដូចជារបបអាហារ និងលំហាត់ប្រាណ ដែលវិធីសាស្ត្រកែតម្រូវអាំងស៊ុយលីនបែបប្រតិកម្មតប (Reactive adjustments) ជាទូទៅមិនមានប្រសិទ្ធភាពគ្រប់គ្រាន់នោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ គម្រោងនេះប្រើប្រាស់វិធីសាស្ត្ររៀនពង្រឹងក្រៅបណ្តាញ (Offline RL) តាមរយៈទម្រង់ Decision Transformer ដើម្បីរៀនពីគោលការណ៍ផ្តល់កម្រិតអាំងស៊ុយលីនផ្ទាល់ខ្លួន ដោយផ្អែកលើទិន្នន័យប្រវត្តិសេនស័រចម្រុះ។

ការរួមបញ្ចូលទិន្នន័យសេនស័រចម្រុះរួមមាន ម៉ាស៊ីនវាស់ជាតិស្ករបន្តបន្ទាប់ (CGM) ស្នប់អាំងស៊ុយលីន (Insulin pump) និងនាឡិកាឆ្លាតវៃ (Smartwatch) ដែលត្រូវបានប្រមូលរៀងរាល់ ៥ នាទីម្តង។
ការចងក្រងទិន្នន័យជាទម្រង់ ស្ថានភាព សកម្មភាព និងរង្វាន់ (State, action, and reward trajectory) ដោយប្រើប្រាស់រយៈពេលក្នុងកម្រិតគោលដៅជាតិស្ករ (Time-in-Range 70-180 mg/dL) ជារង្វាន់។
ការបង្វឹកម៉ូដែល Decision Transformer ដែលមានស្ថាបត្យកម្ម Causal Transformer ផ្អែកលើ GPT រួមជាមួយនឹងមុខងារបាត់បង់ប្រភេទ Weighted cross-entropy សម្រាប់ដោះស្រាយបញ្ហាវិសមភាពទិន្នន័យ (Class imbalance)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការកែតម្រូវប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ដូចជាអត្រារៀនសូត្រទាប (1e-5) និងទំហំបាច់ធំ (64) គឺមានសារៈសំខាន់ខ្លាំងក្នុងការជំរុញម៉ូដែលឱ្យរៀនបាននូវគោលការណ៍សកម្មជាមុន (Proactive policy) ជំនួសឱ្យត្រឹមតែការចម្លងឥរិយាបថធម្មតា (Behavioral cloning)។
ម៉ូដែលបានរៀនដោយជោគជ័យក្នុងការផ្តល់អនុសាសន៍ឱ្យចាក់អាំងស៊ុយលីនកែតម្រូវបន្ថែមក្នុងអំឡុងពេលដែលជាតិស្ករក្នុងឈាមកំពុងកើនឡើង ខណៈដែលសកម្មភាពជាក់ស្តែងកន្លងមករបស់មនុស្សមិនបានធ្វើដូច្នេះទេ។
ការវាយតម្លៃបែប Open-loop បច្ចុប្បន្ននៅមានកម្រិតក្នុងការវាស់វែងផលប៉ះពាល់ជារួម (Cumulative impact) ដែលតម្រូវឱ្យមានការសិក្សាបន្តនាពេលអនាគតតាមរយៈការធ្វើសមាហរណកម្មជាមួយនឹងកម្មវិធីក្លែងធ្វើសរីរវិទ្យា (Physiological simulator) សម្រាប់ការសាកល្បងបែប Closed-loop។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Decision Transformer (Small Batch, High Learning Rate) ម៉ូដែល Decision Transformer (ទំហំបាច់តូច អត្រារៀនសូត្រខ្ពស់)	មានកំហុសបង្វឹក (Training loss) ទាប ហើយអាចចម្លងសកម្មភាពពីប្រវត្តិទិន្នន័យដើមបានយ៉ាងល្អឥតខ្ចោះ។	មិនអាចបង្កើតគោលការណ៍កែតម្រូវថ្មី ឬប្រសើរជាងមុនបានទេ ដោយគ្រាន់តែធ្វើត្រាប់តាមសកម្មភាពខុសឆ្គងពីអតីតកាលរបស់មនុស្ស (Behavioral cloning)។	ចម្លងទិន្នន័យដើម ១០០% ដោយមិនមានសកម្មភាពបុរេសកម្ម (Proactive actions) ក្នុងការកែតម្រូវជាតិស្ករឡើយ។
Decision Transformer (Large Batch, Low Learning Rate) ម៉ូដែល Decision Transformer (ទំហំបាច់ធំ អត្រារៀនសូត្រទាប)	អាចរៀនបាននូវគោលការណ៍បុរេសកម្ម (Proactive policy) ដោយចេះណែនាំការចាក់អាំងស៊ុយលីនកែតម្រូវបានទាន់ពេលវេលាមុនពេលជាតិស្ករឡើងខ្ពស់។	ទាមទារការកែតម្រូវប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) យ៉ាងប្រុងប្រយ័ត្នដើម្បីសម្រេចបានលទ្ធផលនេះ។	ម៉ូដែលបានណែនាំការចាក់អាំងស៊ុយលីនកែតម្រូវនៅពេលជាតិស្ករកំពុងកើនឡើង ខណៈដែលទិន្នន័យប្រវត្តិដើមមិនមានសកម្មភាពនេះទេ។
Decision Transformer (Unweighted Loss) ម៉ូដែល Decision Transformer (មិនមានការថ្លឹងទម្ងន់ទិន្នន័យ)	ងាយស្រួលក្នុងការអនុវត្តកូដដោយមិនបាច់គណនាទម្ងន់នៃទិន្នន័យនីមួយៗ។	ដោយសារទិន្នន័យភាគច្រើនគឺ 'មិនមានសកម្មភាព' ម៉ូដែលរៀនទស្សន៍ទាយតែលទ្ធផល 'មិនចាក់អាំងស៊ុយលីន' ជានិច្ច ដែលមិនមានប្រយោជន៍ក្នុងការកែតម្រូវជាតិស្ករ។	ម៉ូដែលបរាជ័យទាំងស្រុងដោយទស្សន៍ទាយតែសកម្មភាព 0 insulin (គ្មានអាំងស៊ុយលីន) គ្រប់ពេលទាំងអស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែដោយសារវាប្រើប្រាស់ស្ថាបត្យកម្មរៀនស៊ីជម្រៅ វាតម្រូវឱ្យមានកម្លាំងគណនា និងទិន្នន័យចម្រុះជាចាំបាច់។

Hardware: ទាមទារអង្គគណនា (GPU) កម្រិតមធ្យម ឬខ្ពស់សម្រាប់ការបង្វឹកម៉ូដែល (Transformer) ទោះបីជាទំហំទិន្នន័យមានចំនួនតិចក៏ដោយ។
Dataset: ទិន្នន័យផ្ទាល់ខ្លួនរបស់បុគ្គលម្នាក់ដែលរួមបញ្ចូល ម៉ាស៊ីនវាស់ជាតិស្ករបន្តបន្ទាប់ (CGM), ស្នប់អាំងស៊ុយលីន (Insulin pump), និងនាឡិកាឆ្លាតវៃ (Garmin) ដោយប្រមូលជារៀងរាល់ ៥ នាទីម្តង។
Software & Simulators: បណ្ណាល័យសម្រាប់រៀនស៊ីជម្រៅ (Deep Learning libraries) និងជាពិសេសកម្មវិធីក្លែងធ្វើសរីរវិទ្យា (UVA/Padova T1D simulator) សម្រាប់ការវាយតម្លៃបែបបិទជិត (Closed-loop evaluation) នៅជំហានបន្ទាប់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីមនុស្សតែម្នាក់គត់ (Single-subject dataset) ដែលជាទិន្នន័យរបស់អ្នកស្រាវជ្រាវផ្ទាល់។ នេះធ្វើឱ្យម៉ូដែលមានភាពផ្ទាល់ខ្លួនខ្ពស់ (Highly personalized) ប៉ុន្តែមិនអាចទាញជាទូទៅ (Not generalizable) សម្រាប់អ្នកជំងឺផ្សេងទៀតដែលមានអាយុ របបអាហារ ឬសកម្មភាពរាងកាយខុសគ្នាឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យប្រវត្តិវេជ្ជសាស្ត្រចម្រុះបែបនេះ គឺជាឧបសគ្គដ៏ធំក្នុងការកសាងម៉ូដែលឆ្លាតវៃ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាឧបករណ៍សេនស័រវាស់ជាតិស្ករបន្តបន្ទាប់ (CGM) និងស្នប់អាំងស៊ុយលីនស្វ័យប្រវត្តិមានតម្លៃថ្លៃ និងមិនទាន់ទូលំទូលាយនៅកម្ពុជាក៏ដោយ វិធីសាស្ត្រសិក្សានេះអាចជាគំរូដ៏ល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធថែទាំសុខភាពឆ្លាតវៃ។

មន្ទីរពេទ្យថែទាំជំងឺទឹកនោមផ្អែម (Diabetes Care in Major Hospitals): មន្ទីរពេទ្យកាល់ម៉ែត ឬគន្ធបុប្ផាអាចអនុវត្តគំរូនៃការប្រមូលទិន្នន័យអ្នកជំងឺទឹកនោមផ្អែមជាប្រព័ន្ធ (Digital Health Records) ដើម្បីត្រៀមសម្រាប់ការវិភាគដោយប្រើប្រាស់ (AI) នាពេលអនាគត។
ការប្រើប្រាស់នាឡិកាឆ្លាតវៃក្នុងសហគមន៍ (Smartwatch for Community Health): ប្រជាជនកម្ពុជាមួយចំនួនធំកំពុងប្រើប្រាស់នាឡិកាឆ្លាតវៃ។ ការស្រាវជ្រាវនេះបង្ហាញពីអត្ថប្រយោជន៍នៃការរួមបញ្ចូលទិន្នន័យនាឡិកាឆ្លាតវៃ (អត្រាបេះដូង លំហាត់ប្រាណ) ទៅក្នុងការវាយតម្លៃសុខភាពជាក់ស្តែង។

សរុបមក ការអនុវត្តផ្ទាល់នៅកម្ពុជាអាចមានការលំបាកភ្លាមៗដោយសារកង្វះឧបករណ៍វេជ្ជសាស្ត្រទំនើប ប៉ុន្តែគំនិតនៃការវិភាគទិន្នន័យសុខភាពច្រើនប្រភព (Multi-modal) ដើម្បីផ្តល់ការណែនាំជាមុន (Proactive recommendations) គឺជាទិសដៅស្រាវជ្រាវដ៏មានសក្តានុពល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះ RL និង Transformers: និស្សិតគួរសិក្សាមូលដ្ឋានគ្រឹះស្តីពីការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning) និងស្ថាបត្យកម្ម (Decision Transformer) ដោយប្រើប្រាស់ធនធានពីវគ្គសិក្សា (Stanford CS224R) ព្រមទាំងអនុវត្តការសរសេរកូដនៅលើ PyTorch ឬ HuggingFace។
ការសម្អាតនិងចងក្រងទិន្នន័យស៊េរីពេលវេលា: អនុវត្តការរៀបចំទិន្នន័យប្រភេទស៊េរីពេលវេលា (Time-series data) ដោយប្រើ Pandas នៅក្នុង Python ដើម្បីចងក្រងទិន្នន័យសុខភាពពីប្រភពផ្សេងៗគ្នា (ឧ. នាឡិកាឆ្លាតវៃ, ឧបករណ៍វាស់ជាតិស្ករ) ឱ្យត្រូវគ្នាតាមពេលវេលា (Time-aligned at 5-minute intervals)។
សាកល្បងបង្វឹកម៉ូដែលនិងដោះស្រាយអតុល្យភាពទិន្នន័យ: សាកល្បងសរសេរកូដបង្កើតម៉ូដែលខ្នាតតូច ដោយអនុវត្តការថ្លឹងទម្ងន់មុខងារបាត់បង់មុខ (Weighted Cross-Entropy Loss) នៅក្នុង PyTorch ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Class Imbalance) និងការពារបញ្ហា (Behavioral Cloning)។
ការធ្វើសមាហរណកម្មជាមួយកម្មវិធីក្លែងធ្វើ (Simulator Integration): ស្វែងយល់និងអនុវត្តការប្រើប្រាស់កម្មវិធីក្លែងធ្វើសរីរវិទ្យាដូចជា UVA/Padova T1D Simulator ដើម្បីសាកល្បងម៉ូដែលក្នុងបរិស្ថានបិទជិត (Closed-loop evaluation) មុននឹងឈានទៅដល់ការអនុវត្តលើទិន្នន័យអ្នកជំងឺពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning	គឺជាសាខាមួយនៃការរៀនម៉ាស៊ីន (Machine Learning) ដែលម៉ូដែលរៀនពីរបៀបធ្វើសេចក្តីសម្រេចចិត្តដោយពឹងផ្អែកទាំងស្រុងលើទិន្នន័យប្រវត្តិសាស្ត្រចាស់ៗ (Historical data) ដោយមិនមានការសាកល្បងដោយផ្ទាល់ក្នុងមជ្ឈដ្ឋានពិត (No real-time trial-and-error) ដើម្បីធានាសុវត្ថិភាពដល់អ្នកជំងឺ។	ដូចជាការរៀនបើកបរដោយគ្រាន់តែមើលវីដេអូកាមេរ៉ាសុវត្ថិភាពរបស់អ្នកបើកបរផ្សេងទៀត ដោយមិនដែលបានកាន់ចង្កូតឡានដោយផ្ទាល់។
Decision Transformer	ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិត (AI Architecture) ដែលបំប្លែងបញ្ហានៃការរៀនពង្រឹង (RL) ទៅជាការទស្សន៍ទាយលំដាប់លំដោយនៃទិន្នន័យ (Sequence modeling) ប្រៀបដូចជាការព្យាករណ៍ពាក្យបន្ទាប់នៅក្នុងភាសាដែរ ប៉ុន្តែទីនេះវាទស្សន៍ទាយសកម្មភាពបន្ទាប់ (ឧ. ការចាក់ថ្នាំ) ដើម្បីសម្រេចគោលដៅ។	ដូចជាសិស្សម្នាក់ដែលអានប្រយោគមិនទាន់ចប់ ហើយអាចទាយដឹងថាពាក្យបន្ទាប់គួរជាអ្វីដើម្បីឱ្យប្រយោគនោះមានន័យពេញលេញ។
Behavioral Cloning	គឺជាបាតុភូតមួយដែលម៉ូដែលរៀនត្រឹមតែចម្លងសកម្មភាពពីទិន្នន័យមនុស្សទាំងស្រុង (ទាំងខុសទាំងត្រូវ) ដោយមិនចេះវិភាគរកកំហុស ឬបង្កើតយុទ្ធសាស្ត្រថ្មីដែលប្រសើរជាងទិន្នន័យដើមនោះទេ។	ដូចជាសិស្សដែលលួចចម្លងចម្លើយប្រឡងពីមិត្តភក្តិទាំងស្រុង សូម្បីតែកន្លែងខុសក៏ចម្លងតាមដែរ ដោយមិនបានគិតរកចម្លើយដែលត្រឹមត្រូវដោយខ្លួនឯង។
Return-to-go (RTG)	គឺជាផលបូកនៃរង្វាន់ (Rewards) សរុបនាពេលអនាគតដែលម៉ូដែលរំពឹងថានឹងទទួលបាន ចាប់ពីចំណុចពេលវេលាបច្ចុប្បន្នរហូតដល់ចប់វគ្គ។ វាជួយប្រាប់ម៉ូដែលថាតើការសម្រេចចិត្តបច្ចុប្បន្ននឹងផ្តល់ផលចំណេញរយៈពេលវែងកម្រិតណា។	ដូចជាការគិតគូរពីប្រាក់ចំណេញសរុបដែលអ្នកនឹងទទួលបានពីការវិនិយោគថ្ងៃនេះ រហូតដល់ថ្ងៃចូលនិវត្តន៍។
Open-loop evaluation	ជាវិធីសាស្ត្រវាយតម្លៃម៉ូដែលដោយប្រើទិន្នន័យប្រវត្តិថេរ ទីដែលការសម្រេចចិត្តរបស់ម៉ូដែលមិនមានឥទ្ធិពលផ្លាស់ប្តូរស្ថានភាពទិន្នន័យនៅជំហានបន្ទាប់ឡើយ ព្រោះទិន្នន័យនោះបានកើតឡើងនិងថតទុករួចទៅហើយ។	ដូចជាការស្រែកប្រាប់កីឡាករក្នុងទូរទស្សន៍ឱ្យទាត់បាល់ ទោះបីជាអ្នកប្រាប់ត្រូវឬខុស ក៏វាមិនអាចផ្លាស់ប្តូរលទ្ធផលនៃការប្រកួតដែលបានថតទុកនោះដែរ។
Closed-loop evaluation	ជាការសាកល្បងម៉ូដែលក្នុងបរិស្ថានដែលអាចមានអន្តរកម្ម (ដូចជាកម្មវិធីក្លែងធ្វើ - Simulator) ដែលរាល់សកម្មភាពរបស់ម៉ូដែលនឹងជះឥទ្ធិពលផ្ទាល់ទៅលើស្ថានភាពអ្នកជំងឺនៅជំហានបន្ទាប់ ធ្វើឱ្យយើងដឹងពីលទ្ធផលជាក់ស្តែងពិតប្រាកដ។	ដូចជាការលេងវីដេអូហ្គេមផ្ទាល់ ដែលរាល់ពេលអ្នកចុចបញ្ជា តួអង្គក្នុងហ្គេមនឹងរើបម្រះ ហើយសាច់រឿងនឹងប្រែប្រួលតាមសកម្មភាពរបស់អ្នក។
Insulin on Board (IOB)	គឺជាបរិមាណនៃអាំងស៊ុយលីនសកម្មដែលនៅសេសសល់ និងកំពុងធ្វើការក្នុងរាងកាយ បន្ទាប់ពីការចាក់លើកមុនៗ។ គណិតគូរពី IOB ជួយការពារកុំឱ្យមានការចាក់អាំងស៊ុយលីនផ្ទួនៗគ្នាដែលធ្វើឱ្យជាតិស្ករធ្លាក់ចុះខ្លាំងពេក។	ដូចជាការគិតគូរពីបរិមាណទឹកដែលនៅដក់ក្នុងដីបន្ទាប់ពីស្រោចរួច មុននឹងសម្រេចចិត្តថាតើគួរស្រោចទឹកបន្ថែមទៀតឬអត់ ដើម្បីកុំឱ្យរុក្ខជាតិរលួយឫស។
Time-in-Range	ជារង្វាស់ភាគរយនៃពេលវេលាដែលកម្រិតជាតិស្ករក្នុងឈាមរបស់អ្នកជំងឺស្ថិតនៅក្នុងចន្លោះគោលដៅដែលមានសុវត្ថិភាព (ឧ. ៧០-១៨០ mg/dL)។ ក្នុងការសិក្សានេះ ម៉ូដែលទទួលបានវាជារង្វាន់ (Reward) ពេលធ្វើបានល្អ។	ដូចជាការវាស់វែងថាតើអ្នកបើកបរអាចរក្សាល្បឿនរថយន្តរបស់ខ្លួនក្នុងចន្លោះ ៦០ ទៅ ៨០ គីឡូម៉ែត្រក្នុងមួយម៉ោង បានរយៈពេលប៉ុន្មានភាគរយនៃការធ្វើដំណើរទាំងមូលដោយមិនបើកលឿនពេក ឬយឺតពេក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖