Original Title: Offline RL with Decision Transformers for T1D Glucose Control
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនពង្រឹងក្រៅបណ្តាញ (Offline RL) ជាមួយនឹង Decision Transformers សម្រាប់ការគ្រប់គ្រងជាតិស្ករនៃជំងឺទឹកនោមផ្អែមប្រភេទទី១ (T1D)

ចំណងជើងដើម៖ Offline RL with Decision Transformers for T1D Glucose Control

អ្នកនិពន្ធ៖ Katherine Greatwood (Stanford University)

ឆ្នាំបោះពុម្ព៖ 2025 Stanford CS224R Final Report

វិស័យសិក្សា៖ Machine Learning / Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគ្រប់គ្រងជំងឺទឹកនោមផ្អែមប្រភេទទី១ (T1D) គឺជាបញ្ហាប្រឈមដ៏ស្មុគស្មាញដោយសារកត្តាប្រែប្រួលដូចជារបបអាហារ និងលំហាត់ប្រាណ ដែលវិធីសាស្ត្រកែតម្រូវអាំងស៊ុយលីនបែបប្រតិកម្មតប (Reactive adjustments) ជាទូទៅមិនមានប្រសិទ្ធភាពគ្រប់គ្រាន់នោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ គម្រោងនេះប្រើប្រាស់វិធីសាស្ត្ររៀនពង្រឹងក្រៅបណ្តាញ (Offline RL) តាមរយៈទម្រង់ Decision Transformer ដើម្បីរៀនពីគោលការណ៍ផ្តល់កម្រិតអាំងស៊ុយលីនផ្ទាល់ខ្លួន ដោយផ្អែកលើទិន្នន័យប្រវត្តិសេនស័រចម្រុះ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Decision Transformer (Small Batch, High Learning Rate)
ម៉ូដែល Decision Transformer (ទំហំបាច់តូច អត្រារៀនសូត្រខ្ពស់)
មានកំហុសបង្វឹក (Training loss) ទាប ហើយអាចចម្លងសកម្មភាពពីប្រវត្តិទិន្នន័យដើមបានយ៉ាងល្អឥតខ្ចោះ។ មិនអាចបង្កើតគោលការណ៍កែតម្រូវថ្មី ឬប្រសើរជាងមុនបានទេ ដោយគ្រាន់តែធ្វើត្រាប់តាមសកម្មភាពខុសឆ្គងពីអតីតកាលរបស់មនុស្ស (Behavioral cloning)។ ចម្លងទិន្នន័យដើម ១០០% ដោយមិនមានសកម្មភាពបុរេសកម្ម (Proactive actions) ក្នុងការកែតម្រូវជាតិស្ករឡើយ។
Decision Transformer (Large Batch, Low Learning Rate)
ម៉ូដែល Decision Transformer (ទំហំបាច់ធំ អត្រារៀនសូត្រទាប)
អាចរៀនបាននូវគោលការណ៍បុរេសកម្ម (Proactive policy) ដោយចេះណែនាំការចាក់អាំងស៊ុយលីនកែតម្រូវបានទាន់ពេលវេលាមុនពេលជាតិស្ករឡើងខ្ពស់។ ទាមទារការកែតម្រូវប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) យ៉ាងប្រុងប្រយ័ត្នដើម្បីសម្រេចបានលទ្ធផលនេះ។ ម៉ូដែលបានណែនាំការចាក់អាំងស៊ុយលីនកែតម្រូវនៅពេលជាតិស្ករកំពុងកើនឡើង ខណៈដែលទិន្នន័យប្រវត្តិដើមមិនមានសកម្មភាពនេះទេ។
Decision Transformer (Unweighted Loss)
ម៉ូដែល Decision Transformer (មិនមានការថ្លឹងទម្ងន់ទិន្នន័យ)
ងាយស្រួលក្នុងការអនុវត្តកូដដោយមិនបាច់គណនាទម្ងន់នៃទិន្នន័យនីមួយៗ។ ដោយសារទិន្នន័យភាគច្រើនគឺ 'មិនមានសកម្មភាព' ម៉ូដែលរៀនទស្សន៍ទាយតែលទ្ធផល 'មិនចាក់អាំងស៊ុយលីន' ជានិច្ច ដែលមិនមានប្រយោជន៍ក្នុងការកែតម្រូវជាតិស្ករ។ ម៉ូដែលបរាជ័យទាំងស្រុងដោយទស្សន៍ទាយតែសកម្មភាព 0 insulin (គ្មានអាំងស៊ុយលីន) គ្រប់ពេលទាំងអស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែដោយសារវាប្រើប្រាស់ស្ថាបត្យកម្មរៀនស៊ីជម្រៅ វាតម្រូវឱ្យមានកម្លាំងគណនា និងទិន្នន័យចម្រុះជាចាំបាច់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីមនុស្សតែម្នាក់គត់ (Single-subject dataset) ដែលជាទិន្នន័យរបស់អ្នកស្រាវជ្រាវផ្ទាល់។ នេះធ្វើឱ្យម៉ូដែលមានភាពផ្ទាល់ខ្លួនខ្ពស់ (Highly personalized) ប៉ុន្តែមិនអាចទាញជាទូទៅ (Not generalizable) សម្រាប់អ្នកជំងឺផ្សេងទៀតដែលមានអាយុ របបអាហារ ឬសកម្មភាពរាងកាយខុសគ្នាឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យប្រវត្តិវេជ្ជសាស្ត្រចម្រុះបែបនេះ គឺជាឧបសគ្គដ៏ធំក្នុងការកសាងម៉ូដែលឆ្លាតវៃ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាឧបករណ៍សេនស័រវាស់ជាតិស្ករបន្តបន្ទាប់ (CGM) និងស្នប់អាំងស៊ុយលីនស្វ័យប្រវត្តិមានតម្លៃថ្លៃ និងមិនទាន់ទូលំទូលាយនៅកម្ពុជាក៏ដោយ វិធីសាស្ត្រសិក្សានេះអាចជាគំរូដ៏ល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធថែទាំសុខភាពឆ្លាតវៃ។

សរុបមក ការអនុវត្តផ្ទាល់នៅកម្ពុជាអាចមានការលំបាកភ្លាមៗដោយសារកង្វះឧបករណ៍វេជ្ជសាស្ត្រទំនើប ប៉ុន្តែគំនិតនៃការវិភាគទិន្នន័យសុខភាពច្រើនប្រភព (Multi-modal) ដើម្បីផ្តល់ការណែនាំជាមុន (Proactive recommendations) គឺជាទិសដៅស្រាវជ្រាវដ៏មានសក្តានុពល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះ RL និង Transformers: និស្សិតគួរសិក្សាមូលដ្ឋានគ្រឹះស្តីពីការរៀនពង្រឹងក្រៅបណ្តាញ (Offline Reinforcement Learning) និងស្ថាបត្យកម្ម (Decision Transformer) ដោយប្រើប្រាស់ធនធានពីវគ្គសិក្សា (Stanford CS224R) ព្រមទាំងអនុវត្តការសរសេរកូដនៅលើ PyTorchHuggingFace
  2. ការសម្អាតនិងចងក្រងទិន្នន័យស៊េរីពេលវេលា: អនុវត្តការរៀបចំទិន្នន័យប្រភេទស៊េរីពេលវេលា (Time-series data) ដោយប្រើ Pandas នៅក្នុង Python ដើម្បីចងក្រងទិន្នន័យសុខភាពពីប្រភពផ្សេងៗគ្នា (ឧ. នាឡិកាឆ្លាតវៃ, ឧបករណ៍វាស់ជាតិស្ករ) ឱ្យត្រូវគ្នាតាមពេលវេលា (Time-aligned at 5-minute intervals)។
  3. សាកល្បងបង្វឹកម៉ូដែលនិងដោះស្រាយអតុល្យភាពទិន្នន័យ: សាកល្បងសរសេរកូដបង្កើតម៉ូដែលខ្នាតតូច ដោយអនុវត្តការថ្លឹងទម្ងន់មុខងារបាត់បង់មុខ (Weighted Cross-Entropy Loss) នៅក្នុង PyTorch ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Class Imbalance) និងការពារបញ្ហា (Behavioral Cloning)។
  4. ការធ្វើសមាហរណកម្មជាមួយកម្មវិធីក្លែងធ្វើ (Simulator Integration): ស្វែងយល់និងអនុវត្តការប្រើប្រាស់កម្មវិធីក្លែងធ្វើសរីរវិទ្យាដូចជា UVA/Padova T1D Simulator ដើម្បីសាកល្បងម៉ូដែលក្នុងបរិស្ថានបិទជិត (Closed-loop evaluation) មុននឹងឈានទៅដល់ការអនុវត្តលើទិន្នន័យអ្នកជំងឺពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Offline Reinforcement Learning គឺជាសាខាមួយនៃការរៀនម៉ាស៊ីន (Machine Learning) ដែលម៉ូដែលរៀនពីរបៀបធ្វើសេចក្តីសម្រេចចិត្តដោយពឹងផ្អែកទាំងស្រុងលើទិន្នន័យប្រវត្តិសាស្ត្រចាស់ៗ (Historical data) ដោយមិនមានការសាកល្បងដោយផ្ទាល់ក្នុងមជ្ឈដ្ឋានពិត (No real-time trial-and-error) ដើម្បីធានាសុវត្ថិភាពដល់អ្នកជំងឺ។ ដូចជាការរៀនបើកបរដោយគ្រាន់តែមើលវីដេអូកាមេរ៉ាសុវត្ថិភាពរបស់អ្នកបើកបរផ្សេងទៀត ដោយមិនដែលបានកាន់ចង្កូតឡានដោយផ្ទាល់។
Decision Transformer ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិត (AI Architecture) ដែលបំប្លែងបញ្ហានៃការរៀនពង្រឹង (RL) ទៅជាការទស្សន៍ទាយលំដាប់លំដោយនៃទិន្នន័យ (Sequence modeling) ប្រៀបដូចជាការព្យាករណ៍ពាក្យបន្ទាប់នៅក្នុងភាសាដែរ ប៉ុន្តែទីនេះវាទស្សន៍ទាយសកម្មភាពបន្ទាប់ (ឧ. ការចាក់ថ្នាំ) ដើម្បីសម្រេចគោលដៅ។ ដូចជាសិស្សម្នាក់ដែលអានប្រយោគមិនទាន់ចប់ ហើយអាចទាយដឹងថាពាក្យបន្ទាប់គួរជាអ្វីដើម្បីឱ្យប្រយោគនោះមានន័យពេញលេញ។
Behavioral Cloning គឺជាបាតុភូតមួយដែលម៉ូដែលរៀនត្រឹមតែចម្លងសកម្មភាពពីទិន្នន័យមនុស្សទាំងស្រុង (ទាំងខុសទាំងត្រូវ) ដោយមិនចេះវិភាគរកកំហុស ឬបង្កើតយុទ្ធសាស្ត្រថ្មីដែលប្រសើរជាងទិន្នន័យដើមនោះទេ។ ដូចជាសិស្សដែលលួចចម្លងចម្លើយប្រឡងពីមិត្តភក្តិទាំងស្រុង សូម្បីតែកន្លែងខុសក៏ចម្លងតាមដែរ ដោយមិនបានគិតរកចម្លើយដែលត្រឹមត្រូវដោយខ្លួនឯង។
Return-to-go (RTG) គឺជាផលបូកនៃរង្វាន់ (Rewards) សរុបនាពេលអនាគតដែលម៉ូដែលរំពឹងថានឹងទទួលបាន ចាប់ពីចំណុចពេលវេលាបច្ចុប្បន្នរហូតដល់ចប់វគ្គ។ វាជួយប្រាប់ម៉ូដែលថាតើការសម្រេចចិត្តបច្ចុប្បន្ននឹងផ្តល់ផលចំណេញរយៈពេលវែងកម្រិតណា។ ដូចជាការគិតគូរពីប្រាក់ចំណេញសរុបដែលអ្នកនឹងទទួលបានពីការវិនិយោគថ្ងៃនេះ រហូតដល់ថ្ងៃចូលនិវត្តន៍។
Open-loop evaluation ជាវិធីសាស្ត្រវាយតម្លៃម៉ូដែលដោយប្រើទិន្នន័យប្រវត្តិថេរ ទីដែលការសម្រេចចិត្តរបស់ម៉ូដែលមិនមានឥទ្ធិពលផ្លាស់ប្តូរស្ថានភាពទិន្នន័យនៅជំហានបន្ទាប់ឡើយ ព្រោះទិន្នន័យនោះបានកើតឡើងនិងថតទុករួចទៅហើយ។ ដូចជាការស្រែកប្រាប់កីឡាករក្នុងទូរទស្សន៍ឱ្យទាត់បាល់ ទោះបីជាអ្នកប្រាប់ត្រូវឬខុស ក៏វាមិនអាចផ្លាស់ប្តូរលទ្ធផលនៃការប្រកួតដែលបានថតទុកនោះដែរ។
Closed-loop evaluation ជាការសាកល្បងម៉ូដែលក្នុងបរិស្ថានដែលអាចមានអន្តរកម្ម (ដូចជាកម្មវិធីក្លែងធ្វើ - Simulator) ដែលរាល់សកម្មភាពរបស់ម៉ូដែលនឹងជះឥទ្ធិពលផ្ទាល់ទៅលើស្ថានភាពអ្នកជំងឺនៅជំហានបន្ទាប់ ធ្វើឱ្យយើងដឹងពីលទ្ធផលជាក់ស្តែងពិតប្រាកដ។ ដូចជាការលេងវីដេអូហ្គេមផ្ទាល់ ដែលរាល់ពេលអ្នកចុចបញ្ជា តួអង្គក្នុងហ្គេមនឹងរើបម្រះ ហើយសាច់រឿងនឹងប្រែប្រួលតាមសកម្មភាពរបស់អ្នក។
Insulin on Board (IOB) គឺជាបរិមាណនៃអាំងស៊ុយលីនសកម្មដែលនៅសេសសល់ និងកំពុងធ្វើការក្នុងរាងកាយ បន្ទាប់ពីការចាក់លើកមុនៗ។ គណិតគូរពី IOB ជួយការពារកុំឱ្យមានការចាក់អាំងស៊ុយលីនផ្ទួនៗគ្នាដែលធ្វើឱ្យជាតិស្ករធ្លាក់ចុះខ្លាំងពេក។ ដូចជាការគិតគូរពីបរិមាណទឹកដែលនៅដក់ក្នុងដីបន្ទាប់ពីស្រោចរួច មុននឹងសម្រេចចិត្តថាតើគួរស្រោចទឹកបន្ថែមទៀតឬអត់ ដើម្បីកុំឱ្យរុក្ខជាតិរលួយឫស។
Time-in-Range ជារង្វាស់ភាគរយនៃពេលវេលាដែលកម្រិតជាតិស្ករក្នុងឈាមរបស់អ្នកជំងឺស្ថិតនៅក្នុងចន្លោះគោលដៅដែលមានសុវត្ថិភាព (ឧ. ៧០-១៨០ mg/dL)។ ក្នុងការសិក្សានេះ ម៉ូដែលទទួលបានវាជារង្វាន់ (Reward) ពេលធ្វើបានល្អ។ ដូចជាការវាស់វែងថាតើអ្នកបើកបរអាចរក្សាល្បឿនរថយន្តរបស់ខ្លួនក្នុងចន្លោះ ៦០ ទៅ ៨០ គីឡូម៉ែត្រក្នុងមួយម៉ោង បានរយៈពេលប៉ុន្មានភាគរយនៃការធ្វើដំណើរទាំងមូលដោយមិនបើកលឿនពេក ឬយឺតពេក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖