Original Title: Generalized survival models applied to interval censored data
Source: www.math.su.se
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែលរស់រានទូទៅដែលអនុវត្តចំពោះទិន្នន័យដែលត្រូវបានកាត់ផ្តាច់តាមចន្លោះពេល

ចំណងជើងដើម៖ Generalized survival models applied to interval censored data

អ្នកនិពន្ធ៖ Albin Niva Printz (Stockholm University)

ឆ្នាំបោះពុម្ព៖ 2018 Stockholm University

វិស័យសិក្សា៖ Mathematical Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះវាយតម្លៃពីដំណើរការនៃម៉ូដែលរស់រានទូទៅ (Generalized Survival Model - GSM) នៅពេលអនុវត្តលើទិន្នន័យដែលត្រូវបានកាត់ផ្តាច់តាមចន្លោះពេល (Interval-Censored Data) ដោយប្រៀបធៀបវាទៅនឹងម៉ូដែលស្តង់ដារ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យក្លែងធ្វើ (Simulated Data) និងទិន្នន័យជាក់ស្តែង ដើម្បីសាកល្បងនិងប្រៀបធៀបដំណើរការរបស់ម៉ូដែលទាំងពីរ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Generalized Survival Model (GSM) via rstpm2
ម៉ូដែលរស់រានទូទៅ (GSM) ដោយប្រើកញ្ចប់កម្មវិធី rstpm2
អាចចាប់យកលក្ខណៈស្មុគស្មាញនៃរបាយទិន្នន័យបានល្អ និងមានភាពបត់បែនខ្ពស់ដោយប្រើមុខងារ Spline (Natural splines of log time)។ មិនដំណើរការល្អទេនៅពេលការកាត់ផ្តាច់ទិន្នន័យ (Censoring) មានទំហំធំ ឬរដុបពេក ហើយការជ្រើសរើសចំនួនចំណុច (Knots) តាមរយៈ AIC ទាមទារពេលវេលាគណនាច្រើន។ ទទួលបានតម្លៃ AIC ទាបជាង និងមានគម្លាតតូចជាងរវាងខ្សែកោងកម្រិតហានិភ័យ (Hazard Curve) ពិតប្រាកដនិងតម្លៃប៉ាន់ស្មាន នៅក្នុងទិន្នន័យស្មុគស្មាញ។
Accelerated Failure Time (AFT) / Proportional Hazards via survreg
ម៉ូដែល Accelerated Failure Time (AFT) / Proportional Hazards ដោយប្រើកញ្ចប់កម្មវិធី survreg
ងាយស្រួលប្រើប្រាស់ លឿនក្នុងការគណនា និងផ្តល់លទ្ធផលល្អឥតខ្ចោះសម្រាប់ទិន្នន័យដែលមានរបាយស្តង់ដារដូចជាធម្មតា (ឧទាហរណ៍ Weibull)។ មិនអាចចាប់យកលក្ខណៈលម្អិតនៃរបាយទិន្នន័យស្មុគស្មាញ (Complex distributions) បានទេ ដោយសារវាជាម៉ូដែលប៉ារ៉ាម៉ែត្រតឹងរ៉ឹងមិនអាចបត់បែនបាន។ ផ្តល់លទ្ធផលដូចគ្នាបេះបិទទៅនឹង GSM សម្រាប់ទិន្នន័យ Weibull ធម្មតា ប៉ុន្តែមិនអាចចាប់យកកំពូលនៃខ្សែកោងហានិភ័យ ក្នុងទិន្នន័យចម្រុះ (Mixed Weibull) បានទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះផ្ដោតលើការវិភាគទិន្នន័យស្ថិតិ ដែលទាមទារចំណេះដឹងផ្នែកសរសេរកូដស្ថិតិ ប៉ុន្តែមិនត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង (ដូចជា GPU) នោះទេ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យក្លែងធ្វើតាមកុំព្យូទ័រ (Simulated Data) និងទិន្នន័យជាក់ស្តែងផ្នែកទន្តសាស្ត្រ (Signal-Tandmobiel) របស់កុមារនៅតំបន់ Flanders ប្រទេសប៊ែលហ្សិក។ ទិន្នន័យនេះមិនឆ្លុះបញ្ចាំងពីបរិបទប្រជាសាស្ត្រ ឬបញ្ហាសុខភាពនៅក្នុងប្រទេសកម្ពុជានោះទេ។ ទោះជាយ៉ាងណាក៏ដោយ ដោយសារវាជាការស្រាវជ្រាវផ្នែកវិធីសាស្ត្រស្ថិតិ (Methodological Statistics) ម៉ូដែលទាំងនេះនៅតែអាចយកមកអនុវត្តលើទិន្នន័យស្រាវជ្រាវក្នុងស្រុកបានដោយគ្មានបញ្ហា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Generalized Survival Models (GSM) នេះមានអត្ថប្រយោជន៍ខ្លាំងសម្រាប់ការស្រាវជ្រាវនៅកម្ពុជា ជាពិសេសលើទិន្នន័យតាមដានរយៈពេលវែង (Longitudinal Studies)។

ជារួម ម៉ូដែល GSM ផ្តល់នូវភាពបត់បែនខ្ពស់ក្នុងការវិភាគទិន្នន័យនៅកម្ពុជា ប៉ុន្តែទាមទារឱ្យអ្នកស្រាវជ្រាវរៀបចំកាលវិភាគប្រមូលទិន្នន័យឱ្យបានញឹកញាប់ល្មម (High Resolution) ទើបម៉ូដែលនេះផ្តល់លទ្ធផលត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Survival Analysis: និស្សិតគួរចាប់ផ្តើមស្វែងយល់ពីទ្រឹស្តីនៃ Survival Analysis ជាពិសេសទិន្នន័យប្រភេទ Interval-Censored Data និងការប្រើប្រាស់ម៉ូដែល Proportional Hazards (PH) និង Accelerated Failure Time (AFT)
  2. អនុវត្តការប្រើប្រាស់កម្មវិធី R: តម្លើង និងអនុវត្តការសរសេរកូដក្នុងកម្មវិធី RStudio ដោយផ្តោតលើការប្រើប្រាស់កញ្ចប់កម្មវិធី survival (survreg) ដើម្បីវិភាគទិន្នន័យដែលមា​នរបាយស្តង់ដារ។
  3. ប្រើប្រាស់កញ្ចប់កម្មវិធី rstpm2: ទាញយកនិងសាកល្បងប្រើប្រាស់កញ្ចប់កម្មវិធី rstpm2 សម្រាប់ទិន្នន័យ Interval-Censored ដោយរៀនពីរបៀបប្រើប្រាស់មុខងារ stpm2() និងការកំណត់ចំនួនចំណុច Knots ដោយប្រើលក្ខណៈវិនិច្ឆ័យ AIC។
  4. ការក្លែងធ្វើទិន្នន័យ (Data Simulation): រៀនបង្កើតទិន្នន័យក្លែងធ្វើ (Simulation) ដូចជាទិន្នន័យ Weibull តាមការណែនាំក្នុងឯកសារ ដោយប្រើមុខងារ uniroot ក្នុង R ដើម្បីធ្វើការប្រៀបធៀបប្រសិទ្ធភាពរវាងម៉ូដែលផ្សេងៗ។
  5. អនុវត្តលើទិន្នន័យជាក់ស្តែង: ស្វែងរកទិន្នន័យសុខភាពសាធារណៈរបស់កម្ពុជា (ឧទាហរណ៍ ទិន្នន័យពី CDHS) ដែលមានលក្ខណៈ Interval-Censored រួចសាកល្បងប្រើម៉ូដែល GSM ដើម្បីទាញយកលទ្ធផលស្រាវជ្រាវជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Interval censored data ទិន្នន័យដែលយើងមិនដឹងពីពេលវេលាពិតប្រាកដដែលព្រឹត្តិការណ៍មួយបានកើតឡើង ប៉ុន្តែយើងដឹងថាវាបានកើតឡើងនៅចន្លោះពេលនៃការត្រួតពិនិត្យពីរដង (ឧទាហរណ៍ វាកើតឡើងចន្លោះពេលពិនិត្យលើកទី១ និងទី២)។ ដូចជាការដែលអ្នកឃើញដើមឈើមួយដើមចេញផ្លែនៅពេលអ្នកត្រលប់មកពីវិស្សមកាល ដែលអ្នកដឹងថាវាបានផ្លែនៅចន្លោះពេលអ្នកមិននៅ តែមិនដឹងច្បាស់ថាជាថ្ងៃណា។
Generalized survival model ម៉ូដែលស្ថិតិទូលំទូលាយដែលអនុញ្ញាតឱ្យមានភាពបត់បែនខ្ពស់ក្នុងការវិភាគទិន្នន័យរស់រាន (Survival data) ដោយប្រើមុខងារតភ្ជាប់ (Link functions) និងខ្សែកោង (Splines) ដើម្បីចាប់យកទម្រង់របាយទិន្នន័យដែលស្មុគស្មាញ។ ដូចជាសម្លៀកបំពាក់ដែលអាចយឺតតាមរាងកាយអ្នកពាក់ជាក់ស្តែង ជាជាងអាវដែលមានទំហំស្តង់ដារតឹងរ៉ឹងមិនអាចបត់បែនបាន។
Proportional hazards model ម៉ូដែលស្ថិតិដែលសន្មតថាកត្តាអថេរ (Covariates) នីមួយៗមានឥទ្ធិពលថេរទៅលើកម្រិតហានិភ័យ (Hazard rate) នៅគ្រប់ពេលវេលាទាំងអស់ មានន័យថាអនុបាតហានិភ័យរវាងក្រុមពីរគឺថេរជានិច្ច។ ដូចជាការសន្មតថា អ្នកជក់បារីតែងតែមានហានិភ័យកើតជំងឺសួតខ្ពស់ជាងអ្នកមិនជក់បារី ២ដង ជារៀងរហូត មិនថានៅអាយុប៉ុន្មានក៏ដោយ។
Accelerated failure time model ម៉ូដែលដែលសន្មតថាកត្តាអថេរធ្វើឱ្យពេលវេលានៃការកើតមានព្រឹត្តិការណ៍ដើរលឿនជាងមុន ឬយឺតជាងមុន (ពន្លឿន ឬបន្ថយពេលវេលា) ជំនួសឱ្យការជះឥទ្ធិពលលើកម្រិតហានិភ័យផ្ទាល់។ ដូចជាការបើកវីដេអូក្នុងល្បឿន 2x ឬ 0.5x ដែលធ្វើឱ្យសាច់រឿងចប់លឿន ឬយឺតជាងធម្មតា ដោយផ្អែកលើកត្តាណាមួយ។
Hazard function អនុគមន៍ដែលវាស់ស្ទង់ពីអត្រានៃហានិភ័យភ្លាមៗ (Instantaneous rate) នៃការកើតមានព្រឹត្តិការណ៍ណាមួយនៅពេលវេលាជាក់លាក់មួយ ដោយផ្អែកលើលក្ខខណ្ឌដែលវាមិនទាន់កើតឡើងរហូតមកដល់ពេលនោះ។ ដូចជាការវាស់ស្ទង់ពីឱកាសដែលអំពូលភ្លើងនឹងខូចនៅវិនាទីបន្ទាប់ ដោយដឹងថាវាបានភ្លឺរហូតមកដល់ពេលនេះ។
Natural splines វិធីសាស្ត្រគណិតវិទ្យាក្នុងការគូសខ្សែកោងដោយផ្គុំបំណែកសមីការតូចៗ (Polynomials) បញ្ចូលគ្នាត្រង់ចំណុចប្រសព្វ (Knots) ដើម្បីឱ្យវាបត់បែនតាមទិន្នន័យ និងមានលក្ខណៈរលោងល្អ។ ដូចជាការយកខ្សែយឺតមកចងភ្ជាប់នឹងដែកគោលជាច្រើនចំណុច ដើម្បីបង្កើតបានជាខ្សែកោងមួយដែលរលោងនិងកាត់តាមចំណុចទាំងអស់នោះ។
Kaplan-Meier estimator វិធីសាស្ត្រមិនប្រើប៉ារ៉ាម៉ែត្រ (Non-parametric) សម្រាប់ប៉ាន់ស្មាននិងគូសខ្សែកោងអត្រារស់រាន (Survival curve) ផ្អែកលើទិន្នន័យពិតប្រាកដដែលសង្កេតឃើញ រួមទាំងទិន្នន័យដែលកាត់ផ្តាច់ (Censored) ផងដែរ។ ដូចជាការចុះបញ្ជីចំនួនអ្នកដំណើរដែលនៅសេសសល់លើរថយន្តក្រុង រាល់ពេលដែលរថយន្តឈប់នៅចំណតនីមួយៗ ទោះបីជាមានអ្នកខ្លះចុះបាត់ក៏ដោយ។
Akaike information criterion រង្វាស់មួយសម្រាប់វាយតម្លៃគុណភាពនៃម៉ូដែលស្ថិតិ ដោយថ្លឹងថ្លែងរវាងភាពស័ក្តិសមរបស់ម៉ូដែលទៅនឹងទិន្នន័យ (Goodness of fit) និងភាពស្មុគស្មាញនៃម៉ូដែល ដើម្បីចៀសវាងការដាក់ប៉ារ៉ាម៉ែត្រច្រើនពេក (Overfitting)។ តម្លៃកាន់តែទាបគឺកាន់តែល្អ។ ដូចជាការជ្រើសរើសទិញឡានដែលស៊ីសាំងតិចបំផុត តែនៅតែអាចដឹកឥវ៉ាន់របស់អ្នកបានគ្រប់គ្រាន់ (រក្សាតុល្យភាពរវាងការសន្សំសំចៃនិងអត្ថប្រយោជន៍)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖