Original Title: Generalized survival models applied to interval censored data
Source: www.math.su.se
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែលរស់រានទូទៅដែលអនុវត្តចំពោះទិន្នន័យដែលត្រូវបានកាត់ផ្តាច់តាមចន្លោះពេល

ចំណងជើងដើម៖ Generalized survival models applied to interval censored data

អ្នកនិពន្ធ៖ Albin Niva Printz (Stockholm University)

ឆ្នាំបោះពុម្ព៖ 2018 Stockholm University

វិស័យសិក្សា៖ Mathematical Statistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះវាយតម្លៃពីដំណើរការនៃម៉ូដែលរស់រានទូទៅ (Generalized Survival Model - GSM) នៅពេលអនុវត្តលើទិន្នន័យដែលត្រូវបានកាត់ផ្តាច់តាមចន្លោះពេល (Interval-Censored Data) ដោយប្រៀបធៀបវាទៅនឹងម៉ូដែលស្តង់ដារ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យក្លែងធ្វើ (Simulated Data) និងទិន្នន័យជាក់ស្តែង ដើម្បីសាកល្បងនិងប្រៀបធៀបដំណើរការរបស់ម៉ូដែលទាំងពីរ។

ការក្លែងធ្វើទិន្នន័យតាមរបាយ Weibull និង Mixture Weibull (Weibull and Mixture Weibull Data Simulation)
ការប្រើប្រាស់កញ្ចប់កម្មវិធី R ឈ្មោះ rstpm2 សម្រាប់ម៉ូដែល GSM និង survreg សម្រាប់ម៉ូដែលស្តង់ដារ (R Packages Application)
ការអនុវត្តនិងវិភាគលើទិន្នន័យផ្នែកទន្តសាស្ត្រជាក់ស្តែង (Signal Tandmobiel Dataset Analysis)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សម្រាប់ទិន្នន័យ Weibull ស្តង់ដារ ម៉ូដែល GSM ផ្តល់នូវលទ្ធផលនិងប៉ារ៉ាម៉ែត្រប៉ាន់ស្មានដូចគ្នាបេះបិទទៅនឹងម៉ូដែល Proportional Hazards (PH) ធម្មតា។
ក្នុងករណីរបាយទិន្នន័យមានភាពស្មុគស្មាញ (Mixture Weibull និងទិន្នន័យជាក់ស្តែង) ម៉ូដែល GSM ដំណើរការបានល្អជាងម៉ូដែល PH ក្នុងការចាប់យកលក្ខណៈលម្អិតនៃទិន្នន័យ។
ទោះជាយ៉ាងណាក៏ដោយ ម៉ូដែល GSM នឹងមិនអាចដំណើរការបានល្អ និងមិនអាចវិភាគទិន្នន័យបានត្រឹមត្រូវទេ ប្រសិនបើការកាត់ផ្តាច់ទិន្នន័យ (Censoring Resolution) មានគម្លាតឆ្ងាយ ឬរដុបពេក។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Generalized Survival Model (GSM) via rstpm2 ម៉ូដែលរស់រានទូទៅ (GSM) ដោយប្រើកញ្ចប់កម្មវិធី rstpm2	អាចចាប់យកលក្ខណៈស្មុគស្មាញនៃរបាយទិន្នន័យបានល្អ និងមានភាពបត់បែនខ្ពស់ដោយប្រើមុខងារ Spline (Natural splines of log time)។	មិនដំណើរការល្អទេនៅពេលការកាត់ផ្តាច់ទិន្នន័យ (Censoring) មានទំហំធំ ឬរដុបពេក ហើយការជ្រើសរើសចំនួនចំណុច (Knots) តាមរយៈ AIC ទាមទារពេលវេលាគណនាច្រើន។	ទទួលបានតម្លៃ AIC ទាបជាង និងមានគម្លាតតូចជាងរវាងខ្សែកោងកម្រិតហានិភ័យ (Hazard Curve) ពិតប្រាកដនិងតម្លៃប៉ាន់ស្មាន នៅក្នុងទិន្នន័យស្មុគស្មាញ។
Accelerated Failure Time (AFT) / Proportional Hazards via survreg ម៉ូដែល Accelerated Failure Time (AFT) / Proportional Hazards ដោយប្រើកញ្ចប់កម្មវិធី survreg	ងាយស្រួលប្រើប្រាស់ លឿនក្នុងការគណនា និងផ្តល់លទ្ធផលល្អឥតខ្ចោះសម្រាប់ទិន្នន័យដែលមានរបាយស្តង់ដារដូចជាធម្មតា (ឧទាហរណ៍ Weibull)។	មិនអាចចាប់យកលក្ខណៈលម្អិតនៃរបាយទិន្នន័យស្មុគស្មាញ (Complex distributions) បានទេ ដោយសារវាជាម៉ូដែលប៉ារ៉ាម៉ែត្រតឹងរ៉ឹងមិនអាចបត់បែនបាន។	ផ្តល់លទ្ធផលដូចគ្នាបេះបិទទៅនឹង GSM សម្រាប់ទិន្នន័យ Weibull ធម្មតា ប៉ុន្តែមិនអាចចាប់យកកំពូលនៃខ្សែកោងហានិភ័យ ក្នុងទិន្នន័យចម្រុះ (Mixed Weibull) បានទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះផ្ដោតលើការវិភាគទិន្នន័យស្ថិតិ ដែលទាមទារចំណេះដឹងផ្នែកសរសេរកូដស្ថិតិ ប៉ុន្តែមិនត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង (ដូចជា GPU) នោះទេ។

Software: ទាមទារកម្មវិធី R និងកញ្ចប់កម្មវិធីជាក់លាក់ដូចជា rstpm2 (សម្រាប់ GSM) ព្រមទាំង survival (សម្រាប់ AFT និង Kaplan-Meier)។
Hardware: កុំព្យូទ័រធម្មតា (Standard CPU) គឺគ្រប់គ្រាន់សម្រាប់ការដំណើរការទិន្នន័យកម្រិតមធ្យម និងការធ្វើ Simulation ដែលមានទំហំគំរូ ៥០០ និងធ្វើឡើងវិញ ១០០០០ ដង។
Dataset Requirements: ទិន្នន័យត្រូវមានលក្ខណៈ Interval-Censored ជាមួយនឹងកម្រិតនៃការកាត់ផ្តាច់ (Resolution) តូចល្មមគ្រប់គ្រាន់ ដើម្បីឱ្យម៉ូដែល GSM អាចចាប់យកលក្ខណៈស្មុគស្មាញបាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យក្លែងធ្វើតាមកុំព្យូទ័រ (Simulated Data) និងទិន្នន័យជាក់ស្តែងផ្នែកទន្តសាស្ត្រ (Signal-Tandmobiel) របស់កុមារនៅតំបន់ Flanders ប្រទេសប៊ែលហ្សិក។ ទិន្នន័យនេះមិនឆ្លុះបញ្ចាំងពីបរិបទប្រជាសាស្ត្រ ឬបញ្ហាសុខភាពនៅក្នុងប្រទេសកម្ពុជានោះទេ។ ទោះជាយ៉ាងណាក៏ដោយ ដោយសារវាជាការស្រាវជ្រាវផ្នែកវិធីសាស្ត្រស្ថិតិ (Methodological Statistics) ម៉ូដែលទាំងនេះនៅតែអាចយកមកអនុវត្តលើទិន្នន័យស្រាវជ្រាវក្នុងស្រុកបានដោយគ្មានបញ្ហា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Generalized Survival Models (GSM) នេះមានអត្ថប្រយោជន៍ខ្លាំងសម្រាប់ការស្រាវជ្រាវនៅកម្ពុជា ជាពិសេសលើទិន្នន័យតាមដានរយៈពេលវែង (Longitudinal Studies)។

វិស័យសុខភាពសាធារណៈ (NIPH & Epidemiology): អាចប្រើប្រាស់ដោយវិទ្យាស្ថានជាតិសុខភាពសាធារណៈ (NIPH) ដើម្បីសិក្សាពីពេលវេលានៃការកើតជំងឺរ៉ាំរ៉ៃ ឬការឆ្លងជំងឺផ្សេងៗ ដែលអ្នកជំងឺមកពិនិត្យតែតាមចន្លោះពេលជាក់លាក់ណាមួយប៉ុណ្ណោះ (Interval-Censored)។
ការស្រាវជ្រាវវេជ្ជសាស្ត្រ និងទន្តសាស្ត្រ (UHS): សាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល (UHS) អាចអនុវត្តម៉ូដែលនេះលើការសិក្សាពីសុខភាពមាត់ធ្មេញកុមារកម្ពុជា ឬការព្យាបាលជំងឺផ្សេងៗដែលតម្រូវឱ្យមានការតាមដានរៀងរាល់ខែ ឬឆ្នាំ។
វិស័យកសិកម្ម និងបរិស្ថាន: ក្រសួងកសិកម្មអាចប្រើដើម្បីវិភាគពីអត្រារស់រាននៃពូជដំណាំ ឬសត្វ ដោយផ្អែកលើទិន្នន័យត្រួតពិនិត្យតាមរដូវកាល ជំនួសឱ្យការតាមដានរៀងរាល់ថ្ងៃ។

ជារួម ម៉ូដែល GSM ផ្តល់នូវភាពបត់បែនខ្ពស់ក្នុងការវិភាគទិន្នន័យនៅកម្ពុជា ប៉ុន្តែទាមទារឱ្យអ្នកស្រាវជ្រាវរៀបចំកាលវិភាគប្រមូលទិន្នន័យឱ្យបានញឹកញាប់ល្មម (High Resolution) ទើបម៉ូដែលនេះផ្តល់លទ្ធផលត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Survival Analysis: និស្សិតគួរចាប់ផ្តើមស្វែងយល់ពីទ្រឹស្តីនៃ Survival Analysis ជាពិសេសទិន្នន័យប្រភេទ Interval-Censored Data និងការប្រើប្រាស់ម៉ូដែល Proportional Hazards (PH) និង Accelerated Failure Time (AFT)។
អនុវត្តការប្រើប្រាស់កម្មវិធី R: តម្លើង និងអនុវត្តការសរសេរកូដក្នុងកម្មវិធី RStudio ដោយផ្តោតលើការប្រើប្រាស់កញ្ចប់កម្មវិធី survival (survreg) ដើម្បីវិភាគទិន្នន័យដែលមានរបាយស្តង់ដារ។
ប្រើប្រាស់កញ្ចប់កម្មវិធី rstpm2: ទាញយកនិងសាកល្បងប្រើប្រាស់កញ្ចប់កម្មវិធី rstpm2 សម្រាប់ទិន្នន័យ Interval-Censored ដោយរៀនពីរបៀបប្រើប្រាស់មុខងារ stpm2() និងការកំណត់ចំនួនចំណុច Knots ដោយប្រើលក្ខណៈវិនិច្ឆ័យ AIC។
ការក្លែងធ្វើទិន្នន័យ (Data Simulation): រៀនបង្កើតទិន្នន័យក្លែងធ្វើ (Simulation) ដូចជាទិន្នន័យ Weibull តាមការណែនាំក្នុងឯកសារ ដោយប្រើមុខងារ uniroot ក្នុង R ដើម្បីធ្វើការប្រៀបធៀបប្រសិទ្ធភាពរវាងម៉ូដែលផ្សេងៗ។
អនុវត្តលើទិន្នន័យជាក់ស្តែង: ស្វែងរកទិន្នន័យសុខភាពសាធារណៈរបស់កម្ពុជា (ឧទាហរណ៍ ទិន្នន័យពី CDHS) ដែលមានលក្ខណៈ Interval-Censored រួចសាកល្បងប្រើម៉ូដែល GSM ដើម្បីទាញយកលទ្ធផលស្រាវជ្រាវជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Interval censored data	ទិន្នន័យដែលយើងមិនដឹងពីពេលវេលាពិតប្រាកដដែលព្រឹត្តិការណ៍មួយបានកើតឡើង ប៉ុន្តែយើងដឹងថាវាបានកើតឡើងនៅចន្លោះពេលនៃការត្រួតពិនិត្យពីរដង (ឧទាហរណ៍ វាកើតឡើងចន្លោះពេលពិនិត្យលើកទី១ និងទី២)។	ដូចជាការដែលអ្នកឃើញដើមឈើមួយដើមចេញផ្លែនៅពេលអ្នកត្រលប់មកពីវិស្សមកាល ដែលអ្នកដឹងថាវាបានផ្លែនៅចន្លោះពេលអ្នកមិននៅ តែមិនដឹងច្បាស់ថាជាថ្ងៃណា។
Generalized survival model	ម៉ូដែលស្ថិតិទូលំទូលាយដែលអនុញ្ញាតឱ្យមានភាពបត់បែនខ្ពស់ក្នុងការវិភាគទិន្នន័យរស់រាន (Survival data) ដោយប្រើមុខងារតភ្ជាប់ (Link functions) និងខ្សែកោង (Splines) ដើម្បីចាប់យកទម្រង់របាយទិន្នន័យដែលស្មុគស្មាញ។	ដូចជាសម្លៀកបំពាក់ដែលអាចយឺតតាមរាងកាយអ្នកពាក់ជាក់ស្តែង ជាជាងអាវដែលមានទំហំស្តង់ដារតឹងរ៉ឹងមិនអាចបត់បែនបាន។
Proportional hazards model	ម៉ូដែលស្ថិតិដែលសន្មតថាកត្តាអថេរ (Covariates) នីមួយៗមានឥទ្ធិពលថេរទៅលើកម្រិតហានិភ័យ (Hazard rate) នៅគ្រប់ពេលវេលាទាំងអស់ មានន័យថាអនុបាតហានិភ័យរវាងក្រុមពីរគឺថេរជានិច្ច។	ដូចជាការសន្មតថា អ្នកជក់បារីតែងតែមានហានិភ័យកើតជំងឺសួតខ្ពស់ជាងអ្នកមិនជក់បារី ២ដង ជារៀងរហូត មិនថានៅអាយុប៉ុន្មានក៏ដោយ។
Accelerated failure time model	ម៉ូដែលដែលសន្មតថាកត្តាអថេរធ្វើឱ្យពេលវេលានៃការកើតមានព្រឹត្តិការណ៍ដើរលឿនជាងមុន ឬយឺតជាងមុន (ពន្លឿន ឬបន្ថយពេលវេលា) ជំនួសឱ្យការជះឥទ្ធិពលលើកម្រិតហានិភ័យផ្ទាល់។	ដូចជាការបើកវីដេអូក្នុងល្បឿន 2x ឬ 0.5x ដែលធ្វើឱ្យសាច់រឿងចប់លឿន ឬយឺតជាងធម្មតា ដោយផ្អែកលើកត្តាណាមួយ។
Hazard function	អនុគមន៍ដែលវាស់ស្ទង់ពីអត្រានៃហានិភ័យភ្លាមៗ (Instantaneous rate) នៃការកើតមានព្រឹត្តិការណ៍ណាមួយនៅពេលវេលាជាក់លាក់មួយ ដោយផ្អែកលើលក្ខខណ្ឌដែលវាមិនទាន់កើតឡើងរហូតមកដល់ពេលនោះ។	ដូចជាការវាស់ស្ទង់ពីឱកាសដែលអំពូលភ្លើងនឹងខូចនៅវិនាទីបន្ទាប់ ដោយដឹងថាវាបានភ្លឺរហូតមកដល់ពេលនេះ។
Natural splines	វិធីសាស្ត្រគណិតវិទ្យាក្នុងការគូសខ្សែកោងដោយផ្គុំបំណែកសមីការតូចៗ (Polynomials) បញ្ចូលគ្នាត្រង់ចំណុចប្រសព្វ (Knots) ដើម្បីឱ្យវាបត់បែនតាមទិន្នន័យ និងមានលក្ខណៈរលោងល្អ។	ដូចជាការយកខ្សែយឺតមកចងភ្ជាប់នឹងដែកគោលជាច្រើនចំណុច ដើម្បីបង្កើតបានជាខ្សែកោងមួយដែលរលោងនិងកាត់តាមចំណុចទាំងអស់នោះ។
Kaplan-Meier estimator	វិធីសាស្ត្រមិនប្រើប៉ារ៉ាម៉ែត្រ (Non-parametric) សម្រាប់ប៉ាន់ស្មាននិងគូសខ្សែកោងអត្រារស់រាន (Survival curve) ផ្អែកលើទិន្នន័យពិតប្រាកដដែលសង្កេតឃើញ រួមទាំងទិន្នន័យដែលកាត់ផ្តាច់ (Censored) ផងដែរ។	ដូចជាការចុះបញ្ជីចំនួនអ្នកដំណើរដែលនៅសេសសល់លើរថយន្តក្រុង រាល់ពេលដែលរថយន្តឈប់នៅចំណតនីមួយៗ ទោះបីជាមានអ្នកខ្លះចុះបាត់ក៏ដោយ។
Akaike information criterion	រង្វាស់មួយសម្រាប់វាយតម្លៃគុណភាពនៃម៉ូដែលស្ថិតិ ដោយថ្លឹងថ្លែងរវាងភាពស័ក្តិសមរបស់ម៉ូដែលទៅនឹងទិន្នន័យ (Goodness of fit) និងភាពស្មុគស្មាញនៃម៉ូដែល ដើម្បីចៀសវាងការដាក់ប៉ារ៉ាម៉ែត្រច្រើនពេក (Overfitting)។ តម្លៃកាន់តែទាបគឺកាន់តែល្អ។	ដូចជាការជ្រើសរើសទិញឡានដែលស៊ីសាំងតិចបំផុត តែនៅតែអាចដឹកឥវ៉ាន់របស់អ្នកបានគ្រប់គ្រាន់ (រក្សាតុល្យភាពរវាងការសន្សំសំចៃនិងអត្ថប្រយោជន៍)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

អន្តរកម្ម និងការវិភាគអត្រារស់រាននៃទិន្នន័យការបញ្ចប់ការសិក្សា
Interaction and survival analysis of graduation data

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖