បញ្ហា (The Problem)៖ ការសិក្សានេះវាយតម្លៃពីដំណើរការនៃម៉ូដែលរស់រានទូទៅ (Generalized Survival Model - GSM) នៅពេលអនុវត្តលើទិន្នន័យដែលត្រូវបានកាត់ផ្តាច់តាមចន្លោះពេល (Interval-Censored Data) ដោយប្រៀបធៀបវាទៅនឹងម៉ូដែលស្តង់ដារ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យក្លែងធ្វើ (Simulated Data) និងទិន្នន័យជាក់ស្តែង ដើម្បីសាកល្បងនិងប្រៀបធៀបដំណើរការរបស់ម៉ូដែលទាំងពីរ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Generalized Survival Model (GSM) via rstpm2 ម៉ូដែលរស់រានទូទៅ (GSM) ដោយប្រើកញ្ចប់កម្មវិធី rstpm2 |
អាចចាប់យកលក្ខណៈស្មុគស្មាញនៃរបាយទិន្នន័យបានល្អ និងមានភាពបត់បែនខ្ពស់ដោយប្រើមុខងារ Spline (Natural splines of log time)។ | មិនដំណើរការល្អទេនៅពេលការកាត់ផ្តាច់ទិន្នន័យ (Censoring) មានទំហំធំ ឬរដុបពេក ហើយការជ្រើសរើសចំនួនចំណុច (Knots) តាមរយៈ AIC ទាមទារពេលវេលាគណនាច្រើន។ | ទទួលបានតម្លៃ AIC ទាបជាង និងមានគម្លាតតូចជាងរវាងខ្សែកោងកម្រិតហានិភ័យ (Hazard Curve) ពិតប្រាកដនិងតម្លៃប៉ាន់ស្មាន នៅក្នុងទិន្នន័យស្មុគស្មាញ។ |
| Accelerated Failure Time (AFT) / Proportional Hazards via survreg ម៉ូដែល Accelerated Failure Time (AFT) / Proportional Hazards ដោយប្រើកញ្ចប់កម្មវិធី survreg |
ងាយស្រួលប្រើប្រាស់ លឿនក្នុងការគណនា និងផ្តល់លទ្ធផលល្អឥតខ្ចោះសម្រាប់ទិន្នន័យដែលមានរបាយស្តង់ដារដូចជាធម្មតា (ឧទាហរណ៍ Weibull)។ | មិនអាចចាប់យកលក្ខណៈលម្អិតនៃរបាយទិន្នន័យស្មុគស្មាញ (Complex distributions) បានទេ ដោយសារវាជាម៉ូដែលប៉ារ៉ាម៉ែត្រតឹងរ៉ឹងមិនអាចបត់បែនបាន។ | ផ្តល់លទ្ធផលដូចគ្នាបេះបិទទៅនឹង GSM សម្រាប់ទិន្នន័យ Weibull ធម្មតា ប៉ុន្តែមិនអាចចាប់យកកំពូលនៃខ្សែកោងហានិភ័យ ក្នុងទិន្នន័យចម្រុះ (Mixed Weibull) បានទេ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះផ្ដោតលើការវិភាគទិន្នន័យស្ថិតិ ដែលទាមទារចំណេះដឹងផ្នែកសរសេរកូដស្ថិតិ ប៉ុន្តែមិនត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំង (ដូចជា GPU) នោះទេ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យក្លែងធ្វើតាមកុំព្យូទ័រ (Simulated Data) និងទិន្នន័យជាក់ស្តែងផ្នែកទន្តសាស្ត្រ (Signal-Tandmobiel) របស់កុមារនៅតំបន់ Flanders ប្រទេសប៊ែលហ្សិក។ ទិន្នន័យនេះមិនឆ្លុះបញ្ចាំងពីបរិបទប្រជាសាស្ត្រ ឬបញ្ហាសុខភាពនៅក្នុងប្រទេសកម្ពុជានោះទេ។ ទោះជាយ៉ាងណាក៏ដោយ ដោយសារវាជាការស្រាវជ្រាវផ្នែកវិធីសាស្ត្រស្ថិតិ (Methodological Statistics) ម៉ូដែលទាំងនេះនៅតែអាចយកមកអនុវត្តលើទិន្នន័យស្រាវជ្រាវក្នុងស្រុកបានដោយគ្មានបញ្ហា។
វិធីសាស្ត្រ Generalized Survival Models (GSM) នេះមានអត្ថប្រយោជន៍ខ្លាំងសម្រាប់ការស្រាវជ្រាវនៅកម្ពុជា ជាពិសេសលើទិន្នន័យតាមដានរយៈពេលវែង (Longitudinal Studies)។
ជារួម ម៉ូដែល GSM ផ្តល់នូវភាពបត់បែនខ្ពស់ក្នុងការវិភាគទិន្នន័យនៅកម្ពុជា ប៉ុន្តែទាមទារឱ្យអ្នកស្រាវជ្រាវរៀបចំកាលវិភាគប្រមូលទិន្នន័យឱ្យបានញឹកញាប់ល្មម (High Resolution) ទើបម៉ូដែលនេះផ្តល់លទ្ធផលត្រឹមត្រូវ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Interval censored data | ទិន្នន័យដែលយើងមិនដឹងពីពេលវេលាពិតប្រាកដដែលព្រឹត្តិការណ៍មួយបានកើតឡើង ប៉ុន្តែយើងដឹងថាវាបានកើតឡើងនៅចន្លោះពេលនៃការត្រួតពិនិត្យពីរដង (ឧទាហរណ៍ វាកើតឡើងចន្លោះពេលពិនិត្យលើកទី១ និងទី២)។ | ដូចជាការដែលអ្នកឃើញដើមឈើមួយដើមចេញផ្លែនៅពេលអ្នកត្រលប់មកពីវិស្សមកាល ដែលអ្នកដឹងថាវាបានផ្លែនៅចន្លោះពេលអ្នកមិននៅ តែមិនដឹងច្បាស់ថាជាថ្ងៃណា។ |
| Generalized survival model | ម៉ូដែលស្ថិតិទូលំទូលាយដែលអនុញ្ញាតឱ្យមានភាពបត់បែនខ្ពស់ក្នុងការវិភាគទិន្នន័យរស់រាន (Survival data) ដោយប្រើមុខងារតភ្ជាប់ (Link functions) និងខ្សែកោង (Splines) ដើម្បីចាប់យកទម្រង់របាយទិន្នន័យដែលស្មុគស្មាញ។ | ដូចជាសម្លៀកបំពាក់ដែលអាចយឺតតាមរាងកាយអ្នកពាក់ជាក់ស្តែង ជាជាងអាវដែលមានទំហំស្តង់ដារតឹងរ៉ឹងមិនអាចបត់បែនបាន។ |
| Proportional hazards model | ម៉ូដែលស្ថិតិដែលសន្មតថាកត្តាអថេរ (Covariates) នីមួយៗមានឥទ្ធិពលថេរទៅលើកម្រិតហានិភ័យ (Hazard rate) នៅគ្រប់ពេលវេលាទាំងអស់ មានន័យថាអនុបាតហានិភ័យរវាងក្រុមពីរគឺថេរជានិច្ច។ | ដូចជាការសន្មតថា អ្នកជក់បារីតែងតែមានហានិភ័យកើតជំងឺសួតខ្ពស់ជាងអ្នកមិនជក់បារី ២ដង ជារៀងរហូត មិនថានៅអាយុប៉ុន្មានក៏ដោយ។ |
| Accelerated failure time model | ម៉ូដែលដែលសន្មតថាកត្តាអថេរធ្វើឱ្យពេលវេលានៃការកើតមានព្រឹត្តិការណ៍ដើរលឿនជាងមុន ឬយឺតជាងមុន (ពន្លឿន ឬបន្ថយពេលវេលា) ជំនួសឱ្យការជះឥទ្ធិពលលើកម្រិតហានិភ័យផ្ទាល់។ | ដូចជាការបើកវីដេអូក្នុងល្បឿន 2x ឬ 0.5x ដែលធ្វើឱ្យសាច់រឿងចប់លឿន ឬយឺតជាងធម្មតា ដោយផ្អែកលើកត្តាណាមួយ។ |
| Hazard function | អនុគមន៍ដែលវាស់ស្ទង់ពីអត្រានៃហានិភ័យភ្លាមៗ (Instantaneous rate) នៃការកើតមានព្រឹត្តិការណ៍ណាមួយនៅពេលវេលាជាក់លាក់មួយ ដោយផ្អែកលើលក្ខខណ្ឌដែលវាមិនទាន់កើតឡើងរហូតមកដល់ពេលនោះ។ | ដូចជាការវាស់ស្ទង់ពីឱកាសដែលអំពូលភ្លើងនឹងខូចនៅវិនាទីបន្ទាប់ ដោយដឹងថាវាបានភ្លឺរហូតមកដល់ពេលនេះ។ |
| Natural splines | វិធីសាស្ត្រគណិតវិទ្យាក្នុងការគូសខ្សែកោងដោយផ្គុំបំណែកសមីការតូចៗ (Polynomials) បញ្ចូលគ្នាត្រង់ចំណុចប្រសព្វ (Knots) ដើម្បីឱ្យវាបត់បែនតាមទិន្នន័យ និងមានលក្ខណៈរលោងល្អ។ | ដូចជាការយកខ្សែយឺតមកចងភ្ជាប់នឹងដែកគោលជាច្រើនចំណុច ដើម្បីបង្កើតបានជាខ្សែកោងមួយដែលរលោងនិងកាត់តាមចំណុចទាំងអស់នោះ។ |
| Kaplan-Meier estimator | វិធីសាស្ត្រមិនប្រើប៉ារ៉ាម៉ែត្រ (Non-parametric) សម្រាប់ប៉ាន់ស្មាននិងគូសខ្សែកោងអត្រារស់រាន (Survival curve) ផ្អែកលើទិន្នន័យពិតប្រាកដដែលសង្កេតឃើញ រួមទាំងទិន្នន័យដែលកាត់ផ្តាច់ (Censored) ផងដែរ។ | ដូចជាការចុះបញ្ជីចំនួនអ្នកដំណើរដែលនៅសេសសល់លើរថយន្តក្រុង រាល់ពេលដែលរថយន្តឈប់នៅចំណតនីមួយៗ ទោះបីជាមានអ្នកខ្លះចុះបាត់ក៏ដោយ។ |
| Akaike information criterion | រង្វាស់មួយសម្រាប់វាយតម្លៃគុណភាពនៃម៉ូដែលស្ថិតិ ដោយថ្លឹងថ្លែងរវាងភាពស័ក្តិសមរបស់ម៉ូដែលទៅនឹងទិន្នន័យ (Goodness of fit) និងភាពស្មុគស្មាញនៃម៉ូដែល ដើម្បីចៀសវាងការដាក់ប៉ារ៉ាម៉ែត្រច្រើនពេក (Overfitting)។ តម្លៃកាន់តែទាបគឺកាន់តែល្អ។ | ដូចជាការជ្រើសរើសទិញឡានដែលស៊ីសាំងតិចបំផុត តែនៅតែអាចដឹកឥវ៉ាន់របស់អ្នកបានគ្រប់គ្រាន់ (រក្សាតុល្យភាពរវាងការសន្សំសំចៃនិងអត្ថប្រយោជន៍)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖