Original Title: Investigating the invariance of item difficulty parameter estimates based on CTT and IRT
Source: internationalscholarsjournals.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស៊ើបអង្កេតលើភាពមិនប្រែប្រួលនៃការប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រកម្រិតលំបាកនៃសំណួរដោយផ្អែកលើ CTT និង IRT

ចំណងជើងដើម៖ Investigating the invariance of item difficulty parameter estimates based on CTT and IRT

អ្នកនិពន្ធ៖ O.O. Adedoyin (Molepolole College of Education, Botswana), H. J. Nenty (University of Botswana), B. Chilisa (University of Botswana)

ឆ្នាំបោះពុម្ព៖ 2020 International Journal of Education Research and Reviews

វិស័យសិក្សា៖ Educational Measurement

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃភាពអាស្រ័យលើសំណាកនៅក្នុងការប៉ាន់ស្មានកម្រិតលំបាកនៃសំណួរប្រឡង ដោយប្រៀបធៀបភាពមិនប្រែប្រួលរវាងទ្រឹស្តីតេស្តបុរាណ (Classical Test Theory - CTT) និងទ្រឹស្តីឆ្លើយតបសំណួរ (Item Response Theory - IRT)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្របរិមាណ (Quantitative method) ដោយទាញយកសំណាកឯករាជ្យចំនួន ១៥៥ ពីទិន្នន័យសិស្ស ដើម្បីធ្វើតេស្តសម្មតិកម្ម។

ការជ្រើសរើសសំណាកឯករាជ្យចំនួន ១៥៥ ពីសិស្សចំនួន ៣៥.២៦២ នាក់ដែលបានប្រឡងគណិតវិទ្យា (Sample Selection)
ការគណនាកម្រិតលំបាក CTT ជាសមាមាត្រនៃចម្លើយត្រឹមត្រូវ (CTT Item Difficulty Estimation)
ការប្រើប្រាស់កម្មវិធី MULTILOG VERSION 7.0 សម្រាប់ការប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រ IRT (IRT Parameter Estimation)
ការធ្វើតេស្តសម្មតិកម្មដោយប្រើការវិភាគវ៉ារ្យង់វាស់វែងដដែលៗ (Repeated Measure ANOVA) នៅកម្រិតអាល់ហ្វា ០.០៥

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រកម្រិតលំបាកផ្អែកលើ CTT មានការប្រែប្រួល (Variant) ឆ្លងកាត់ក្រុមសំណាកឯករាជ្យផ្សេងៗគ្នា ដែលបង្ហាញពីភាពទន់ខ្សោយរបស់វាក្នុងការបង្កើតស្តង់ដារតេស្ត។
ការប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រកម្រិតលំបាកផ្អែកលើ IRT រក្សាបាននូវភាពមិនប្រែប្រួល (Invariant) ទោះបីជាមានការផ្លាស់ប្តូរក្រុម និងទំហំសំណាកក៏ដោយ។
ការសិក្សាបានផ្តល់អនុសាសន៍ឱ្យក្រុមប្រឹក្សាប្រឡងនៅទ្វីបអាហ្រ្វិកងាកមកប្រើប្រាស់ទ្រឹស្តី IRT សម្រាប់ការវាស់វែង និងវាយតម្លៃការអប់រំប្រកបដោយសត្យានុម័ត និងសុក្រឹតជាងមុន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Classical Test Theory (CTT) ទ្រឹស្តីតេស្តបុរាណ (CTT)	មានភាពងាយស្រួលក្នុងការគណនា ប្រើប្រាស់ និងយល់ដោយអ្នកដែលមិនមែនជាអ្នកជំនាញ។ មានសម្មតិកម្មទ្រឹស្តីខ្សោយដែលធ្វើឱ្យវាងាយស្រួលអនុវត្តក្នុងស្ថានភាពសាកល្បងជាច្រើន។	ប៉ារ៉ាម៉ែត្រកម្រិតលំបាកនៃសំណួរនិងសមត្ថភាពសិស្សប្រែប្រួលទៅតាមសំណាក (Sample dependent)។ មិនមានព័ត៌មានលម្អិតថាតើសិស្សម្នាក់ៗនឹងអាចឆ្លើយសំណួរជាក់លាក់ណាមួយបានកម្រិតណានោះទេ។	ប៉ារ៉ាម៉ែត្រកម្រិតលំបាកនៃការធ្វើតេស្តគឺមានការប្រែប្រួល (Variant) កាត់តាមក្រុមសំណាកឯករាជ្យផ្សេងៗគ្នា ដែលបង្ហាញពីភាពទន់ខ្សោយរបស់វាក្នុងការវាស់វែងច្បាស់លាស់។
Item Response Theory (IRT) ទ្រឹស្តីឆ្លើយតបសំណួរ (IRT)	ប៉ារ៉ាម៉ែត្រមិនប្រែប្រួលទៅតាមសំណាក (Sample-free/Invariant)។ អាចវាយតម្លៃសមត្ថភាពសិស្ស និងកម្រិតលំបាកសំណួរដាច់ដោយឡែកពីគ្នា ដែលផ្តល់លទ្ធផលសុក្រឹត និងអាចប្រៀបធៀបបានឆ្លងកាត់តេស្តផ្សេងៗគ្នា។	ត្រូវការសម្មតិកម្មរឹងមាំ (Unidimensionality និង Local independence) ដែលជារឿយៗពិបាកនឹងបំពេញក្នុងភាពជាក់ស្តែង។ ទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ និងក្បួនគណនាស្មុគស្មាញ។	ប៉ារ៉ាម៉ែត្រកម្រិតលំបាករក្សាបាននូវភាពមិនប្រែប្រួល (Invariant) ទោះបីជាមានការផ្លាស់ប្តូរក្រុមសិស្សឯករាជ្យផ្សេងៗគ្នា និងទំហំសំណាកក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារទិន្នន័យសំណាកធំ និងកម្មវិធីកុំព្យូទ័រជំនាញសម្រាប់ការគណនាស្មុគស្មាញនៃម៉ូដែល IRT និងការវិភាគស្ថិតិ។

Software: ត្រូវការកម្មវិធីជំនាញសម្រាប់ការប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រ IRT ដូចជា MULTILOG VERSION 7.0 (ប្រើក្នុងឯកសារនេះ) រួមជាមួយកម្មវិធីវិភាគស្ថិតិដើម្បីធ្វើតេស្ត Repeated Measure ANOVA (ឧទាហរណ៍ SPSS)។
Hardware: ទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ (Computing power) ដោយសារអាក្បួនគណនារបស់ម៉ូដែល IRT មានភាពស្មុគស្មាញច្រើនជាង CTT។
Dataset: ទិន្នន័យលទ្ធផលប្រឡងរបស់សិស្សទំហំធំ (ក្នុងការសិក្សានេះប្រើទិន្នន័យសិស្ស ៣៥.២៦២ នាក់ និងបែងចែកជា ១៥៥ សំណាកផ្សេងៗគ្នា)។
Expertise: ទាមទារអ្នកជំនាញកម្រិតខ្ពស់ផ្នែកវាស់វែងនិងវាយតម្លៃអប់រំ (Educational Measurement) និងអ្នកជំនាញផ្នែកចិត្តមាត្រ (Psychometrics)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើទិន្នន័យពិតពីការប្រឡងសញ្ញាបត្រមធ្យមសិក្សាបឋមភូមិមុខវិជ្ជាគណិតវិទ្យានៅប្រទេសបុតស្វាណា (Botswana) ឆ្នាំ២០០៤ លើសិស្សចំនួន ៣៥,២៦២ នាក់។ ទោះបីជាបរិបទសង្គមមានភាពខុសគ្នាពីកម្ពុជាក៏ដោយ ប៉ុន្តែដោយសារនេះគឺជាការសិក្សាផ្ទៀងផ្ទាត់ទ្រឹស្តីស្ថិតិ (IRT ធៀបនឹង CTT) លទ្ធផលនិងគោលការណ៍ដែលរកឃើញនៅតែមានតម្លៃជាសកល និងអាចយកមកប្រើប្រាស់ក្នុងប្រព័ន្ធវាស់វែងការអប់រំនៅកម្ពុជាបានយ៉ាងពេញលេញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រគណនាផ្អែកលើ IRT នេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ការកែទម្រង់និងធ្វើឲ្យប្រព័ន្ធវាយតម្លៃការប្រឡងនៅកម្ពុជាមានភាពយុត្តិធម៌និងស្តង់ដារអន្តរជាតិ។

ក្រសួងអប់រំ យុវជន និងកីឡា (នាយកដ្ឋានប្រឡង): អាចប្រើប្រាស់ IRT ដើម្បីវិភាគ និងតម្រឹមគុណភាពវិញ្ញាសាប្រឡងបាក់ឌុប (ការប្រឡងសញ្ញាបត្រមធ្យមសិក្សាទុតិយភូមិ) ជារៀងរាល់ឆ្នាំ ដើម្បីធានាថាកម្រិតលំបាកនៃវិញ្ញាសាមានស្តង់ដារថេរ ទោះបីជាបេក្ខជនឬឆ្នាំប្រឡងផ្លាស់ប្តូរក៏ដោយ។
នាយកដ្ឋានធានាគុណភាពអប់រំ (EQAD): អាចប្រើប្រាស់វាសម្រាប់ការធ្វើតេស្តរង្វាយតម្លៃថ្នាក់ជាតិ (National Assessment) ដើម្បីតាមដានសមត្ថភាពសិស្សលើមុខវិជ្ជា STEM ដោយលុបបំបាត់ភាពលំអៀងនៃការដាក់ពិន្ទុដែលបណ្តាលមកពីភាពខុសគ្នានៃកម្រិតសិស្សតាមតំបន់ (ទីក្រុង និងជនបទ)។
សាកលវិទ្យាល័យ និងគ្រឹះស្ថានឧត្តមសិក្សា: អាចអនុវត្តទ្រឹស្តី IRT ក្នុងការរៀបចំវិញ្ញាសាប្រឡងចូលរៀន (Entrance Exams) ព្រមទាំងបង្កើតធនាគារសំណួរ (Item Bank) ដើម្បីជ្រើសរើសនិស្សិតប្រកបដោយសុក្រឹតភាពខ្ពស់។

ជារួម ការផ្លាស់ប្តូរការប្រើប្រាស់ពី CTT មក IRT នឹងជួយលើកកម្ពស់គុណភាពនៃការរៀបចំវិញ្ញាសា និងការវាស់វែងសមត្ថភាពសិស្សនៅកម្ពុជាឲ្យមានភាពត្រឹមត្រូវ យុត្តិធម៌ និងមិនមានភាពលំអៀង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃ Item Response Theory (IRT): ចាប់ផ្តើមស្វែងយល់អំពីម៉ូដែលរបស់ IRT ដូចជា 1-parameter (Rasch), 2-parameter និង 3-parameter ព្រមទាំងសម្មតិកម្មគ្រឹះ (Unidimensionality និង Local independence) តាមរយៈឯកសារជំនាញផ្នែក Psychometrics។
ប្រមូលនិងរៀបចំទិន្នន័យតេស្តខ្នាតធំ: សហការជាមួយសាលារៀន ឬនាយកដ្ឋានពាក់ព័ន្ធនៃក្រសួងអប់រំ ដើម្បីប្រមូលទិន្នន័យចម្លើយនៃការប្រឡង (ឧទាហរណ៍ ទិន្នន័យចម្លើយ Multiple Choice ពីការប្រឡងសាកល្បង) ក្នុងចំនួនច្រើនដើម្បីអាចបំពេញតាមលក្ខខណ្ឌវិភាគរបស់ IRT។
អនុវត្តការគណនាប៉ារ៉ាម៉ែត្រដោយប្រើកម្មវិធីកុំព្យូទ័រ: ប្រើប្រាស់កម្មវិធីកុំព្យូទ័រឯកទេសដូចជា R Software (packages mirt ឬ eRm), WINSTEPS, ឬ MULTILOG ដើម្បីទាញយកកម្រិតលំបាកនៃសំណួរនីមួយៗ និងសមត្ថភាពរបស់បេក្ខជន។
ធ្វើតេស្តប្រៀបធៀបភាពមិនប្រែប្រួល (Invariance Testing): បែងចែកទិន្នន័យជាក្រុមផ្សេងៗគ្នា (ឧទាហរណ៍ តាមភេទ តំបន់ភូមិសាស្ត្រ ឬកម្រិតសមត្ថភាព) ហើយប្រើប្រាស់វិធីសាស្ត្រស្ថិតិដូចជា Repeated Measure ANOVA ដើម្បីបញ្ជាក់ពីភាពមិនប្រែប្រួលនៃប៉ារ៉ាម៉ែត្រ IRT ធៀបនឹងលទ្ធផលពី CTT។
រៀបចំធនាគារសំណួរ និងធ្វើរបាយការណ៍: ជម្រុះចោលសំណួរណាដែលមិនគោរពតាមស្តង់ដារ និងប្រមូលសំណួរដែលបានផ្ទៀងផ្ទាត់គុណភាពរួចតាមរយៈ IRT យកទៅចងក្រងជាធនាគារសំណួរ (Item Bank) សម្រាប់ការរៀបចំវិញ្ញាសាប្រឡងស្តង់ដារនាពេលអនាគត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Classical test theory (CTT) (ទ្រឹស្តីតេស្តបុរាណ)	ជាក្របខណ្ឌវាស់វែងបែបប្រពៃណី ដែលចាត់ទុកពិន្ទុដែលសិស្សទទួលបាន (Observed score) គឺជាការបូកបញ្ចូលគ្នារវាងសមត្ថភាពពិត (True score) និងកំហុសឆ្គងនៃការវាស់វែង (Error)។ លក្ខណៈនៃតេស្តនេះអាស្រ័យខ្លាំងលើក្រុមសិស្សដែលបានធ្វើតេស្តមានន័យថាលទ្ធផលប្រែប្រួលតាមសំណាក។	ដូចជាការវាស់កម្ពស់ដោយប្រើខ្សែម៉ែត្រដែលអាចយឺតបាន ដែលលទ្ធផលអាចប្រែប្រួលបន្តិចបន្តួចរាល់ពេលវាស់ម្តងៗទៅតាមអ្នកដែលកាន់វា។
Item response theory (IRT) (ទ្រឹស្តីឆ្លើយតបសំណួរ)	ជាក្របខណ្ឌវាស់វែងទំនើបដែលប្រើប្រាស់រូបមន្តគណិតវិទ្យាដើម្បីពណ៌នាពីទំនាក់ទំនងរវាងសមត្ថភាពកំបាំងរបស់សិស្ស (Latent trait) និងលទ្ធភាពដែលពួកគេអាចឆ្លើយសំណួរនីមួយៗបានត្រឹមត្រូវ ដោយប៉ារ៉ាម៉ែត្រនេះមិនពឹងផ្អែកលើក្រុមសិស្សដែលត្រូវវាស់វែងនោះទេ។	ដូចជាការបង្កើតជញ្ជីងស្តង់ដារមួយដែលអាចថ្លឹងដឹងទម្ងន់ពិតប្រាកដរបស់វត្ថុ ទោះបីជាយកទៅថ្លឹងនៅទីណាក៏ដោយ។
Invariance (ភាពមិនប្រែប្រួល)	ជាលក្ខណៈសម្បត្តិដ៏សំខាន់នៃរង្វាស់ ដែលបង្ហាញថាប៉ារ៉ាម៉ែត្រនៃសំណួរ (ដូចជាកម្រិតលំបាក) ឬសមត្ថភាពសិស្ស មិនមានការផ្លាស់ប្តូរឡើយ ទោះបីជាត្រូវបានវាស់ស្ទង់ជាមួយក្រុមសិស្សផ្សេងៗគ្នា ឬសំណុំសំណួរផ្សេងៗគ្នាក៏ដោយ (Sample-free និង Item-free)។	ដូចជាកម្ដៅរំពុះរបស់ទឹកសាបគឺតែងតែ ១០០ អង្សាសេជានិច្ច ទោះបីជាអ្នកដាំវានៅក្នុងឆ្នាំងតូច ឬឆ្នាំងធំក៏ដោយ។
Item difficulty parameter (ប៉ារ៉ាម៉ែត្រកម្រិតលំបាកនៃសំណួរ)	ជាសូចនាករដែលបញ្ជាក់ថាតើសំណួរប្រឡងមួយមានភាពលំបាកកម្រិតណា។ នៅក្នុង CTT វាគិតជាភាគរយនៃអ្នកឆ្លើយត្រូវ ចំណែកក្នុង IRT វាជារង្វាស់ដែលឯករាជ្យពីសមត្ថភាពរួមរបស់ក្រុមសិស្ស (ជាទូទៅតាងដោយ b-value)។	ដូចជាកម្ពស់នៃរបារលោតផ្លោះ—បើរៀបចំកាន់តែខ្ពស់ មានតែអ្នកដែលមានសមត្ថភាពលោតខ្ពស់ប៉ុណ្ណោះដែលអាចលោតរំលងបាន។
Unidimensionality (ឯកវិមាត្រ ឬ វិមាត្រទោល)	ជាសម្មតិកម្មគោលនៅក្នុង IRT ដែលសន្មតថាការធ្វើតេស្តមួយកំពុងវាស់វែងសមត្ថភាព លក្ខណៈ ឬជំនាញតែមួយគត់របស់សិស្ស (ឧទាហរណ៍ វាស់តែចំណេះដឹងគណិតវិទ្យា ដោយមិនលាយឡំជាមួយសមត្ថភាពអានភាសា)។	ដូចជាការប្រកួតរត់ប្រណាំងដែលកាត់សេចក្តីដោយពឹងផ្អែកលើ "ល្បឿន" តែមួយមុខគត់ មិនមែនយកភាពស្រស់ស្អាតមកគិតបញ្ចូលគ្នានោះទេ។
Local independence (ភាពឯករាជ្យនៃសំណួរ)	ជាសម្មតិកម្មមួយទៀតរបស់ IRT ដែលបញ្ជាក់ថាចម្លើយដែលសិស្សឆ្លើយលើសំណួរមួយ មិនមានឥទ្ធិពល ឬផ្តល់តម្រុយជួយឱ្យសិស្សឆ្លើយសំណួរមួយទៀតបាននោះទេ ពោលគឺឱកាសឆ្លើយត្រូវលើសំណួរនីមួយៗគឺដាច់ដោយឡែកពីគ្នា។	ដូចជាការទិញឆ្នោតពីរផ្សេងគ្នា ការត្រូវរង្វាន់ឆ្នោតទីមួយមិនធានា ឬបង្កើនឱកាសឱ្យអ្នកត្រូវរង្វាន់ឆ្នោតទីពីរនោះទេ។
Repeated measure ANOVA (ការវិភាគវ៉ារ្យង់វាស់វែងដដែលៗ)	ជាវិធីសាស្ត្រស្ថិតិដែលត្រូវបានប្រើប្រាស់នៅក្នុងការសិក្សានេះ ដើម្បីប្រៀបធៀបមធ្យមភាគនៃទិន្នន័យនៅពេលដែលសំណាកតែមួយ ឬប៉ារ៉ាម៉ែត្រតែមួយត្រូវបានវាស់វែងច្រើនដង ឬឆ្លងកាត់លក្ខខណ្ឌក្រុមផ្សេងៗគ្នា ដើម្បីទាញសេចក្តីសន្និដ្ឋានថាតើវាមានភាពខុសគ្នាគួរឱ្យកត់សម្គាល់ដែរឬទេ។	ដូចជាការយកសិស្សម្នាក់ទៅប្រឡងគណិតវិទ្យាដដែលៗ ៥ដង ដើម្បីមើលថាតើពិន្ទុរបស់គាត់ថេរ ឬមានការប្រែប្រួលខុសប្លែកគ្នាឆ្ងាយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖