Original Title: การประยุกต์โมเดลการตอบสนองข้อสอบในการพัฒนามาตรวัดความสุขของคนไทย: การทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តម៉ូដែលឆ្លើយតបសំណួរក្នុងការអភិវឌ្ឍរង្វាស់ភាពសប្បាយរីករាយរបស់ជនជាតិថៃ៖ ការធ្វើតេស្តសម្របតាមកុំព្យូទ័រ

ចំណងជើងដើម៖ การประยุกต์โมเดลการตอบสนองข้อสอบในการพัฒนามาตรวัดความสุขของคนไทย: การทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์

អ្នកនិពន្ធ៖ สุชาดา สกลกิจรุ่งโรจน์ (Suchada Sakolkijrungroj, Burapha University)

ឆ្នាំបោះពុម្ព៖ 2015

វិស័យសិក្សា៖ Educational Measurement and Cognitive Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវាយតម្លៃភាពសប្បាយរីករាយ និងសុខុមាលភាពផ្លូវចិត្តតាមបែបប្រពៃណីជារឿយៗតែងតែចំណាយពេលយូរ និងប្រើប្រាស់សំណួរច្រើនលើសលប់ ដែលអាចបណ្តាលឱ្យអ្នកឆ្លើយមានភាពនឿយហត់ និងកាត់បន្ថយភាពត្រឹមត្រូវនៃទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ទ្រឹស្តីឆ្លើយតបសំណួរ (Item Response Theory) ដើម្បីបង្កើតធនាគារសំណួរ និងអភិវឌ្ឍកម្មវិធីគេហទំព័រសម្រាប់ការធ្វើតេស្តសម្របតាមកុំព្យូទ័រ (Computerized Adaptive Testing)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Full-Length Test (All Items)
ការធ្វើតេស្តដោយឆ្លើយសំណួរទាំងអស់ (ទម្រង់ប្រពៃណី)
ងាយស្រួលក្នុងការរៀបចំ និងដាក់ពិន្ទុដោយមិនតម្រូវឱ្យមានប្រព័ន្ធកុំព្យូទ័រស្មុគស្មាញ ឬក្បួនដោះស្រាយ (Algorithm) នោះទេ។ វាអាចធ្វើបានទាំងលើក្រដាស និងអនឡាញទម្រង់សាមញ្ញ។ ចំណាយពេលយូរក្នុងការធ្វើតេស្ត និងអាចធ្វើឱ្យអ្នកឆ្លើយមានភាពនឿយហត់ ដោយសារត្រូវអាននិងឆ្លើយសំណួរច្រើន (61 សំណួរ) ទោះបីជាសំណួរខ្លះមិនស័ក្តិសមនឹងកម្រិតរបស់អ្នកឆ្លើយក៏ដោយ។ ចំណាយពេលមធ្យម 263.30 វិនាទី និងតម្រូវឱ្យអ្នកធ្វើតេស្តឆ្លើយសំណួរទាំង 61 សំណួរពេញលេញ។
Computerized Adaptive Testing (CAT) using IRT
ការធ្វើតេស្តសម្របតាមកុំព្យូទ័រ (CAT) ដោយផ្អែកលើទ្រឹស្តីឆ្លើយតបសំណួរ (IRT)
កាត់បន្ថយពេលវេលា និងចំនួនសំណួរបានយ៉ាងច្រើន ខណៈពេលដែលប្រព័ន្ធជ្រើសរើសសំណួរដែលស័ក្តិសមបំផុតសម្រាប់បុគ្គលម្នាក់ៗ ដោយរក្សាបាននូវភាពត្រឹមត្រូវនៃការវាស់ស្ទង់ខ្ពស់។ ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកស្ថិតិ និងចិត្តសាស្ត្រខ្ពស់ (Psychometrics) ក៏ដូចជាត្រូវមានធនធានបច្ចេកវិទ្យា (ម៉ាស៊ីនមេ អ៊ីនធឺណិត និងការសរសេរកម្មវិធី) ដើម្បីដំណើរការ។ កាត់បន្ថយចំនួនសំណួរបាន 72.13% (មធ្យមប្រើត្រឹម 17 សំណួរ) និងកាត់បន្ថយពេលវេលាបាន 67.05% (មធ្យម 86.77 វិនាទី) ដោយរក្សាបានទំនាក់ទំនងកម្រិត r=0.85 ធៀបនឹងតេស្តពេញ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធតេស្ត CAT នេះទាមទារឱ្យមានការប្រើប្រាស់កម្មវិធីស្ថិតិឯកទេស និងធនធានបច្ចេកវិទ្យាសម្រាប់បង្កើតគេហទំព័រ ដើម្បីឱ្យប្រព័ន្ធដំណើរការបានរលូន និងមានសុក្រឹតភាពខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះបានប្រមូលទិន្នន័យពីប្រជាជនថៃចំនួន 934 នាក់ (អាយុ 18 ឆ្នាំឡើងទៅ) ដែលភាគច្រើនជាស្ត្រី (69.5%) និងមានកម្រិតវប្បធម៌បរិញ្ញាបត្រ (55.6%)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទិន្នន័យនេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ ដោយសារភាពខុសគ្នានៃភាសា វប្បធម៌ និងរបៀបរស់នៅ ដែលអាចធ្វើឱ្យមានលម្អៀងទិន្នន័យ (Cultural & Language Bias) ទាមទារឱ្យមានការប្រែសម្រួល និងធ្វើតេស្តសាកល្បងសារជាថ្មីជាមួយប្រជាជនខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមិនអាចចម្លងផ្ទាល់បាន ប៉ុន្តែវិធីសាស្ត្រ CAT នេះមានសក្តានុពល និងអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងការវាយតម្លៃសុខភាពផ្លូវចិត្តក្នុងទ្រង់ទ្រាយធំ។

ការសម្របវិធីសាស្ត្រ CAT មកប្រើប្រាស់ក្នុងប្រទេសកម្ពុជា នឹងជួយលើកកម្ពស់វិស័យវាស់ស្ទង់ចិត្តសាស្ត្រ និងបង្កើនប្រសិទ្ធភាពក្នុងការវាយតម្លៃសុខភាពផ្លូវចិត្តតាមបែបឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Item Response Theory (IRT): និស្សិតគួរសិក្សាស៊ីជម្រៅពីទ្រឹស្តី IRT ជាពិសេស Graded Response Model (GRM) ដោយស្វែងយល់ពីអថេរដូចជា Item Discrimination និង Threshold Parameter តាមរយៈសៀវភៅ ឬវគ្គសិក្សាអនឡាញផ្នែក Psychometrics
  2. អនុវត្តការវិភាគទិន្នន័យដោយប្រើកម្មវិធីទំនើប: សាកល្បងវិភាគទិន្នន័យសំណួរ (Item Calibration) ដោយប្រើប្រាស់កម្មវិធី R programming (mirt package) ឬកម្មវិធី Xcalibre ដើម្បីរៀនពីរបៀបស្វែងរកគុណភាពសំណួរនីមួយៗ និងកាត់ចោលសំណួរដែលមិនស្របតាមស្តង់ដារ។
  3. រៀនបង្កើតក្បួនដោះស្រាយសម្រាប់ប្រព័ន្ធ CAT: និស្សិតផ្នែកព័ត៌មានវិទ្យាគួររៀនពីរបៀបសរសេរក្បួនដោះស្រាយ (Algorithm) សម្រាប់ Computerized Adaptive Testing ដូចជាការប្រើប្រាស់វិធីសាស្ត្រ Maximum Information ក្នុងការរើសសំណួរបន្ទាប់ និងវិធីសាស្ត្រ Expected a Posteriori (EAP) ក្នុងការគណនាពិន្ទុបណ្តោះអាសន្ន។
  4. អភិវឌ្ឍប្រព័ន្ធសាកល្បង (Web Application Prototype): បង្កើតគម្រោងតូចមួយដោយប្រើ PHP, Python (Django/Flask) រួមជាមួយ MySQL/PostgreSQL ដើម្បីសាងសង់ប្រព័ន្ធគេហទំព័រ CAT ដោយបញ្ចូលទិន្នន័យសំណួរដែលបានប្រែសម្រួលជាភាសាខ្មែរ ហើយយកទៅសាកល្បងផ្ទាល់ជាមួយនិស្សិតក្នុងសាកលវិទ្យាល័យ ដើម្បីប្រមូលមតិកែលម្អ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Item Response Theory (IRT) ទ្រឹស្តីឆ្លើយតបសំណួរ គឺជាក្របខណ្ឌស្ថិតិមួយដែលប្រើក្នុងវិស័យវាស់ស្ទង់ចិត្តសាស្ត្រ ដើម្បីវាស់វែងសមត្ថភាព ឬលក្ខណៈកំបាំងរបស់បុគ្គល (ឧទាហរណ៍ កម្រិតនៃភាពសប្បាយរីករាយ) ដោយផ្អែកលើប្រូបាប៊ីលីតេដែលពួកគេនឹងឆ្លើយតបទៅនឹងសំណួរនីមួយៗ។ វាមិនពឹងផ្អែកលើពិន្ទុសរុបនោះទេ តែវិភាគលើគុណភាពនិងកម្រិតលំបាកនៃសំណួរនីមួយៗតែម្តង។ ដូចជាការវាយតម្លៃកម្លាំងអ្នករត់ប្រណាំងដោយមិនមែនមើលតែចំនួនគីឡូម៉ែត្រដែលរត់បានទេ តែមើលថាតើគាត់អាចរត់ឆ្លងកាត់ឧបសគ្គនីមួយៗបានល្អកម្រិតណា។
Computerized Adaptive Testing (CAT) ការធ្វើតេស្តសម្របតាមកុំព្យូទ័រ គឺជាប្រព័ន្ធធ្វើតេស្តវៃឆ្លាតដែលប្រើក្បួនដោះស្រាយ (Algorithm) ដើម្បីជ្រើសរើសសំណួរបន្ទាប់ដែលស័ក្តិសមបំផុតសម្រាប់កម្រិតរបស់អ្នកធ្វើតេស្ត ដោយផ្អែកលើចម្លើយពីមុនៗរបស់ពួកគេ ដែលជួយកាត់បន្ថយពេលវេលា និងចំនួនសំណួរដោយរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។ ដូចជាគ្រូពេទ្យសួរសំណួររោគសញ្ញាអ្នកជំងឺ បើអ្នកជំងឺឆ្លើយថា "ឈឺក្បាល" គ្រូពេទ្យនឹងសួរសំណួរលម្អិតទាក់ទងនឹងការឈឺក្បាលនោះភ្លាមៗ ដោយរំលងសំណួរអំពីការឈឺពោះចោល។
Graded Response Model (GRM) ម៉ូដែលឆ្លើយតបតាមកម្រិត គឺជាទម្រង់មួយនៃទ្រឹស្តី IRT ដែលប្រើសម្រាប់វិភាគសំណួរដែលមានជម្រើសចម្លើយច្រើនកម្រិត (ឧទាហរណ៍៖ មិនយល់ស្របខ្លាំង រហូតដល់ យល់ស្របខ្លាំង)។ វាជួយគណនាប្រូបាប៊ីលីតេដែលបុគ្គលម្នាក់នឹងជ្រើសរើសចម្លើយណាមួយក្នុងចំណោមជម្រើសទាំងនោះ។ ដូចជាការដាក់ពិន្ទុក្នុងការប្រកួតកាយសម្ព័ន្ធ ដែលចៅក្រមមិនត្រឹមតែវាយតម្លៃថា "ធ្លាក់ ឬ មិនធ្លាក់" ទេ តែវាយតម្លៃថាទម្រង់នៃការលោតនោះល្អក្នុងកម្រិតណាពី ១ ដល់ ១០។
Subjective Well-being (SWB) សុខុមាលភាពកម្មវត្ថុ (ភាពនៅជាសុខតាមទស្សនៈបុគ្គល) គឺជាការវាយតម្លៃរបស់បុគ្គលម្នាក់ៗអំពីគុណភាពជីវិតរបស់ពួកគេ ដែលរួមមានទាំងការពេញចិត្តក្នុងជីវិតទូទៅ ការមានអារម្មណ៍វិជ្ជមានច្រើន និងការខ្វះខាតអារម្មណ៍អវិជ្ជមាន ដែលជាស្នូលនៃការវាស់ស្ទង់ភាពសប្បាយរីករាយនៅក្នុងការសិក្សានេះ។ ដូចជាការពាក់វ៉ែនតាពណ៌ផ្ទាល់ខ្លួនមើលទៅកាន់ពិភពលោក ទោះបីជាមានលុយឬស្ថានភាពរស់នៅស្មើគ្នាក៏ដោយ ក៏ម្នាក់ៗមានកម្រិតពេញចិត្តនិងសប្បាយចិត្តជាមួយអ្វីដែលខ្លួនមានខុសៗគ្នាដែរ។
Item Information Function (IIF) អនុគមន៍ព័ត៌មានសំណួរ គឺជាតួលេខ ឬខ្សែកោងក្រាហ្វិកដែលបង្ហាញថា សំណួរនីមួយៗមានប្រសិទ្ធភាពកម្រិតណា (ផ្តល់ព័ត៌មានបានច្រើនប៉ុណ្ណា) ក្នុងការវាស់ស្ទង់មនុស្សដែលមានកម្រិតលក្ខណៈកំបាំងខុសៗគ្នា។ សំណួរដែលមានតម្លៃ IIF ខ្ពស់នៅកម្រិតណាមួយ គឺស័ក្តិសមបំផុតសម្រាប់វាស់ស្ទង់មនុស្សនៅកម្រិតនោះ។ ដូចជាកែវយឺតមើលផ្កាយ កែវយឺតខ្លះមើលឃើញច្បាស់តែព្រះចន្ទ ឯកែវយឺតខ្លះទៀតមើលឃើញច្បាស់តែភពព្រហស្បតិ៍ ដែលវាមានតួនាទីចាប់យករូបភាពបានល្អក្នុងគម្លាតជាក់លាក់រៀងៗខ្លួន។
Expected a Posteriori (EAP) វិធីសាស្ត្រនៃការប៉ាន់ស្មាន EAP គឺជារបៀបគណនាកម្រិតពិន្ទុរបស់អ្នកធ្វើតេស្ត (ដូចជាកម្រិតសុភមង្គល) ដោយប្រើប្រាស់ទ្រឹស្តីស្ថិតិ Bayes ដែលយកព័ត៌មានដែលដឹងមុន (Prior Distribution) មកបូកបញ្ចូលជាមួយចម្លើយពិតប្រាកដរបស់អ្នកឆ្លើយ ដើម្បីទស្សន៍ទាយកម្រិតពិតប្រាកដបានយ៉ាងត្រឹមត្រូវនិងឆាប់រហ័ស។ ដូចជាការទាយពិន្ទុប្រឡងរបស់សិស្សម្នាក់ ដោយយើងយកប្រវត្តិរៀនពូកែរបស់គាត់ពីមុនៗ មកបូកផ្សំជាមួយចម្លើយតេស្តសាកល្បងថ្មីៗរបស់គាត់ ដើម្បីទាញចេញជាការវាយតម្លៃចុងក្រោយមួយដែលជឿជាក់បាន។
Latent Trait លក្ខណៈកំបាំង ឬ អថេរលាក់កំបាំង គឺជាគុណលក្ខណៈផ្លូវចិត្ត ឬសមត្ថភាពរបស់មនុស្សដែលយើងមិនអាចមើលឃើញ ឬវាស់វែងដោយផ្ទាល់បាន (ដូចជាភាពសប្បាយរីករាយ ក្តីបារម្ភ ឬភាពវៃឆ្លាត) ប៉ុន្តែយើងអាចដឹងនិងគណនាវាបានតាមរយៈការសង្កេតលើអាកប្បកិរិយា ឬចម្លើយរបស់ពួកគេចំពោះសំណួរផ្សេងៗ។ ដូចជាខ្យល់បក់ យើងមិនអាចមើលឃើញខ្យល់ទេ ប៉ុន្តែយើងដឹងថាមានខ្យល់ និងដឹងពីកម្លាំងរបស់វា តាមរយៈការសង្កេតមើលស្លឹកឈើដែលរេ។
Local Independence ឯករាជ្យភាពក្នុងតំបន់ គឺជាលក្ខខណ្ឌមួយនៃទ្រឹស្តី IRT ដែលបញ្ជាក់ថា ចម្លើយដែលបុគ្គលម្នាក់ឆ្លើយចំពោះសំណួរមួយ មិនមានឥទ្ធិពល ឬទាក់ទងដោយផ្ទាល់ទៅនឹងចម្លើយនៃសំណួរមួយទៀតនោះទេ បន្ទាប់ពីកម្រិតសមត្ថភាព (លក្ខណៈកំបាំង) របស់ពួកគេត្រូវបានគ្រប់គ្រង។ ដូចជាការបោះកាក់ពីរដង ការបោះលើកទីមួយចេញរូបក្បាល មិនបានធ្វើឱ្យការបោះលើកទីពីរមានភាគរយចេញរូបកន្ទុយច្រើនជាងមុននោះទេ លទ្ធផលនីមួយៗគឺឯករាជ្យពីគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖