Original Title: Investigating the Feasibility of Generic Scoring Models of E-rater® for TOEFL® iBT Independent Writing Tasks
Source: doi.org/10.17936/pkelt.2016.28.1.6
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស៊ើបអង្កេតលើភាពអាចធ្វើទៅបាននៃម៉ូដែលដាក់ពិន្ទុទូទៅរបស់ E-rater® សម្រាប់កិច្ចការសរសេរឯករាជ្យនៃការប្រឡង TOEFL® iBT

ចំណងជើងដើម៖ Investigating the Feasibility of Generic Scoring Models of E-rater® for TOEFL® iBT Independent Writing Tasks

អ្នកនិពន្ធ៖ Yong-Won Lee (Seoul National University)

ឆ្នាំបោះពុម្ព៖ 2016, English Language Teaching

វិស័យសិក្សា៖ Educational Measurement

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះស៊ើបអង្កេតថាតើម៉ូដែលដាក់ពិន្ទុទូទៅដោយស្វ័យប្រវត្តិ (Generic scoring models) របស់ប្រព័ន្ធ e-rater អាចប្រើប្រាស់ប្រកបដោយភាពជឿជាក់ និងសុពលភាព ឬយ៉ាងណា សម្រាប់ការវាយតម្លៃកិច្ចការសរសេរឯករាជ្យក្នុងការប្រឡង TOEFL iBT។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យអត្ថបទសរសេររបស់បេក្ខជន ដើម្បីប្រៀបធៀបដំណើរការនៃម៉ូដែលដាក់ពិន្ទុស្វ័យប្រវត្តិផ្សេងៗគ្នាធៀបនឹងអ្នកដាក់ពិន្ទុជាមនុស្ស។

ការបង្កើតម៉ូដែលដាក់ពិន្ទុទូទៅ និងកូនកាត់ (Generic and Hybrid Model Building)
ការវាយតម្លៃអត្ថបទសរសេរឯករាជ្យរបស់បេក្ខជនប្រឡង TOEFL iBT ចំនួន ៣,១២៦ នាក់ (Evaluating 3,126 TOEFL iBT independent essays)
ការវិភាគកម្រិតនៃភាពស្របគ្នា និងសុពលភាពរវាងពិន្ទុម៉ាស៊ីន និងមនុស្ស (Agreement and Validity Analysis between Automated and Human Scores)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល e-rater ទូទៅ (Generic models) ទទួលបានកម្រិតយល់ព្រមពិន្ទុខ្ពស់ធៀបនឹងមនុស្ស ពោលគឺចន្លោះពី 0.97 ដល់ 0.98 សម្រាប់អត្រាពិន្ទុដូចគ្នា និងប្រហាក់ប្រហែល (Exact + Adjacent) ដែលបង្ហាញពីភាពជឿទុកចិត្តបានសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។
ប្រភេទនៃម៉ូដែលដាក់ពិន្ទុស្វ័យប្រវត្តិ និងការជ្រើសរើសប្រធានបទសរសេរ មានឥទ្ធិពលតិចតួចបំផុតទៅលើភាពប្រែប្រួលនៃពិន្ទុ ដែលបញ្ជាក់ពីភាពរឹងមាំនៃវិធីសាស្ត្រវាយតម្លៃតាមបែបប្រព័ន្ធទូទៅនេះ។
ទោះជាយ៉ាងណាក៏ដោយ ពិន្ទុដែលផ្តល់ដោយមនុស្សនៅតែជាសូចនាករដែលឆ្លុះបញ្ចាំងពីសមត្ថភាពភាសាអង់គ្លេសទូទៅ (ការអាន ស្តាប់ និងនិយាយ) របស់បេក្ខជនបានល្អជាងប្រព័ន្ធស្វ័យប្រវត្តិបន្តិចបន្តួច។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Human Raters (Human 1 vs Human 2) ការដាក់ពិន្ទុដោយមនុស្ស (អ្នកដាក់ពិន្ទុទី១ ធៀបនឹងទី២)	ជាសូចនាករដ៏ល្អប្រសើរក្នុងការឆ្លុះបញ្ចាំងពីសមត្ថភាពភាសាអង់គ្លេសទូទៅ (ស្តាប់ អាន និយាយ) និងអាចយល់ពីអត្ថន័យស៊ីជម្រៅនៃអត្ថបទ។	ចំណាយពេលយូរ ត្រូវការធនធានច្រើនសម្រាប់ការបណ្តុះបណ្តាល និងតាមដានគុណភាពអ្នកដាក់ពិន្ទុ។	អត្រាឯកភាពគ្នាបេះបិទ (Exact agreement) ស្មើនឹង 0.60 និងអត្រាឯកភាពប្រហាក់ប្រហែល (Exact + Adjacent) ស្មើនឹង 0.98 ចំណែកឯមេគុណ Kappa ស្មើនឹង 0.46។
Prompt-Specific Model (PS) ម៉ូដែលដាក់ពិន្ទុតាមប្រធានបទជាក់លាក់	មានទំនាក់ទំនង (Correlation) ខ្ពស់ជាងគេជាមួយពិន្ទុរបស់មនុស្ស (0.83-0.84) បើប្រៀបធៀបជាមួយម៉ូដែលស្វ័យប្រវត្តិផ្សេងទៀត។	ទាមទារអត្ថបទដែលបានដាក់ពិន្ទុរួចយ៉ាងហោចណាស់ ៥០០ អត្ថបទសម្រាប់ប្រធានបទនីមួយៗ ដើម្បីយកមកបង្វឹកម៉ូដែល ដែលធ្វើឲ្យមានភាពយឺតយ៉ាវក្នុងការដាក់ពិន្ទុប្រធានបទថ្មីៗ។	អត្រាឯកភាពគ្នាបេះបិទ 0.55-0.59 និងឯកភាពប្រហាក់ប្រហែល 0.97-0.98។
Generic / Hybrid Models (G1-G3, H1-H3) ម៉ូដែលដាក់ពិន្ទុទូទៅ និងកូនកាត់	អាចដាក់ពិន្ទុលើប្រធានបទថ្មីៗបានភ្លាមៗដោយមិនចាំបាច់មានទិន្នន័យអត្ថបទគំរូជាមុន និងមានស្តង់ដារដាក់ពិន្ទុថេរឆ្លងកាត់ប្រធានបទផ្សេងៗគ្នា។	មានទំនាក់ទំនងជាមួយពិន្ទុរបស់មនុស្សទាបជាងម៉ូដែលតាមប្រធានបទបន្តិចបន្តួច ហើយពិន្ទុមធ្យមមាននិន្នាការខ្ពស់ជាងការដាក់ដោយមនុស្សបន្តិច។	អត្រាឯកភាពគ្នាបេះបិទ 0.53-0.58 និងឯកភាពប្រហាក់ប្រហែល 0.97 ខណៈពេលដែលមេគុណ Kappa ស្ថិតនៅចន្លោះ 0.38-0.45។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍ និងប្រើប្រាស់ប្រព័ន្ធដាក់ពិន្ទុស្វ័យប្រវត្តិ (AES) ទាមទារនូវទិន្នន័យអត្ថបទក្នុងទំហំធំ និងកម្មវិធីបច្ចេកវិទ្យាវិភាគភាសា (NLP) ក៏ដូចជាធនធានមនុស្សជំនាញដើម្បីវាយតម្លៃជាមូលដ្ឋាន។

Software: ប្រព័ន្ធកុំព្យូទ័រដែលអាចដំណើរការបច្ចេកវិទ្យាវិភាគអត្ថបទ Natural Language Processing (NLP) ដូចជា e-rater ដើម្បីទាញយកលក្ខណៈពិសេស (Features) ពីអត្ថបទ។
Dataset: ទិន្នន័យអត្ថបទសរសេររាប់ពាន់ច្បាប់ (ឧ. អត្ថបទ TOEFL CBT ចំនួន ៤០ ប្រធានបទ និង ៥០០ អត្ថបទក្នុងមួយប្រធានបទ) ដែលត្រូវបានដាក់ពិន្ទុរួចដោយមនុស្ស ដើម្បីយកមកបង្វឹកម៉ូដែល។
Expertise: អ្នកជំនាញផ្នែកភាសា (Human Raters) ដើម្បីវាយតម្លៃអត្ថបទជាមុន និងអ្នកជំនាញផ្នែកស្ថិតិ (Psychometricians) ដើម្បីគណនាសុពលភាព និងភាពជឿជាក់នៃម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីនិស្សិតអន្តរជាតិក្នុងកម្មវិធីសាកល្បង TOEFL iBT ដែលភាគច្រើនមកពីប្រទេសចិន ឥណ្ឌា កូរ៉េ និងជប៉ុន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យពីសិស្សដែលមានភាសាដើមជាភាសាខ្មែរ (L1) អាចជារឿងគួរឲ្យកត់សម្គាល់ ព្រោះលំនាំនៃការសរសេរ កំហុសវេយ្យាករណ៍ និងការប្រើប្រាស់ពាក្យពេចន៍របស់សិស្សខ្មែរអាចមានលក្ខណៈខុសប្លែកពីសិស្សប្រទេសផ្សេង ដែលអាចធ្វើឲ្យម៉ូដែលកាត់ពិន្ទុមិនបានសុក្រឹតល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលដាក់ពិន្ទុទូទៅ (Generic scoring models) មានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីកាត់បន្ថយបន្ទុកការងាររបស់គ្រូបង្រៀន និងបង្កើនល្បឿននៃការវាយតម្លៃ។

National Exams (MoEYS): ក្រសួងអប់រំ យុវជន និងកីឡា អាចប្រើប្រាស់ប្រព័ន្ធ AES ជាអ្នកវាយតម្លៃទី២ (Second Rater) ដើម្បីផ្ទៀងផ្ទាត់ពិន្ទុវិញ្ញាសាសរសេរភាសាអង់គ្លេសសម្រាប់ការប្រឡងបាក់ឌុប កាត់បន្ថយភាពលម្អៀង។
University English Programs (IFL/RUPP): វិទ្យាស្ថានភាសាបរទេស (IFL) ឬសាកលវិទ្យាល័យនានា អាចប្រើម៉ូដែលនេះដើម្បីផ្តល់មតិកែលម្អ (Feedback) លឿនរហ័សដល់និស្សិតនៅក្នុងថ្នាក់រៀនសរសេរ (Academic Writing) ដោយមិនបាច់រង់ចាំគ្រូពិនិត្យរាល់សប្តាហ៍។
EdTech Startups in Cambodia: ក្រុមហ៊ុនបច្ចេកវិទ្យាអប់រំក្នុងស្រុកអាចបញ្ចូលម៉ូដែលនេះទៅក្នុងកម្មវិធីសិក្សាភាសាអង់គ្លេសរបស់ខ្លួន ដើម្បីឲ្យសិស្សអាចហ្វឹកហាត់សរសេរ និងដឹងកម្រិតពិន្ទុរបស់ខ្លួនមុនពេលប្រឡង IELTS ឬ TOEFL។

ការអនុវត្តម៉ូដែលដាក់ពិន្ទុទូទៅនឹងជួយសម្រួលដល់ដំណើរការវាយតម្លៃអត្ថបទនៅកម្ពុជាឲ្យមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែវាគួរតែប្រើប្រាស់ជាជំនួយការរបស់គ្រូបង្រៀន ជាជាងការជំនួសគ្រូបង្រៀនទាំងស្រុងសម្រាប់ការសម្រេចចិត្តសំខាន់ៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង AES: ចាប់ផ្តើមរៀនពីគោលការណ៍គ្រឹះនៃ Natural Language Processing និងវិធីសាស្ត្រវាយតម្លៃអត្ថបទស្វ័យប្រវត្តិ ដោយផ្តោតលើការទាញយកលក្ខណៈ (Feature Extraction) ដូចជាកម្រិតវាក្យសព្ទ និងវេយ្យាករណ៍។
សាកល្បងប្រើប្រាស់ឧបករណ៍កូដបើកចំហ (Open-Source Tools): ប្រើប្រាស់ភាសាកម្មវិធី Python ជាមួយនឹងបណ្ណាល័យ (Libraries) ដូចជា NLTK ឬ spaCy ដើម្បីសាកល្បងវិភាគអត្ថបទភាសាអង់គ្លេសសាមញ្ញ និងរាប់ចំនួនពាក្យ កំហុសវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធប្រយោគ។
ប្រមូល និងរៀបចំទិន្នន័យក្នុងស្រុក: បង្កើតមូលដ្ឋានទិន្នន័យខ្នាតតូចមួយដោយប្រមូលអត្ថបទសរសេរជាភាសាអង់គ្លេសពីនិស្សិតកម្ពុជា (ឧ. ៣០០-៥០០ អត្ថបទ) ហើយសុំឲ្យគ្រូបង្រៀនយ៉ាងហោចណាស់២នាក់ជួយដាក់ពិន្ទុតាមស្តង់ដាររួម (Rubric)។
អភិវឌ្ឍម៉ូដែលវាយតម្លៃទូទៅ (Generic Model): ប្រើប្រាស់ scikit-learn ដើម្បីបង្វឹកម៉ូដែល Multiple Regression មួយ ដោយប្រើអថេរ (Variables) ទូទៅដែលមិនពឹងផ្អែកលើប្រធានបទជាក់លាក់ ដើម្បីឲ្យវាអាចដាក់ពិន្ទុបានគ្រប់ប្រធានបទ។
វាយតម្លៃ និងកែលម្អសុពលភាពម៉ូដែល: ប្រៀបធៀបពិន្ទុដែលចេញពីម៉ាស៊ីនជាមួយនឹងពិន្ទុរបស់គ្រូបង្រៀន ដោយគណនាអត្រា Exact + Adjacent Agreement និង Cohen's Kappa រួចធ្វើការកែតម្រូវអថេរដើម្បីបង្កើនភាពសុក្រឹត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Automated Essay Scoring (AES)	ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត និងការវិភាគភាសា ដើម្បីអាន វាយតម្លៃ និងផ្តល់ពិន្ទុទៅលើអត្ថបទសរសេររបស់មនុស្សដោយស្វ័យប្រវត្តិ។	ដូចជាគ្រូបង្រៀនយន្តយន្ត (Robot) ដែលចេះអានសំណេររបស់យើងរួចឱ្យពិន្ទុភ្លាមៗដោយមិនបាច់រង់ចាំយូរ។
Generic scoring models	ម៉ូដែលកាត់ពិន្ទុទូទៅ ដែលត្រូវបានបង្កើតឡើងដើម្បីអាចវាយតម្លៃអត្ថបទលើប្រធានបទណាមួយក៏បាននៃប្រភេទវិញ្ញាសាដូចគ្នា ដោយមិនចាំបាច់រៀបចំទិន្នន័យជាក់លាក់សម្រាប់ប្រធានបទនីមួយៗនោះទេ។	ដូចជាខោអាវយឺតទំហំ Free-size ដែលអ្នកណាក៏អាចស្លៀកបានដោយមិនបាច់វាស់កាត់តាមទំហំរាងកាយម្នាក់ៗ។
Prompt-specific scoring model	ម៉ូដែលកាត់ពិន្ទុដែលត្រូវបានបង្កើតនិងបង្វឹកឡើងសម្រាប់តែប្រធានបទសំណេរមួយជាក់លាក់ប៉ុណ្ណោះ ដោយទាមទារការប្រមូលអត្ថបទគំរូរាប់រយសម្រាប់ប្រធានបទនោះមុននឹងអាចយកមកប្រើបាន។	ដូចជាសម្លៀកបំពាក់កាត់តម្រូវតាមរាង (Tailor-made) ដែលស័ក្តិសមឥតខ្ចោះសម្រាប់តែមនុស្សម្នាក់ប៉ុណ្ណោះ។
Natural Language Processing (NLP)	បច្ចេកវិទ្យាមួយផ្នែករបស់បញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងទាញយកអត្ថន័យពីភាសាធម្មជាតិរបស់មនុស្ស រួមទាំងវាក្យសព្ទ និងវេយ្យាករណ៍។	ដូចជាអ្នកបកប្រែភាសាដែលជួយបំប្លែងពាក្យសម្តីរបស់យើងទៅជាកូដដែលម៉ាស៊ីនអាចយល់និងគិតបាន។
Cross-validation	វិធីសាស្ត្រស្ថិតិក្នុងការបែងចែកទិន្នន័យជាច្រើនចំណែក (ឧទាហរណ៍ n-fold) ដើម្បីយកមួយចំណែកមកសាកល្បងភាពត្រឹមត្រូវនៃម៉ូដែល ខណៈចំណែកផ្សេងទៀតប្រើសម្រាប់បង្វឹកម៉ូដែល ហើយធ្វើបែបនេះត្រឡប់ចុះឡើងដើម្បីធានាភាពសុក្រឹត។	ដូចជាការសាកល្បងភ្លក់ម្ហូបច្រើនកន្លែងផ្សេងៗគ្នាក្នុងឆ្នាំងតែមួយ ដើម្បីឱ្យប្រាកដថាវាមានរសជាតិស្មើគ្នាទូទាំងឆ្នាំង។
Cohen's kappa	រង្វាស់ស្ថិតិដែលវាស់ស្ទង់កម្រិតនៃការឯកភាពគ្នា (Agreement) រវាងអ្នកវាយតម្លៃពីរនាក់ (ឬរវាងមនុស្សនិងម៉ាស៊ីន) ដោយបានដកចេញនូវឱកាសនៃការស្របគ្នាដោយចៃដន្យរួចជាស្រេច។	ដូចជាការវាស់ថាតើគ្រូពីរនាក់ដាក់ពិន្ទុដូចគ្នាដោយសារតែពួកគាត់ពិតជាមានស្តង់ដារដូចគ្នា ឬគ្រាន់តែចៃដន្យដាក់ពិន្ទុត្រូវគ្នា។
Exact plus adjacent score agreement	អត្រានៃការដាក់ពិន្ទុដែលអ្នកវាយតម្លៃពីរនាក់ (ឬម៉ាស៊ីននិងមនុស្ស) ផ្តល់ពិន្ទុដូចគ្នាបេះបិទ (Exact) ឬខុសគ្នាតែមួយកម្រិត (Adjacent ឧទាហរណ៍ ម្នាក់ឱ្យ ៣ ម្នាក់ទៀតឱ្យ ៤)។	ដូចជាពេលយើងទាយអាយុគេ បើយើងទាយត្រូវចំអាយុពិតប្រាកដ ឬខុសគ្នាតែមួយឆ្នាំ គឺចាត់ទុកថាអាចទទួលយកបានដូចគ្នា។
Criterion-related validity	ការវាស់ស្ទង់ថាតើពិន្ទុដែលទទួលបានពីឧបករណ៍វាយតម្លៃមួយ (ឧទាហរណ៍ ម៉ាស៊ីន e-rater) មានទំនាក់ទំនងនិងភាពត្រឹមត្រូវកម្រិតណា ធៀបនឹងលទ្ធផលនៃការវាស់ស្ទង់សមត្ថភាពជាក់ស្តែងផ្សេងទៀត (ឧទាហរណ៍ ពិន្ទុប្រឡងផ្នែកអាននិងស្តាប់)។	ដូចជាការផ្ទៀងផ្ទាត់ថាតើជញ្ជីងថ្លឹងគីឡូថ្មីរបស់យើងដើរត្រូវឬអត់ ដោយយកវាទៅប្រៀបធៀបជាមួយជញ្ជីងពេទ្យដែលយើងដឹងថាមានស្តង់ដារត្រឹមត្រូវ។
Spearman-Brown Prophecy Formula	រូបមន្តគណិតវិទ្យាប្រើសម្រាប់ទស្សន៍ទាយកម្រិតភាពជឿជាក់ (Reliability) នៃការប្រឡងឬការវាយតម្លៃ ប្រសិនបើគេធ្វើការផ្លាស់ប្តូរចំនួនសំនួរ ឬចំនួនអ្នកវាយតម្លៃ (ឧទាហរណ៍ បូកបញ្ចូលពិន្ទុគ្រូនិងម៉ាស៊ីន)។	ដូចជាការទស្សន៍ទាយថាតើការសម្រេចក្តីនឹងកាន់តែសុក្រឹតនិងយុត្តិធម៌កម្រិតណា ប្រសិនបើយើងបន្ថែមចៅក្រមពី ២នាក់ ទៅ ៤នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖