Original Title: Investigating the Feasibility of Generic Scoring Models of E-rater® for TOEFL® iBT Independent Writing Tasks
Source: doi.org/10.17936/pkelt.2016.28.1.6
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស៊ើបអង្កេតលើភាពអាចធ្វើទៅបាននៃម៉ូដែលដាក់ពិន្ទុទូទៅរបស់ E-rater® សម្រាប់កិច្ចការសរសេរឯករាជ្យនៃការប្រឡង TOEFL® iBT

ចំណងជើងដើម៖ Investigating the Feasibility of Generic Scoring Models of E-rater® for TOEFL® iBT Independent Writing Tasks

អ្នកនិពន្ធ៖ Yong-Won Lee (Seoul National University)

ឆ្នាំបោះពុម្ព៖ 2016, English Language Teaching

វិស័យសិក្សា៖ Educational Measurement

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះស៊ើបអង្កេតថាតើម៉ូដែលដាក់ពិន្ទុទូទៅដោយស្វ័យប្រវត្តិ (Generic scoring models) របស់ប្រព័ន្ធ e-rater អាចប្រើប្រាស់ប្រកបដោយភាពជឿជាក់ និងសុពលភាព ឬយ៉ាងណា សម្រាប់ការវាយតម្លៃកិច្ចការសរសេរឯករាជ្យក្នុងការប្រឡង TOEFL iBT។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យអត្ថបទសរសេររបស់បេក្ខជន ដើម្បីប្រៀបធៀបដំណើរការនៃម៉ូដែលដាក់ពិន្ទុស្វ័យប្រវត្តិផ្សេងៗគ្នាធៀបនឹងអ្នកដាក់ពិន្ទុជាមនុស្ស។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Human Raters (Human 1 vs Human 2)
ការដាក់ពិន្ទុដោយមនុស្ស (អ្នកដាក់ពិន្ទុទី១ ធៀបនឹងទី២)
ជាសូចនាករដ៏ល្អប្រសើរក្នុងការឆ្លុះបញ្ចាំងពីសមត្ថភាពភាសាអង់គ្លេសទូទៅ (ស្តាប់ អាន និយាយ) និងអាចយល់ពីអត្ថន័យស៊ីជម្រៅនៃអត្ថបទ។ ចំណាយពេលយូរ ត្រូវការធនធានច្រើនសម្រាប់ការបណ្តុះបណ្តាល និងតាមដានគុណភាពអ្នកដាក់ពិន្ទុ។ អត្រាឯកភាពគ្នាបេះបិទ (Exact agreement) ស្មើនឹង 0.60 និងអត្រាឯកភាពប្រហាក់ប្រហែល (Exact + Adjacent) ស្មើនឹង 0.98 ចំណែកឯមេគុណ Kappa ស្មើនឹង 0.46។
Prompt-Specific Model (PS)
ម៉ូដែលដាក់ពិន្ទុតាមប្រធានបទជាក់លាក់
មានទំនាក់ទំនង (Correlation) ខ្ពស់ជាងគេជាមួយពិន្ទុរបស់មនុស្ស (0.83-0.84) បើប្រៀបធៀបជាមួយម៉ូដែលស្វ័យប្រវត្តិផ្សេងទៀត។ ទាមទារអត្ថបទដែលបានដាក់ពិន្ទុរួចយ៉ាងហោចណាស់ ៥០០ អត្ថបទសម្រាប់ប្រធានបទនីមួយៗ ដើម្បីយកមកបង្វឹកម៉ូដែល ដែលធ្វើឲ្យមានភាពយឺតយ៉ាវក្នុងការដាក់ពិន្ទុប្រធានបទថ្មីៗ។ អត្រាឯកភាពគ្នាបេះបិទ 0.55-0.59 និងឯកភាពប្រហាក់ប្រហែល 0.97-0.98។
Generic / Hybrid Models (G1-G3, H1-H3)
ម៉ូដែលដាក់ពិន្ទុទូទៅ និងកូនកាត់
អាចដាក់ពិន្ទុលើប្រធានបទថ្មីៗបានភ្លាមៗដោយមិនចាំបាច់មានទិន្នន័យអត្ថបទគំរូជាមុន និងមានស្តង់ដារដាក់ពិន្ទុថេរឆ្លងកាត់ប្រធានបទផ្សេងៗគ្នា។ មានទំនាក់ទំនងជាមួយពិន្ទុរបស់មនុស្សទាបជាងម៉ូដែលតាមប្រធានបទបន្តិចបន្តួច ហើយពិន្ទុមធ្យមមាននិន្នាការខ្ពស់ជាងការដាក់ដោយមនុស្សបន្តិច។ អត្រាឯកភាពគ្នាបេះបិទ 0.53-0.58 និងឯកភាពប្រហាក់ប្រហែល 0.97 ខណៈពេលដែលមេគុណ Kappa ស្ថិតនៅចន្លោះ 0.38-0.45។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍ និងប្រើប្រាស់ប្រព័ន្ធដាក់ពិន្ទុស្វ័យប្រវត្តិ (AES) ទាមទារនូវទិន្នន័យអត្ថបទក្នុងទំហំធំ និងកម្មវិធីបច្ចេកវិទ្យាវិភាគភាសា (NLP) ក៏ដូចជាធនធានមនុស្សជំនាញដើម្បីវាយតម្លៃជាមូលដ្ឋាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីនិស្សិតអន្តរជាតិក្នុងកម្មវិធីសាកល្បង TOEFL iBT ដែលភាគច្រើនមកពីប្រទេសចិន ឥណ្ឌា កូរ៉េ និងជប៉ុន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យពីសិស្សដែលមានភាសាដើមជាភាសាខ្មែរ (L1) អាចជារឿងគួរឲ្យកត់សម្គាល់ ព្រោះលំនាំនៃការសរសេរ កំហុសវេយ្យាករណ៍ និងការប្រើប្រាស់ពាក្យពេចន៍របស់សិស្សខ្មែរអាចមានលក្ខណៈខុសប្លែកពីសិស្សប្រទេសផ្សេង ដែលអាចធ្វើឲ្យម៉ូដែលកាត់ពិន្ទុមិនបានសុក្រឹតល្អ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលដាក់ពិន្ទុទូទៅ (Generic scoring models) មានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីកាត់បន្ថយបន្ទុកការងាររបស់គ្រូបង្រៀន និងបង្កើនល្បឿននៃការវាយតម្លៃ។

ការអនុវត្តម៉ូដែលដាក់ពិន្ទុទូទៅនឹងជួយសម្រួលដល់ដំណើរការវាយតម្លៃអត្ថបទនៅកម្ពុជាឲ្យមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែវាគួរតែប្រើប្រាស់ជាជំនួយការរបស់គ្រូបង្រៀន ជាជាងការជំនួសគ្រូបង្រៀនទាំងស្រុងសម្រាប់ការសម្រេចចិត្តសំខាន់ៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង AES: ចាប់ផ្តើមរៀនពីគោលការណ៍គ្រឹះនៃ Natural Language Processing និងវិធីសាស្ត្រវាយតម្លៃអត្ថបទស្វ័យប្រវត្តិ ដោយផ្តោតលើការទាញយកលក្ខណៈ (Feature Extraction) ដូចជាកម្រិតវាក្យសព្ទ និងវេយ្យាករណ៍។
  2. សាកល្បងប្រើប្រាស់ឧបករណ៍កូដបើកចំហ (Open-Source Tools): ប្រើប្រាស់ភាសាកម្មវិធី Python ជាមួយនឹងបណ្ណាល័យ (Libraries) ដូចជា NLTKspaCy ដើម្បីសាកល្បងវិភាគអត្ថបទភាសាអង់គ្លេសសាមញ្ញ និងរាប់ចំនួនពាក្យ កំហុសវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធប្រយោគ។
  3. ប្រមូល និងរៀបចំទិន្នន័យក្នុងស្រុក: បង្កើតមូលដ្ឋានទិន្នន័យខ្នាតតូចមួយដោយប្រមូលអត្ថបទសរសេរជាភាសាអង់គ្លេសពីនិស្សិតកម្ពុជា (ឧ. ៣០០-៥០០ អត្ថបទ) ហើយសុំឲ្យគ្រូបង្រៀនយ៉ាងហោចណាស់២នាក់ជួយដាក់ពិន្ទុតាមស្តង់ដាររួម (Rubric)។
  4. អភិវឌ្ឍម៉ូដែលវាយតម្លៃទូទៅ (Generic Model): ប្រើប្រាស់ scikit-learn ដើម្បីបង្វឹកម៉ូដែល Multiple Regression មួយ ដោយប្រើអថេរ (Variables) ទូទៅដែលមិនពឹងផ្អែកលើប្រធានបទជាក់លាក់ ដើម្បីឲ្យវាអាចដាក់ពិន្ទុបានគ្រប់ប្រធានបទ។
  5. វាយតម្លៃ និងកែលម្អសុពលភាពម៉ូដែល: ប្រៀបធៀបពិន្ទុដែលចេញពីម៉ាស៊ីនជាមួយនឹងពិន្ទុរបស់គ្រូបង្រៀន ដោយគណនាអត្រា Exact + Adjacent Agreement និង Cohen's Kappa រួចធ្វើការកែតម្រូវអថេរដើម្បីបង្កើនភាពសុក្រឹត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Automated Essay Scoring (AES) ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត និងការវិភាគភាសា ដើម្បីអាន វាយតម្លៃ និងផ្តល់ពិន្ទុទៅលើអត្ថបទសរសេររបស់មនុស្សដោយស្វ័យប្រវត្តិ។ ដូចជាគ្រូបង្រៀនយន្តយន្ត (Robot) ដែលចេះអានសំណេររបស់យើងរួចឱ្យពិន្ទុភ្លាមៗដោយមិនបាច់រង់ចាំយូរ។
Generic scoring models ម៉ូដែលកាត់ពិន្ទុទូទៅ ដែលត្រូវបានបង្កើតឡើងដើម្បីអាចវាយតម្លៃអត្ថបទលើប្រធានបទណាមួយក៏បាននៃប្រភេទវិញ្ញាសាដូចគ្នា ដោយមិនចាំបាច់រៀបចំទិន្នន័យជាក់លាក់សម្រាប់ប្រធានបទនីមួយៗនោះទេ។ ដូចជាខោអាវយឺតទំហំ Free-size ដែលអ្នកណាក៏អាចស្លៀកបានដោយមិនបាច់វាស់កាត់តាមទំហំរាងកាយម្នាក់ៗ។
Prompt-specific scoring model ម៉ូដែលកាត់ពិន្ទុដែលត្រូវបានបង្កើតនិងបង្វឹកឡើងសម្រាប់តែប្រធានបទសំណេរមួយជាក់លាក់ប៉ុណ្ណោះ ដោយទាមទារការប្រមូលអត្ថបទគំរូរាប់រយសម្រាប់ប្រធានបទនោះមុននឹងអាចយកមកប្រើបាន។ ដូចជាសម្លៀកបំពាក់កាត់តម្រូវតាមរាង (Tailor-made) ដែលស័ក្តិសមឥតខ្ចោះសម្រាប់តែមនុស្សម្នាក់ប៉ុណ្ណោះ។
Natural Language Processing (NLP) បច្ចេកវិទ្យាមួយផ្នែករបស់បញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងទាញយកអត្ថន័យពីភាសាធម្មជាតិរបស់មនុស្ស រួមទាំងវាក្យសព្ទ និងវេយ្យាករណ៍។ ដូចជាអ្នកបកប្រែភាសាដែលជួយបំប្លែងពាក្យសម្តីរបស់យើងទៅជាកូដដែលម៉ាស៊ីនអាចយល់និងគិតបាន។
Cross-validation វិធីសាស្ត្រស្ថិតិក្នុងការបែងចែកទិន្នន័យជាច្រើនចំណែក (ឧទាហរណ៍ n-fold) ដើម្បីយកមួយចំណែកមកសាកល្បងភាពត្រឹមត្រូវនៃម៉ូដែល ខណៈចំណែកផ្សេងទៀតប្រើសម្រាប់បង្វឹកម៉ូដែល ហើយធ្វើបែបនេះត្រឡប់ចុះឡើងដើម្បីធានាភាពសុក្រឹត។ ដូចជាការសាកល្បងភ្លក់ម្ហូបច្រើនកន្លែងផ្សេងៗគ្នាក្នុងឆ្នាំងតែមួយ ដើម្បីឱ្យប្រាកដថាវាមានរសជាតិស្មើគ្នាទូទាំងឆ្នាំង។
Cohen's kappa រង្វាស់ស្ថិតិដែលវាស់ស្ទង់កម្រិតនៃការឯកភាពគ្នា (Agreement) រវាងអ្នកវាយតម្លៃពីរនាក់ (ឬរវាងមនុស្សនិងម៉ាស៊ីន) ដោយបានដកចេញនូវឱកាសនៃការស្របគ្នាដោយចៃដន្យរួចជាស្រេច។ ដូចជាការវាស់ថាតើគ្រូពីរនាក់ដាក់ពិន្ទុដូចគ្នាដោយសារតែពួកគាត់ពិតជាមានស្តង់ដារដូចគ្នា ឬគ្រាន់តែចៃដន្យដាក់ពិន្ទុត្រូវគ្នា។
Exact plus adjacent score agreement អត្រានៃការដាក់ពិន្ទុដែលអ្នកវាយតម្លៃពីរនាក់ (ឬម៉ាស៊ីននិងមនុស្ស) ផ្តល់ពិន្ទុដូចគ្នាបេះបិទ (Exact) ឬខុសគ្នាតែមួយកម្រិត (Adjacent ឧទាហរណ៍ ម្នាក់ឱ្យ ៣ ម្នាក់ទៀតឱ្យ ៤)។ ដូចជាពេលយើងទាយអាយុគេ បើយើងទាយត្រូវចំអាយុពិតប្រាកដ ឬខុសគ្នាតែមួយឆ្នាំ គឺចាត់ទុកថាអាចទទួលយកបានដូចគ្នា។
Criterion-related validity ការវាស់ស្ទង់ថាតើពិន្ទុដែលទទួលបានពីឧបករណ៍វាយតម្លៃមួយ (ឧទាហរណ៍ ម៉ាស៊ីន e-rater) មានទំនាក់ទំនងនិងភាពត្រឹមត្រូវកម្រិតណា ធៀបនឹងលទ្ធផលនៃការវាស់ស្ទង់សមត្ថភាពជាក់ស្តែងផ្សេងទៀត (ឧទាហរណ៍ ពិន្ទុប្រឡងផ្នែកអាននិងស្តាប់)។ ដូចជាការផ្ទៀងផ្ទាត់ថាតើជញ្ជីងថ្លឹងគីឡូថ្មីរបស់យើងដើរត្រូវឬអត់ ដោយយកវាទៅប្រៀបធៀបជាមួយជញ្ជីងពេទ្យដែលយើងដឹងថាមានស្តង់ដារត្រឹមត្រូវ។
Spearman-Brown Prophecy Formula រូបមន្តគណិតវិទ្យាប្រើសម្រាប់ទស្សន៍ទាយកម្រិតភាពជឿជាក់ (Reliability) នៃការប្រឡងឬការវាយតម្លៃ ប្រសិនបើគេធ្វើការផ្លាស់ប្តូរចំនួនសំនួរ ឬចំនួនអ្នកវាយតម្លៃ (ឧទាហរណ៍ បូកបញ្ចូលពិន្ទុគ្រូនិងម៉ាស៊ីន)។ ដូចជាការទស្សន៍ទាយថាតើការសម្រេចក្តីនឹងកាន់តែសុក្រឹតនិងយុត្តិធម៌កម្រិតណា ប្រសិនបើយើងបន្ថែមចៅក្រមពី ២នាក់ ទៅ ៤នាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖