បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះស៊ើបអង្កេតថាតើម៉ូដែលដាក់ពិន្ទុទូទៅដោយស្វ័យប្រវត្តិ (Generic scoring models) របស់ប្រព័ន្ធ e-rater អាចប្រើប្រាស់ប្រកបដោយភាពជឿជាក់ និងសុពលភាព ឬយ៉ាងណា សម្រាប់ការវាយតម្លៃកិច្ចការសរសេរឯករាជ្យក្នុងការប្រឡង TOEFL iBT។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ទិន្នន័យអត្ថបទសរសេររបស់បេក្ខជន ដើម្បីប្រៀបធៀបដំណើរការនៃម៉ូដែលដាក់ពិន្ទុស្វ័យប្រវត្តិផ្សេងៗគ្នាធៀបនឹងអ្នកដាក់ពិន្ទុជាមនុស្ស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Human Raters (Human 1 vs Human 2) ការដាក់ពិន្ទុដោយមនុស្ស (អ្នកដាក់ពិន្ទុទី១ ធៀបនឹងទី២) |
ជាសូចនាករដ៏ល្អប្រសើរក្នុងការឆ្លុះបញ្ចាំងពីសមត្ថភាពភាសាអង់គ្លេសទូទៅ (ស្តាប់ អាន និយាយ) និងអាចយល់ពីអត្ថន័យស៊ីជម្រៅនៃអត្ថបទ។ | ចំណាយពេលយូរ ត្រូវការធនធានច្រើនសម្រាប់ការបណ្តុះបណ្តាល និងតាមដានគុណភាពអ្នកដាក់ពិន្ទុ។ | អត្រាឯកភាពគ្នាបេះបិទ (Exact agreement) ស្មើនឹង 0.60 និងអត្រាឯកភាពប្រហាក់ប្រហែល (Exact + Adjacent) ស្មើនឹង 0.98 ចំណែកឯមេគុណ Kappa ស្មើនឹង 0.46។ |
| Prompt-Specific Model (PS) ម៉ូដែលដាក់ពិន្ទុតាមប្រធានបទជាក់លាក់ |
មានទំនាក់ទំនង (Correlation) ខ្ពស់ជាងគេជាមួយពិន្ទុរបស់មនុស្ស (0.83-0.84) បើប្រៀបធៀបជាមួយម៉ូដែលស្វ័យប្រវត្តិផ្សេងទៀត។ | ទាមទារអត្ថបទដែលបានដាក់ពិន្ទុរួចយ៉ាងហោចណាស់ ៥០០ អត្ថបទសម្រាប់ប្រធានបទនីមួយៗ ដើម្បីយកមកបង្វឹកម៉ូដែល ដែលធ្វើឲ្យមានភាពយឺតយ៉ាវក្នុងការដាក់ពិន្ទុប្រធានបទថ្មីៗ។ | អត្រាឯកភាពគ្នាបេះបិទ 0.55-0.59 និងឯកភាពប្រហាក់ប្រហែល 0.97-0.98។ |
| Generic / Hybrid Models (G1-G3, H1-H3) ម៉ូដែលដាក់ពិន្ទុទូទៅ និងកូនកាត់ |
អាចដាក់ពិន្ទុលើប្រធានបទថ្មីៗបានភ្លាមៗដោយមិនចាំបាច់មានទិន្នន័យអត្ថបទគំរូជាមុន និងមានស្តង់ដារដាក់ពិន្ទុថេរឆ្លងកាត់ប្រធានបទផ្សេងៗគ្នា។ | មានទំនាក់ទំនងជាមួយពិន្ទុរបស់មនុស្សទាបជាងម៉ូដែលតាមប្រធានបទបន្តិចបន្តួច ហើយពិន្ទុមធ្យមមាននិន្នាការខ្ពស់ជាងការដាក់ដោយមនុស្សបន្តិច។ | អត្រាឯកភាពគ្នាបេះបិទ 0.53-0.58 និងឯកភាពប្រហាក់ប្រហែល 0.97 ខណៈពេលដែលមេគុណ Kappa ស្ថិតនៅចន្លោះ 0.38-0.45។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍ និងប្រើប្រាស់ប្រព័ន្ធដាក់ពិន្ទុស្វ័យប្រវត្តិ (AES) ទាមទារនូវទិន្នន័យអត្ថបទក្នុងទំហំធំ និងកម្មវិធីបច្ចេកវិទ្យាវិភាគភាសា (NLP) ក៏ដូចជាធនធានមនុស្សជំនាញដើម្បីវាយតម្លៃជាមូលដ្ឋាន។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីនិស្សិតអន្តរជាតិក្នុងកម្មវិធីសាកល្បង TOEFL iBT ដែលភាគច្រើនមកពីប្រទេសចិន ឥណ្ឌា កូរ៉េ និងជប៉ុន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យពីសិស្សដែលមានភាសាដើមជាភាសាខ្មែរ (L1) អាចជារឿងគួរឲ្យកត់សម្គាល់ ព្រោះលំនាំនៃការសរសេរ កំហុសវេយ្យាករណ៍ និងការប្រើប្រាស់ពាក្យពេចន៍របស់សិស្សខ្មែរអាចមានលក្ខណៈខុសប្លែកពីសិស្សប្រទេសផ្សេង ដែលអាចធ្វើឲ្យម៉ូដែលកាត់ពិន្ទុមិនបានសុក្រឹតល្អ។
វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលដាក់ពិន្ទុទូទៅ (Generic scoring models) មានសក្តានុពលខ្លាំងក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីកាត់បន្ថយបន្ទុកការងាររបស់គ្រូបង្រៀន និងបង្កើនល្បឿននៃការវាយតម្លៃ។
ការអនុវត្តម៉ូដែលដាក់ពិន្ទុទូទៅនឹងជួយសម្រួលដល់ដំណើរការវាយតម្លៃអត្ថបទនៅកម្ពុជាឲ្យមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែវាគួរតែប្រើប្រាស់ជាជំនួយការរបស់គ្រូបង្រៀន ជាជាងការជំនួសគ្រូបង្រៀនទាំងស្រុងសម្រាប់ការសម្រេចចិត្តសំខាន់ៗ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Automated Essay Scoring (AES) | ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត និងការវិភាគភាសា ដើម្បីអាន វាយតម្លៃ និងផ្តល់ពិន្ទុទៅលើអត្ថបទសរសេររបស់មនុស្សដោយស្វ័យប្រវត្តិ។ | ដូចជាគ្រូបង្រៀនយន្តយន្ត (Robot) ដែលចេះអានសំណេររបស់យើងរួចឱ្យពិន្ទុភ្លាមៗដោយមិនបាច់រង់ចាំយូរ។ |
| Generic scoring models | ម៉ូដែលកាត់ពិន្ទុទូទៅ ដែលត្រូវបានបង្កើតឡើងដើម្បីអាចវាយតម្លៃអត្ថបទលើប្រធានបទណាមួយក៏បាននៃប្រភេទវិញ្ញាសាដូចគ្នា ដោយមិនចាំបាច់រៀបចំទិន្នន័យជាក់លាក់សម្រាប់ប្រធានបទនីមួយៗនោះទេ។ | ដូចជាខោអាវយឺតទំហំ Free-size ដែលអ្នកណាក៏អាចស្លៀកបានដោយមិនបាច់វាស់កាត់តាមទំហំរាងកាយម្នាក់ៗ។ |
| Prompt-specific scoring model | ម៉ូដែលកាត់ពិន្ទុដែលត្រូវបានបង្កើតនិងបង្វឹកឡើងសម្រាប់តែប្រធានបទសំណេរមួយជាក់លាក់ប៉ុណ្ណោះ ដោយទាមទារការប្រមូលអត្ថបទគំរូរាប់រយសម្រាប់ប្រធានបទនោះមុននឹងអាចយកមកប្រើបាន។ | ដូចជាសម្លៀកបំពាក់កាត់តម្រូវតាមរាង (Tailor-made) ដែលស័ក្តិសមឥតខ្ចោះសម្រាប់តែមនុស្សម្នាក់ប៉ុណ្ណោះ។ |
| Natural Language Processing (NLP) | បច្ចេកវិទ្យាមួយផ្នែករបស់បញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងទាញយកអត្ថន័យពីភាសាធម្មជាតិរបស់មនុស្ស រួមទាំងវាក្យសព្ទ និងវេយ្យាករណ៍។ | ដូចជាអ្នកបកប្រែភាសាដែលជួយបំប្លែងពាក្យសម្តីរបស់យើងទៅជាកូដដែលម៉ាស៊ីនអាចយល់និងគិតបាន។ |
| Cross-validation | វិធីសាស្ត្រស្ថិតិក្នុងការបែងចែកទិន្នន័យជាច្រើនចំណែក (ឧទាហរណ៍ n-fold) ដើម្បីយកមួយចំណែកមកសាកល្បងភាពត្រឹមត្រូវនៃម៉ូដែល ខណៈចំណែកផ្សេងទៀតប្រើសម្រាប់បង្វឹកម៉ូដែល ហើយធ្វើបែបនេះត្រឡប់ចុះឡើងដើម្បីធានាភាពសុក្រឹត។ | ដូចជាការសាកល្បងភ្លក់ម្ហូបច្រើនកន្លែងផ្សេងៗគ្នាក្នុងឆ្នាំងតែមួយ ដើម្បីឱ្យប្រាកដថាវាមានរសជាតិស្មើគ្នាទូទាំងឆ្នាំង។ |
| Cohen's kappa | រង្វាស់ស្ថិតិដែលវាស់ស្ទង់កម្រិតនៃការឯកភាពគ្នា (Agreement) រវាងអ្នកវាយតម្លៃពីរនាក់ (ឬរវាងមនុស្សនិងម៉ាស៊ីន) ដោយបានដកចេញនូវឱកាសនៃការស្របគ្នាដោយចៃដន្យរួចជាស្រេច។ | ដូចជាការវាស់ថាតើគ្រូពីរនាក់ដាក់ពិន្ទុដូចគ្នាដោយសារតែពួកគាត់ពិតជាមានស្តង់ដារដូចគ្នា ឬគ្រាន់តែចៃដន្យដាក់ពិន្ទុត្រូវគ្នា។ |
| Exact plus adjacent score agreement | អត្រានៃការដាក់ពិន្ទុដែលអ្នកវាយតម្លៃពីរនាក់ (ឬម៉ាស៊ីននិងមនុស្ស) ផ្តល់ពិន្ទុដូចគ្នាបេះបិទ (Exact) ឬខុសគ្នាតែមួយកម្រិត (Adjacent ឧទាហរណ៍ ម្នាក់ឱ្យ ៣ ម្នាក់ទៀតឱ្យ ៤)។ | ដូចជាពេលយើងទាយអាយុគេ បើយើងទាយត្រូវចំអាយុពិតប្រាកដ ឬខុសគ្នាតែមួយឆ្នាំ គឺចាត់ទុកថាអាចទទួលយកបានដូចគ្នា។ |
| Criterion-related validity | ការវាស់ស្ទង់ថាតើពិន្ទុដែលទទួលបានពីឧបករណ៍វាយតម្លៃមួយ (ឧទាហរណ៍ ម៉ាស៊ីន e-rater) មានទំនាក់ទំនងនិងភាពត្រឹមត្រូវកម្រិតណា ធៀបនឹងលទ្ធផលនៃការវាស់ស្ទង់សមត្ថភាពជាក់ស្តែងផ្សេងទៀត (ឧទាហរណ៍ ពិន្ទុប្រឡងផ្នែកអាននិងស្តាប់)។ | ដូចជាការផ្ទៀងផ្ទាត់ថាតើជញ្ជីងថ្លឹងគីឡូថ្មីរបស់យើងដើរត្រូវឬអត់ ដោយយកវាទៅប្រៀបធៀបជាមួយជញ្ជីងពេទ្យដែលយើងដឹងថាមានស្តង់ដារត្រឹមត្រូវ។ |
| Spearman-Brown Prophecy Formula | រូបមន្តគណិតវិទ្យាប្រើសម្រាប់ទស្សន៍ទាយកម្រិតភាពជឿជាក់ (Reliability) នៃការប្រឡងឬការវាយតម្លៃ ប្រសិនបើគេធ្វើការផ្លាស់ប្តូរចំនួនសំនួរ ឬចំនួនអ្នកវាយតម្លៃ (ឧទាហរណ៍ បូកបញ្ចូលពិន្ទុគ្រូនិងម៉ាស៊ីន)។ | ដូចជាការទស្សន៍ទាយថាតើការសម្រេចក្តីនឹងកាន់តែសុក្រឹតនិងយុត្តិធម៌កម្រិតណា ប្រសិនបើយើងបន្ថែមចៅក្រមពី ២នាក់ ទៅ ៤នាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖