Original Title: THE EVOLUTION OF DESCRIPTIVE ANSWER EVALUATION IN E-LEARNING: A PREDICTIVE ANALYTICS AND MACHINE LEARNING PERSPECTIVE
Source: doi.org/10.34293/9789361639715.shanlax.ch.013
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិវត្តនៃការវាយតម្លៃចម្លើយបែបបរិយាយក្នុងការសិក្សាតាមអេឡិចត្រូនិក៖ ទស្សនវិស័យនៃការវិភាគព្យាករណ៍ និងការរៀនរបស់ម៉ាស៊ីន

ចំណងជើងដើម៖ THE EVOLUTION OF DESCRIPTIVE ANSWER EVALUATION IN E-LEARNING: A PREDICTIVE ANALYTICS AND MACHINE LEARNING PERSPECTIVE

អ្នកនិពន្ធ៖ V. Kavitha (B.S. Abdur Rahman Crescent Institute of Science and Technology), Dr. A. Jaya (B.S. Abdur Rahman Crescent Institute of Science and Technology)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Computer Science & Educational Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវាយតម្លៃចម្លើយបែបបរិយាយ (Descriptive responses) នៅក្នុងការសិក្សាតាមប្រព័ន្ធអេឡិចត្រូនិកគឺជាកិច្ចការដ៏លំបាក ដោយសារតែការដាក់ពិន្ទុដោយដៃប្រើពេលវេលាយូរ និងមានភាពលំអៀង ខណៈដែលប្រព័ន្ធស្វ័យប្រវត្តិជំនាន់មុនខ្វះសមត្ថភាពក្នុងការយល់អត្ថន័យស៊ីជម្រៅ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការវិភាគប្រៀបធៀបអំពីការវិវត្តនៃបច្ចេកវិទ្យាវាយតម្លៃចម្លើយ ដោយពិនិត្យមើលពីការផ្លាស់ប្តូរពីប្រព័ន្ធផ្អែកលើច្បាប់ (Rule-based) ទៅជាគំរូបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់។

ការប្រៀបធៀបរវាងប្រព័ន្ធ Rule-Based Systems និងគំរូ Machine Learning ដូចជា SVM និង Naïve Bayes
ការវិភាគលើគំរូ Deep Learning (RNNs, LSTMs) និងគំរូ Transformer (BERT, GPT) ក្នុងការយល់ដឹងបរិបទនៃភាសា

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ Transformer (ដូចជា BERT និង GPT) ផ្តល់នូវសមត្ថភាពយល់ដឹងបរិបទ (Contextual understanding) បានល្អបំផុតបើធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត ប៉ុន្តែវាទាមទារធនធានកុំព្យូទ័រខ្ពស់។
បញ្ហាប្រឈមដែលនៅសេសសល់រួមមាន ការពឹងផ្អែកខ្លាំងលើទិន្នន័យនៃមុខវិជ្ជាជាក់លាក់ (Domain specificity) និងកង្វះសមត្ថភាពក្នុងការវាយតម្លៃភាសាដែលមានរចនាសម្ព័ន្ធចម្រុះ ឬពហុភាសា។
ការប្រើប្រាស់គំរូ Deep Learning ជួបប្រទះបញ្ហាកង្វះតម្លាភាព (Black box models) ដែលធ្វើឱ្យអ្នកអប់រំពិបាកពន្យល់ពីមូលហេតុនៃការផ្តល់ពិន្ទុជាក់លាក់ណាមួយដល់សិស្ស។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Rule-Based Systems ប្រព័ន្ធផ្អែកលើច្បាប់ (Rule-Based Systems)	មានល្បឿនលឿន និងងាយស្រួលបង្កើតសម្រាប់សំណួរដែលមានចម្លើយជាក់លាក់។	មិនអាចបត់បែនបាន (Inflexible) និងខ្វះសមត្ថភាពយល់ដឹងពីអត្ថន័យស៊ីជម្រៅនៃពាក្យសទិសន័យ ឬឃ្លាដែលមានន័យដូចគ្នា។	កម្រិតយល់ដឹងបរិបទទាប (Low Context Understanding) ប៉ុន្តែមានលទ្ធភាពពង្រីកបានខ្ពស់ (High Scalability)។
Traditional Machine Learning (SVM, Naïve Bayes) ការរៀនរបស់ម៉ាស៊ីនបែបប្រពៃណី (Traditional ML)	មានសមត្ថភាពល្អជាងប្រព័ន្ធ Rule-Based ក្នុងការទស្សន៍ទាយពិន្ទុដោយផ្អែកលើទិន្នន័យដែលបានបង្វឹក។	នៅតែពឹងផ្អែកខ្លាំងលើការបង្កើតលក្ខណៈពិសេសដោយដៃ (Feature Engineering) និងមិនទាន់យល់បរិបទបានល្អដូច Deep Learning។	កម្រិតយល់ដឹងបរិបទមធ្យម (Medium Context Understanding) និងផ្តល់មតិកែលម្អជាមូលដ្ឋាន។
Deep Learning (RNNs, LSTMs) ការរៀនស៊ីជម្រៅ (Deep Learning - RNNs/LSTMs)	អាចយល់ដឹងពីលំដាប់នៃពាក្យ (Sequential dependencies) ដែលជួយឱ្យការវិភាគអត្ថន័យកាន់តែត្រឹមត្រូវ។	ទាមទារទិន្នន័យបង្វឹកច្រើនជាងមុន និងប្រឈមនឹងបញ្ហាក្នុងការចងចាំអត្ថន័យនៃប្រយោគវែងៗ។	កម្រិតយល់ដឹងបរិបទខ្ពស់ (High Context Understanding) និងអាចបង្កើតមតិកែលម្អបាន។
Transformer-Based Models (BERT, GPT) គំរូ Transformer (BERT, GPT)	មានសមត្ថភាពខ្ពស់បំផុតក្នុងការយល់ដឹងបរិបទ និងអត្ថន័យភាសា (Semantic meaning) ដូចមនុស្ស។	ទាមទារធនធានកុំព្យូទ័រខ្លាំង (High computational power) និងខ្វះតម្លាភាពក្នុងការពន្យល់ពីរបៀបផ្តល់ពិន្ទុ (Black box)។	កម្រិតយល់ដឹងបរិបទខ្ពស់បំផុត (Very High Context Understanding) ប៉ុន្តែមានលទ្ធភាពពង្រីកទាបដោយសារចំណាយខ្ពស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានខ្ពស់ ជាពិសេសសម្រាប់គំរូ Transformer ដែលត្រូវការថាមពលកុំព្យូទ័រខ្លាំង និងទិន្នន័យដែលបានកត់ត្រាដោយអ្នកជំនាញ។

Computational Hardware: តម្រូវឱ្យមាន GPUs ដែលមានសមត្ថភាពខ្ពស់សម្រាប់បង្វឹកគំរូ Deep Learning និង Transformer (BERT/GPT) ។
Labeled Dataset: ត្រូវការទិន្នន័យចម្លើយសិស្សរាប់ពាន់ដែលត្រូវបានផ្តល់ពិន្ទុយ៉ាងត្រឹមត្រូវដោយគ្រូជំនាញ ដើម្បីបង្វឹកប្រព័ន្ធ។
Expertise: ត្រូវការអ្នកជំនាញផ្នែក Natural Language Processing (NLP) ដើម្បីកែសម្រួលគំរូ (Fine-tuning) ឱ្យត្រូវនឹងបរិបទនៃមុខវិជ្ជា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះបង្ហាញពីបញ្ហាប្រឈមធំមួយគឺគំរូភាគច្រើនត្រូវបានបង្វឹកលើទិន្នន័យភាសាអង់គ្លេស។ សម្រាប់កម្ពុជា នេះគឺជាឧបសគ្គធំ ដោយសាររចនាសម្ព័ន្ធភាសាខ្មែរ (Khmer language structure) មានភាពស្មុគស្មាញ និងខ្វះខាតទិន្នន័យសម្រាប់បង្វឹក (Low-resource language) បើធៀបនឹងភាសាអង់គ្លេស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្ដានុពលខ្ពស់សម្រាប់គ្រឹះស្ថានឧត្តមសិក្សានៅកម្ពុជាដែលកំពុងអនុវត្តការសិក្សាតាមអេឡិចត្រូនិក ប៉ុន្តែត្រូវការការកែសម្រួលបន្ថែម។

សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ (RUPP) និង វិទ្យាស្ថានបច្ចេកវិទ្យាកម្ពុជា (ITC): អាចប្រើប្រាស់សម្រាប់វាយតម្លៃមុខវិជ្ជាវិទ្យាសាស្ត្រកុំព្យូទ័រ ឬភាសាអង់គ្លេស ដែលប្រើប្រាស់ភាសាអង់គ្លេសជាគោល។
ការបង្កើតមាតិកាឌីជីថល (Digital Learning Platforms): ថ្នាលសិក្សាដូចជា MoEYS E-Learning អាចប្រើប្រព័ន្ធនេះដើម្បីផ្តល់ការវាយតម្លៃបឋមដល់សិស្ស ប៉ុន្តែត្រូវអភិវឌ្ឍម៉ូដែលភាសាខ្មែរជាមុនសិន។
បញ្ហាប្រឈមផ្នែកភាសា (Language Barrier): ការប្រើប្រាស់ផ្ទាល់នឹងមិនមានប្រសិទ្ធភាពសម្រាប់មុខវិជ្ជាដែលបង្រៀនជាភាសាខ្មែរ ដោយសារគំរូត្រូវការការបង្វឹកលើអត្ថបទភាសាខ្មែរ (Khmer NLP)។

សម្រាប់ការអនុវត្តនៅកម្ពុជា ការចាប់ផ្តើមជាមួយនឹងមុខវិជ្ជាភាសាអង់គ្លេស ឬការសហការស្រាវជ្រាវដើម្បីបង្កើត Dataset ភាសាខ្មែរ គឺជាជំហានចាំបាច់មុននឹងដាក់ឱ្យប្រើប្រាស់ទូលំទូលាយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ ការប្រមូលទិន្នន័យនិងបង្កើត Dataset: សាកលវិទ្យាល័យគួរចាប់ផ្តើមប្រមូលចម្លើយសិស្សនិងពិន្ទុពីគ្រូសម្រាប់មុខវិជ្ជាគោលដៅ។ ទិន្នន័យនេះត្រូវតែធ្វើ Digitalization និងសម្អាត (Data Cleaning) សម្រាប់ប្រើប្រាស់។
ជំហានទី ២៖ ការសាកល្បងជាមួយគំរូ Traditional ML: ចាប់ផ្តើមពិសោធន៍ជាមួយគំរូសាមញ្ញដូចជា SVM ឬ Random Forest ដោយប្រើបច្ចេកទេស TF-IDF ដើម្បីបង្កើតមូលដ្ឋានប្រៀបធៀប (Baseline) មុននឹងឈានទៅប្រើគំរូធំៗ។
ជំហានទី ៣៖ ការកែសម្រួលគំរូពហុភាសា (Fine-tuning Multilingual Models): ប្រើប្រាស់គំរូដែលមានស្រាប់ដូចជា mBERT ឬ XLM-RoBERTa ដែលស្គាល់ភាសាខ្មែរខ្លះៗ ហើយធ្វើការ Fine-tune ជាមួយទិន្នន័យក្នុងស្រុក ដើម្បីកាត់បន្ថយការចំណាយលើការបង្វឹកពីដំបូង។
ជំហានទី ៤៖ ការវាយតម្លៃដោយមានមនុស្សចូលរួម (Human-in-the-loop): ប្រើប្រាស់ប្រព័ន្ធនេះជាជំនួយការគ្រូ (Teacher Assistant) ជាជាងការជំនួសទាំងស្រុង ដោយឱ្យគ្រូធ្វើការផ្ទៀងផ្ទាត់ពិន្ទុដែលប្រព័ន្ធបានផ្តល់ឱ្យ ដើម្បីធានាភាពត្រឹមត្រូវនិងយុត្តិធម៌។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Descriptive Answer Evaluation	ដំណើរការនៃការវាយតម្លៃចម្លើយដែលសិស្សសរសេរជាលក្ខណៈបរិយាយ ឬអត្ថបទវែង ដោយមិនមែនជាការជ្រើសរើសចម្លើយត្រូវ/ខុស (Multiple Choice) ឡើយ។ វាទាមទារឱ្យប្រព័ន្ធយល់អត្ថន័យនៃពាក្យ និងបរិបទនៃប្រយោគ។	ដូចជាគ្រូអានអត្ថបទតែងសេចក្តីរបស់សិស្ស ហើយផ្តល់ពិន្ទុដោយផ្អែកលើគំនិត និងអត្ថន័យ ជាជាងគ្រាន់តែផ្ទៀងផ្ទាត់ចម្លើយត្រូវឬខុស។
Predictive Analytics	ការប្រើប្រាស់ទិន្នន័យពីអតីតកាល និងបច្ចេកទេសស្ថិតិ ដើម្បីទស្សន៍ទាយពិន្ទុដែលសិស្សគួរទទួលបាន។ ក្នុងបរិបទនេះ គឺការបង្រៀនកុំព្យូទ័រឱ្យចេះដាក់ពិន្ទុដោយផ្អែកលើរបៀបដែលគ្រូធ្លាប់បានដាក់ពិន្ទុលើចម្លើយស្រដៀងគ្នាកាលពីមុន។	ដូចជាការទស្សន៍ទាយអាកាសធាតុ ដោយមើលលើទិន្នន័យពពកនិងខ្យល់ពីថ្ងៃមុនៗ ដើម្បីទាយថាថ្ងៃស្អែកនឹងមានភ្លៀងឬអត់។
TF-IDF (Term Frequency-Inverse Document Frequency)	ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់វាស់វែងថាតើពាក្យមួយមានសារៈសំខាន់ប៉ុណ្ណានៅក្នុងឯកសារមួយ ដោយធៀបនឹងឯកសារទាំងអស់។ វាជួយឱ្យកុំព្យូទ័រដឹងថាពាក្យណាជាពាក្យគន្លឹះ (Keyword) ដែលមានន័យសំខាន់សម្រាប់ចម្លើយ។	ដូចជាការស្វែងរកពាក្យសំខាន់ៗក្នុងសៀវភៅមួយ ដោយមិនរាប់បញ្ចូលពាក្យទូទៅដូចជា "និង" ឬ "គឺ" ដើម្បីដឹងថាសៀវភៅនោះនិយាយអំពីអ្វី។
Long Short-Term Memory (LSTM)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីដើមប្រយោគរហូតដល់ចុងប្រយោគ។ វាដោះស្រាយបញ្ហានៃការភ្លេចព័ត៌មានចាស់ៗនៅពេលវិភាគប្រយោគវែងៗ។	ដូចជាការអានរឿងនិទានដែលយើងនៅចងចាំថា "តួឯកជាអ្នកណា" តាំងពីទំព័រទីមួយ រហូតដល់ទំព័រចុងក្រោយ ទោះបីជារឿងនោះវែងក៏ដោយ។
Transformer-Based Models (BERT, GPT)	ជាបច្ចេកវិទ្យា AI ទំនើបបំផុតដែលប្រើប្រាស់យន្តការ Attention ដើម្បីយល់ទំនាក់ទំនងរវាងពាក្យទាំងអស់ក្នុងប្រយោគក្នុងពេលតែមួយ (មិនមែនម្តងមួយពាក្យដូចមុនទេ) ដែលធ្វើឱ្យវាអាចយល់បរិបទនិងអត្ថន័យដូចមនុស្ស។	ដូចជាការមើលរូបភាពមួយទាំងមូលក្នុងពេលតែមួយ ដើម្បីយល់ថាមានអ្វីខ្លះនៅក្នុងនោះ ជាជាងការមើលម្តងមួយចំណុចតូចៗ ហើយយកមកផ្គុំគ្នា។
Cohen's Kappa	ជាខ្នាតរង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃថាតើកុំព្យូទ័រនិងមនុស្ស (គ្រូ) ផ្តល់ពិន្ទុដូចគ្នាឬអត់ ដោយកាត់បន្ថយលទ្ធភាពដែលការដូចគ្នានោះកើតឡើងដោយចៃដន្យ។	ដូចជាការប្រៀបធៀបពិន្ទុដែលចៅក្រមពីរនាក់ដាក់ឱ្យអ្នកប្រកួតម្នាក់ ដើម្បីមើលថាពួកគេមានគំនិតដូចគ្នាពិតប្រាកដ ឬគ្រាន់តែទាយត្រូវដោយចៃដន្យ។
BLEU and ROUGE	ជាវិធីសាស្ត្រសម្រាប់វាស់វែងគុណភាពនៃអត្ថបទដែលបង្កើតដោយម៉ាស៊ីន (ដូចជាមតិយោបល់ត្រឡប់ ឬ Feedback) ដោយប្រៀបធៀបវាទៅនឹងអត្ថបទដែលសរសេរដោយអ្នកជំនាញ។	ដូចជាការផ្ទៀងផ្ទាត់ចម្លើយសង្ខេបដែលសិស្សសរសេរ ទៅនឹងចម្លើយគំរូរបស់គ្រូ ដើម្បីមើលថាតើមានពាក្យនិងអត្ថន័យស្រដៀងគ្នាប៉ុណ្ណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖