Original Title: Automatic assessment of short answer questions: Review
Source: doi.org/10.55214/25768484.v8i6.3956
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃដោយស្វ័យប្រវត្តិនៃសំណួរចម្លើយខ្លី៖ ការពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Automatic assessment of short answer questions: Review

អ្នកនិពន្ធ៖ Salma Abdullbaki Mahmood (Basra University), Marwa Ali Abdulsamad (Basra University)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Computer Science / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការដាក់ពិន្ទុដោយដៃលើចម្លើយខ្លីៗចំណាយពេលច្រើន មានភាពលំអៀង និងខ្វះសង្គតិភាព ជាពិសេសជាមួយចំនួនសិស្សច្រើន ហើយក៏មានការខ្វះខាតទិន្នន័យសម្រាប់ភាសាអារ៉ាប់ផងដែរ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Review) លើយុទ្ធសាស្ត្រវាយតម្លៃដោយស្វ័យប្រវត្តិ ដោយវិភាគលើបច្ចេកទេសសំខាន់ៗចំនួនបីប្រភេទ។

អាល់គោរីតសិក្សាស៊ីជម្រៅ (Deep Learning Algorithms) ដូចជា CNN, LSTM និង BERT
បច្ចេកទេសវាស់វែងភាពស្រដៀងគ្នានៃអត្ថបទ (Text Similarity Techniques) ដូចជា LSA និង LCS
គំរូកូនកាត់ (Hybrid Models) ដែលរួមបញ្ចូលគ្នារវាងវិធីសាស្ត្រផ្សេងៗ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូកូនកាត់ (Hybrid Models) ដូចជា LSTM-GWO ជាទូទៅមានប្រសិទ្ធភាពជាងគំរូទោល ដោយរួមបញ្ចូលការវិភាគអត្ថន័យ និងពាក្យពេចន៍បានល្អជាង។
បច្ចេកទេសសិក្សាស៊ីជម្រៅ (Deep Learning) ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ ប៉ុន្តែទាមទារទិន្នន័យធំ និងពិបាកក្នុងការបកស្រាយដំណើរការ (Black boxes)។
មានតម្រូវការចាំបាច់សម្រាប់ទិន្នន័យភាសាអារ៉ាប់ (Arabic Datasets) បន្ថែមទៀត ដើម្បីកែលម្អប្រព័ន្ធដាក់ពិន្ទុដោយស្វ័យប្រវត្តិសម្រាប់ភាសានេះឱ្យមានប្រសិទ្ធភាពដូចភាសាអង់គ្លេស។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Deep Learning Models (LSTM, BERT) គំរូនៃការរៀនស៊ីជម្រៅ (Deep Learning) ដូចជា LSTM និង BERT	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកអត្ថន័យ និងបរិបទនៃប្រយោគបានល្អជាងវិធីសាស្ត្រប្រពៃណី ហើយផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់។	ទាមទារទិន្នន័យសម្រាប់បង្វឹក (Training Data) ច្រើន ហើយដំណើរការសម្រេចចិត្តរបស់វាពិបាកបកស្រាយ (Black-box nature)។	ម៉ូដែល BERT សម្រេចបានមេគុណទំនាក់ទំនង (Pearson Correlation) ដល់ទៅ 0.84 ក្នុងការវាយតម្លៃចម្លើយភាសាអារ៉ាប់។
Text Similarity Algorithms (LSA, LCS, Cosine Similarity) អាល់គោរីតវាស់វែងភាពស្រដៀងគ្នានៃអត្ថបទ (Text Similarity) ដូចជា LSA និង LCS	ងាយស្រួលអនុវត្ត មិនសូវទាមទារធនធានកុំព្យូទ័រខ្លាំង និងអាចបកស្រាយលទ្ធផលបានច្បាស់លាស់។	ជារឿយៗមើលរំលងអត្ថន័យស៊ីជម្រៅ (Semantic meaning) និងពាក្យដែលមានន័យដូចគ្នា (Synonyms) ប្រសិនបើមិនមានវចនានុក្រមជំនួយ។	បច្ចេកទេស LCS សម្រេចបានទំនាក់ទំនង 0.94 ប៉ុន្តែលើទិន្នន័យដែលមានទំហំតូច (330 ចម្លើយ)។
Hybrid Models (LSTM-GWO) គំរូកូនកាត់ (Hybrid Models) ដែលប្រើបច្ចេកទេស Optimization ដូចជា Grey Wolf Optimizer	ជួយកាត់បន្ថយបញ្ហា Overfitting និងបង្កើនប្រសិទ្ធភាពនៃការកំណត់ប៉ារ៉ាម៉ែត្រដោយស្វ័យប្រវត្តិ។	មានភាពស្មុគស្មាញក្នុងការបង្កើត និងត្រូវការពេលវេលាក្នុងការគណនាច្រើនជាងគំរូធម្មតា។	ម៉ូដែល LSTM-GWO ផ្តល់លទ្ធផលល្អប្រសើរជាង SVM និង Word2Vec លើការវាយតម្លៃចម្លើយខ្លី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថា ការប្រើប្រាស់បច្ចេកទេសទំនើបទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់ ប៉ុន្តែអាចកាត់បន្ថយពេលវេលារបស់គ្រូបង្រៀនយ៉ាងច្រើន។

Computational Power: ការប្រើប្រាស់គំរូ Deep Learning ដូចជា BERT ទាមទារកុំព្យូទ័រដែលមាន GPU ខ្លាំងដើម្បីធ្វើការបង្វឹក និងប្រwerking។
Dataset: ត្រូវការទិន្នន័យជាគូ (ចម្លើយសិស្ស និងពិន្ទុពីគ្រូ) ក្នុងចំនួនច្រើន។ សម្រាប់ភាសាអារ៉ាប់ ឬខ្មែរ ការខ្វះខាតទិន្នន័យគឺជាបញ្ហាប្រឈមធំ។
NLP Tools: តម្រូវឱ្យមានឧបករណ៍សម្រាប់ Pre-processing ដូចជា Tokenization, Stop-word removal និង Stemming សម្រាប់ភាសាគោលដៅ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះភាគច្រើនផ្អែកលើទិន្នន័យភាសាអង់គ្លេស (ដូចជា Kaggle dataset) និងភាសាអារ៉ាប់ (AraScore, AR-ASAG)។ ការខ្វះខាតទិន្នន័យសម្រាប់ភាសាដែលមានធនធានតិច (Low-resource languages) ដូចជាភាសាខ្មែរ ធ្វើឱ្យការយកគំរូទាំងនេះមកប្រើផ្ទាល់អាចមានបញ្ហាបើសិនមិនមានការកែសម្រួល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ក្នុងការផ្លាស់ប្តូរទៅរកការអប់រំតាមបែបឌីជីថល និងការពង្រឹងគុណភាពនៃការវាយតម្លៃ។

ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS): អាចប្រើប្រាស់សម្រាប់ការកែវិញ្ញាសាប្រឡងស្តង់ដារមួយចំនួន ឬការប្រឡងវាស់សមត្ថភាពគ្រូ ដើម្បីកាត់បន្ថយពេលវេលា និងភាពលំអៀង។
សាកលវិទ្យាល័យនានា (RUPP, ITC): អាចបញ្ចូលក្នុងប្រព័ន្ធគ្រប់គ្រងការសិក្សា (LMS) ដើម្បីផ្តល់ពិន្ទុ និងមតិត្រឡប់ (Feedback) ភ្លាមៗដល់និស្សិតលើកិច្ចការផ្ទះ ឬសំណួរខ្លីៗ។
ការស្រាវជ្រាវភាសាខ្មែរ (Khmer NLP): ការសិក្សានេះជាគំរូដ៏ល្អសម្រាប់អ្នកស្រាវជ្រាវកម្ពុជាក្នុងការបង្កើត Khmer WordNet ឬ Dataset សម្រាប់វាយតម្លៃអត្ថបទភាសាខ្មែរ។

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកភាសា ប៉ុន្តែការចាប់ផ្តើមអភិវឌ្ឍប្រព័ន្ធនេះនឹងជួយពន្លឿនប្រព័ន្ធអប់រំអេឡិចត្រូនិក (E-learning) នៅកម្ពុជាឱ្យកាន់តែមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ ការសិក្សាមូលដ្ឋានគ្រឹះ និងប្រមូលទិន្នន័យ: និស្សិតគួរចាប់ផ្តើមសិក្សាពី Python និងបណ្ណាល័យ NLTK ឬ Khmer-nltk។ ត្រូវសហការជាមួយសាស្ត្រាចារ្យដើម្បីប្រមូលចម្លើយសិស្សពីការប្រឡងកន្លងមក និងបង្កើតជា Dataset សម្រាប់ភាសាខ្មែរ។
ជំហានទី ២៖ ការរៀបចំទិន្នន័យ (Pre-processing): អនុវត្តការបំបែកពាក្យភាសាខ្មែរ (Word Segmentation) ដោយប្រើ KhmerCut ឬ Mekong NLP និងដកពាក្យដែលមិនចាំបាច់ចេញ ដើម្បីត្រៀមទិន្នន័យសម្រាប់ម៉ូដែល។
ជំហានទី ៣៖ ការពិសោធន៍ជាមួយ Text Similarity: សាកល្បងប្រើវិធីសាស្ត្រ Cosine Similarity ឬ Jaccard Similarity លើទិន្នន័យដែលបានរៀបចំ ដើម្បីមើលពីប្រសិទ្ធភាពបឋមក្នុងការផ្ទៀងផ្ទាត់ចម្លើយសិស្សជាមួយចម្លើយគំរូ។
ជំហានទី ៤៖ ការអភិវឌ្ឍគំរូកម្រិតខ្ពស់: ប្រសិនបើមានទិន្នន័យគ្រប់គ្រាន់ គួរព្យាយាមប្រើប្រាស់ BERT (អាចជា multilingual-BERT ឬ KhmerBERT) ដើម្បីបង្វឹក (Fine-tune) ឱ្យយល់ពីបរិបទនៃចម្លើយភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Latent Semantic Analysis (LSA)	បច្ចេកទេសក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រដែលវិភាគទំនាក់ទំនងរវាងពាក្យនៅក្នុងឯកសារ ដើម្បីស្វែងរកអត្ថន័យដែលលាក់កំបាំង ដោយមិនពឹងផ្អែកតែលើការផ្គូផ្គងពាក្យផ្ទាល់។ វាជួយឱ្យប្រព័ន្ធយល់ថាពាក្យពីរផ្សេងគ្នាអាចមានន័យដូចគ្នា។	ដូចជាការយល់ថា "ឡាន" និង "រថយន្ត" គឺជារបស់តែមួយ ដោយមើលទៅលើបរិបទនៃការនិយាយ ទោះបីជាអក្សរខុសគ្នាក៏ដោយ។
Longest Common Subsequence (LCS)	វិធីសាស្ត្រគណិតវិទ្យាសម្រាប់ស្វែងរកតួអក្សរ ឬពាក្យដែលរៀបតាមលំដាប់ដូចគ្នាក្នុងអត្ថបទពីរ ដើម្បីវាស់វែងកម្រិតនៃការដូចគ្នារវាងចម្លើយសិស្ស និងចម្លើយគ្រូ។	ដូចជាការពិនិត្យមើលថា តើសិស្សបានសរសេរពាក្យគន្លឹះសំខាន់ៗតាមលំដាប់លំដោយត្រឹមត្រូវដូចក្នុងសៀវភៅដែរឬទេ។
Cosine similarity	រង្វាស់គណិតវិទ្យាសម្រាប់វាស់កម្រិតនៃភាពស្រដៀងគ្នារវាងអត្ថបទពីរ ដោយបំប្លែងអត្ថបទទាំងនោះទៅជាវ៉ិចទ័រ (Vector) រួចវាស់មុំរវាងពួកវា។ ប្រសិនបើមុំតូច មានន័យថាអត្ថបទទាំងពីរមានអត្ថន័យស្រដៀងគ្នាខ្លាំង។	ដូចជាការវាស់ថា ព្រួញពីរចង្អុលទៅទិសដៅតែមួយ (ស្រដៀងគ្នា) ឬទិសដៅផ្ទុយគ្នា (ខុសគ្នា) ដើម្បីដឹងថាចម្លើយត្រូវ ឬខុស។
Quadratic Weighted Kappa (QWK)	រង្វាស់ស្ថិតិស្តង់ដារដែលប្រើសម្រាប់វាយតម្លៃកម្រិតនៃការយល់ស្របគ្នារវាងអ្នកដាក់ពិន្ទុពីរនាក់ (ឧទាហរណ៍៖ AI និងគ្រូ)។ វាដាក់ទណ្ឌកម្មធ្ងន់លើការខុសគ្នាខ្លាំង (ឧ. AI ដាក់ ១ តែគ្រូដាក់ ៥) ជាងការខុសគ្នាតិចតួច។	ដូចជាការផ្តល់ពិន្ទុដល់ AI ថាតើវាអាចកែសន្លកិច្ចការបានដូចគ្រូកម្រិតណា ដោយកាត់ពិន្ទុច្រើនបើវាធ្វើខុសឆ្ងាយពីគ្រូ។
Word Embedding	បច្ចេកទេសបំប្លែងពាក្យទៅជាតួលេខ (Vectors) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីទំនាក់ទំនងអត្ថន័យ។ ពាក្យដែលមានន័យស្រដៀងគ្នា (ដូចជា King និង Queen) នឹងមានតួលេខនៅក្បែរគ្នាក្នុងលំហគណិតវិទ្យា។	ដូចជាការផ្តល់លេខកូដសម្គាល់ឱ្យពាក្យនីមួយៗ ដែលពាក្យក្នុងក្រុមតែមួយ (ដូចជា ផ្លែឈើ) ទទួលបានលេខកូដស្រដៀងៗគ្នា។
Tokenization	ដំណើរការដំបូងក្នុងការវិភាគភាសា ដោយបំបែកអត្ថបទ ឬប្រយោគវែងៗទៅជាកម្ទេចតូចៗហៅថា Tokens (អាចជាពាក្យ ឬឃ្លា) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលធ្វើការ។	ដូចជាការហាន់បន្លែជាដុំតូចៗមុននឹងយកទៅស្ល ដើម្បីឱ្យងាយស្រួលចំអិន និងលាយចូលគ្នា។
Stemming	ការកាត់បន្ថយពាក្យដែលមានទម្រង់ផ្សេងៗគ្នា (ដូចជា words, wording, worded) ឱ្យមកនៅត្រឹមពាក្យឬសគល់ដើម (word) ដើម្បីឱ្យប្រព័ន្ធដឹងថាវាជាពាក្យតែមួយ។	ដូចជាការចាត់ទុកពាក្យ "រត់" "កំពុងរត់" និង "បានរត់" ថាជាពាក្យតែមួយគឺ "រត់" ដើម្បីកុំឱ្យច្រឡំថាជាពាក្យផ្សេងគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖