Original Title: Automatic assessment of short answer questions: Review
Source: doi.org/10.55214/25768484.v8i6.3956
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃដោយស្វ័យប្រវត្តិនៃសំណួរចម្លើយខ្លី៖ ការពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Automatic assessment of short answer questions: Review

អ្នកនិពន្ធ៖ Salma Abdullbaki Mahmood (Basra University), Marwa Ali Abdulsamad (Basra University)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Computer Science / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការដាក់ពិន្ទុដោយដៃលើចម្លើយខ្លីៗចំណាយពេលច្រើន មានភាពលំអៀង និងខ្វះសង្គតិភាព ជាពិសេសជាមួយចំនួនសិស្សច្រើន ហើយក៏មានការខ្វះខាតទិន្នន័យសម្រាប់ភាសាអារ៉ាប់ផងដែរ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Review) លើយុទ្ធសាស្ត្រវាយតម្លៃដោយស្វ័យប្រវត្តិ ដោយវិភាគលើបច្ចេកទេសសំខាន់ៗចំនួនបីប្រភេទ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Deep Learning Models (LSTM, BERT)
គំរូនៃការរៀនស៊ីជម្រៅ (Deep Learning) ដូចជា LSTM និង BERT
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកអត្ថន័យ និងបរិបទនៃប្រយោគបានល្អជាងវិធីសាស្ត្រប្រពៃណី ហើយផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់។ ទាមទារទិន្នន័យសម្រាប់បង្វឹក (Training Data) ច្រើន ហើយដំណើរការសម្រេចចិត្តរបស់វាពិបាកបកស្រាយ (Black-box nature)។ ម៉ូដែល BERT សម្រេចបានមេគុណទំនាក់ទំនង (Pearson Correlation) ដល់ទៅ 0.84 ក្នុងការវាយតម្លៃចម្លើយភាសាអារ៉ាប់។
Text Similarity Algorithms (LSA, LCS, Cosine Similarity)
អាល់គោរីតវាស់វែងភាពស្រដៀងគ្នានៃអត្ថបទ (Text Similarity) ដូចជា LSA និង LCS
ងាយស្រួលអនុវត្ត មិនសូវទាមទារធនធានកុំព្យូទ័រខ្លាំង និងអាចបកស្រាយលទ្ធផលបានច្បាស់លាស់។ ជារឿយៗមើលរំលងអត្ថន័យស៊ីជម្រៅ (Semantic meaning) និងពាក្យដែលមានន័យដូចគ្នា (Synonyms) ប្រសិនបើមិនមានវចនានុក្រមជំនួយ។ បច្ចេកទេស LCS សម្រេចបានទំនាក់ទំនង 0.94 ប៉ុន្តែលើទិន្នន័យដែលមានទំហំតូច (330 ចម្លើយ)។
Hybrid Models (LSTM-GWO)
គំរូកូនកាត់ (Hybrid Models) ដែលប្រើបច្ចេកទេស Optimization ដូចជា Grey Wolf Optimizer
ជួយកាត់បន្ថយបញ្ហា Overfitting និងបង្កើនប្រសិទ្ធភាពនៃការកំណត់ប៉ារ៉ាម៉ែត្រដោយស្វ័យប្រវត្តិ។ មានភាពស្មុគស្មាញក្នុងការបង្កើត និងត្រូវការពេលវេលាក្នុងការគណនាច្រើនជាងគំរូធម្មតា។ ម៉ូដែល LSTM-GWO ផ្តល់លទ្ធផលល្អប្រសើរជាង SVM និង Word2Vec លើការវាយតម្លៃចម្លើយខ្លី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថា ការប្រើប្រាស់បច្ចេកទេសទំនើបទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់ ប៉ុន្តែអាចកាត់បន្ថយពេលវេលារបស់គ្រូបង្រៀនយ៉ាងច្រើន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះភាគច្រើនផ្អែកលើទិន្នន័យភាសាអង់គ្លេស (ដូចជា Kaggle dataset) និងភាសាអារ៉ាប់ (AraScore, AR-ASAG)។ ការខ្វះខាតទិន្នន័យសម្រាប់ភាសាដែលមានធនធានតិច (Low-resource languages) ដូចជាភាសាខ្មែរ ធ្វើឱ្យការយកគំរូទាំងនេះមកប្រើផ្ទាល់អាចមានបញ្ហាបើសិនមិនមានការកែសម្រួល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ក្នុងការផ្លាស់ប្តូរទៅរកការអប់រំតាមបែបឌីជីថល និងការពង្រឹងគុណភាពនៃការវាយតម្លៃ។

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកភាសា ប៉ុន្តែការចាប់ផ្តើមអភិវឌ្ឍប្រព័ន្ធនេះនឹងជួយពន្លឿនប្រព័ន្ធអប់រំអេឡិចត្រូនិក (E-learning) នៅកម្ពុជាឱ្យកាន់តែមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ ការសិក្សាមូលដ្ឋានគ្រឹះ និងប្រមូលទិន្នន័យ: និស្សិតគួរចាប់ផ្តើមសិក្សាពី Python និងបណ្ណាល័យ NLTK ឬ Khmer-nltk។ ត្រូវសហការជាមួយសាស្ត្រាចារ្យដើម្បីប្រមូលចម្លើយសិស្សពីការប្រឡងកន្លងមក និងបង្កើតជា Dataset សម្រាប់ភាសាខ្មែរ។
  2. ជំហានទី ២៖ ការរៀបចំទិន្នន័យ (Pre-processing): អនុវត្តការបំបែកពាក្យភាសាខ្មែរ (Word Segmentation) ដោយប្រើ KhmerCut ឬ Mekong NLP និងដកពាក្យដែលមិនចាំបាច់ចេញ ដើម្បីត្រៀមទិន្នន័យសម្រាប់ម៉ូដែល។
  3. ជំហានទី ៣៖ ការពិសោធន៍ជាមួយ Text Similarity: សាកល្បងប្រើវិធីសាស្ត្រ Cosine Similarity ឬ Jaccard Similarity លើទិន្នន័យដែលបានរៀបចំ ដើម្បីមើលពីប្រសិទ្ធភាពបឋមក្នុងការផ្ទៀងផ្ទាត់ចម្លើយសិស្សជាមួយចម្លើយគំរូ។
  4. ជំហានទី ៤៖ ការអភិវឌ្ឍគំរូកម្រិតខ្ពស់: ប្រសិនបើមានទិន្នន័យគ្រប់គ្រាន់ គួរព្យាយាមប្រើប្រាស់ BERT (អាចជា multilingual-BERT ឬ KhmerBERT) ដើម្បីបង្វឹក (Fine-tune) ឱ្យយល់ពីបរិបទនៃចម្លើយភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Latent Semantic Analysis (LSA) បច្ចេកទេសក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រដែលវិភាគទំនាក់ទំនងរវាងពាក្យនៅក្នុងឯកសារ ដើម្បីស្វែងរកអត្ថន័យដែលលាក់កំបាំង ដោយមិនពឹងផ្អែកតែលើការផ្គូផ្គងពាក្យផ្ទាល់។ វាជួយឱ្យប្រព័ន្ធយល់ថាពាក្យពីរផ្សេងគ្នាអាចមានន័យដូចគ្នា។ ដូចជាការយល់ថា "ឡាន" និង "រថយន្ត" គឺជារបស់តែមួយ ដោយមើលទៅលើបរិបទនៃការនិយាយ ទោះបីជាអក្សរខុសគ្នាក៏ដោយ។
Longest Common Subsequence (LCS) វិធីសាស្ត្រគណិតវិទ្យាសម្រាប់ស្វែងរកតួអក្សរ ឬពាក្យដែលរៀបតាមលំដាប់ដូចគ្នាក្នុងអត្ថបទពីរ ដើម្បីវាស់វែងកម្រិតនៃការដូចគ្នារវាងចម្លើយសិស្ស និងចម្លើយគ្រូ។ ដូចជាការពិនិត្យមើលថា តើសិស្សបានសរសេរពាក្យគន្លឹះសំខាន់ៗតាមលំដាប់លំដោយត្រឹមត្រូវដូចក្នុងសៀវភៅដែរឬទេ។
Cosine similarity រង្វាស់គណិតវិទ្យាសម្រាប់វាស់កម្រិតនៃភាពស្រដៀងគ្នារវាងអត្ថបទពីរ ដោយបំប្លែងអត្ថបទទាំងនោះទៅជាវ៉ិចទ័រ (Vector) រួចវាស់មុំរវាងពួកវា។ ប្រសិនបើមុំតូច មានន័យថាអត្ថបទទាំងពីរមានអត្ថន័យស្រដៀងគ្នាខ្លាំង។ ដូចជាការវាស់ថា ព្រួញពីរចង្អុលទៅទិសដៅតែមួយ (ស្រដៀងគ្នា) ឬទិសដៅផ្ទុយគ្នា (ខុសគ្នា) ដើម្បីដឹងថាចម្លើយត្រូវ ឬខុស។
Quadratic Weighted Kappa (QWK) រង្វាស់ស្ថិតិស្តង់ដារដែលប្រើសម្រាប់វាយតម្លៃកម្រិតនៃការយល់ស្របគ្នារវាងអ្នកដាក់ពិន្ទុពីរនាក់ (ឧទាហរណ៍៖ AI និងគ្រូ)។ វាដាក់ទណ្ឌកម្មធ្ងន់លើការខុសគ្នាខ្លាំង (ឧ. AI ដាក់ ១ តែគ្រូដាក់ ៥) ជាងការខុសគ្នាតិចតួច។ ដូចជាការផ្តល់ពិន្ទុដល់ AI ថាតើវាអាចកែសន្លកិច្ចការបានដូចគ្រូកម្រិតណា ដោយកាត់ពិន្ទុច្រើនបើវាធ្វើខុសឆ្ងាយពីគ្រូ។
Word Embedding បច្ចេកទេសបំប្លែងពាក្យទៅជាតួលេខ (Vectors) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីទំនាក់ទំនងអត្ថន័យ។ ពាក្យដែលមានន័យស្រដៀងគ្នា (ដូចជា King និង Queen) នឹងមានតួលេខនៅក្បែរគ្នាក្នុងលំហគណិតវិទ្យា។ ដូចជាការផ្តល់លេខកូដសម្គាល់ឱ្យពាក្យនីមួយៗ ដែលពាក្យក្នុងក្រុមតែមួយ (ដូចជា ផ្លែឈើ) ទទួលបានលេខកូដស្រដៀងៗគ្នា។
Tokenization ដំណើរការដំបូងក្នុងការវិភាគភាសា ដោយបំបែកអត្ថបទ ឬប្រយោគវែងៗទៅជាកម្ទេចតូចៗហៅថា Tokens (អាចជាពាក្យ ឬឃ្លា) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលធ្វើការ។ ដូចជាការហាន់បន្លែជាដុំតូចៗមុននឹងយកទៅស្ល ដើម្បីឱ្យងាយស្រួលចំអិន និងលាយចូលគ្នា។
Stemming ការកាត់បន្ថយពាក្យដែលមានទម្រង់ផ្សេងៗគ្នា (ដូចជា words, wording, worded) ឱ្យមកនៅត្រឹមពាក្យឬសគល់ដើម (word) ដើម្បីឱ្យប្រព័ន្ធដឹងថាវាជាពាក្យតែមួយ។ ដូចជាការចាត់ទុកពាក្យ "រត់" "កំពុងរត់" និង "បានរត់" ថាជាពាក្យតែមួយគឺ "រត់" ដើម្បីកុំឱ្យច្រឡំថាជាពាក្យផ្សេងគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖