Original Title: A Study to Develop an Auto Assessment Software for Evaluating Students Theoretical Answers
Source: www.jjtujournals.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាដើម្បីអភិវឌ្ឍកម្មវិធីវាយតម្លៃស្វ័យប្រវត្តិសម្រាប់ការវាយតម្លៃចម្លើយទ្រឹស្តីរបស់សិស្ស

ចំណងជើងដើម៖ A Study to Develop an Auto Assessment Software for Evaluating Students Theoretical Answers

អ្នកនិពន្ធ៖ Yadav Nisha Gajraj Savitri (Shri JJT University), Pradnya Wankhade (Shri JJT University)

ឆ្នាំបោះពុម្ព៖ 2025 JJTU Journal of Renewable Energy Exchange

វិស័យសិក្សា៖ Educational Technology and Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវាយតម្លៃដោយដៃលើចម្លើយទ្រឹស្តីរបស់សិស្សគឺមានភាពលម្អៀង មិនស៊ីសង្វាក់គ្នា និងចំណាយពេលច្រើន ជាពិសេសនៅពេលមានចំនួនសិស្សច្រើន។ ការសិក្សានេះមានគោលបំណងដោះស្រាយបញ្ហាទាំងនេះតាមរយៈការបង្កើតប្រព័ន្ធវាយតម្លៃដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរៀបចំក្របខ័ណ្ឌវាយតម្លៃស្វ័យប្រវត្តិដោយប្រើប្រាស់បច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវិភាគ ដាក់ពិន្ទុ និងផ្តល់មតិកែលម្អ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional Manual Grading
ការដាក់ពិន្ទុដោយដៃតាមបែបប្រពៃណី (ដោយគ្រូបង្រៀន)
អនុញ្ញាតឱ្យមានការវាយតម្លៃស៊ីជម្រៅ អាចចាប់យកភាពស្មុគស្មាញ បរិបទ និងផ្តល់មតិកែលម្អផ្ទាល់ខ្លួនយ៉ាងលម្អិតដល់សិស្ស។ មានភាពលម្អៀង (Subjectivity) ខ្ពស់ ចំណាយពេលច្រើន ងាយមានការនឿយហត់ក្នុងការកែ និងមិនអាចឆ្លើយតបបានលឿនសម្រាប់សិស្សចំនួនច្រើន។ ប្រើជាគោល (Baseline) សម្រាប់ប្រៀបធៀបក្នុងការសិក្សា (ពិន្ទុគ្រូ៖ ២, ២ និង ១ សម្រាប់ករណីទាំង៣)។
Automated Assessment System (NLP & ML)
ប្រព័ន្ធវាយតម្លៃស្វ័យប្រវត្តិដោយប្រើ NLP និង Machine Learning
ផ្តល់ការវាយតម្លៃបានរហ័ស ស៊ីសង្វាក់គ្នា កាត់បន្ថយភាពលម្អៀង និងមានសមត្ថភាពពង្រីកទំហំការងារ (Scalability) សម្រាប់ថ្នាក់រៀនធំៗ។ ជួបការលំបាកក្នុងការយល់ដឹងពីបរិបទពេញលេញ ភាពស៊ីជម្រៅ និងគុណភាពនៃអំណះអំណាង ដែលអាចនាំឱ្យមានគម្លាតពិន្ទុពីគ្រូ។ មានកម្រិតលម្អៀងមធ្យម (Mean Absolute Error - MAE) ០.៦៧ បើធៀបនឹងការវាយតម្លៃដោយគ្រូ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីទំហំថវិកា ឬចំណាយលម្អិតក៏ដោយ ក៏យើងអាចសន្និដ្ឋានបានថាការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារធនធានបច្ចេកវិទ្យា និងទិន្នន័យកម្រិតខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានសាកល្បងលើទិន្នន័យចម្លើយសរសេរដោយដៃរបស់សិស្សតែ ៣ នាក់ប៉ុណ្ណោះ នៅក្នុងបរិបទសាកលវិទ្យាល័យ Shri JJT ក្នុងប្រទេសឥណ្ឌា ដែលជាទំហំទិន្នន័យដ៏តូចបំផុត និងងាយមានភាពលម្អៀង។ សម្រាប់ប្រទេសកម្ពុជា ការបង្វឹកម៉ូដែលនេះទាមទារទិន្នន័យជាភាសាខ្មែរដែលមានទំហំធំ និងចម្រុះ ដើម្បីធានាបាននូវភាពយុត្តិធម៌ និងប្រសិទ្ធភាពសម្រាប់សិស្សខ្មែរគ្រប់ស្រទាប់ជាន់ថ្នាក់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធវាយតម្លៃស្វ័យប្រវត្តិនេះមានសក្តានុពលខ្ពស់ក្នុងការផ្លាស់ប្តូរ និងសម្រួលដល់ការវាយតម្លៃការសិក្សានៅកម្ពុជា ជាពិសេសសម្រាប់ការអប់រំក្នុងទ្រង់ទ្រាយធំ។

ជារួម ការអនុវត្តប្រព័ន្ធនេះនៅកម្ពុជានឹងតម្រូវឱ្យមានការស្រាវជ្រាវ និងកែសម្រួលយ៉ាងច្រើនទៅលើបច្ចេកវិទ្យា NLP សម្រាប់ភាសាខ្មែរ ប៉ុន្តែវាផ្តល់នូវអត្ថប្រយោជន៍ដ៏ធំធេងក្នុងការធ្វើឱ្យការវាយតម្លៃកាន់តែមានតម្លាភាព លឿនរហ័ស និងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះកែច្នៃអត្ថបទ (Text Preprocessing): ចាប់ផ្តើមដោយការរៀនបច្ចេកទេសសម្អាតអត្ថបទ (Text cleaning), Tokenization, និង Stop word removal ជាភាសាអង់គ្លេស ឬខ្មែរ ដោយប្រើប្រាស់បណ្ណាល័យ NLTKspaCy នៅក្នុងបរិស្ថាន Python
  2. ស្វែងយល់ពីម៉ូដែលភាសាកម្រិតខ្ពស់ (Explore Transformers): សិក្សាពីរបៀបប្រើប្រាស់ម៉ូដែល Deep Learning ដូចជា BERT និង GPT ដែលអាចរកបាននៅលើវេទិកា Hugging Face ដើម្បីចាប់យកអត្ថន័យ និងបរិបទនៃប្រយោគ (Semantic Features) ឱ្យបានស៊ីជម្រៅ។
  3. ប្រមូល និងរៀបចំទិន្នន័យ (Data Collection & Preparation): សហការជាមួយសាស្ត្រាចារ្យដើម្បីប្រមូលសន្លឹកកិច្ចការ ឬចម្លើយទ្រឹស្តីរបស់សិស្សដែលបានដាក់ពិន្ទុរួច បង្កើតជា Training Dataset មួយដែលមានគុណភាពសម្រាប់ការបង្វឹកម៉ូដែល (Model Training)។
  4. អភិវឌ្ឍកម្មវិធីសាកល្បង (Develop Prototype): ប្រើប្រាស់ Scikit-learnTensorFlow ដើម្បីបង្វឹកម៉ូដែលឱ្យទស្សន៍ទាយពិន្ទុ បន្ទាប់មកបង្កើតចំណុចប្រទាក់អ្នកប្រើប្រាស់ (UI) ងាយស្រួលមួយដោយប្រើ Streamlit ដើម្បីបង្ហាញពិន្ទុ និងមតិកែលម្អ។
  5. អនុវត្តវិធីសាស្ត្រចម្រុះ (Implement Hybrid Approach): ដាក់ឱ្យដំណើរការប្រព័ន្ធដោយមានការត្រួតពិនិត្យពីមនុស្ស (Human-in-the-loop) គឺឱ្យម៉ាស៊ីនដាក់ពិន្ទុបឋម រួចឱ្យគ្រូជាអ្នកផ្ទៀងផ្ទាត់ចុងក្រោយ រួចគណនាកម្រិតលម្អៀង Mean Absolute Error (MAE) ដើម្បីកែលម្អប្រព័ន្ធជាបន្តបន្ទាប់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Natural language processing (NLP) ជាបច្ចេកវិទ្យាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងទាញយកអត្ថន័យពីភាសាសរសេររបស់មនុស្ស ដើម្បីឱ្យម៉ាស៊ីនអាចវាយតម្លៃអត្ថបទចម្លើយរបស់សិស្សបាន។ ដូចជាការបង្រៀនកុមារតូចម្នាក់ឱ្យចេះស្តាប់ និងយល់ពីអត្ថន័យនៃពាក្យសម្តីដែលយើងកំពុងនិយាយប្រាប់គេអញ្ចឹងដែរ។
Tokenization គឺជាដំណើរការនៃការបំបែកអត្ថបទវែងៗ ឬប្រយោគទាំងមូល ទៅជាបំណែកតូចៗ (ហៅថា Tokens) ដូចជាពាក្យនីមួយៗ ឬឃ្លា ដើម្បីងាយស្រួលឱ្យម៉ាស៊ីនធ្វើការវិភាគរចនាសម្ព័ន្ធវេយ្យាករណ៍របស់វា។ ដូចជាការដោះផ្ទាំងរូបភាពល្បែងផ្គុំរូប (Jigsaw Puzzle) ទៅជាបំណែកតូចៗ ដើម្បីពិនិត្យមើលថាតើបំណែកនីមួយៗមានរូបរាងយ៉ាងណា។
Stemming and Lemmatization ជាបច្ចេកទេសកាត់បន្ថយពាក្យដែលប្រែប្រួលទម្រង់ (ឧទាហរណ៍៖ "running", "ran") ឱ្យទៅជាទម្រង់ដើម ឬឫសគល់របស់វា (ឧទាហរណ៍៖ "run") ដោយពិចារណាលើវេយ្យាករណ៍និងបរិបទ ដើម្បីកុំឱ្យម៉ាស៊ីនយល់ច្រឡំថាវាជាពាក្យខុសគ្នា។ ដូចជាការចាត់ថ្នាក់ផ្លែស្វាយទុំ ស្វាយខ្ចី និងស្វាយចន្ទី ចូលទៅក្នុងកន្ត្រកតែមួយដែលមានឈ្មោះថា "ផ្លែស្វាយ" ដើម្បីងាយស្រួលរាប់ដោយមិនគិតពីស្ថានភាពរូបរាងរបស់វា។
Feature Extraction ជាដំណើរការទាញយកព័ត៌មាន ឬលក្ខណៈសំខាន់ៗចេញពីអត្ថបទដែលបានសម្អាតរួច (ដូចជារចនាសម្ព័ន្ធវេយ្យាករណ៍ អត្ថន័យ និងវាក្យសព្ទ) ដើម្បីបំប្លែងវាទៅជាទិន្នន័យលេខ ដែលម៉ូដែល Machine Learning អាចយល់បានសម្រាប់ការផ្តល់ពិន្ទុ។ ដូចជាការស្កេនមើលមុខម្ហូបមួយចាន រួចកត់ត្រាទុកតែគ្រឿងផ្សំសំខាន់ៗដូចជា សាច់ បន្លែ និងអំបិល ដើម្បីវាយតម្លៃថាវាឆ្ងាញ់ឬអត់ ដោយមិនខ្វល់ពីប្រភេទចានដែលដាក់នោះទេ។
BERT ជាម៉ូដែលបណ្តាញសរសៃប្រសាទកម្រិតខ្ពស់ (Bidirectional Encoder Representations from Transformers) ដែលអានអត្ថបទទាំងសងខាង (ពីឆ្វេងទៅស្តាំ និងពីស្តាំទៅឆ្វេង) ក្នុងពេលតែមួយ ដើម្បីយល់ពីបរិបទ និងអត្ថន័យស៊ីជម្រៅនៃពាក្យនីមួយៗនៅក្នុងប្រយោគរបស់សិស្ស។ ដូចជាអ្នកអានសៀវភៅដ៏ពូកែម្នាក់ ដែលមិនត្រឹមតែអានពាក្យម្តងមួយៗទេ តែសម្លឹងមើលប្រយោគទាំងមូលដើម្បីចាប់យកអត្ថន័យបង្កប់ពិតប្រាកដ។
Cross-Validation គឺជាបច្ចេកទេសវាយតម្លៃម៉ូដែលដោយបែងចែកទិន្នន័យជាច្រើនផ្នែក ដោយផ្នែកខ្លះសម្រាប់បង្វឹកម៉ាស៊ីន (Training data) និងផ្នែកខ្លះទៀតសម្រាប់ធ្វើតេស្ត (Validation data) ឆ្លាស់គ្នា ដើម្បីធានាថាម៉ូដែលនោះអាចទស្សន៍ទាយបានត្រឹមត្រូវលើទិន្នន័យថ្មីៗដែលវាមិនធ្លាប់ឃើញពីមុនមក។ ដូចជាការធ្វើតេស្តសិស្សដោយប្រើវិញ្ញាសាខុសៗគ្នាជាច្រើនដង ដើម្បីប្រាកដថាសិស្សនោះពិតជាយល់មេរៀនមែន មិនមែនគ្រាន់តែទន្ទេញចាំមាត់នូវវិញ្ញាសាចាស់នោះទេ។
mean absolute error (MAE) ជារង្វាស់ស្ថិតិដែលប្រើសម្រាប់គណនាកម្រិតខុសគ្នាមធ្យមរវាងពិន្ទុដែលម៉ាស៊ីនទស្សន៍ទាយបាន និងពិន្ទុជាក់ស្តែងដែលគ្រូបានផ្តល់ឱ្យ។ បើ MAE កាន់តែតូច មានន័យថាម៉ាស៊ីនដាក់ពិន្ទុកាន់តែសុក្រឹតនិងខិតជិតការសម្រេចចិត្តរបស់មនុស្ស។ ដូចជាការវាស់ចម្ងាយរវាងព្រួញដែលអ្នកបាញ់ទៅចំគោលដៅ ជាមួយនឹងចំណុចកណ្តាលនៃផ្ទាំងស៊ីប ដើម្បីដឹងថាអ្នកបាញ់ខុសគោលដៅប៉ុន្មានសង់ទីម៉ែត្រជាមធ្យម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖