Original Title: A Study to Develop an Auto Assessment Software for Evaluating Students Theoretical Answers
Source: www.jjtujournals.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាដើម្បីអភិវឌ្ឍកម្មវិធីវាយតម្លៃស្វ័យប្រវត្តិសម្រាប់ការវាយតម្លៃចម្លើយទ្រឹស្តីរបស់សិស្ស

ចំណងជើងដើម៖ A Study to Develop an Auto Assessment Software for Evaluating Students Theoretical Answers

អ្នកនិពន្ធ៖ Yadav Nisha Gajraj Savitri (Shri JJT University), Pradnya Wankhade (Shri JJT University)

ឆ្នាំបោះពុម្ព៖ 2025 JJTU Journal of Renewable Energy Exchange

វិស័យសិក្សា៖ Educational Technology and Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវាយតម្លៃដោយដៃលើចម្លើយទ្រឹស្តីរបស់សិស្សគឺមានភាពលម្អៀង មិនស៊ីសង្វាក់គ្នា និងចំណាយពេលច្រើន ជាពិសេសនៅពេលមានចំនួនសិស្សច្រើន។ ការសិក្សានេះមានគោលបំណងដោះស្រាយបញ្ហាទាំងនេះតាមរយៈការបង្កើតប្រព័ន្ធវាយតម្លៃដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរៀបចំក្របខ័ណ្ឌវាយតម្លៃស្វ័យប្រវត្តិដោយប្រើប្រាស់បច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវិភាគ ដាក់ពិន្ទុ និងផ្តល់មតិកែលម្អ។

ការកែច្នៃអត្ថបទបឋម (Text Preprocessing)៖ រួមមាន Tokenization, ការលុបពាក្យមិនចាំបាច់ (Stop word Removal), Stemming, Lemmatization, និង Normalization។
ការទាញយកលក្ខណៈពិសេស (Feature Extraction)៖ ការវិភាគរចនាសម្ព័ន្ធវេយ្យាករណ៍ និងអត្ថន័យ (Semantic Features) ដោយប្រើម៉ូដែលកម្រិតខ្ពស់ដូចជា BERT និង GPT។
ការបង្វឹកម៉ូដែល (Model Training)៖ ការប្រើប្រាស់ទិន្នន័យចម្លើយដែលបានដាក់ពិន្ទុរួចដើម្បីបង្វឹកប្រព័ន្ធ ព្រមទាំងប្រើប្រាស់ Cross-Validation ដើម្បីធានាសុក្រឹតភាព។
ការដាក់ពិន្ទុ និងការផ្តល់មតិកែលម្អ (Scoring and Feedback Generation)៖ ការទស្សន៍ទាយពិន្ទុ និងការបង្កើតមតិកែលម្អលម្អិតសម្រាប់សិស្សតាមរយៈចំណុចប្រទាក់អ្នកប្រើប្រាស់ (User Interface)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធវាយតម្លៃស្វ័យប្រវត្តិនេះដំណើរការបានយ៉ាងល្អ ប៉ុន្តែមានកម្រិតលម្អៀងជាមធ្យម (Mean Absolute Error - MAE) ចំនួន ០.៦៧ បើប្រៀបធៀបទៅនឹងការដាក់ពិន្ទុដោយគ្រូផ្ទាល់។
លទ្ធផលបង្ហាញថាកម្មវិធីអាចស្គាល់ចំណុចសំខាន់ៗនៃចម្លើយ ប៉ុន្តែជួនកាលវាជួបការលំបាកក្នុងការចាប់យកបរិបទពេញលេញ ឬភាពស្មុគស្មាញនៃអំណះអំណាងដែលទាមទារការវាយតម្លៃពីមនុស្ស។
ការសិក្សាបានផ្តល់អនុសាសន៍ឱ្យប្រើប្រាស់វិធីសាស្ត្រចម្រុះ (Hybrid approach) ដែលរួមបញ្ចូលប្រព័ន្ធវាយតម្លៃស្វ័យប្រវត្តិជាមួយនឹងការតាមដានដោយមនុស្ស ដើម្បីធានាបាននូវភាពយុត្តិធម៌ និងការវាយតម្លៃប្រកបដោយគុណភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional Manual Grading ការដាក់ពិន្ទុដោយដៃតាមបែបប្រពៃណី (ដោយគ្រូបង្រៀន)	អនុញ្ញាតឱ្យមានការវាយតម្លៃស៊ីជម្រៅ អាចចាប់យកភាពស្មុគស្មាញ បរិបទ និងផ្តល់មតិកែលម្អផ្ទាល់ខ្លួនយ៉ាងលម្អិតដល់សិស្ស។	មានភាពលម្អៀង (Subjectivity) ខ្ពស់ ចំណាយពេលច្រើន ងាយមានការនឿយហត់ក្នុងការកែ និងមិនអាចឆ្លើយតបបានលឿនសម្រាប់សិស្សចំនួនច្រើន។	ប្រើជាគោល (Baseline) សម្រាប់ប្រៀបធៀបក្នុងការសិក្សា (ពិន្ទុគ្រូ៖ ២, ២ និង ១ សម្រាប់ករណីទាំង៣)។
Automated Assessment System (NLP & ML) ប្រព័ន្ធវាយតម្លៃស្វ័យប្រវត្តិដោយប្រើ NLP និង Machine Learning	ផ្តល់ការវាយតម្លៃបានរហ័ស ស៊ីសង្វាក់គ្នា កាត់បន្ថយភាពលម្អៀង និងមានសមត្ថភាពពង្រីកទំហំការងារ (Scalability) សម្រាប់ថ្នាក់រៀនធំៗ។	ជួបការលំបាកក្នុងការយល់ដឹងពីបរិបទពេញលេញ ភាពស៊ីជម្រៅ និងគុណភាពនៃអំណះអំណាង ដែលអាចនាំឱ្យមានគម្លាតពិន្ទុពីគ្រូ។	មានកម្រិតលម្អៀងមធ្យម (Mean Absolute Error - MAE) ០.៦៧ បើធៀបនឹងការវាយតម្លៃដោយគ្រូ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ពីទំហំថវិកា ឬចំណាយលម្អិតក៏ដោយ ក៏យើងអាចសន្និដ្ឋានបានថាការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារធនធានបច្ចេកវិទ្យា និងទិន្នន័យកម្រិតខ្ពស់។

Software and Algorithms: ទាមទារការប្រើប្រាស់បច្ចេកវិទ្យា NLP កម្រិតខ្ពស់ និងម៉ូដែល Transformer ដូចជា BERT និង GPT ព្រមទាំងបណ្ណាល័យសម្រាប់ដំណើរការភាសា។
Hardware: ត្រូវការកម្លាំងម៉ាស៊ីន (Hardware) និងសមត្ថភាពកុំព្យូទ័រខ្ពស់ (ជាពិសេស GPU) ដើម្បីអាចដំណើរការ និងបង្វឹក (Train) ម៉ូដែល Deep Learning បានលឿន។
Dataset: ទាមទារទិន្នន័យចម្លើយសិស្សដែលបានដាក់ពិន្ទុរួចយ៉ាងច្រើននិងចម្រុះ (Graded responses dataset) ដើម្បីបង្វឹកម៉ូដែលឱ្យមានសុក្រឹតភាព និងកាត់បន្ថយភាពលម្អៀង។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែក Machine Learning និងគ្រូបង្រៀនជំនាញ ដើម្បីរៀបចំទិន្នន័យ ទាញយកលក្ខណៈពិសេស (Feature extraction) និងផ្ទៀងផ្ទាត់លទ្ធផល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានសាកល្បងលើទិន្នន័យចម្លើយសរសេរដោយដៃរបស់សិស្សតែ ៣ នាក់ប៉ុណ្ណោះ នៅក្នុងបរិបទសាកលវិទ្យាល័យ Shri JJT ក្នុងប្រទេសឥណ្ឌា ដែលជាទំហំទិន្នន័យដ៏តូចបំផុត និងងាយមានភាពលម្អៀង។ សម្រាប់ប្រទេសកម្ពុជា ការបង្វឹកម៉ូដែលនេះទាមទារទិន្នន័យជាភាសាខ្មែរដែលមានទំហំធំ និងចម្រុះ ដើម្បីធានាបាននូវភាពយុត្តិធម៌ និងប្រសិទ្ធភាពសម្រាប់សិស្សខ្មែរគ្រប់ស្រទាប់ជាន់ថ្នាក់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធវាយតម្លៃស្វ័យប្រវត្តិនេះមានសក្តានុពលខ្ពស់ក្នុងការផ្លាស់ប្តូរ និងសម្រួលដល់ការវាយតម្លៃការសិក្សានៅកម្ពុជា ជាពិសេសសម្រាប់ការអប់រំក្នុងទ្រង់ទ្រាយធំ។

សាកលវិទ្យាល័យរដ្ឋ និងឯកជន (Higher Education Institutions): អាចប្រើប្រាស់នៅស្ថាប័នធំៗដូចជា សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ (RUPP) ឬសាកលវិទ្យាល័យជាតិគ្រប់គ្រង (NUM) ដើម្បីជួយសាស្ត្រាចារ្យកាត់បន្ថយពេលវេលាក្នុងការកែសន្លឹកកិច្ចការ និងការប្រឡងឆមាសដែលមានសិស្សរាប់ពាន់នាក់។
ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS): អាចអភិវឌ្ឍន៍ជាឧបករណ៍ជំនួយ (Hybrid system) សម្រាប់ការផ្ទៀងផ្ទាត់ពិន្ទុប្រឡងសញ្ញាបត្រមធ្យមសិក្សាទុតិយភូមិ (បាក់ឌុប) លើមុខវិជ្ជាទ្រឹស្តី ដើម្បីពន្លឿនដំណើរការកែ និងកាត់បន្ថយភាពលម្អៀង ឬកំហុសឆ្គង។
ប្រព័ន្ធសិក្សាអនឡាញនៅកម្ពុជា (EdTech & MOOC Platforms): ស័ក្តិសមសម្រាប់ថ្នាក់រៀនអនឡាញ (E-learning) របស់ស្ថាប័នក្នុងស្រុក ដើម្បីផ្តល់មតិកែលម្អភ្លាមៗ (Instant feedback) ដល់សិស្សដែលរៀនពីចម្ងាយដោយស្វ័យប្រវត្តិ។

ជារួម ការអនុវត្តប្រព័ន្ធនេះនៅកម្ពុជានឹងតម្រូវឱ្យមានការស្រាវជ្រាវ និងកែសម្រួលយ៉ាងច្រើនទៅលើបច្ចេកវិទ្យា NLP សម្រាប់ភាសាខ្មែរ ប៉ុន្តែវាផ្តល់នូវអត្ថប្រយោជន៍ដ៏ធំធេងក្នុងការធ្វើឱ្យការវាយតម្លៃកាន់តែមានតម្លាភាព លឿនរហ័ស និងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះកែច្នៃអត្ថបទ (Text Preprocessing): ចាប់ផ្តើមដោយការរៀនបច្ចេកទេសសម្អាតអត្ថបទ (Text cleaning), Tokenization, និង Stop word removal ជាភាសាអង់គ្លេស ឬខ្មែរ ដោយប្រើប្រាស់បណ្ណាល័យ NLTK ឬ spaCy នៅក្នុងបរិស្ថាន Python។
ស្វែងយល់ពីម៉ូដែលភាសាកម្រិតខ្ពស់ (Explore Transformers): សិក្សាពីរបៀបប្រើប្រាស់ម៉ូដែល Deep Learning ដូចជា BERT និង GPT ដែលអាចរកបាននៅលើវេទិកា Hugging Face ដើម្បីចាប់យកអត្ថន័យ និងបរិបទនៃប្រយោគ (Semantic Features) ឱ្យបានស៊ីជម្រៅ។
ប្រមូល និងរៀបចំទិន្នន័យ (Data Collection & Preparation): សហការជាមួយសាស្ត្រាចារ្យដើម្បីប្រមូលសន្លឹកកិច្ចការ ឬចម្លើយទ្រឹស្តីរបស់សិស្សដែលបានដាក់ពិន្ទុរួច បង្កើតជា Training Dataset មួយដែលមានគុណភាពសម្រាប់ការបង្វឹកម៉ូដែល (Model Training)។
អភិវឌ្ឍកម្មវិធីសាកល្បង (Develop Prototype): ប្រើប្រាស់ Scikit-learn ឬ TensorFlow ដើម្បីបង្វឹកម៉ូដែលឱ្យទស្សន៍ទាយពិន្ទុ បន្ទាប់មកបង្កើតចំណុចប្រទាក់អ្នកប្រើប្រាស់ (UI) ងាយស្រួលមួយដោយប្រើ Streamlit ដើម្បីបង្ហាញពិន្ទុ និងមតិកែលម្អ។
អនុវត្តវិធីសាស្ត្រចម្រុះ (Implement Hybrid Approach): ដាក់ឱ្យដំណើរការប្រព័ន្ធដោយមានការត្រួតពិនិត្យពីមនុស្ស (Human-in-the-loop) គឺឱ្យម៉ាស៊ីនដាក់ពិន្ទុបឋម រួចឱ្យគ្រូជាអ្នកផ្ទៀងផ្ទាត់ចុងក្រោយ រួចគណនាកម្រិតលម្អៀង Mean Absolute Error (MAE) ដើម្បីកែលម្អប្រព័ន្ធជាបន្តបន្ទាប់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Natural language processing (NLP)	ជាបច្ចេកវិទ្យាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងទាញយកអត្ថន័យពីភាសាសរសេររបស់មនុស្ស ដើម្បីឱ្យម៉ាស៊ីនអាចវាយតម្លៃអត្ថបទចម្លើយរបស់សិស្សបាន។	ដូចជាការបង្រៀនកុមារតូចម្នាក់ឱ្យចេះស្តាប់ និងយល់ពីអត្ថន័យនៃពាក្យសម្តីដែលយើងកំពុងនិយាយប្រាប់គេអញ្ចឹងដែរ។
Tokenization	គឺជាដំណើរការនៃការបំបែកអត្ថបទវែងៗ ឬប្រយោគទាំងមូល ទៅជាបំណែកតូចៗ (ហៅថា Tokens) ដូចជាពាក្យនីមួយៗ ឬឃ្លា ដើម្បីងាយស្រួលឱ្យម៉ាស៊ីនធ្វើការវិភាគរចនាសម្ព័ន្ធវេយ្យាករណ៍របស់វា។	ដូចជាការដោះផ្ទាំងរូបភាពល្បែងផ្គុំរូប (Jigsaw Puzzle) ទៅជាបំណែកតូចៗ ដើម្បីពិនិត្យមើលថាតើបំណែកនីមួយៗមានរូបរាងយ៉ាងណា។
Stemming and Lemmatization	ជាបច្ចេកទេសកាត់បន្ថយពាក្យដែលប្រែប្រួលទម្រង់ (ឧទាហរណ៍៖ "running", "ran") ឱ្យទៅជាទម្រង់ដើម ឬឫសគល់របស់វា (ឧទាហរណ៍៖ "run") ដោយពិចារណាលើវេយ្យាករណ៍និងបរិបទ ដើម្បីកុំឱ្យម៉ាស៊ីនយល់ច្រឡំថាវាជាពាក្យខុសគ្នា។	ដូចជាការចាត់ថ្នាក់ផ្លែស្វាយទុំ ស្វាយខ្ចី និងស្វាយចន្ទី ចូលទៅក្នុងកន្ត្រកតែមួយដែលមានឈ្មោះថា "ផ្លែស្វាយ" ដើម្បីងាយស្រួលរាប់ដោយមិនគិតពីស្ថានភាពរូបរាងរបស់វា។
Feature Extraction	ជាដំណើរការទាញយកព័ត៌មាន ឬលក្ខណៈសំខាន់ៗចេញពីអត្ថបទដែលបានសម្អាតរួច (ដូចជារចនាសម្ព័ន្ធវេយ្យាករណ៍ អត្ថន័យ និងវាក្យសព្ទ) ដើម្បីបំប្លែងវាទៅជាទិន្នន័យលេខ ដែលម៉ូដែល Machine Learning អាចយល់បានសម្រាប់ការផ្តល់ពិន្ទុ។	ដូចជាការស្កេនមើលមុខម្ហូបមួយចាន រួចកត់ត្រាទុកតែគ្រឿងផ្សំសំខាន់ៗដូចជា សាច់ បន្លែ និងអំបិល ដើម្បីវាយតម្លៃថាវាឆ្ងាញ់ឬអត់ ដោយមិនខ្វល់ពីប្រភេទចានដែលដាក់នោះទេ។
BERT	ជាម៉ូដែលបណ្តាញសរសៃប្រសាទកម្រិតខ្ពស់ (Bidirectional Encoder Representations from Transformers) ដែលអានអត្ថបទទាំងសងខាង (ពីឆ្វេងទៅស្តាំ និងពីស្តាំទៅឆ្វេង) ក្នុងពេលតែមួយ ដើម្បីយល់ពីបរិបទ និងអត្ថន័យស៊ីជម្រៅនៃពាក្យនីមួយៗនៅក្នុងប្រយោគរបស់សិស្ស។	ដូចជាអ្នកអានសៀវភៅដ៏ពូកែម្នាក់ ដែលមិនត្រឹមតែអានពាក្យម្តងមួយៗទេ តែសម្លឹងមើលប្រយោគទាំងមូលដើម្បីចាប់យកអត្ថន័យបង្កប់ពិតប្រាកដ។
Cross-Validation	គឺជាបច្ចេកទេសវាយតម្លៃម៉ូដែលដោយបែងចែកទិន្នន័យជាច្រើនផ្នែក ដោយផ្នែកខ្លះសម្រាប់បង្វឹកម៉ាស៊ីន (Training data) និងផ្នែកខ្លះទៀតសម្រាប់ធ្វើតេស្ត (Validation data) ឆ្លាស់គ្នា ដើម្បីធានាថាម៉ូដែលនោះអាចទស្សន៍ទាយបានត្រឹមត្រូវលើទិន្នន័យថ្មីៗដែលវាមិនធ្លាប់ឃើញពីមុនមក។	ដូចជាការធ្វើតេស្តសិស្សដោយប្រើវិញ្ញាសាខុសៗគ្នាជាច្រើនដង ដើម្បីប្រាកដថាសិស្សនោះពិតជាយល់មេរៀនមែន មិនមែនគ្រាន់តែទន្ទេញចាំមាត់នូវវិញ្ញាសាចាស់នោះទេ។
mean absolute error (MAE)	ជារង្វាស់ស្ថិតិដែលប្រើសម្រាប់គណនាកម្រិតខុសគ្នាមធ្យមរវាងពិន្ទុដែលម៉ាស៊ីនទស្សន៍ទាយបាន និងពិន្ទុជាក់ស្តែងដែលគ្រូបានផ្តល់ឱ្យ។ បើ MAE កាន់តែតូច មានន័យថាម៉ាស៊ីនដាក់ពិន្ទុកាន់តែសុក្រឹតនិងខិតជិតការសម្រេចចិត្តរបស់មនុស្ស។	ដូចជាការវាស់ចម្ងាយរវាងព្រួញដែលអ្នកបាញ់ទៅចំគោលដៅ ជាមួយនឹងចំណុចកណ្តាលនៃផ្ទាំងស៊ីប ដើម្បីដឹងថាអ្នកបាញ់ខុសគោលដៅប៉ុន្មានសង់ទីម៉ែត្រជាមធ្យម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖