Original Title: EvalBERT: a novel framework for assisted descriptive answers and C programming evaluation
Source: doi.org/10.11591/ijece.v15i3.pp3346-3361
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

EvalBERT៖ ក្របខ័ណ្ឌថ្មីសម្រាប់ការវាយតម្លៃចម្លើយពណ៌នា និងការសរសេរកូដ C ដោយមានជំនួយ

ចំណងជើងដើម៖ EvalBERT: a novel framework for assisted descriptive answers and C programming evaluation

អ្នកនិពន្ធ៖ Prakruthi Sondekere Thippeswamy (Visvesvaraya Technological University), Manjunathswamy Byranahalli Eraiah (Guru Ghasidas Vishwavidyalaya), Salma Jabeen (Visvesvaraya Technological University)

ឆ្នាំបោះពុម្ព៖ 2025, International Journal of Electrical and Computer Engineering (IJECE)

វិស័យសិក្សា៖ Computer Science / Educational Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវាយតម្លៃចម្លើយពណ៌នា និងការសរសេរកូដដោយដៃ ចំណាយពេលច្រើន ងាយមានកំហុស និងអាចមានភាពលំអៀង ដែលទាមទារឱ្យមានប្រព័ន្ធស្វ័យប្រវត្តិកម្មដែលមានប្រសិទ្ធភាពជាងវិធីសាស្ត្ររាប់ពាក្យសាមញ្ញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់បច្ចេកទេសកែច្នៃភាសាធម្មជាតិ (NLP) និងការរៀនស៊ីជម្រៅ (Deep Learning) ដើម្បីបង្កើតម៉ូដែលមួយឈ្មោះថា EvalBERT សម្រាប់វាយតម្លៃចម្លើយ។

ការប្រើប្រាស់វិធានវាស់វែងភាពស្រដៀងគ្នាដូចជា Word Mover's Distance (WMD) និង Cosine Similarity រួមជាមួយម៉ូដែល Multinomial Naïve Bayes (MNB)។
ការបណ្តុះបណ្តាល និងកែសម្រួលម៉ូដែល Deep Learning ដូចជា Bi-LSTM និង BERT ដោយប្រើប្រាស់ទិន្នន័យសិក្សាជាក់លាក់ និងបង្កើនល្បឿនដោយ GPU ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល EvalBERT ទទួលបានអត្រាភាពត្រឹមត្រូវ ៩៤.៨៦% ដែលខ្ពស់ជាងម៉ូដែលមូលដ្ឋានដទៃទៀតចំនួន ១.២២%។
ការប្រើប្រាស់ GPU បានជួយកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលម៉ូដែលបានពាក់កណ្តាល បើធៀបនឹងប្រព័ន្ធដែលប្រើតែ CPU ។
ប្រព័ន្ធនេះអាចវាយតម្លៃទាំងចម្លើយពណ៌នា និងកូដ C ដោយផ្តល់នូវស្ថិតិ និងការរកឃើញកំហុសបច្ចេកទេស (Syntactic errors) បានយ៉ាងល្អ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Multinomial Naïve Bayes (MNB) ការប្រើប្រាស់គំរូ MNB (Multinomial Naïve Bayes) ដែលជាវិធីសាស្ត្រស្ថិតិប្រូបាប	មានល្បឿនលឿនក្នុងការដំណើរការ និងសាមញ្ញក្នុងការអនុវត្តសម្រាប់ការចាត់ថ្នាក់អត្ថបទ។	មិនបានពិចារណាលើលំដាប់នៃពាក្យ (Word order) ដែលធ្វើឱ្យបាត់បង់អត្ថន័យបរិបទសំខាន់ៗ។	ទទួលបានភាពត្រឹមត្រូវទាបបំផុតត្រឹម ៨០.០៨% (ជាមួយ Cosine Similarity)។
Bi-LSTM (Bidirectional LSTM) បណ្តាញប្រសាទសិប្បនិម្មិតដែលអាចចងចាំព័ត៌មានទាំងទៅមុខ និងត្រឡប់ក្រោយ	អាចចាប់យកបរិបទនៃប្រយោគបានល្អជាង MNB ដោយពិចារណាលើទំនាក់ទំនងរវាងពាក្យ។	ត្រូវការពេលវេលាបណ្តុះបណ្តាលយូរជាង MNB និងមិនមានប្រសិទ្ធភាពស្មើ BERT ក្នុងការយល់អត្ថន័យស៊ីជម្រៅ។	ទទួលបានភាពត្រឹមត្រូវ ៨៧.៨៩%។
BERT (Base Model) គំរូ BERT មូលដ្ឋានដែលបានបណ្តុះបណ្តាលលើទិន្នន័យទូទៅ	មានសមត្ថភាពខ្ពស់បំផុតក្នុងការយល់បរិបទនៃភាសា (Contextual understanding)។	នៅមានកម្រិតនៅពេលជួបពាក្យបច្ចេកទេស ឬទិន្នន័យសិក្សាដែលមិនធ្លាប់ជួបក្នុងទិន្នន័យទូទៅ។	ទទួលបានភាពត្រឹមត្រូវ ៨៨.៧៤%។
EvalBERT (Proposed Method) គំរូ BERT ដែលត្រូវបានបណ្តុះបណ្តាលបន្ថែមលើទិន្នន័យសិក្សា និងកូដ C ជាក់លាក់	មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងអាចវាយតម្លៃទាំងអត្ថបទពណ៌នា និងកូដកុំព្យូទ័រ។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ (GPU) សម្រាប់ការបណ្តុះបណ្តាល។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៤.៨៦% (ខ្ពស់ជាងគេ ១.២២%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ និងទិន្នន័យជាក់លាក់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល។

Hardware: ត្រូវការអង្គដំណើរការក្រាហ្វិក (GPU) ដូចជា Nvidia GPU ដើម្បីកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលម៉ូដែលពី CPU ធម្មតាបានពាក់កណ្តាល។
Dataset: ត្រូវការទិន្នន័យសំណួរ-ចម្លើយកម្រិតសាកលវិទ្យាល័យ (Descriptive Q&A) និងកូដ C ដែលបានរៀបចំរួចរាល់ (Annotated Corpus) ចំនួនជាង ១០,០០០ ចម្លើយ។
Software Framework: ប្រើប្រាស់ Django សម្រាប់បង្កើតចំណុចប្រទាក់ Web Interface និងបណ្ណាល័យ Python ដូចជា TensorFlow ឬ PyTorch សម្រាប់ដំណើរការ AI។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីការប្រឡងរបស់សាកលវិទ្យាល័យនៅប្រទេសឥណ្ឌា ដែលផ្តោតសំខាន់លើភាសាអង់គ្លេស និងមុខវិជ្ជាវិទ្យាសាស្ត្រកុំព្យូទ័រ។ សម្រាប់កម្ពុជា នេះជាបញ្ហាប្រឈមប្រសិនបើយកមកប្រើប្រាស់ផ្ទាល់លើមុខវិជ្ជាដែលបង្រៀនជាភាសាខ្មែរ ប៉ុន្តែវាមានប្រយោជន៍សម្រាប់កម្មវិធីសិក្សាអន្តរជាតិ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់គ្រឹះស្ថានឧត្តមសិក្សានៅកម្ពុជា ជាពិសេសសម្រាប់មុខវិជ្ជាបច្ចេកទេស។

សាកលវិទ្យាល័យបច្ចេកទេស (ដូចជា ITC ឬ RUPP): អាចប្រើប្រាស់ EvalBERT ដើម្បីបង្កើតប្រព័ន្ធកែការងារផ្ទះ ឬការប្រឡងសរសេរកូដ (C Programming) ដោយស្វ័យប្រវត្តិ ដែលជួយកាត់បន្ថយបន្ទុកសាស្ត្រាចារ្យ។
មជ្ឈមណ្ឌលបណ្តុះបណ្តាលភាសាបរទេស: អាចយកទៅប្រើដើម្បីវាយតម្លៃការសរសេរអត្ថបទភាសាអង់គ្លេស (Essay Writing) របស់សិស្ស ដោយផ្តល់ពិន្ទុ និងមូលហេតុនៃកំហុសវេយ្យាករណ៍ភ្លាមៗ។

ទោះបីជាវាមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែការដាក់ឱ្យប្រើប្រាស់នៅកម្ពុជាទាមទារឱ្យមានការកែសម្រួលដើម្បីគាំទ្រភាសាខ្មែរ ឬប្រើប្រាស់សម្រាប់តែកម្មវិធីសិក្សាភាសាអង់គ្លេសប៉ុណ្ណោះ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ NLP និង BERT: និស្សិតគួរចាប់ផ្តើមសិក្សាពីដំណើរការនៃ Natural Language Processing (NLP) ដោយប្រើ Python និងស្វែងយល់ពីរបៀបដែលគំរូ BERT (Bidirectional Encoder Representations from Transformers) ដំណើរការ។
ការប្រមូល និងរៀបចំទិន្នន័យ: ប្រមូលសំណួរ និងចម្លើយប្រឡងចាស់ៗពីសាលា (Dataset Curation) រួចធ្វើការ Clean ទិន្នន័យ និងដាក់ស្លាក (Annotation) ដើម្បីត្រៀមសម្រាប់ការបណ្តុះបណ្តាល។
ការបណ្តុះបណ្តាលម៉ូដែល (Model Fine-tuning): ប្រើប្រាស់ Google Colab (ដែលមាន GPU ឥតគិតថ្លៃ) ដើម្បីយកម៉ូដែល BERT មូលដ្ឋានមកបណ្តុះបណ្តាលបន្ថែម (Fine-tune) ជាមួយទិន្នន័យដែលបានប្រមូលខាងលើ។
ការបង្កើតចំណុចប្រទាក់អ្នកប្រើប្រាស់ (Web Interface): បង្កើតគេហទំព័រសាមញ្ញមួយដោយប្រើ Django ឬ Flask ដែលអនុញ្ញាតឱ្យសិស្សបញ្ចូលចម្លើយ ហើយប្រព័ន្ធនឹងហៅ API ទៅកាន់ម៉ូដែលដើម្បីផ្តល់ពិន្ទុត្រឡប់មកវិញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
BERT (Bidirectional Encoder Representations from Transformers)	ជាម៉ូដែល AI ដ៏មានឥទ្ធិពលដែលរៀនយល់អត្ថន័យនៃភាសាដោយអានប្រយោគទាំងមូល (ទាំងឆ្វេងនិងស្តាំ) ព្រមគ្នា ដើម្បីចាប់យកបរិបទនៃពាក្យនីមួយៗបានយ៉ាងច្បាស់លាស់ ជាជាងការអានម្តងមួយពាក្យ។	ដូចជាការអានប្រយោគមួយចប់សិន ទើបយើងយល់អត្ថន័យពិតនៃពាក្យពិបាកៗនៅក្នុងនោះ មិនមែនអានម្តងមួយពាក្យៗនោះទេ។
Bi-LSTM (Bidirectional Long Short-Term Memory)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលអាចចងចាំព័ត៌មានពីអតីតកាល និងអនាគតក្នុងប្រយោគមួយ ដើម្បីយល់ពីទំនាក់ទំនងរវាងពាក្យដែលនៅឆ្ងាយពីគ្នា។	ប្រៀបដូចជាការស្តាប់ចម្រៀងដែលយើងចាំទំនុកច្រៀងពីដើមដល់ចប់ ដើម្បីយល់អត្ថន័យរួមនៃបទចម្រៀងនោះ។
Word Mover's Distance (WMD)	ជាវិធីសាស្ត្រវាស់វែងភាពស្រដៀងគ្នារវាងអត្ថបទពីរ ដោយគណនាថា តើត្រូវចំណាយ "កម្លាំង" ឬការផ្លាស់ប្តូរប៉ុន្មាន ដើម្បីប្លែងពាក្យពីអត្ថបទមួយឱ្យទៅជាអត្ថន័យនៃអត្ថបទមួយទៀត។	ដូចជាការគណនាថាតើត្រូវចំណាយកម្លាំងប៉ុន្មាន ដើម្បីរៀបចំគ្រឿងសង្ហារិមក្នុងបន្ទប់មួយ ឱ្យដូចគ្នាបេះបិទទៅនឹងបន្ទប់មួយទៀត។
Fine-tuning	ដំណើរការនៃការយកម៉ូដែល AI ដែលមានចំណេះដឹងទូទៅស្រាប់ (Pre-trained Model) មកបង្រៀនបន្ថែមជាមួយទិន្នន័យជាក់លាក់ ដើម្បីឱ្យវាមានជំនាញច្បាស់លាស់លើការងារណាមួយ។	ដូចជាការយកគ្រូពេទ្យទូទៅម្នាក់ មកបណ្តុះបណ្តាលបន្ថែមឱ្យក្លាយជាវេជ្ជបណ្ឌិតឯកទេសវះកាត់បេះដូង។
Cosine Similarity	ជាការគណនាគណិតវិទ្យាដើម្បីវាស់ថាតើអត្ថបទពីរមានភាពស្រដៀងគ្នាខ្លាំងប៉ុណ្ណា ដោយវាស់មុំរវាងវ៉ិចទ័រនៃពាក្យក្នុងអត្ថបទទាំងនោះ។	ដូចជាការប្រៀបធៀបទិសដៅនៃព្រួញពីរ បើវាចង្អុលទៅទិសដៅតែមួយ មានន័យថាវាដូចគ្នាខ្លាំង។
Word Embeddings	បច្ចេកទេសបំប្លែងពាក្យទៅជាតួលេខ (វ៉ិចទ័រ) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ន័យ និងទំនាក់ទំនងរវាងពាក្យ ដូចជាដឹងថា "ស្តេច" និង "រាជិនី" មានន័យស្រដៀងគ្នា។	ដូចជាការផ្តល់លេខកូដសម្គាល់ទីតាំង GPS ឱ្យពាក្យនីមួយៗ ដើម្បីដឹងថាពាក្យណាខ្លះមានន័យកៀកគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖