Original Title: Designing of an AI-Based Automated Feedback Assessment and Decision Analytics Model in Virtual Learning Environments using Google BERT
Source: doi.org/10.17762/ijritcc.v11i7s.7493
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរចនាម៉ូដែលវាយតម្លៃមតិកែលម្អស្វ័យប្រវត្តិផ្អែកលើ AI និងវិភាគការសម្រេចចិត្តក្នុងបរិស្ថានសិក្សានិម្មិតដោយប្រើប្រាស់ Google BERT

ចំណងជើងដើម៖ Designing of an AI-Based Automated Feedback Assessment and Decision Analytics Model in Virtual Learning Environments using Google BERT

អ្នកនិពន្ធ៖ Gaurav Srivastav, Sharda University, Shri Kant, Sharda University, Durgesh Srivastava, Chitkara University

ឆ្នាំបោះពុម្ព៖ 2023, International Journal on Recent and Innovation Trends in Computing and Communication

វិស័យសិក្សា៖ Computer Science, Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើបញ្ហានៃការវាយតម្លៃមតិកែលម្អក្នុងបរិស្ថានសិក្សានិម្មិត (Virtual Learning Environments) ដោយសារតែការវាយតម្លៃដោយមនុស្សត្រូវចំណាយពេលយូរនិងអាចមានភាពលំអៀង។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះស្នើឡើងនូវវិធីសាស្ត្រវាយតម្លៃមតិកែលម្អដោយស្វ័យប្រវត្តិបែបកូនកាត់ (Hybrid approach) ដោយប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត ជាពិសេសម៉ូដែលភាសា Google BERT ដែលត្រូវបានកែសម្រួល (Fine-tuned) សម្រាប់កិច្ចការនេះ។

ការប្រមូលនិងរៀបចំទិន្នន័យ (Data Collection and Pre-processing): ប្រើប្រាស់ទិន្នន័យ Open University Learning Analytics (OULA) ដែលមាន ១០,០០០ មតិកែលម្អ ចែកចេញជា 'ល្អ' និង 'អាក្រក់'។
ការបំប្លែងអត្ថបទទៅជាទិន្នន័យលេខ (Feature Extraction & Word Embedding): ប្រើប្រាស់ WordPiece tokenizer របស់ម៉ូដែល BERT ដើម្បីបង្កើតទម្រង់ម៉ាទ្រីស (Matrix Operations) នៃពាក្យ។
ការបង្ហាត់ម៉ូដែល (Model Training): ប្រើប្រាស់ស្ថាបត្យកម្ម Google BERT ជាមួយនឹង TensorFlow framework ព្រមទាំងការបណ្តុះបណ្តាលក្នុង ៥០ ជុំ (50 epochs)។
ការវាយតម្លៃម៉ូដែល (Model Evaluation): ប្រៀបធៀបសមត្ថភាពរបស់ម៉ូដែល BERT ជាមួយម៉ូដែល Machine Learning និង Deep Learning ផ្សេងៗទៀត ព្រមទាំងជាមួយម៉ូដែល PARs-BERT, RoBERTa និង SemBERT។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Fine-tuned BERT ដែលបានស្នើឡើង សម្រេចបាននូវភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៣.៤% (Accuracy 0.93) ជាមួយនឹងពិន្ទុ F1-Score ០.៨៨ លើទិន្នន័យ OULA dataset។
ម៉ូដែល Google BERT មានដំណើរការប្រសើរជាងម៉ូដែលភាសាធំៗដទៃទៀត (ដូចជា PARs-BERT, RoBERTa, និង SemBERT) ព្រមទាំងម៉ូដែលបុរាណដទៃទៀត (SVM, CNN, LSTM) ទាំងផ្នែក Precision, Recall និង F1-score។
ប្រព័ន្ធដែលបានបង្កើតនេះមានសក្ដានុពលខ្ពស់ក្នុងការផ្តល់មតិកែលម្អភ្លាមៗដល់សិស្ស កាត់បន្ថយពេលវេលា និងភាពលំអៀងនៃការវាយតម្លៃដោយគ្រូ ដែលស័ក្តិសមសម្រាប់ប្រើប្រាស់ក្នុងវិស័យអប់រំ និងសេវាកម្មអតិថិជន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Fine-tuned Google BERT (Proposed) ម៉ូដែល Google BERT ដែលបានកែសម្រួល (ម៉ូដែលស្នើឡើង)	មានសមត្ថភាពខ្ពស់ក្នុងការយល់ពីបរិបទនិងអត្ថន័យស៊ីជម្រៅនៃពាក្យក្នុងប្រយោគ (Bidirectional context)។ ផ្តល់លទ្ធផលត្រឹមត្រូវខ្ពស់បំផុត។	ទាមទារធនធានកុំព្យូទ័រធំ និងប្រើពេលយូរក្នុងការហ្វឹកហាត់ (Fine-tuning)។	ទទួលបានភាពត្រឹមត្រូវ (Accuracy) 93.4% និង F1-Score 0.88។
RoBERTa ម៉ូដែល RoBERTa	ជាម៉ូដែល State-of-the-Art ដែលត្រូវបានបង្កើនប្រសិទ្ធភាពការហ្វឹកហាត់បានយ៉ាងល្អ និងមានភាពរឹងមាំក្នុងការវិភាគអត្ថបទ។	ត្រូវការទំហំទិន្នន័យហ្វឹកហាត់ និងកម្លាំងម៉ាស៊ីន (Compute power) ច្រើនជាង BERT ទូទៅ។	ទទួលបាន F1-Score 0.87 ល្អជាងគេលំដាប់ទី២។
Deep Learning (GRU / LSTM) ម៉ូដែលបណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ (GRU និង LSTM)	មានប្រសិទ្ធភាពក្នុងការទាញយកលក្ខណៈពិសេសពីទិន្នន័យអត្ថបទដែលជាលំដាប់លំដោយ (Sequential text data)។	មិនអាចចាប់យកបរិបទបានទូលំទូលាយដូចម៉ូដែលប្រភេទ Transformer (ដូចជា BERT) នោះទេ។	ទទួលបាន F1-Score 0.83 សម្រាប់ GRU និង 0.81 សម្រាប់ LSTM។
Support Vector Machine (SVM) ម៉ូដែលរៀនដោយម៉ាស៊ីនទូទៅ (SVM)	ងាយស្រួលក្នុងការអភិវឌ្ឍ ស៊ីធនធានម៉ាស៊ីនតិច និងដំណើរការបានលឿន។	មានដែនកំណត់ក្នុងការយល់ដឹងពីអត្ថន័យស្មុគស្មាញនៃភាសា ដែលធ្វើឱ្យការវាយតម្លៃមិនសូវច្បាស់លាស់។	ទទួលបាន F1-Score ទាបត្រឹមតែ 0.73 ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍម៉ូដែលផ្អែកលើ BERT ទាមទារការវិនិយោគខ្ពស់លើកម្លាំងកុំព្យូទ័រ និងទំហំទិន្នន័យ។

Hardware: ចាំបាច់ត្រូវមានម៉ាស៊ីនកុំព្យូទ័រដែលបំពាក់ GPU ឬ TPU កម្លាំងខ្លាំង ដើម្បីដំណើរការការហ្វឹកហាត់ម៉ូដែល (Model Training) បានទាន់ពេលវេលា។
Software: ប្រើប្រាស់ Frameworks ដូចជា TensorFlow ជាមួយនឹង Adam optimizer ព្រមទាំង WordPiece tokenizer សម្រាប់ដំណើរការអត្ថបទ។
Dataset: ទាមទារសំណុំទិន្នន័យធំ (ការសិក្សានេះប្រើប្រាស់អត្ថបទចំនួន ១០,០០០ ដែលត្រូវបានដាក់ស្លាក Labeled data)។
Expertise: ត្រូវការធនធានមនុស្សដែលមានជំនាញជាន់ខ្ពស់ផ្នែកដំណើរការភាសាធម្មជាតិ (NLP) និងការអភិវឌ្ឍម៉ូដែល Deep Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានវាយតម្លៃដោយប្រើប្រាស់សំណុំទិន្នន័យ OULA (Open University Learning Analytics) ដែលសុទ្ធសឹងជាអត្ថបទភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមដ៏ធំ ដោយសារភាសាខ្មែរមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ និងការកាត់ពាក្យខុសពីភាសាអង់គ្លេសដាច់ស្រឡះ ដែលទាមទារឲ្យមានការបង្កើតសំណុំទិន្នន័យភាសាខ្មែរ (Khmer Corpus) ផ្ទាល់ខ្លួនទើបអាចប្រើប្រាស់បាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បើទោះបីជាមានឧបសគ្គផ្នែកទិន្នន័យភាសាក៏ដោយ វិធីសាស្ត្រនេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធអប់រំឌីជីថលនៅកម្ពុជា។

វិទ្យាស្ថានភាសាបរទេស (IFL): អាចយកម៉ូដែលនេះទៅប្រើប្រាស់ផ្ទាល់ (ដោយសារវាប្រើភាសាអង់គ្លេសស្រាប់) ដើម្បីជួយសាស្ត្រាចារ្យក្នុងការកែសំណេរ និងផ្តល់មតិកែលម្អ (Automated Feedback) ដល់និស្សិតរាប់ពាន់នាក់បានលឿន។
ប្រព័ន្ធអប់រំអេឡិចត្រូនិក Moodle របស់សាកលវិទ្យាល័យនានា (ឧ. RUPP, ITC): អាចប្រើប្រាស់គំរូនៃប្រព័ន្ធនេះ (បើបំប្លែងជាភាសាខ្មែរ) ដើម្បីវាយតម្លៃមតិយោបល់របស់និស្សិតលើការបង្រៀនរបស់សាស្ត្រាចារ្យដោយស្វ័យប្រវត្តិ។
ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS): អាចប្រើដើម្បីតាមដាន និងវិភាគគុណភាពនៃការចូលរៀនតាមរយៈប្រព័ន្ធ MoEYS E-learning ដោយស្វ័យប្រវត្តិ ដើម្បីកែលម្អកម្មវិធីសិក្សាពីចម្ងាយ។

សរុបមក ការយកបច្ចេកវិទ្យានេះមកអនុវត្តនៅកម្ពុជានឹងទទួលបានជោគជ័យ និងមានភាពទូលំទូលាយ លុះត្រាតែមានការស្រាវជ្រាវ និងវិនិយោគលើសំណុំទិន្នន័យ NLP ភាសាខ្មែរជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះ AI និង NLP: និស្សិត និងអ្នកស្រាវជ្រាវត្រូវចាប់ផ្តើមសិក្សាពីបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិដោយប្រើប្រាស់ Python និង Frameworks ដូចជា TensorFlow ឬ PyTorch និងការប្រើប្រាស់ Hugging Face សម្រាប់ទាញយកម៉ូដែល។
ជំហានទី២៖ ប្រមូល និងសម្អាតទិន្នន័យភាសាខ្មែរ: សហការជាមួយសាកលវិទ្យាល័យដើម្បីប្រមូលមតិយោបល់និស្សិត ឬអត្ថបទសំណេរជាភាសាខ្មែរ បន្ទាប់មកប្រើប្រាស់ឧបករណ៍ដូចជា Khmernltk សម្រាប់ការកាត់ពាក្យ (Word segmentation) និងសម្អាតទិន្នន័យរំខានចេញ។
ជំហានទី៣៖ ធ្វើការដាក់ស្លាកទិន្នន័យ (Data Labeling): ចាត់តាំងក្រុមការងារដើម្បីវាយតម្លៃ និងដាក់ស្លាកទិន្នន័យ (ឧទាហរណ៍៖ មតិវិជ្ជមាន ឬ អវិជ្ជមាន) ឲ្យបានយ៉ាងហោចណាស់ ១០,០០០ សំណាក ដើម្បីធានាបាននូវការហ្វឹកហាត់ម៉ូដែលដែលមានប្រសិទ្ធភាព។
ជំហានទី៤៖ ហ្វឹកហាត់ម៉ូដែលពហុភាសា (Fine-Tuning Multilingual Models): ជំនួសឲ្យការបង្កើត BERT ថ្មីទាំងស្រុង គួរប្រើប្រាស់ម៉ូដែលដែលមានស្រាប់ដូចជា mBERT ឬ XLM-RoBERTa យកមក Fine-tune ជាមួយសំណុំទិន្នន័យភាសាខ្មែរដែលបានរៀបចំខាងលើ។
ជំហានទី៥៖ ដាក់ពង្រាយប្រព័ន្ធ (Deployment): បង្កើតជា API ដោយប្រើប្រាស់ FastAPI ឬ Flask ហើយធ្វើសមាហរណកម្ម (Integration) វាចូលទៅក្នុងប្រព័ន្ធគ្រប់គ្រងការសិក្សា (LMS) ដូចជា Moodle ដើម្បីដាក់ឲ្យនិស្សិត និងសាស្ត្រាចារ្យប្រើប្រាស់ជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Google BERT	គឺជាម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់របស់ក្រុមហ៊ុន Google ដែលមានសមត្ថភាពអាន និងយល់ន័យរបស់ពាក្យនីមួយៗក្នុងប្រយោគដោយពិនិត្យមើលបរិបទទាំងសងខាង (ពាក្យខាងមុខ និងខាងក្រោយ) ក្នុងពេលតែមួយ។	ដូចជាមនុស្សអានសៀវភៅដែលមិនត្រឹមតែប្រែពាក្យម្តងមួយៗ ប៉ុន្តែអានប្រយោគទាំងមូលដើម្បីយល់អត្ថន័យពិតប្រាកដមុននឹងទាញសេចក្តីសន្និដ្ឋាន។
Natural Language Processing (NLP)	គឺជាផ្នែកមួយនៃវិទ្យាសាស្ត្រកុំព្យូទ័រ និងបញ្ញាសិប្បនិម្មិត (AI) ដែលផ្តល់លទ្ធភាពឱ្យកុំព្យូទ័រអាចអាន យល់ វិភាគ និងទាញយកអត្ថន័យពីភាសារបស់មនុស្ស។	ដូចជាអ្នកបកប្រែភាសាដែលបំប្លែងភាសាមនុស្ស (ខ្មែរ អង់គ្លេស) ទៅជាភាសាដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់ និងធ្វើការងារជំនួសយើងបាន។
Fine-tuning	គឺជាដំណើរការយកម៉ូដែល AI ដែលត្រូវបានបង្វឹកជាមុនលើទិន្នន័យទូទៅដ៏ច្រើនសន្ធឹកសន្ធាប់ មកហ្វឹកហាត់បន្ថែមលើសំណុំទិន្នន័យជាក់លាក់ណាមួយ ដើម្បីឱ្យវាមានជំនាញច្បាស់លាស់ក្នុងការបំពេញការងារនោះ។	ដូចជាការយកនិស្សិតដែលទើបបញ្ចប់បរិញ្ញាបត្រទូទៅ មកបណ្តុះបណ្តាលជំនាញឯកទេសបន្ថែមនៅកន្លែងធ្វើការ ដើម្បីឱ្យគាត់ក្លាយជាអ្នកជំនាញក្នុងផ្នែកនោះ។
Tokenization	គឺជាវិធីសាស្ត្រក្នុងការកាត់បំបែកអត្ថបទវែងៗ ឬប្រយោគ ទៅជាចំណែកតូចៗ (ដូចជាពាក្យ ឬព្យាង្គ) ដើម្បីឱ្យម៉ូដែល AI អាចយកទិន្នន័យទាំងនោះទៅរៀបចំ និងវិភាគបន្តបាន។	ដូចជាការកាត់នំប៉័ងមួយដើមធំជាចំណិតតូចៗ ដើម្បីងាយស្រួលក្នុងការទំពារញ៉ាំ និងរំលាយក្នុងក្រពះ។
Word Embedding Matrix	គឺជាការបំប្លែងពាក្យនីមួយៗទៅជាតួលេខគណិតវិទ្យា (វ៉ិចទ័រ) ក្នុងទម្រង់ជាម៉ាទ្រីស ដែលជួយឱ្យកុំព្យូទ័រដឹងពីទំនាក់ទំនង និងភាពស្រដៀងគ្នានៃអត្ថន័យពាក្យទាំងនោះ។	ដូចជាការដាក់លេខកូដសម្គាល់លើសៀវភៅក្នុងបណ្ណាល័យ ដែលសៀវភៅមានសាច់រឿង ឬអត្ថន័យស្រដៀងគ្នាត្រូវបានរៀបចំទុកនៅជិតគ្នាលើធ្នើរ។
Masked Language Modelling (MLM)	គឺជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដោយលាក់ពាក្យមួយចំនួននៅក្នុងប្រយោគដោយចៃដន្យ រួចតម្រូវឱ្យម៉ូដែលនោះទាយរកពាក្យដែលបាត់ ដោយផ្អែកលើពាក្យដែលនៅសល់ជុំវិញវា។	ដូចជាការធ្វើលំហាត់បំពេញចន្លោះនៅក្នុងសៀវភៅពុម្ព ដែលសិស្សត្រូវអានប្រយោគទាំងមូលដើម្បីទាយថាតើពាក្យអ្វីដែលស័ក្តិសមយកមកបំពេញក្នុងចន្លោះនោះ។
Virtual Learning Environments (VLE)	គឺជាប្រព័ន្ធអប់រំតាមប្រព័ន្ធអ៊ីនធឺណិត (Web-based platform) ដែលអនុញ្ញាតឱ្យគ្រូ និងសិស្សអាចរៀនសូត្រ ផ្លាស់ប្តូរឯកសារ និងវាយតម្លៃការសិក្សាពីចម្ងាយបានដោយស្វ័យប្រវត្តិ។	ដូចជាសាលារៀនសិប្បនិម្មិតនៅលើកុំព្យូទ័រ ដែលសិស្សអាចចូលរៀន អានសៀវភៅ ពិភាក្សា និងប្រឡង ដោយមិនបាច់ធ្វើដំណើរទៅសាលាផ្ទាល់។
Next Sentence Prediction (NSP)	គឺជាកិច្ចការមួយដែលបង្វឹកម៉ូដែល AI ឱ្យចេះវិភាគប្រយោគពីរ ហើយទស្សន៍ទាយថា តើប្រយោគទីពីរគឺជារបារបន្តបន្ទាប់ពីប្រយោគទីមួយ ឬក៏គ្រាន់តែជាប្រយោគផ្សេងគ្នាដែលគ្មានទំនាក់ទំនងនឹងគ្នា។	ដូចជាការលេងល្បែងផ្គុំរូប (Jigsaw puzzle) ដែលអ្នកត្រូវទាយថាតើបំណែកនៃប្រយោគទាំងពីរនេះអាចផ្គុំចូលគ្នាបានយ៉ាងស៊ីចង្វាក់គ្នាឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖