Original Title: Optimization of AES using BERT and BiLSTM for Grading the Online Exams
Source: doi.org/10.22266/ijies2024.1031.31
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធដាក់ពិន្ទុតែងសេចក្តីស្វ័យប្រវត្តិ (AES) ដោយប្រើ BERT និង BiLSTM សម្រាប់ការដាក់ពិន្ទុការប្រឡងតាមអនឡាញ

ចំណងជើងដើម៖ Optimization of AES using BERT and BiLSTM for Grading the Online Exams

អ្នកនិពន្ធ៖ Azhari Azhari (Universitas Gadjah Mada), Agus Santoso (Universitas Terbuka), Anak Agung Putri Ratna (Universitas Indonesia), Jasson Prestiliano (Universitas Gadjah Mada)

ឆ្នាំបោះពុម្ព៖ 2024, International Journal of Intelligent Engineering and Systems

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ សាកលវិទ្យាល័យ Universitas Terbuka ជួបប្រទះបញ្ហាខ្វះខាតអ្នកកែវិញ្ញាសា ដែលធ្វើឱ្យការពិនិត្យនិងដាក់ពិន្ទុលើការប្រឡងតែងសេចក្តីរបស់និស្សិតជាង ៥០០,០០០ នាក់ចំណាយពេលយូរ គ្មានប្រសិទ្ធភាព និងមានភាពលម្អៀង។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្ត្រកូនកាត់នៃម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning Models) រួមបញ្ចូលជាមួយវេយ្យាករណ៍អត្ថន័យធម្មជាតិ ដើម្បីអភិវឌ្ឍប្រព័ន្ធដាក់ពិន្ទុតែងសេចក្តីស្វ័យប្រវត្តិ (AES)។

ការបង្កើនទិន្នន័យអត្ថបទ (Data Augmentation) តាមរយៈការលុប ប្តូរទីតាំង និងបកប្រែត្រឡប់ (Back-translation)
ការទាញយកលក្ខណៈពិសេសអត្ថន័យដោយប្រើម៉ូដែលភាសា (BERT Model)
ការទស្សន៍ទាយពិន្ទុដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទ (BiLSTM Method)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល BERT-BiLSTM ទទួលបានពិន្ទុមធ្យម Cohen's Kappa ចំនួន ០.៨២០ (ខ្ពស់បំផុត ០.៩១០) ដែលមានភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែល ATT-CNN-LSTM និងម៉ូដែលដទៃទៀត។
ពេលវេលាជាមធ្យមក្នុងការត្រួតពិនិត្យវិញ្ញាសាសម្រាប់និស្សិតម្នាក់ត្រូវបានកាត់បន្ថយមកត្រឹម ១ នាទី និង ២ វិនាទី បើប្រៀបធៀបនឹងការកែដោយដៃដែលប្រើពេលជាង ១២ នាទី។
៩២.៧៥% នៃសាស្ត្រាចារ្យយល់ស្របថាប្រព័ន្ធនេះជួយឱ្យការដាក់ពិន្ទុមានយុត្តិធម៌ និងមានភាពសត្យានុម័ត (Objective) ជាងមុន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
BERT-BiLSTM (Proposed Model) ម៉ូដែលកូនកាត់ BERT និង BiLSTM (ម៉ូដែលស្នើឡើង)	អាចទាញយកអត្ថន័យ និងវេយ្យាករណ៍បានស៊ីជម្រៅពីចម្លើយសិស្ស ព្រមទាំងផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់អត្ថបទតែងសេចក្តីដែលមានប្រវែងវែង។	ទាមទារការបង្កើត និងហ្វឹកហាត់ម៉ូដែលដាច់ដោយឡែកពីគ្នាសម្រាប់សំណួរនីមួយៗ (៥០ ម៉ូដែល) ដែលប្រើប្រាស់ថាមពលកុំព្យូទ័រច្រើន។	សម្រេចបានពិន្ទុ QWK មធ្យម ០.៨២០ និងពិន្ទុ Cohen's Kappa ខ្ពស់បំផុត ០.៩១០។
CNN-BiLSTM ម៉ូដែលបណ្តាញសរសៃប្រសាទ CNN រួមបញ្ចូលជាមួយ BiLSTM	មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកព័ត៌មានពីកម្រិតវាក្យសព្ទ ប្រយោគ និងជំពូក ដែលដំណើរការបានល្អបំផុតលើប្រភេទអត្ថបទជាក់លាក់។	ខ្វះសមត្ថភាពស្វែងយល់អត្ថន័យរួមស៊ីជម្រៅបើប្រៀបធៀបនឹងម៉ូដែលដែលមានបំពាក់ BERT ធ្វើឱ្យពិន្ទុធ្លាក់ចុះចំពោះអត្ថបទវែងៗ។	សម្រេចបានពិន្ទុ QWK មធ្យម ០.៨១៦។
R2BERT ម៉ូដែល R2BERT	ប្រើប្រាស់មុខងារបាត់បង់ច្រើន (multiple loss objectives) ជួយឱ្យយល់ច្បាស់ពីពាក្យគន្លឹះ និងតំណភ្ជាប់ក្នុងតែងសេចក្តីខ្លីៗបានល្អ។	មិនសូវមានប្រសិទ្ធភាពខ្ពស់លើការវាយតម្លៃអត្ថបទតែងសេចក្តី ឬចម្លើយដែលមានប្រវែងវែងខ្លាំង។	សម្រេចបានពិន្ទុ QWK មធ្យម ០.៧៩៤។
BERT-XLNET ម៉ូដែលរួមបញ្ចូល BERT និង XLNET	ជួយកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យដោយលុបចោល stop-words និងកាត់បន្ថយបញ្ហា Overfitting ដែលសន្សំសំចៃពេលវេលាហ្វឹកហាត់។	ភាពត្រឹមត្រូវនៃការដាក់ពិន្ទុនៅមានកម្រិតទាបជាងគេ បើប្រៀបធៀបជាមួយនឹងម៉ូដែលទំនើបដទៃទៀត។	សម្រេចបានពិន្ទុ QWK មធ្យម ០.៧៥៨។
ATT CNN-LSTM ម៉ូដែល ATT CNN-LSTM ដែលផ្អែកលើ Attention Mechanism	អាចកំណត់ទម្ងន់នៃពាក្យ និងប្រយោគដោយស្វ័យប្រវត្តិ ជួយឱ្យងាយស្រួលយល់ពីរចនាសម្ព័ន្ធអត្ថបទនៃចម្លើយ។	មិនអាចចាប់យកបរិបទអត្ថន័យទ្វេទិស (Bidirectional context) បានល្អដូចម៉ូដែលដែលប្រើ BiLSTM នោះទេ។	សម្រេចបានពិន្ទុ QWK មធ្យម ០.៧៦៤។
Semi-manual Evaluation ការកែវិញ្ញាសាដោយដៃពាក់កណ្តាលដោយសាស្ត្រាចារ្យ (វិធីសាស្ត្រដើម)	អាចវាយតម្លៃភាពច្នៃប្រឌិត អារម្មណ៍ និងគំនិតក្រៅប្រអប់របស់សិស្សបានល្អជាងប្រព័ន្ធកុំព្យូទ័រក្នុងករណីខ្លះ។	ចំណាយពេលយូរខ្លាំង មានភាពលម្អៀង គ្មានស្តង់ដាររួមច្បាស់លាស់ និងងាយធ្វើឱ្យគ្រូហត់នឿយ។	ចំណាយពេលមធ្យម ១២ នាទី និង ៣៤ វិនាទី ដើម្បីកែចម្លើយរបស់សិស្សម្នាក់។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃជាទឹកប្រាក់ ប៉ុន្តែការអនុវត្តប្រព័ន្ធនេះទាមទារឱ្យមានធនធានកុំព្យូទ័រ (Compute Power) ខ្លាំង និងហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាដ៏រឹងមាំដើម្បីគាំទ្រការហ្វឹកហាត់ និងដំណើរការដាក់ពិន្ទុជាក់ស្តែង។

Hardware: ទាមទារម៉ាស៊ីនមេ (Server) ដែលមានសមត្ថភាពខ្ពស់ ឬ Virtual Private Server (VPS) និង GPU សម្រាប់ហ្វឹកហាត់ម៉ូដែល Deep Learning ទាំង ៥០ ម៉ូដែល ដោយប្រើ batch size 128 និង epochs ពី 150 ទៅ 500។
Software: ត្រូវការប្រព័ន្ធអភិវឌ្ឍន៍ដោយប្រើប្រាស់ភាសា Python, មូលដ្ឋានទិន្នន័យ SQLite3, Streamlit Framework សម្រាប់ UI/UX, និង Nginx ជា Web Server។
Dataset: ត្រូវការទិន្នន័យចម្លើយតែងសេចក្តីរាប់ពាន់ច្បាប់ (ឧ. ២០០០ ទៅជាង ៦៤០០ ច្បាប់ក្នុងមួយមុខវិជ្ជា) ដែលត្រូវឆ្លងកាត់ការបង្កើនទិន្នន័យ (Data Augmentation) តាមរយៈការលុប ប្តូរទីតាំង និងបកប្រែត្រឡប់។
Network Infrastructure: តម្រូវឱ្យមានប្រព័ន្ធអ៊ីនធឺណិតដែលមានល្បឿនមានស្ថិរភាព (យ៉ាងហោចណាស់ 20 Mbps) ដើម្បីធានាបាននូវការវាយតម្លៃនិងដាក់ពិន្ទុត្រឹមរយៈពេល ៦ ទៅ ៨ វិនាទីក្នុងសិស្សម្នាក់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានអនុវត្តនៅសាកលវិទ្យាល័យ Universitas Terbuka ប្រទេសឥណ្ឌូនេស៊ី ដោយប្រើប្រាស់ទិន្នន័យចម្លើយតែងសេចក្តីជាភាសាឥណ្ឌូនេស៊ី និងអង់គ្លេស។ នេះជាចំណុចប្រឈមសម្រាប់កម្ពុជា ដោយសារការបណ្តុះបណ្តាលម៉ូដែលភាសាខ្មែរ (Khmer NLP) នៅមានកម្រិត ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យជាភាសាជាតិក្នុងទំហំធំ និងមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធ AES នេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការដោះស្រាយបញ្ហាខ្វះខាតគ្រូបង្រៀន និងជួយពន្លឿនការកែវិញ្ញាសានៅតាមគ្រឹះស្ថានអប់រំនៅកម្ពុជាឱ្យកាន់តែមានយុត្តិធម៌។

គ្រឹះស្ថានឧត្តមសិក្សា និងសាកលវិទ្យាល័យធំៗ (ឧ. សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ, វិទ្យាស្ថានបច្ចេកវិទ្យាកម្ពុជា): អាចប្រើប្រាស់ដើម្បីកែវិញ្ញាសាប្រឡងឆមាសដែលមាននិស្សិតរាប់ពាន់នាក់ ពិសេសមុខវិជ្ជាទូទៅ (Foundation years) ដែលទាមទារការសរសេរពន្យល់ និងតែងសេចក្តី។
ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS): អាចអភិវឌ្ឍប្រើប្រាស់សម្រាប់ការវាយតម្លៃស្តង់ដារថ្នាក់ជាតិ ឬការប្រឡងយកអាហារូបករណ៍ផ្សេងៗ ដើម្បីធានាបាននូវតម្លាភាព កាត់បន្ថយភាពលម្អៀង និងសន្សំសំចៃពេលវេលារបស់គណៈកម្មការ។
ប្រព័ន្ធរៀនតាមអនឡាញ (E-learning/MOOCs នៅកម្ពុជា): អាចដាក់បញ្ចូលជាមុខងារ (Feature) ថ្មីក្នុងប្រព័ន្ធ LMS ដើម្បីវាយតម្លៃការធ្វើលំហាត់របស់សិស្ស និងផ្តល់មតិកែលម្អ (Feedback) លម្អិតបានភ្លាមៗដោយមិនបាច់រង់ចាំគ្រូ។

សរុបមក ការអនុវត្តប្រព័ន្ធនេះទាមទារការវិនិយោគបន្ថែមលើការស្រាវជ្រាវម៉ូដែលភាសាខ្មែរ ប៉ុន្តែវាជាគន្លឹះដ៏សំខាន់ក្នុងការផ្លាស់ប្តូរប្រព័ន្ធវាយតម្លៃការអប់រំនៅកម្ពុជាទៅរកប្រព័ន្ធឌីជីថលពេញលេញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងបង្កើនទិន្នន័យភាសាខ្មែរ (Data Collection & Augmentation): ប្រមូលអត្ថបទតែងសេចក្តីប្រឡងរបស់សិស្សដែលបានដាក់ពិន្ទុរួច រួចប្រើប្រាស់បច្ចេកទេសដើម្បីបង្កើនទំហំទិន្នន័យតាមរយៈការប្រើ Easy Data Augmentation (EDA) ដូចជា ការលុបពាក្យដោយចៃដន្យ ការផ្លាស់ប្តូរពាក្យមានន័យដូច ឬការបកប្រែត្រឡប់ (Back-translation) ជាដើម។
ហ្វឹកហាត់ម៉ូដែលជាភាសាខ្មែរ (Fine-tuning Multilingual Models): ប្រើប្រាស់ម៉ូដែលភាសាដែលមានសមត្ថភាពពហុភាសាស្រាប់ដូចជា mBERT ឬ XLM-RoBERTa យកមក Fine-tune ជាភាសាខ្មែរ រួចភ្ជាប់វាជាមួយនឹងបណ្តាញ BiLSTM ដោយប្រើ PyTorch ឬ TensorFlow ដើម្បីចាប់យកបរិបទ និងវេយ្យាករណ៍ភាសាខ្មែរ។
បង្កើតប្រព័ន្ធសាកល្បងសម្រាប់គ្រូបង្រៀន (Prototyping & Validation): អភិវឌ្ឍចំណុចប្រទាក់អ្នកប្រើប្រាស់ (UI) ដោយប្រើប្រាស់ Streamlit និង Python ដើម្បីអនុញ្ញាតឱ្យសាស្ត្រាចារ្យសាកល្បងបញ្ចូលចម្លើយសិស្ស។ បន្ទាប់មក ប្រើប្រាស់រង្វាស់ Cohen's Kappa Score ដើម្បីផ្ទៀងផ្ទាត់កម្រិតយល់ស្របរវាងពិន្ទុរបស់កុំព្យូទ័រ និងពិន្ទុជាក់ស្តែងរបស់គ្រូ។
ពង្រាយប្រព័ន្ធ និងភ្ជាប់ជាមួយប្រព័ន្ធសាលា (Deployment & LMS Integration): ដំឡើងប្រព័ន្ធនេះលើម៉ាស៊ីនមេ Virtual Private Server (VPS) ដោយប្រើប្រាស់ Nginx និងអភិវឌ្ឍ API ដើម្បីតភ្ជាប់មុខងារដាក់ពិន្ទុស្វ័យប្រវត្តិនេះទៅក្នុងប្រព័ន្ធ Learning Management System (LMS) របស់គ្រឹះស្ថាន ដូចជា Moodle ឬ Canvas។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
BERT	ម៉ូដែលភាសាបញ្ញាសិប្បនិម្មិតដែលអានអត្ថបទពីឆ្វេងទៅស្តាំនិងពីស្តាំទៅឆ្វេងក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យនិងបរិបទពិតប្រាកដនៃពាក្យនីមួយៗក្នុងប្រយោគ។	ដូចជាមនុស្សអានសៀវភៅដែលមើលសាច់រឿងទាំងមូលមុននិងក្រោយ ទើបយល់ន័យពាក្យមួយច្បាស់ មិនមែនចេះតែប្រែត្រង់ៗនោះទេ។
BiLSTM	ប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលចងចាំព័ត៌មានពីអតីតកាលនិងអនាគតកាលនៃទិន្នន័យបន្តបន្ទាប់គ្នា ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យក្នុងអត្ថបទវែងៗ។	ដូចជាមនុស្សដែលចងចាំហេតុការណ៍ពីដើមដល់ចប់ ដើម្បីទស្សន៍ទាយថាមានអ្វីកើតឡើងបន្ទាប់ទៀតដោយមិនភ្លេចសាច់រឿងចាស់។
Automatic essay scoring (AES)	ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បញ្ញាសិប្បនិម្មិត និងដំណើរការភាសាធម្មជាតិ (NLP) ដើម្បីអាន វិភាគ និងផ្តល់ពិន្ទុលើអត្ថបទតែងសេចក្តីរបស់សិស្សដោយស្វ័យប្រវត្តិ។	ដូចជាម៉ាស៊ីនមនុស្សយន្តដែលដើរតួជាគ្រូបង្រៀន អានសំណេររបស់សិស្សហើយដាក់ពិន្ទុឱ្យដោយស្វ័យប្រវត្តិនិងឆាប់រហ័ស។
Cohen’s kappa score	រង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃកម្រិតនៃការយល់ស្របគ្នារវាងអ្នកដាក់ពិន្ទុពីរនាក់ (ឧទាហរណ៍ គ្រូ និងកុំព្យូទ័រ) ដោយដកចេញនូវភាពចៃដន្យនៃការទាយត្រូវ។	ដូចជាការវាស់ស្ទង់ថា តើចៅក្រមពីរនាក់កាត់ក្តីត្រូវគ្នាប៉ុនណា ដោយបញ្ជាក់ថាពួកគេពិតជាឯកភាពគ្នាដោយសមត្ថភាព មិនមែនដោយសារការទាយចៃដន្យឡើយ។
Data Augmentation	បច្ចេកទេសបង្កើតទិន្នន័យហ្វឹកហាត់បន្ថែមដោយស្វ័យប្រវត្តិ តាមរយៈការលុបពាក្យខ្លះ ប្តូរទីតាំងពាក្យ ជំនួសពាក្យមានន័យដូច ឬបកប្រែត្រឡប់ ដើម្បីឱ្យម៉ូដែលរៀនកាន់តែឆ្លាត។	ដូចជាគ្រូដែលយកលំហាត់ដដែលមកផ្លាស់ប្តូរលេខ ឬប្តូរពាក្យពេចន៍បន្តិចបន្តួច ដើម្បីឱ្យសិស្សអនុវត្តបានច្រើននិងចេះរលូនជាងមុន។
Masked Language Modelling (MLM)	ដំណើរការហ្វឹកហាត់ដែលលាក់ពាក្យមួយចំនួនក្នុងប្រយោគ រួចឱ្យម៉ូដែល AI ទាយពាក្យដែលបាត់នោះដោយផ្អែកលើបរិបទពាក្យនៅជុំវិញវា។	ដូចជាការលេងល្បែងបំពេញចន្លោះពាក្យក្នុងប្រយោគ ដែលសិស្សត្រូវទាយពាក្យដែលត្រឹមត្រូវទៅតាមសាច់រឿង។
SoftMax function	អនុគមន៍គណិតវិទ្យានៅស្រទាប់ចុងក្រោយនៃម៉ូដែល Deep Learning ដែលបំប្លែងលទ្ធផលជាលេខធម្មតាទៅជាតម្លៃប្រូបាប៊ីលីតេ (ភាគរយ) ដើម្បីជ្រើសរើសចម្លើយ ឬពិន្ទុដែលត្រឹមត្រូវបំផុត។	ដូចជាការបម្លែងពិន្ទុបេក្ខជនប្រកួតប្រជែងជាភាគរយ រួចប្រកាសអ្នកដែលមានភាគរយខ្ពស់ជាងគេជាអ្នកឈ្នះ ដោយរើសយកលទ្ធផលដែលទំនងជាងគេបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖