Original Title: Intelligent Course Assessment Tool Combining Quantitative and Qualitative Evaluation Metrics: A Multimodal Data Fusion Approach
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឧបករណ៍វាយតម្លៃវគ្គសិក្សាដ៏ឆ្លាតវៃដែលរួមបញ្ចូលរង្វាស់វាយតម្លៃបរិមាណនិងគុណភាព៖ អភិក្រមនៃការបញ្ចូលទិន្នន័យពហុទម្រង់

ចំណងជើងដើម៖ Intelligent Course Assessment Tool Combining Quantitative and Qualitative Evaluation Metrics: A Multimodal Data Fusion Approach

អ្នកនិពន្ធ៖ Chidiebere Joshua, Tomáš Havlíček, Eder dos Santos

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Educational Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ម៉ូដែលដាក់ពិន្ទុអត្ថបទតែងសេចក្តីស្វ័យប្រវត្តិ (AES) ជាប្រពៃណីខ្វះសុពលភាព ដោយសារពួកវាផ្តោតខ្លាំងលើមេកានិចភាសាតាមបែបបរិមាណ និងមិនអាចចាប់យកជំនាញយល់ដឹងកម្រិតខ្ពស់ដូចជាការគិតស៊ីជម្រៅ និងភាពច្នៃប្រឌិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវស្ថាបត្យកម្មកូនកាត់ថ្មីមួយ (ICAT) ដោយប្រើប្រាស់ការរៀនម៉ាស៊ីនចម្រុះ និងការបញ្ចូលទិន្នន័យពហុទម្រង់ ដើម្បីវាយតម្លៃការបញ្ជូនកិច្ចការរបស់សិស្សដែលបានក្លែងធ្វើ (ចំនួន ៣០០ នាក់)។

លំហូរទិន្នន័យបរិមាណ (Quantitative Data Stream - QDS)
លំហូរទិន្នន័យគុណភាពតាមរយៈ LLMs (Qualitative Data Stream - QLDS)
ការបញ្ចូលទិន្នន័យចម្រុះដោយប្រើម៉ូដែលវិភាគ (CNN-BiGRU/BiLSTM Ensemble Data Fusion)
បញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI - XAI)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល ICAT កូនកាត់មានដំណើរការល្អជាងប្រព័ន្ធឯកទម្រង់ ដោយសម្រេចបានភាពត្រឹមត្រូវ ៩២.៨% តម្លៃ QWK ០.៨៤៥ និងភាពជឿជាក់រវាងអ្នកវាយតម្លៃ ០.៩១។
ការថ្លឹងទម្ងន់លក្ខណៈពិសេសបែបឌីណាមិកធានាថា កិច្ចការដែលបានពិន្ទុខ្ពស់ត្រូវបានវិនិច្ឆ័យជាចម្បង (៦៥%) លើលក្ខណៈគុណភាពដូចជាជម្រៅនៃការគិតស៊ីជម្រៅ និងភាពស៊ីសង្វាក់គ្នា។
ការរួមបញ្ចូលបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (XAI) កាត់បន្ថយភាពលម្អៀងនៃក្បួនដោះស្រាយ និងផ្តល់នូវមតិកែលម្អប្រកបដោយតម្លាភាព និងអាចអនុវត្តបានសម្រាប់សិស្ស និងអ្នកអប់រំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Human Rater Baseline គំរូអ្នកវាយតម្លៃជាមនុស្ស (បន្ទាត់មូលដ្ឋាន)	មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងផ្តល់មតិកែលម្អបរិបទបានយ៉ាងល្អឥតខ្ចោះ។ អាចវាយតម្លៃការគិតស៊ីជម្រៅរបស់សិស្សបានយ៉ាងត្រឹមត្រូវ។	ចំណាយពេលច្រើន និងមិនអាចធ្វើក្នុងទ្រង់ទ្រាយធំបានលឿនសម្រាប់សិស្សរាប់ពាន់នាក់។	ភាពត្រឹមត្រូវ ៩៥.០%, តម្លៃ QWK ០.៨៨០ និងពិន្ទុអត្ថន័យបរិបទ ៤.៨
Unimodal QDS (Traditional AES) ប្រព័ន្ធឯកទម្រង់ QDS (ការដាក់ពិន្ទុបែបប្រពៃណី)	ងាយស្រួលគណនា ដោយផ្តោតលើភាពត្រឹមត្រូវនៃវេយ្យាករណ៍ ការប្រកប និងវាក្យសព្ទលើផ្ទៃ។ ដំណើរការលឿននិងមិនសូវប្រើប្រាស់ធនធានកុំព្យូទ័រធំដុំ។	ខ្វះសុពលភាពសម្រាប់ការងារស្មុគស្មាញ និងផ្តល់មតិកែលម្អកម្រិតទាប ព្រោះវាមិនយល់ពីអត្ថន័យស៊ីជម្រៅ។	ភាពត្រឹមត្រូវត្រឹមតែ ៨២.៥%, តម្លៃ QWK ០.៦១៥ និងពិន្ទុអត្ថន័យបរិបទ ២.១
Unimodal QLDS (LLM-only) ប្រព័ន្ធឯកទម្រង់ QLDS (ប្រើតែ LLM)	មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគបរិបទ និងការគិតស៊ីជម្រៅ ព្រមទាំងផ្តល់មតិកែលម្អប្រកបដោយគុណភាពខ្ពស់។	ខ្វះយន្តការច្បាស់លាស់សម្រាប់ការប្រកាន់ខ្ជាប់នូវក្បួនដាក់ពិន្ទុបរិមាណ (Rubric) ដែលធ្វើឱ្យការដាក់ពិន្ទុផ្លូវការមិនសូវមានស្ថិរភាព។	ភាពត្រឹមត្រូវ ៨៨.០%, តម្លៃ QWK ០.៧៤០ និងពិន្ទុអត្ថន័យបរិបទ ៤.៥
Hybrid ICAT (Ensemble Fusion) ឧបករណ៍វាយតម្លៃកូនកាត់ ICAT (ប្រព័ន្ធចម្រុះ)	រួមបញ្ចូលទាំងភាពជាក់លាក់នៃរង្វាស់បរិមាណ និងការវិភាគស៊ីជម្រៅរបស់ LLM ដោយប្រើប្រាស់ការយកចិត្តទុកដាក់ (Attention) និងតម្លាភាព (XAI)។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ (GPUs) និងការចំណាយលើហេដ្ឋារចនាសម្ព័ន្ធស្មុគស្មាញក្នុងការដាក់ឱ្យដំណើរការ។	ភាពត្រឹមត្រូវ ៩២.៨%, តម្លៃ QWK ០.៨៤៥, ភាពជឿជាក់រវាងអ្នកវាយតម្លៃ (IRR) ០.៩១ និងពិន្ទុអត្ថន័យបរិបទ ៤.៧

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់ថា ស្ថាបត្យកម្ម ICAT គឺស្មុគស្មាញ និងទាមទារធនធានកុំព្យូទ័រខ្ពស់ ដែលអាចជាឧបសគ្គសម្រាប់ស្ថាប័នអប់រំដែលមានថវិកាមានកម្រិត។

Hardware: ត្រូវការម៉ាស៊ីនមេដែលមានកម្លាំងគណនាខ្ពស់ (ជាពិសេស GPUs) ដើម្បីដំណើរការម៉ូដែល Deep Learning (CNN-BiGRU/BiLSTM) និង LLMs ក្នុងពេលជាក់ស្តែង។
Software & AI Models: តម្រូវឱ្យមានការប្រើប្រាស់ Large Language Models (LLMs) ដែលបានកែសម្រួលផ្ទាល់ខ្លួន (Fine-tuned) សម្រាប់ការស្រخراجលក្ខណៈគុណភាព និងប្រព័ន្ធបកស្រាយ (XAI)។
Data & Security Infrastructure: ទាមទារហេដ្ឋារចនាសម្ព័ន្ធផ្ទុកទិន្នន័យដែលមានសុវត្ថិភាពខ្ពស់ ដើម្បីរៀបចំទិន្នន័យសិស្ស (Transcripts, Log files) និងគោរពតាមគោលការណ៍ឯកជនភាពយ៉ាងតឹងរ៉ឹង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យក្លែងធ្វើ (Synthetic data) ជាមួយសិស្សចំនួន ៣០០ នាក់ ដោយសារបញ្ហាឯកជនភាពទិន្នន័យអប់រំពិតប្រាកដ។ វាក៏បានលើកឡើងពីហានិភ័យនៃភាពលម្អៀងទៅលើសិស្សដែលប្រើប្រាស់ភាសាអង់គ្លេសជាភាសាទីពីរ (ESL Learners)។ សម្រាប់ប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ណាស់ ព្រោះប្រព័ន្ធនេះត្រូវតែឆ្លងកាត់ការបណ្តុះបណ្តាលជាមួយទិន្នន័យសិស្សខ្មែរពិតប្រាកដ ដើម្បីចៀសវាងភាពលម្អៀងផ្នែកភាសា និងបញ្ហាប្រជាសាស្ត្រ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកូនកាត់នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅតាមគ្រឹះស្ថានឧត្តមសិក្សានៅកម្ពុជា ដែលតែងតែជួបប្រទះបញ្ហាកង្វះខាតសាស្ត្រាចារ្យធៀបនឹងចំនួនសិស្សដ៏ច្រើន។

សាកលវិទ្យាល័យរដ្ឋធំៗ (ឧ. RUPP, ITC): អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីជួយសម្រាលបន្ទុកក្នុងការកែសន្លឹកកិច្ចការស្រាវជ្រាវ និងការតែងសេចក្តីដែលមានចំនួនច្រើន ដោយធានាបាននូវភាពយុត្តិធម៌ និងការផ្តល់ពិន្ទុរហ័សទាន់ចិត្តដល់និស្សិតរាប់ពាន់នាក់។
វិទ្យាស្ថានភាសាបរទេស (ឧ. IFL, ACE): សមស្របសម្រាប់ការវាយតម្លៃការសរសេរអត្ថបទភាសាអង់គ្លេសកម្រិតខ្ពស់ ដោយប្រព័ន្ធមិនត្រឹមតែចាប់កំហុសវេយ្យាករណ៍ទេ តែថែមទាំងអាចវាយតម្លៃលើភាពស៊ីសង្វាក់គ្នានៃអំណះអំណាង និងការគិតស៊ីជម្រៅ។
ប្រព័ន្ធរៀនតាមអនឡាញរបស់ក្រសួងអប់រំ (MoEYS E-learning): អាចបញ្ចូលទៅក្នុងប្រព័ន្ធគ្រប់គ្រងការសិក្សា (LMS) ថ្នាក់ជាតិ ដើម្បីធ្វើស្វ័យប្រវត្តិកម្មនៃការវាយតម្លៃលើមុខវិជ្ជាវិទ្យាសាស្ត្រសង្គម និងការត្រិះរិះពិចារណាសម្រាប់សិស្សវិទ្យាល័យ។

សរុបមក ទោះបីជាការដាក់ពង្រាយដំបូងទាមទារការវិនិយោគទុនលើហេដ្ឋារចនាសម្ព័ន្ធ IT ក៏ដោយ ក៏ប្រព័ន្ធ ICAT អាចជួយធ្វើបដិវត្តន៍ប្រព័ន្ធវាយតម្លៃការសិក្សានៅកម្ពុជាឱ្យកាន់តែមានស្តង់ដារ យុត្តិធម៌ និងមានតម្លាភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ សិក្សាអំពីបច្ចេកវិទ្យា Deep Learning សម្រាប់ការអប់រំ: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការកសាងម៉ូដែលបណ្តាញសរសៃប្រសាទ (Neural Networks) ដូចជា CNN និង RNN ដោយប្រើប្រាស់ Python រួមជាមួយបណ្ណាល័យ TensorFlow ឬ PyTorch។
ជំហានទី ២៖ សាកល្បងប្រើប្រាស់ LLMs សម្រាប់ការស្រង់លក្ខណៈគុណភាព: អនុវត្តការទាញយកលក្ខណៈពិសេសពីអត្ថបទ (Feature Extraction) ដូចជា ការវាយតម្លៃលើភាពស៊ីជម្រៅនៃអំណះអំណាង ដោយសាកល្បងភ្ជាប់ជាមួយ OpenAI API ឬប្រើប្រាស់ម៉ូដែលឥតគិតថ្លៃដូចជា Hugging Face Transformers (e.g., LLaMA 3, BERT)។
ជំហានទី ៣៖ អភិវឌ្ឍម៉ូដែលបញ្ចូលទិន្នន័យពហុទម្រង់ (Multimodal Fusion): រៀនពីរបៀបបន្សំទិន្នន័យរង្វាស់បរិមាណ (Quantitative Data) ដូចជាចំនួនពាក្យ និងកំហុសវេយ្យាករណ៍ ជាមួយពិន្ទុគុណភាពពី LLM ដោយបង្កើតយន្តការ Attention Mechanism និងស្ថាបត្យកម្ម BiLSTM ដើម្បីទទួលបានលទ្ធផលរួម។
ជំហានទី ៤៖ ការអនុវត្តប្រព័ន្ធ AI ដែលអាចពន្យល់បាន (XAI): ប្រើប្រាស់ឧបករណ៍ដូចជា SHAP (SHapley Additive exPlanations) ឬ LIME ដើម្បីធ្វើឱ្យការដាក់ពិន្ទុរបស់ម៉ូដែល AI មានតម្លាភាព ដែលអនុញ្ញាតឱ្យប្រព័ន្ធបង្ហាញពីមូលហេតុជាក់លាក់នៅពីក្រោយពិន្ទុនីមួយៗ។
ជំហានទី ៥៖ ការប្រមូលទិន្នន័យក្នុងស្រុក និងការសាកល្បង (Piloting): សហការជាមួយសាកលវិទ្យាល័យក្នុងស្រុកដើម្បីប្រមូលទិន្នន័យអត្ថបទសិស្ស (Anonymized Data) និងប្រើប្រាស់ Pandas ព្រមទាំង Scikit-Learn ដើម្បីសម្អាតទិន្នន័យ មុននឹងធ្វើការសាកល្បងប្រព័ន្ធពិតប្រាកដក្នុងបរិបទប្រទេសកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Automated Essay Scoring (AES)	ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដើម្បីវាយតម្លៃ និងដាក់ពិន្ទុលើអត្ថបទតែងសេចក្តីរបស់សិស្សដោយស្វ័យប្រវត្តិ។ ជាទូទៅវាផ្តោតខ្លាំងលើការវាស់វែងបរិមាណ ដូចជាភាពត្រឹមត្រូវនៃវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធពាក្យ។	ដូចជាម៉ាស៊ីនកែអត្ថបទស្វ័យប្រវត្តិដែលអាចផ្តល់ពិន្ទុលើសន្លឹកកិច្ចការរាប់ពាន់សន្លឹកក្នុងពេលតែមួយ ដោយផ្តោតលើអក្ខរាវិរុទ្ធនិងវេយ្យាករណ៍ជាចម្បង។
Multimodal Data Fusion	ការបញ្ជូលគ្នានូវប្រភេទប្រភពទិន្នន័យផ្សេងៗគ្នា (ដូចជាអត្ថបទតែងសេចក្តី ទិន្នន័យប្រវត្តិសិក្សា ឬកំណត់ហេតុអាកប្បកិរិយា) ទៅក្នុងប្រព័ន្ធម៉ូដែលវិភាគតែមួយ ដើម្បីទទួលបានការយល់ដឹងកាន់តែច្បាស់ និងវាយតម្លៃបានត្រឹមត្រូវគ្រប់ជ្រុងជ្រោយ។	ដូចជាវេជ្ជបណ្ឌិតដែលធ្វើការវិភាគជំងឺដោយប្រមូលទិន្នន័យពីការពិនិត្យឈាម រូបភាព X-ray និងចង្វាក់បេះដូងចូលគ្នា ដើម្បីធ្វើរោគវិនិច្ឆ័យឱ្យបានច្បាស់លាស់តែមួយ។
Quadratic Weighted Kappa (QWK)	រង្វាស់ស្ថិតិដែលគេប្រើដើម្បីវាស់ស្ទង់កម្រិតនៃភាពស្របគ្នា (ការយល់ស្រប) រវាងអ្នកដាក់ពិន្ទុពីរនាក់ (ឧទាហរណ៍ រវាងគ្រូជាមនុស្ស និងប្រព័ន្ធ AI) ដោយវាដាក់ការពិន័យកាន់តែធ្ងន់ប្រសិនបើពិន្ទុដែលអ្នកទាំងពីរបានឱ្យមានភាពខុសគ្នាខ្លាំង។	ដូចជាការវាស់ស្ទង់ថាតើគណៈកម្មការពីរនាក់ឱ្យពិន្ទុប្រហាក់ប្រហែលគ្នាប៉ុណ្ណា ហើយបើអ្នកទាំងពីរឱ្យពិន្ទុខុសគ្នាឆ្ងាយ នោះភាពជឿជាក់នៃការប្រកួតនឹងធ្លាក់ចុះយ៉ាងខ្លាំង។
Explainable AI (XAI)	សំណុំនៃឧបករណ៍ និងបច្ចេកទេស (ដូចជា SHAP ឬ LIME) ដែលជួយបកស្រាយពីដំណើរការសម្រេចចិត្តខាងក្នុងរបស់ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ដើម្បីឱ្យមនុស្សអាចយល់បានពីមូលហេតុជាក់លាក់ដែល AI ផ្តល់លទ្ធផល ឬពិន្ទុណាមួយ។	ដូចជាគ្រូបង្រៀនគណិតវិទ្យាដែលមិនត្រឹមតែប្រាប់ចម្លើយត្រឹមត្រូវប៉ុណ្ណោះទេ តែថែមទាំងបង្ហាញពីជំហាននៃការគណនាលម្អិតដើម្បីទទួលបានចម្លើយនោះ។
Construct Validity	សញ្ញាបត្រ ឬកម្រិតនៃការបញ្ជាក់ថាតើការធ្វើតេស្ត ឬប្រព័ន្ធវាយតម្លៃមួយពិតជាបានវាស់ស្ទង់យ៉ាងត្រឹមត្រូវទៅលើជំនាញដែលវាត្រូវបានគេរចនាឡើងដើម្បីវាស់ស្ទង់ (ឧទាហរណ៍ វាស់ស្ទង់ការគិតស៊ីជម្រៅនិងភាពច្នៃប្រឌិត មិនមែនវាស់តែការសរសេរត្រូវវេយ្យាករណ៍នោះទេ)។	ដូចជាការទិញជញ្ជីងថ្លឹងទម្ងន់ដែលវាស់ទម្ងន់ពិតប្រាកដរបស់អ្នកបានយ៉ាងច្បាស់ មិនមែនរងឥទ្ធិពលពីកម្ដៅ ឬសំណើមនៅក្នុងបន្ទប់នោះទេ។
Ensemble Learning	វិធីសាស្ត្រក្នុងការរៀនម៉ាស៊ីន (Machine Learning) ដែលផ្សំបញ្ចូលម៉ូដែលព្យាករណ៍ជាច្រើនចូលគ្នា (ដូចជា CNN រួមជាមួយ BiLSTM) ដើម្បីបង្កើតម៉ូដែលរួមតែមួយដែលមានប្រសិទ្ធភាព និងភាពត្រឹមត្រូវខ្ពស់ជាងការប្រើម៉ូដែលនីមួយៗដាច់ដោយឡែកពីគ្នា។	ដូចជាការប្រមូលផ្តុំគណៈកម្មការជំនាញច្រើននាក់ដែលមានឯកទេសផ្សេងៗគ្នា ដើម្បីរួមគ្នាធ្វើការសម្រេចចិត្តលើបញ្ហាស្មុគស្មាញមួយឱ្យបានត្រឹមត្រូវបំផុត ជំនួសឱ្យការសួរតែម្នាក់ឯង។
Multi-Criteria Decision-Making (MCDM)	ក្របខ័ណ្ឌគណិតវិទ្យាដែលប្រើដើម្បីជួយក្នុងការធ្វើសេចក្តីសម្រេចចិត្តដោយពិចារណា និងថ្លឹងទម្ងន់លើលក្ខណៈវិនិច្ឆ័យច្រើនយ៉ាងក្នុងពេលតែមួយ ដែលជារឿយៗលក្ខណៈវិនិច្ឆ័យទាំងនោះមានសារៈសំខាន់ខុសៗគ្នា។	ដូចជាការសម្រេចចិត្តទិញផ្ទះមួយ ដោយត្រូវថ្លឹងថ្លែងនិងឱ្យពិន្ទុលើកត្តាជាច្រើនដូចជា តម្លៃ ទីតាំង ទំហំ និងសន្តិសុខ ក្នុងពេលតែមួយ ដើម្បីជ្រើសរើសយកផ្ទះដែលល្អបំផុត។
Large Language Models (LLMs)	ម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ដែលមានសមត្ថភាពយល់ដឹង បង្កើត និងវិភាគអត្ថន័យបរិបទនៃភាសាមនុស្សបានយ៉ាងស៊ីជម្រៅ។	ដូចជាបណ្ណាល័យចល័តដ៏ធំមួយដែលមានសមត្ថភាពអាន និងចងចាំសៀវភៅរាប់លានក្បាល រួចអាចឆ្លើយតប សរសេរ ឬវិភាគអត្ថបទបានដូចមនុស្សពិតៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖