Original Title: Intelligent Course Assessment Tool Combining Quantitative and Qualitative Evaluation Metrics: A Multimodal Data Fusion Approach
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឧបករណ៍វាយតម្លៃវគ្គសិក្សាដ៏ឆ្លាតវៃដែលរួមបញ្ចូលរង្វាស់វាយតម្លៃបរិមាណនិងគុណភាព៖ អភិក្រមនៃការបញ្ចូលទិន្នន័យពហុទម្រង់

ចំណងជើងដើម៖ Intelligent Course Assessment Tool Combining Quantitative and Qualitative Evaluation Metrics: A Multimodal Data Fusion Approach

អ្នកនិពន្ធ៖ Chidiebere Joshua, Tomáš Havlíček, Eder dos Santos

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Educational Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ម៉ូដែលដាក់ពិន្ទុអត្ថបទតែងសេចក្តីស្វ័យប្រវត្តិ (AES) ជាប្រពៃណីខ្វះសុពលភាព ដោយសារពួកវាផ្តោតខ្លាំងលើមេកានិចភាសាតាមបែបបរិមាណ និងមិនអាចចាប់យកជំនាញយល់ដឹងកម្រិតខ្ពស់ដូចជាការគិតស៊ីជម្រៅ និងភាពច្នៃប្រឌិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវស្ថាបត្យកម្មកូនកាត់ថ្មីមួយ (ICAT) ដោយប្រើប្រាស់ការរៀនម៉ាស៊ីនចម្រុះ និងការបញ្ចូលទិន្នន័យពហុទម្រង់ ដើម្បីវាយតម្លៃការបញ្ជូនកិច្ចការរបស់សិស្សដែលបានក្លែងធ្វើ (ចំនួន ៣០០ នាក់)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Human Rater Baseline
គំរូអ្នកវាយតម្លៃជាមនុស្ស (បន្ទាត់មូលដ្ឋាន)
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងផ្តល់មតិកែលម្អបរិបទបានយ៉ាងល្អឥតខ្ចោះ។ អាចវាយតម្លៃការគិតស៊ីជម្រៅរបស់សិស្សបានយ៉ាងត្រឹមត្រូវ។ ចំណាយពេលច្រើន និងមិនអាចធ្វើក្នុងទ្រង់ទ្រាយធំបានលឿនសម្រាប់សិស្សរាប់ពាន់នាក់។ ភាពត្រឹមត្រូវ ៩៥.០%, តម្លៃ QWK ០.៨៨០ និងពិន្ទុអត្ថន័យបរិបទ ៤.៨
Unimodal QDS (Traditional AES)
ប្រព័ន្ធឯកទម្រង់ QDS (ការដាក់ពិន្ទុបែបប្រពៃណី)
ងាយស្រួលគណនា ដោយផ្តោតលើភាពត្រឹមត្រូវនៃវេយ្យាករណ៍ ការប្រកប និងវាក្យសព្ទលើផ្ទៃ។ ដំណើរការលឿននិងមិនសូវប្រើប្រាស់ធនធានកុំព្យូទ័រធំដុំ។ ខ្វះសុពលភាពសម្រាប់ការងារស្មុគស្មាញ និងផ្តល់មតិកែលម្អកម្រិតទាប ព្រោះវាមិនយល់ពីអត្ថន័យស៊ីជម្រៅ។ ភាពត្រឹមត្រូវត្រឹមតែ ៨២.៥%, តម្លៃ QWK ០.៦១៥ និងពិន្ទុអត្ថន័យបរិបទ ២.១
Unimodal QLDS (LLM-only)
ប្រព័ន្ធឯកទម្រង់ QLDS (ប្រើតែ LLM)
មានសមត្ថភាពខ្ពស់ក្នុងការវិភាគបរិបទ និងការគិតស៊ីជម្រៅ ព្រមទាំងផ្តល់មតិកែលម្អប្រកបដោយគុណភាពខ្ពស់។ ខ្វះយន្តការច្បាស់លាស់សម្រាប់ការប្រកាន់ខ្ជាប់នូវក្បួនដាក់ពិន្ទុបរិមាណ (Rubric) ដែលធ្វើឱ្យការដាក់ពិន្ទុផ្លូវការមិនសូវមានស្ថិរភាព។ ភាពត្រឹមត្រូវ ៨៨.០%, តម្លៃ QWK ០.៧៤០ និងពិន្ទុអត្ថន័យបរិបទ ៤.៥
Hybrid ICAT (Ensemble Fusion)
ឧបករណ៍វាយតម្លៃកូនកាត់ ICAT (ប្រព័ន្ធចម្រុះ)
រួមបញ្ចូលទាំងភាពជាក់លាក់នៃរង្វាស់បរិមាណ និងការវិភាគស៊ីជម្រៅរបស់ LLM ដោយប្រើប្រាស់ការយកចិត្តទុកដាក់ (Attention) និងតម្លាភាព (XAI)។ ទាមទារធនធានកុំព្យូទ័រខ្ពស់ (GPUs) និងការចំណាយលើហេដ្ឋារចនាសម្ព័ន្ធស្មុគស្មាញក្នុងការដាក់ឱ្យដំណើរការ។ ភាពត្រឹមត្រូវ ៩២.៨%, តម្លៃ QWK ០.៨៤៥, ភាពជឿជាក់រវាងអ្នកវាយតម្លៃ (IRR) ០.៩១ និងពិន្ទុអត្ថន័យបរិបទ ៤.៧

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់ថា ស្ថាបត្យកម្ម ICAT គឺស្មុគស្មាញ និងទាមទារធនធានកុំព្យូទ័រខ្ពស់ ដែលអាចជាឧបសគ្គសម្រាប់ស្ថាប័នអប់រំដែលមានថវិកាមានកម្រិត។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យក្លែងធ្វើ (Synthetic data) ជាមួយសិស្សចំនួន ៣០០ នាក់ ដោយសារបញ្ហាឯកជនភាពទិន្នន័យអប់រំពិតប្រាកដ។ វាក៏បានលើកឡើងពីហានិភ័យនៃភាពលម្អៀងទៅលើសិស្សដែលប្រើប្រាស់ភាសាអង់គ្លេសជាភាសាទីពីរ (ESL Learners)។ សម្រាប់ប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ណាស់ ព្រោះប្រព័ន្ធនេះត្រូវតែឆ្លងកាត់ការបណ្តុះបណ្តាលជាមួយទិន្នន័យសិស្សខ្មែរពិតប្រាកដ ដើម្បីចៀសវាងភាពលម្អៀងផ្នែកភាសា និងបញ្ហាប្រជាសាស្ត្រ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកូនកាត់នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅតាមគ្រឹះស្ថានឧត្តមសិក្សានៅកម្ពុជា ដែលតែងតែជួបប្រទះបញ្ហាកង្វះខាតសាស្ត្រាចារ្យធៀបនឹងចំនួនសិស្សដ៏ច្រើន។

សរុបមក ទោះបីជាការដាក់ពង្រាយដំបូងទាមទារការវិនិយោគទុនលើហេដ្ឋារចនាសម្ព័ន្ធ IT ក៏ដោយ ក៏ប្រព័ន្ធ ICAT អាចជួយធ្វើបដិវត្តន៍ប្រព័ន្ធវាយតម្លៃការសិក្សានៅកម្ពុជាឱ្យកាន់តែមានស្តង់ដារ យុត្តិធម៌ និងមានតម្លាភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី ១៖ សិក្សាអំពីបច្ចេកវិទ្យា Deep Learning សម្រាប់ការអប់រំ: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការកសាងម៉ូដែលបណ្តាញសរសៃប្រសាទ (Neural Networks) ដូចជា CNN និង RNN ដោយប្រើប្រាស់ Python រួមជាមួយបណ្ណាល័យ TensorFlowPyTorch
  2. ជំហានទី ២៖ សាកល្បងប្រើប្រាស់ LLMs សម្រាប់ការស្រង់លក្ខណៈគុណភាព: អនុវត្តការទាញយកលក្ខណៈពិសេសពីអត្ថបទ (Feature Extraction) ដូចជា ការវាយតម្លៃលើភាពស៊ីជម្រៅនៃអំណះអំណាង ដោយសាកល្បងភ្ជាប់ជាមួយ OpenAI API ឬប្រើប្រាស់ម៉ូដែលឥតគិតថ្លៃដូចជា Hugging Face Transformers (e.g., LLaMA 3, BERT)
  3. ជំហានទី ៣៖ អភិវឌ្ឍម៉ូដែលបញ្ចូលទិន្នន័យពហុទម្រង់ (Multimodal Fusion): រៀនពីរបៀបបន្សំទិន្នន័យរង្វាស់បរិមាណ (Quantitative Data) ដូចជាចំនួនពាក្យ និងកំហុសវេយ្យាករណ៍ ជាមួយពិន្ទុគុណភាពពី LLM ដោយបង្កើតយន្តការ Attention Mechanism និងស្ថាបត្យកម្ម BiLSTM ដើម្បីទទួលបានលទ្ធផលរួម។
  4. ជំហានទី ៤៖ ការអនុវត្តប្រព័ន្ធ AI ដែលអាចពន្យល់បាន (XAI): ប្រើប្រាស់ឧបករណ៍ដូចជា SHAP (SHapley Additive exPlanations)LIME ដើម្បីធ្វើឱ្យការដាក់ពិន្ទុរបស់ម៉ូដែល AI មានតម្លាភាព ដែលអនុញ្ញាតឱ្យប្រព័ន្ធបង្ហាញពីមូលហេតុជាក់លាក់នៅពីក្រោយពិន្ទុនីមួយៗ។
  5. ជំហានទី ៥៖ ការប្រមូលទិន្នន័យក្នុងស្រុក និងការសាកល្បង (Piloting): សហការជាមួយសាកលវិទ្យាល័យក្នុងស្រុកដើម្បីប្រមូលទិន្នន័យអត្ថបទសិស្ស (Anonymized Data) និងប្រើប្រាស់ Pandas ព្រមទាំង Scikit-Learn ដើម្បីសម្អាតទិន្នន័យ មុននឹងធ្វើការសាកល្បងប្រព័ន្ធពិតប្រាកដក្នុងបរិបទប្រទេសកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Automated Essay Scoring (AES) ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដើម្បីវាយតម្លៃ និងដាក់ពិន្ទុលើអត្ថបទតែងសេចក្តីរបស់សិស្សដោយស្វ័យប្រវត្តិ។ ជាទូទៅវាផ្តោតខ្លាំងលើការវាស់វែងបរិមាណ ដូចជាភាពត្រឹមត្រូវនៃវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធពាក្យ។ ដូចជាម៉ាស៊ីនកែអត្ថបទស្វ័យប្រវត្តិដែលអាចផ្តល់ពិន្ទុលើសន្លឹកកិច្ចការរាប់ពាន់សន្លឹកក្នុងពេលតែមួយ ដោយផ្តោតលើអក្ខរាវិរុទ្ធនិងវេយ្យាករណ៍ជាចម្បង។
Multimodal Data Fusion ការបញ្ជូលគ្នានូវប្រភេទប្រភពទិន្នន័យផ្សេងៗគ្នា (ដូចជាអត្ថបទតែងសេចក្តី ទិន្នន័យប្រវត្តិសិក្សា ឬកំណត់ហេតុអាកប្បកិរិយា) ទៅក្នុងប្រព័ន្ធម៉ូដែលវិភាគតែមួយ ដើម្បីទទួលបានការយល់ដឹងកាន់តែច្បាស់ និងវាយតម្លៃបានត្រឹមត្រូវគ្រប់ជ្រុងជ្រោយ។ ដូចជាវេជ្ជបណ្ឌិតដែលធ្វើការវិភាគជំងឺដោយប្រមូលទិន្នន័យពីការពិនិត្យឈាម រូបភាព X-ray និងចង្វាក់បេះដូងចូលគ្នា ដើម្បីធ្វើរោគវិនិច្ឆ័យឱ្យបានច្បាស់លាស់តែមួយ។
Quadratic Weighted Kappa (QWK) រង្វាស់ស្ថិតិដែលគេប្រើដើម្បីវាស់ស្ទង់កម្រិតនៃភាពស្របគ្នា (ការយល់ស្រប) រវាងអ្នកដាក់ពិន្ទុពីរនាក់ (ឧទាហរណ៍ រវាងគ្រូជាមនុស្ស និងប្រព័ន្ធ AI) ដោយវាដាក់ការពិន័យកាន់តែធ្ងន់ប្រសិនបើពិន្ទុដែលអ្នកទាំងពីរបានឱ្យមានភាពខុសគ្នាខ្លាំង។ ដូចជាការវាស់ស្ទង់ថាតើគណៈកម្មការពីរនាក់ឱ្យពិន្ទុប្រហាក់ប្រហែលគ្នាប៉ុណ្ណា ហើយបើអ្នកទាំងពីរឱ្យពិន្ទុខុសគ្នាឆ្ងាយ នោះភាពជឿជាក់នៃការប្រកួតនឹងធ្លាក់ចុះយ៉ាងខ្លាំង។
Explainable AI (XAI) សំណុំនៃឧបករណ៍ និងបច្ចេកទេស (ដូចជា SHAP ឬ LIME) ដែលជួយបកស្រាយពីដំណើរការសម្រេចចិត្តខាងក្នុងរបស់ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ដើម្បីឱ្យមនុស្សអាចយល់បានពីមូលហេតុជាក់លាក់ដែល AI ផ្តល់លទ្ធផល ឬពិន្ទុណាមួយ។ ដូចជាគ្រូបង្រៀនគណិតវិទ្យាដែលមិនត្រឹមតែប្រាប់ចម្លើយត្រឹមត្រូវប៉ុណ្ណោះទេ តែថែមទាំងបង្ហាញពីជំហាននៃការគណនាលម្អិតដើម្បីទទួលបានចម្លើយនោះ។
Construct Validity សញ្ញាបត្រ ឬកម្រិតនៃការបញ្ជាក់ថាតើការធ្វើតេស្ត ឬប្រព័ន្ធវាយតម្លៃមួយពិតជាបានវាស់ស្ទង់យ៉ាងត្រឹមត្រូវទៅលើជំនាញដែលវាត្រូវបានគេរចនាឡើងដើម្បីវាស់ស្ទង់ (ឧទាហរណ៍ វាស់ស្ទង់ការគិតស៊ីជម្រៅនិងភាពច្នៃប្រឌិត មិនមែនវាស់តែការសរសេរត្រូវវេយ្យាករណ៍នោះទេ)។ ដូចជាការទិញជញ្ជីងថ្លឹងទម្ងន់ដែលវាស់ទម្ងន់ពិតប្រាកដរបស់អ្នកបានយ៉ាងច្បាស់ មិនមែនរងឥទ្ធិពលពីកម្ដៅ ឬសំណើមនៅក្នុងបន្ទប់នោះទេ។
Ensemble Learning វិធីសាស្ត្រក្នុងការរៀនម៉ាស៊ីន (Machine Learning) ដែលផ្សំបញ្ចូលម៉ូដែលព្យាករណ៍ជាច្រើនចូលគ្នា (ដូចជា CNN រួមជាមួយ BiLSTM) ដើម្បីបង្កើតម៉ូដែលរួមតែមួយដែលមានប្រសិទ្ធភាព និងភាពត្រឹមត្រូវខ្ពស់ជាងការប្រើម៉ូដែលនីមួយៗដាច់ដោយឡែកពីគ្នា។ ដូចជាការប្រមូលផ្តុំគណៈកម្មការជំនាញច្រើននាក់ដែលមានឯកទេសផ្សេងៗគ្នា ដើម្បីរួមគ្នាធ្វើការសម្រេចចិត្តលើបញ្ហាស្មុគស្មាញមួយឱ្យបានត្រឹមត្រូវបំផុត ជំនួសឱ្យការសួរតែម្នាក់ឯង។
Multi-Criteria Decision-Making (MCDM) ក្របខ័ណ្ឌគណិតវិទ្យាដែលប្រើដើម្បីជួយក្នុងការធ្វើសេចក្តីសម្រេចចិត្តដោយពិចារណា និងថ្លឹងទម្ងន់លើលក្ខណៈវិនិច្ឆ័យច្រើនយ៉ាងក្នុងពេលតែមួយ ដែលជារឿយៗលក្ខណៈវិនិច្ឆ័យទាំងនោះមានសារៈសំខាន់ខុសៗគ្នា។ ដូចជាការសម្រេចចិត្តទិញផ្ទះមួយ ដោយត្រូវថ្លឹងថ្លែងនិងឱ្យពិន្ទុលើកត្តាជាច្រើនដូចជា តម្លៃ ទីតាំង ទំហំ និងសន្តិសុខ ក្នុងពេលតែមួយ ដើម្បីជ្រើសរើសយកផ្ទះដែលល្អបំផុត។
Large Language Models (LLMs) ម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ដែលមានសមត្ថភាពយល់ដឹង បង្កើត និងវិភាគអត្ថន័យបរិបទនៃភាសាមនុស្សបានយ៉ាងស៊ីជម្រៅ។ ដូចជាបណ្ណាល័យចល័តដ៏ធំមួយដែលមានសមត្ថភាពអាន និងចងចាំសៀវភៅរាប់លានក្បាល រួចអាចឆ្លើយតប សរសេរ ឬវិភាគអត្ថបទបានដូចមនុស្សពិតៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖