Original Title: 生成式人工智能赋能的新型课堂教学评价与优化研究
Source: doi.org/10.3969/j.issn.1009-8097.2024.12.003
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្រាវជ្រាវស្តីពីការវាយតម្លៃ និងការធ្វើឱ្យប្រសើរឡើងនៃការបង្រៀនក្នុងថ្នាក់រៀនបែបថ្មី ដែលគាំទ្រដោយបញ្ញាសិប្បនិម្មិតបង្កើតថ្មី (Generative AI)

ចំណងជើងដើម៖ 生成式人工智能赋能的新型课堂教学评价与优化研究

អ្នកនិពន្ធ៖ SONG Yu (South China Normal University), XU Chang-Liang (Guangzhou Overseas Chinese Foreign Language School), MU Xin-Xin (South China Normal University)

ឆ្នាំបោះពុម្ព៖ 2024, Vol.34 No.12

វិស័យសិក្សា៖ Educational Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៃការវាយតម្លៃ និងការធ្វើឱ្យប្រសើរឡើងនូវការបង្រៀនក្នុងថ្នាក់រៀនបែបថ្មី ដែលមានភាពស្មុគស្មាញ និងត្រូវការពេលវេលាច្រើន ប្រសិនបើពឹងផ្អែកតែលើការវាយតម្លៃជាលក្ខណៈអត្តនោម័តពីអ្នកជំនាញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវដំណោះស្រាយបច្ចេកវិទ្យាដោយរួមបញ្ចូលគ្នានូវវិធីសាស្ត្រវិភាគទិន្នន័យឯកសារជាមួយបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដើម្បីវាយតម្លៃ និងផ្តល់យោបល់កែលម្អការបង្រៀនដោយស្វ័យប្រវត្តិ។

ការកសាងប្រព័ន្ធកូដនីយកម្ម និងការវាស់វែងគន្ថនិទ្ទេស (Bibliometric Method and Coding System Construction)
ការបង្កើតការស្វែងរកដែលបានពង្រឹង និងការកត់ចំណាំលម្អិត (Retrieval Augmented Generation and Fine Annotation)
ការរៀនតាមរយៈការបញ្ជា និងការបង្កើតខ្លឹមសារដែលបានធ្វើឱ្យប្រសើរ (Prompt Learning and Optimized Content Generation)
ការធ្វើពិសោធន៍ពាក់កណ្តាល (Quasi-experimentation) ដើម្បីប្រៀបធៀបប្រសិទ្ធភាពរវាងក្រុមគ្រូបង្រៀនដែលប្រើ AI និងក្រុមដែលមិនប្រើ AI

លទ្ធផលសំខាន់ៗ (The Verdict)៖

បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតបង្កើតថ្មី (Generative AI) អាចជួយកាត់បន្ថយពេលវេលាក្នុងការកត់ចំណាំ និងវាយតម្លៃមេរៀនរយៈពេល ៤០ នាទី មកត្រឹមតែ ២០ ទៅ ៣០ វិនាទី ជាមួយនឹងអត្រាភាពត្រឹមត្រូវ (Accuracy) លើសពី ០.៩០។
លទ្ធផលនៃការធ្វើតេស្ត t-test បង្ហាញថា គ្រូបង្រៀនដែលប្រើប្រាស់ AI ទទួលបានលទ្ធផលល្អប្រសើរជាងក្រុមត្រួតពិនិត្យ ពិសេសលើការបញ្ចេញមតិយោបល់ ការពង្រីកចំណេះដឹង ភាពស៊ីជម្រៅ ការអនុវត្តជាក់ស្តែង និងការច្នៃប្រឌិត (p<0.01 ទៅ p<0.001)។
ការអនុវត្តបច្ចេកវិទ្យា AI ផ្តល់សក្តានុពលយ៉ាងធំធេងក្នុងការជួយគាំទ្រដល់ការអភិវឌ្ឍវិជ្ជាជីវៈរបស់គ្រូបង្រៀន និងធ្វើឱ្យការធ្វើឱ្យប្រសើរឡើងនូវការបង្រៀនមានលក្ខណៈផ្ទាល់ខ្លួន និងអាចអនុវត្តបានក្នុងទ្រង់ទ្រាយធំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Generative AI-enabled Teaching Evaluation (RAG + Prompt Learning) ការវាយតម្លៃ និងធ្វើឱ្យប្រសើរឡើងការបង្រៀនដោយប្រើប្រាស់ Generative AI (RAG និង Prompt Learning)	មានល្បឿនលឿន (ចំណាយត្រឹម ២០-៣០ វិនាទី សម្រាប់មេរៀន ៤០ នាទី) និងមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការវិភាគ។ អាចផ្តល់មតិកែលម្អជាក់លាក់ជាលក្ខណៈបុគ្គល ដើម្បីជួយគ្រូជំរុញការគិតស៊ីជម្រៅរបស់សិស្ស។	ត្រូវការការកសាងទិន្នន័យឯកទេសសម្រាប់ការបង្វឹកម៉ូដែល និងទាមទារចំណាយធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ដំណើរការ LLMs។	ទទួលបានពិន្ទុភាពត្រឹមត្រូវ (F1 Score) លើសពី ០.៩០ និងជួយបង្កើនប្រសិទ្ធភាពនៃការបង្រៀនផ្នែកច្នៃប្រឌិត និងការអនុវត្តជាក់ស្តែងក្នុងថ្នាក់រៀនយ៉ាងមានប្រសិទ្ធភាព (p<0.01 ទៅ p<0.001)។
Traditional Expert/Peer Review ការវាយតម្លៃតាមបែបប្រពៃណីដោយអ្នកជំនាញ ឬមិត្តរួមការងារ	មិនទាមទារប្រព័ន្ធបច្ចេកវិទ្យាស្មុគស្មាញ និងពឹងផ្អែកលើការវិនិច្ឆ័យតាមបទពិសោធន៍ផ្ទាល់របស់អ្នកជំនាញគរុកោសល្យ។	ចំណាយពេលវេលាយូរក្នុងការទស្សនកិច្ចសិក្សា មានលក្ខណៈអត្តនោម័ត និងពិបាកអនុវត្តក្នុងទ្រង់ទ្រាយធំដើម្បីតាមដានការអភិវឌ្ឍគ្រូបង្រៀនជាប្រចាំ។	ការបង្រៀននៅតែផ្តោតលើការបញ្ជូនចំណេះដឹងមូលដ្ឋានច្រើនជាង (៥៩.៩៣%) និងមានកម្រិតទាបក្នុងការជំរុញការច្នៃប្រឌិតធៀបនឹងក្រុមដែលប្រើប្រាស់ AI (១.០៦% ធៀបនឹង ៧.១៤%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍ និងដាក់ឱ្យដំណើរការប្រព័ន្ធនេះ ទាមទារហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រខ្លាំង និងទិន្នន័យឯកទេសសម្រាប់ការបង្វឹក Large Language Models (LLMs)។

Software: ក្របខ័ណ្ឌ Dify សម្រាប់តម្រៀបការងារ (Engineering Architecture), ប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR), ព្រមទាំងបណ្តាញសរសៃប្រសាទកុំព្យូទ័រដូចជា CNN និង BiLSTM។
Hardware: ម៉ាស៊ីនមេ (Servers) ឬ GPUs ដែលមានសមត្ថភាពខ្ពស់ ដើម្បីដំណើរការម៉ូដែល LLMs ធំៗដូចជា ChatGLM ដែលមានប៉ារ៉ាម៉ែត្ររាប់ពាន់លាន (100B parameters)។
Dataset: ទិន្នន័យឯកទេសដែលរួមមាន៖ កំណត់ត្រាសន្ទនាក្នុងថ្នាក់រៀន ឯកសារកម្មវិធីសិក្សា និងសំណុំទិន្នន័យកូដនីយកម្មដែលបានវាយតម្លៃដោយអ្នកជំនាញជាមុន។
Expertise: ត្រូវការការសហការរវាងវិស្វករ AI (AI Engineers), អ្នកជំនាញសរសេរ Prompt សម្រាប់ AI និងអ្នកស្រាវជ្រាវផ្នែកគរុកោសល្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យពីគ្រូបង្រៀនវ័យក្មេងចំនួន ៦០ នាក់ មកពីសាលាបឋមសិក្សាចំនួន ២ ប៉ុណ្ណោះ ក្នុងទីក្រុងក្វាងចូវ ប្រទេសចិន។ ទិន្នន័យ និងម៉ូដែលភាសាផ្តោតលើភាសា និងបរិបទអប់រំចិនទាំងស្រុង។ សម្រាប់កម្ពុជា នេះជាបញ្ហាប្រឈមដ៏ធំមួយ ព្រោះប្រព័ន្ធ AI ចាំបាច់ត្រូវបង្វឹកឡើងវិញឱ្យយល់ពីភាសាខ្មែរ និងទម្លាប់នៃការបង្រៀនជាក់ស្តែងនៅក្នុងសាលារៀនខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកភាសា និងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យក៏ដោយ វិធីសាស្ត្រវាយតម្លៃដោយ AI នេះមានសក្តានុពលខ្ពស់សម្រាប់ការធ្វើទំនើបកម្មប្រព័ន្ធអប់រំនៅកម្ពុជា។

វិទ្យាស្ថានជាតិអប់រំ (NIE) និងសាលាគរុកោសល្យ: អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីវាយតម្លៃ និងផ្តល់មតិកែលម្អដោយស្វ័យប្រវត្តិដល់គរុសិស្សដែលកំពុងចុះកម្មសិក្សាបង្រៀន ដែលជួយសន្សំពេលវេលាគ្រូឧទ្ទេស។
នាយកដ្ឋានធានាគុណភាពអប់រំ (EQAD) នៃក្រសួងអប់រំ: អាចប្រើប្រព័ន្ធ AI ដើម្បីតាមដាន និងវាយតម្លៃគុណភាពនៃការបង្រៀននៅតាមសាលារៀនជំនាន់ថ្មី (NGS) ឬសាលារដ្ឋទូទាំងប្រទេសក្នុងទ្រង់ទ្រាយធំ ជំនួសឱ្យការចុះអធិការកិច្ចដោយផ្ទាល់ដែលខាតពេល។
គ្រឹះស្ថានឧត្តមសិក្សា (Higher Education Institutions): សាកលវិទ្យាល័យនានា (ឧទាហរណ៍ RUPP ឬ ITC) អាចប្រើបច្ចេកវិទ្យានេះដើម្បីតាមដាន និងពង្រឹងគុណភាពនៃការបង្រៀនមុខវិជ្ជា STEM ដោយជំរុញឱ្យសាស្ត្រាចារ្យផ្តោតលើការអនុវត្តជាក់ស្តែង និងការច្នៃប្រឌិត។

ការដាក់បញ្ចូលបច្ចេកវិទ្យា Generative AI ក្នុងការវាយតម្លៃការបង្រៀន នឹងក្លាយជាកាតាលីករដ៏សំខាន់ក្នុងការផ្លាស់ប្តូរទម្លាប់បង្រៀនបែបសូត្រចាំមាត់នៅកម្ពុជា ទៅជាការបង្រៀនដែលជំរុញការគិតស៊ីជម្រៅ និងសត្យានុម័ត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃបច្ចេកវិទ្យា AI សម្រាប់អប់រំ: ស្វែងយល់ពីរបៀបដែល Large Language Models ដំណើរការ និងបច្ចេកទេស Retrieval-Augmented Generation (RAG) ដោយប្រើប្រាស់ Python និង HuggingFace ដើម្បីយល់ពីរបៀបទាញយកទិន្នន័យមេរៀនមកវិភាគ។
ប្រមូល និងកសាងសំណុំទិន្នន័យថ្នាក់រៀនជាភាសាខ្មែរ: ចាប់ផ្តើមថតចម្លងសំឡេង និងវីដេអូបង្រៀនក្នុងថ្នាក់រៀនជាក់ស្តែង ហើយបំប្លែងទៅជាអត្ថបទ (Text) ដោយប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងដូចជា Whisper ASR រួចសម្អាតទិន្នន័យដើម្បីធ្វើជាតួឯកសារជំនួយ។
បង្កើតសូចនាករវាយតម្លៃតាមបរិបទកម្ពុជា: សហការជាមួយអ្នកជំនាញគរុកោសល្យនៅក្រសួងអប់រំ ដើម្បីកំណត់កូដវាយតម្លៃ (Coding system) ដែលផ្តោតលើការលើកកម្ពស់ការគិតពិចារណា (Critical Thinking) ស្របតាមស្តង់ដារកម្មវិធីសិក្សាជាតិ។
អភិវឌ្ឍប្រព័ន្ធវាយតម្លៃ និងផ្តល់យោបល់ដោយស្វ័យប្រវត្តិ (AI Platform): ប្រើប្រាស់ក្របខ័ណ្ឌការងារដូចជា Dify រួមបញ្ចូលជាមួយ Open-source LLMs (ឧទាហរណ៍៖ Llama-3 ឬ Qwen) ដើម្បីបង្កើតភ្នាក់ងារ AI (AI Agent) ដែលអាចអានសកម្មភាពបង្រៀន និងបង្កើតមតិកែលម្អភ្លាមៗ។
សាកល្បងអនុវត្ត និងវាស់ស្ទង់ប្រសិទ្ធភាព (Pilot Testing): ដាក់ឱ្យប្រើប្រាស់ប្រព័ន្ធនេះសាកល្បងជាមួយគ្រូបង្រៀននៅក្នុងសាលារៀនជំនាន់ថ្មីចំនួន ២ ទៅ ៣ សាលា រួចប្រើប្រាស់វិធីសាស្ត្រវាយតម្លៃ t-test ដើម្បីប្រៀបធៀបលទ្ធផល និងធ្វើការកែតម្រូវម៉ូដែលភាសាឱ្យកាន់តែសុក្រឹត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Generative Artificial Intelligence	បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលអាចបង្កើតមាតិកាថ្មីៗដូចជា អត្ថបទ រូបភាព ឬសំឡេង ដោយស្វ័យប្រវត្តិ ផ្អែកលើគំរូទិន្នន័យដ៏ធំដែលវាបានរៀន ជំនួសឱ្យការគ្រាន់តែវិភាគ ឬបែងចែកទិន្នន័យចាស់ៗដែលមានស្រាប់។	ដូចជាចុងភៅដ៏ចំណានម្នាក់ដែលធ្លាប់ភ្លក់ម្ហូបរាប់ពាន់មុខ រួចអាចច្នៃបង្កើតរូបមន្តម្ហូបថ្មីមួយដ៏ឈ្ងុយឆ្ងាញ់ដោយខ្លួនឯងបានយ៉ាងងាយស្រួល។
Retrieval Augmented Generation (RAG)	បច្ចេកទេសដែលរួមបញ្ចូលគ្នានូវការស្វែងរកព័ត៌មានពីឃ្លាំងទិន្នន័យជាក់លាក់ និងការបង្កើតអត្ថបទរបស់ AI ដើម្បីធានាថាចម្លើយដែលបញ្ចេញមកមានភាពត្រឹមត្រូវ ចំគោលដៅ និងមិនមែនជាការប្រឌិត (Hallucinations) ឡើយ។	ដូចជាសិស្សដែលកំពុងប្រឡងដោយបើកសៀវភៅ (Open-book exam) គឺគេអាចទាញសៀវភៅមេរៀនមកមើលរកការពិតសិន មុននឹងសរសេរចម្លើយចេញពីគំនិតខ្លួនឯង ដើម្បីកុំឱ្យឆ្លើយខុស។
Prompt Learning	វិធីសាស្ត្រក្នុងការបង្ហាត់ ឬណែនាំម៉ូដែល AI ឱ្យបញ្ចេញលទ្ធផលត្រឹមត្រូវតាមការចង់បាន តាមរយៈការរៀបចំសំណួរ ឬពាក្យបញ្ជា (Prompt) ដែលមានបរិបទ លក្ខខណ្ឌ ឧទាហរណ៍ និងគោលបំណងច្បាស់លាស់។	ដូចជាការប្រាប់ជាងកាត់ដេរឱ្យកាត់ខោអាវ ដោយមិនត្រឹមតែប្រាប់ថាយកម៉ូដអ្វីទេ តែថែមទាំងបង្ហាញរូបថតគំរូ និងប្រាប់ទំហំរង្វាស់រង្វាល់លម្អិតទើបកាត់មកត្រូវចិត្តឥតខ្ចោះ។
Large Language Models (LLMs)	ម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានបង្វឹកដោយទិន្នន័យអត្ថបទរាប់ពាន់លានពាក្យ ដែលធ្វើឱ្យវាមានសមត្ថភាពខ្ពស់ក្នុងការយល់ដឹង បកប្រែ សង្ខេប និងឆ្លើយឆ្លងជាភាសាមនុស្សបានយ៉ាងរលូនដូចធម្មជាតិ។	ដូចជាបណ្ណាល័យចល័តដ៏ធំមួយដែលមានសៀវភៅរាប់លានក្បាល ហើយអាចឆ្លើយគ្រប់សំនួររបស់អ្នកបានភ្លាមៗដោយប្រើភាសាសាមញ្ញដូចមនុស្សពិតៗកំពុងនិយាយគ្នា។
Bi-directional Long Short Term Memory Network (BiLSTM)	ប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលវិភាគទិន្នន័យ (ដូចជាប្រយោគ) ទាំងពីមុខទៅក្រោយ និងពីក្រោយមកមុខ ដើម្បីស្វែងយល់ពីអត្ថន័យ និងបរិបទទាំងស្រុងនៃពាក្យនីមួយៗបានកាន់តែច្បាស់។	ដូចជាការអានសៀវភៅរឿងស៊ើបអង្កេត ដែលអ្នកអានចាំបាច់ត្រូវត្រឡប់ទៅមើលសាច់រឿងពីវគ្គមុនផង និងអានវគ្គបន្ទាប់ផង ទើបយល់ពីមូលហេតុពិតប្រាកដនៃសាច់រឿងទាំងមូល។
Attention Mechanism	យន្តការបច្ចេកទេសដែលជួយឱ្យម៉ូដែល AI អាចផ្តោតការយកចិត្តទុកដាក់តែទៅលើពាក្យ ឬផ្នែកសំខាន់ៗបំផុតនៃទិន្នន័យ ពេលកំពុងវិភាគអត្ថន័យ ដោយរំលងចោលនូវព័ត៌មានដែលមិនចាំបាច់។	ដូចជាពេលយើងកំពុងស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀងដែលមានសំឡេងរំខានខ្លាំង ត្រចៀកយើងព្យាយាមផ្តោតស្តាប់តែសំឡេងមិត្តភក្តិនោះ ដោយព្រងើយកន្តើយនឹងសំឡេងភ្លេង។
Convolutional Neural Network (CNN)	ទោះបីជាវាល្បីល្បាញខាងវិភាគរូបភាព ប៉ុន្តែនៅក្នុងអត្ថបទ បណ្តាញសរសៃប្រសាទនេះជួយស្កេន និងទាញយកលក្ខណៈពិសេសតូចៗ (Local features) ឬគំរូពាក្យគន្លឹះសំខាន់ៗចេញពីប្រយោគសន្ទនាវែងៗ។	ដូចជាការប្រើប្រាស់កែវពង្រីកដើរឆ្លុះមើលលម្អិតរាល់ចំណុចតូចៗនៅលើផ្ទាំងគំនូរ ដើម្បីរកមើលស្នាមប្រឡាក់ ឬគំនូសលាក់កំបាំងនានាដែលភ្នែកទទេមើលមិនឃើញ។
Bibliometric Method	វិធីសាស្ត្រស្រាវជ្រាវបែបបរិមាណដែលប្រើប្រាស់ស្ថិតិដើម្បីវិភាគលើឯកសារបោះពុម្ពផ្សាយ សៀវភៅ ឬអត្ថបទស្រាវជ្រាវ ដើម្បីស្វែងរកនិន្នាការ ទិសដៅ និងរចនាសម្ព័ន្ធបណ្តាញនៃប្រធានបទណាមួយ។	ដូចជាការរាប់ចំនួនដងដែលបទចម្រៀងមួយត្រូវបានគេចាក់តាមវិទ្យុ និងមើលថាតើនរណាខ្លះចូលចិត្តស្តាប់ ដើម្បីវាយតម្លៃថាតើបទនោះកំពុងពេញនិយមកម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖