Original Title: Using Video to Automatically Detect Learner Affect in Computer-enabled Classrooms
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់វីដេអូដើម្បីតាមដានដោយស្វ័យប្រវត្តិនូវអារម្មណ៍របស់អ្នកសិក្សានៅក្នុងថ្នាក់រៀនដែលមានកុំព្យូទ័រ

ចំណងជើងដើម៖ Using Video to Automatically Detect Learner Affect in Computer-enabled Classrooms

អ្នកនិពន្ធ៖ Nigel Bosch, University of Notre Dame, Sidney K. D'Mello, University of Notre Dame, Jaclyn Ocumpaugh, Teachers College, Columbia University, Ryan S. Baker, Teachers College, Columbia University, Valerie Shute, Florida State University

ឆ្នាំបោះពុម្ព៖ 2016 ACM Transactions on Interactive Intelligent Systems

វិស័យសិក្សា៖ Affective Computing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវកន្លងមកលើការតាមដានអារម្មណ៍ភាគច្រើនធ្វើឡើងក្នុងបន្ទប់ពិសោធន៍ដែលមានការគ្រប់គ្រងខ្លាំង និងផ្តោតលើអារម្មណ៍មូលដ្ឋាន ដែលពិបាកនឹងយកមកអនុវត្តជាក់ស្តែងក្នុងបរិយាកាសថ្នាក់រៀនពិតប្រាកដដែលមានសភាពអ៊ូអរ និងស្មុគស្មាញ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យវីដេអូពីសិស្សដែលកំពុងលេងហ្គេមអប់រំរូបវិទ្យានៅក្នុងបន្ទប់កុំព្យូទ័ររបស់សាលា ហើយបានបង្ហាត់ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីស្វែងរកអារម្មណ៍ដែលទាក់ទងនឹងការសិក្សាដោយស្វ័យប្រវត្តិ។

ការប្រើប្រាស់កម្មវិធីវិភាគរូបភាពកុំព្យូទ័រ (Computer Vision/FACET) ដើម្បីទាញយកទិន្នន័យពីការបញ្ចេញទឹកមុខ និងចលនាផ្សេងៗ (Action Units)។
ការតាមដានចលនារាងកាយសរុប (Gross body movements) ដោយប្រើក្បួនដោះស្រាយប៉ាន់ស្មានចលនាពីរូបភាពវីដេអូ។
ការសង្កេតផ្ទាល់ និងកត់ត្រាអារម្មណ៍ជាក់ស្តែងដោយប្រើពិធីការ BROMP (Baker Rodrigo Ocumpaugh Monitoring Protocol) ជាទិន្នន័យគោល។
ការប្រើប្រាស់ក្បួនចំណាត់ថ្នាក់ (Classifiers) ដូចជា Bayes Net ជាដើម និងបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែម (SMOTE) ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពនៃទិន្នន័យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ (AUC) មានកម្រិតខ្ពស់ជាងការស្មានដោយចៃដន្យសម្រាប់គ្រប់អារម្មណ៍ទាំងអស់ ដូចជាការសប្បាយចិត្តរីករាយ (AUC = .867) អាកប្បកិរិយាមិនផ្ដោតលើការសិក្សា (AUC = .816) ការចូលរួម (AUC = .679) ការយល់ច្រឡំ (AUC = .649) ការខកចិត្ត (AUC = .631) និងភាពធុញទ្រាន់ (AUC = .610)។
ម៉ូដែលទាំងនេះបានបង្ហាញពីសមត្ថភាពទូទៅតាមពេលវេលាដ៏ល្អ (Temporal generalizability) ដោយអត្រានៃភាពត្រឹមត្រូវធ្លាក់ចុះតិចជាង ២% ប៉ុណ្ណោះ នៅពេលសាកល្បងជាមួយទិន្នន័យដែលប្រមូលបាននៅថ្ងៃ និងម៉ោងសិក្សាផ្សេងៗគ្នា។
ប្រព័ន្ធតាមដាននេះក៏មានដំណើរការល្អ និងអាចប្រើប្រាស់បានឆ្លងកាត់កត្តាប្រជាសាស្ត្រ (ពូជសាសន៍ និងយេនឌ័រ) ដែលបញ្ជាក់ពីលទ្ធភាពនៃការប្រើប្រាស់បច្ចេកវិទ្យានេះក្នុងថ្នាក់រៀនដែលមានសិស្សចម្រុះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Face-based Affect Detection (Using Video & FACET) ការតាមដានអារម្មណ៍តាមរយៈផ្ទៃមុខ (ប្រើប្រាស់វីដេអូ និងកម្មវិធី FACET)	មានភាពត្រឹមត្រូវខ្ពស់ក្នុងការចាប់យកអារម្មណ៍មួយចំនួន (ដូចជាភាពសប្បាយរីករាយ) ដោយមិនរំខានដល់ការសិក្សារបស់សិស្សផ្ទាល់។	មិនអាចដំណើរការបានល្អនៅពេលដែលពន្លឺខ្សោយ ឬសិស្សយកដៃបាំងមុខ ដែលបណ្តាលឱ្យបាត់បង់ទិន្នន័យប្រហែល ៣៤% នៃករណីសរុប។	ទទួលបានភាពត្រឹមត្រូវកម្រិតមធ្យម (Mean AUC = .668) ដោយអត្រាខ្ពស់បំផុតសម្រាប់ភាពសប្បាយរីករាយ (Delight AUC = .867) និងអាកប្បកិរិយាមិនផ្ដោតការសិក្សា (Off-task AUC = .816)។
Interaction-based Affect Detection (Log files) ការតាមដានអារម្មណ៍តាមរយៈអន្តរកម្មកុំព្យូទ័រ (ប្រើ Log files)	មិនពឹងផ្អែកលើកាមេរ៉ា ឬពន្លឺ ដែលធ្វើឱ្យវាមានភាពអាចយកទៅអនុវត្តបានខ្ពស់សឹងតែគ្រប់ពេលវេលា (៩៨% នៃករណីសរុប)។	មានភាពត្រឹមត្រូវក្នុងការស្មានអារម្មណ៍ទាបជាងការប្រើប្រាស់វីដេអូវិភាគផ្ទៃមុខ។	មានភាពអាចយកទៅអនុវត្តបានខ្ពស់រហូតដល់ ៩៨% នៃករណីសរុប ប៉ុន្តែភាពត្រឹមត្រូវទាបជាងវីដេអូ (Mean AUC = .569)។
Multimodal Affect Detection (Video + Log files) ការតាមដានអារម្មណ៍បែបពហុមធ្យោបាយ (វីដេអូ រួមបញ្ចូលជាមួយ Log files)	ទាញយកអត្ថប្រយោជន៍ទាំងភាពត្រឹមត្រូវនៃវីដេអូផ្ទៃមុខ និងភាពអាចអនុវត្តបានគ្រប់ពេលនៃទិន្នន័យអន្តរកម្ម។	ទាមទារការរៀបចំស្មុគស្មាញ និងការធ្វើសមកាលកម្ម (Synchronization) រវាងប្រភពទិន្នន័យច្រើន។	ផ្តល់ភាពត្រឹមត្រូវប្រហាក់ប្រហែលនឹងការប្រើវីដេអូ (Mean AUC = .637) ហើយរក្សាបាននូវភាពអាចអនុវត្តបានខ្ពស់រហូតដល់ ៩៨% នៃករណីសរុប។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ កម្មវិធីកុំព្យូទ័រចក្ខុ (Computer Vision) ក៏ដូចជាអ្នកសង្កេតការណ៍ដែលទទួលបានការបណ្តុះបណ្តាលត្រឹមត្រូវ។

Hardware: កាមេរ៉ាវេបខេម (Webcams) តម្លៃថោកសមរម្យ (ប្រហែល ៣០ដុល្លារ) និងកុំព្យូទ័រលើតុដែលបំពាក់នៅក្នុងបន្ទប់ពិសោធន៍របស់សាលារៀន។
Software: កម្មវិធី FACET សម្រាប់វិភាគផ្ទៃមុខ (បច្ចុប្បន្នលែងមានជាសាធារណៈ) កម្មវិធី WEKA សម្រាប់អភិវឌ្ឍម៉ូដែល Machine Learning និងកម្មវិធី HART លើប្រព័ន្ធប្រតិបត្តិការ Android សម្រាប់ប្រើក្នុងការកត់ត្រា។
Expertise: អ្នកសង្កេតការណ៍មនុស្សដែលបានទទួលការបណ្តុះបណ្តាល និងមានវិញ្ញាបនបត្រខាងពិធីការ BROMP សម្រាប់ការវាយតម្លៃ និងកត់ត្រាអារម្មណ៍សិស្សផ្ទាល់នៅនឹងកន្លែង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងនៅសាលារដ្ឋភាគអាគ្នេយ៍នៃសហរដ្ឋអាមេរិក លើសិស្សថ្នាក់ទី៨ និងទី៩ ដែលមានសិស្សស្បែកស (Caucasian) ចំនួន ៥៧%។ ចំណុចនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ពីព្រោះសិស្សកម្ពុជាមានទម្រង់មុខ និងទម្លាប់នៃការបញ្ចេញអារម្មណ៍ខុសពីសិស្សអាមេរិក ដែលចាំបាច់ទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីបង្ហាត់ម៉ូដែលឡើងវិញឱ្យបានសុក្រឹត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ការអប់រំបែបឌីជីថល និងសាលារៀនជំនាន់ថ្មីនៅកម្ពុជា ក្នុងការតាមដាន និងជួយសិស្ស។

សាលារៀនជំនាន់ថ្មី (New Generation Schools - NGS): អាចប្រើប្រាស់បច្ចេកវិទ្យានេះតាមរយៈកាមេរ៉ាក្នុងបន្ទប់កុំព្យូទ័រ ដើម្បីតាមដានចំណាប់អារម្មណ៍របស់សិស្ស ជួយគ្រូបង្រៀនឱ្យដឹងថាសិស្សណាកំពុងមានការយល់ច្រឡំ ឬធុញទ្រាន់ ដើម្បីចុះទៅជួយណែនាំទាន់ពេលវេលា។
ថ្នាលអប់រំតាមប្រព័ន្ធអេឡិចត្រូនិករបស់ក្រសួងអប់រំ (MoEYS E-Learning Platforms): អាចបញ្ចូលមុខងារនេះទៅក្នុងកម្មវិធីសិក្សា ដើម្បីប្រព័ន្ធអាចធ្វើការឆ្លើយតប ឬផ្តល់ការណែនាំ (Hints) ដោយស្វ័យប្រវត្តិ នៅពេលចាប់បានថាសិស្សកំពុងខកចិត្ត ឬពិបាកដោះស្រាយលំហាត់។

ទោះបីជាអាចមានបញ្ហាប្រឈមរឿងបរិយាកាសពន្លឺក្នុងបន្ទប់រៀននៅកម្ពុជាក៏ដោយ ការអនុវត្តបច្ចេកវិទ្យានេះ (ជាពិសេសការរួមបញ្ចូលវីដេអូ និង Log files) អាចជួយលើកកម្ពស់គុណភាពនៃការរៀនតាមកុំព្យូទ័រឱ្យកាន់តែមានប្រសិទ្ធភាព និងឆ្លើយតបត្រូវនឹងអារម្មណ៍សិស្ស។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃកុំព្យូទ័រចក្ខុ និងការតាមដានអារម្មណ៍: ស្វែងយល់ពីរបៀបទាញយកទិន្នន័យពីផ្ទៃមុខ (Facial Action Units) ដោយប្រើប្រាស់បណ្ណាល័យកូដចំហដូចជា OpenCV ឬ OpenFace ជំនួសឱ្យកម្មវិធី FACET ដែលលែងមាននៅលើទីផ្សារបច្ចុប្បន្ន។
ការប្រមូល និងរៀបចំទិន្នន័យពីសិស្សកម្ពុជា: រៀបចំការប្រមូលទិន្នន័យវីដេអូពីសិស្សកម្ពុជាក្នុងម៉ោងរៀនកុំព្យូទ័រ ដោយប្រើប្រាស់ពិធីការសង្កេត BROMP រួមជាមួយនឹងកម្មវិធីទូរស័ព្ទ HART ដើម្បីកត់ត្រាអារម្មណ៍ពិតប្រាកដរបស់សិស្សទុកជាទិន្នន័យគោល (Ground Truth)។
ការសាងសង់ម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Models): ប្រើប្រាស់ឧបករណ៍បច្ចេកវិទ្យាដូចជា WEKA ឬ Scikit-Learn ក្នុងភាសា Python ដើម្បីបង្ហាត់ក្បួនចំណាត់ថ្នាក់។ ត្រូវប្រាកដថាបានប្រើប្រាស់បច្ចេកទេស SMOTE ដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យ (Class Imbalance) ដែលកើតមានជាទូទៅក្នុងទិន្នន័យថ្នាក់រៀន។
ការវាយតម្លៃអត្រាភាពត្រឹមត្រូវ និងភាពទូទៅ (Cross-validation): ធ្វើការផ្ទៀងផ្ទាត់ម៉ូដែលដោយសាកល្បងវាជាមួយទិន្នន័យដែលប្រមូលបាននៅថ្ងៃផ្សេងគ្នា និងលើក្រុមសិស្សផ្សេងគ្នា ដើម្បីធានាថាម៉ូដែលពិតជាអាចប្រើប្រាស់បានទូទៅ (Generalizability) និងមិនរងឥទ្ធិពលពីពន្លឺ ឬទម្រង់មុខជាក់លាក់ណាមួយហួសហេតុ (Overfitting)។
ការបង្កើតប្រព័ន្ធពហុមធ្យោបាយ (Multimodal Integration): អភិវឌ្ឍប្រព័ន្ធបន្ថែមកម្រិតខ្ពស់ ដោយរួមបញ្ចូលទិន្នន័យវីដេអូផ្ទៃមុខ ជាមួយនឹងទិន្នន័យអន្តរកម្មរបស់សិស្ស (Log Files) ដើម្បីបង្កើតប្រព័ន្ធតាមដានមួយដែលអាចដំណើរការបានជាប់លាប់ ទោះបីជាកាមេរ៉ាមិនអាចចាប់ផ្ទៃមុខសិស្សបានក៏ដោយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Learner Affect	ស្ថានភាពនៃអារម្មណ៍ដែលសិស្សជួបប្រទះក្នុងពេលកំពុងសិក្សា ដូចជា ការយល់ច្រឡំ ការធុញទ្រាន់ ការខកចិត្ត ឬការយកចិត្តទុកដាក់ខ្ពស់។ ក្នុងបរិបទនៃការស្រាវជ្រាវនេះ វាជាគោលដៅដែលប្រព័ន្ធកុំព្យូទ័រត្រូវចាប់សញ្ញាឱ្យបាន ដើម្បីកែតម្រូវការបង្រៀនឱ្យស្របតាមអារម្មណ៍សិស្ស។	ដូចជាគ្រូបង្រៀនដ៏ពូកែម្នាក់ដែលចេះសង្កេតមើលទឹកមុខសិស្សថាគេកំពុងយល់ ឬកំពុងធុញ ដើម្បីប្តូររបៀបបង្រៀនឱ្យទាន់ពេល។
Action Units (AUs)	ចលនាជាក់លាក់នៃបណ្តុំសាច់ដុំនៅលើផ្ទៃមុខ (ឧទាហរណ៍៖ ការញញឹម ការញាក់ចិញ្ចើម ការខាំមាត់) ដែលកុំព្យូទ័រអាចចាប់យករូបភាពនិងវាស់ស្ទង់ជាទិន្នន័យលេខបាន មុននឹងប្រមូលផ្តុំវាដើម្បីបកប្រែថាតើវាជាការបញ្ចេញអារម្មណ៍អ្វីពិតប្រាកដ។	ដូចជាអក្ខរក្រមនៃភាសាកាយវិការផ្ទៃមុខអញ្ចឹង ពោលគឺយកចលនាសាច់ដុំតូចៗមករួមបញ្ចូលគ្នាដើម្បីបង្កើតជាន័យនៃអារម្មណ៍មួយ (ឧទាហរណ៍៖ លើកចិញ្ចើម + បើកភ្នែកធំៗ = ភ្ញាក់ផ្អើល)។
Receiver Operating Characteristic curve (AUC)	រង្វាស់គណិតវិទ្យាដែលប្រើសម្រាប់វាយតម្លៃថាតើម៉ូដែល AI មួយមានសមត្ថភាពអាចបែងចែកភាពខុសគ្នារវាងក្រុមគោលដៅបានល្អកម្រិតណា (ឧ. ការញែកឱ្យដាច់រវាងសិស្សធុញ និងមិនធុញ) ជាពិសេសនៅពេលទិន្នន័យមានភាពលម្អៀងឬមិនស្មើគ្នា។ តម្លៃ ០.៥ ស្មើនឹងការទាយដោយចៃដន្យ ហើយ ១.០ គឺត្រឹមត្រូវឥតខ្ចោះ។	ដូចជាពិន្ទុវាយតម្លៃសមត្ថភាពរបស់ចៅក្រមអញ្ចឹង បើពិន្ទុកាន់តែខិតជិត ១ មានន័យថាគាត់បែងចែកអ្នកខុស និងអ្នកត្រូវ បានកាន់តែច្បាស់លាស់ ដោយមិនលម្អៀង។
SMOTE	បច្ចេកទេសនៃវិទ្យាសាស្ត្រទិន្នន័យ សម្រាប់បង្កើតទិន្នន័យសិប្បនិម្មិត (ក្លែងក្លាយតែមានលក្ខណៈស្រដៀងទិន្នន័យពិត) សម្រាប់ក្រុមគោលដៅណាដែលមានចំនួនតិចតួចពេក ដើម្បីជួយឱ្យប្រព័ន្ធរៀនដោយម៉ាស៊ីន (Machine Learning) មានតុល្យភាព និងអាចរៀនចំណាំទិន្នន័យក្រុមតូចនោះបានល្អជាងមុន។	ដូចជាពេលយើងមានរូបថតសត្វខ្លាតិចពេកសម្រាប់បង្រៀនក្មេងឱ្យស្គាល់ យើងក៏យកកុំព្យូទ័រមកបង្កើតរូបខ្លាថ្មីៗបន្ថែមដោយលាយឡំលក្ខណៈពិសេសរបស់រូបខ្លាដែលមានស្រាប់ ដើម្បីឱ្យក្មេងមានរូបមើលបានច្រើន និងងាយចាំ។
Cross-validation	ដំណើរការសាកល្បងម៉ូដែល AI ដោយបែងចែកទិន្នន័យជាច្រើនចំណែក រួចយកមួយចំណែកទៅធ្វើតេស្ត និងចំណែកដែលនៅសល់ទៅបង្រៀនម៉ូដែល (Train) ដោយធ្វើបែបនេះឆ្លាស់គ្នារហូតអស់ទិន្នន័យ។ ការធ្វើបែបនេះគឺដើម្បីប្រាកដថាម៉ូដែលពិតជាអាចដំណើរការបានល្អលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ឃើញពីមុនមក។	ដូចជាការឱ្យសិស្សធ្វើលំហាត់សាកល្បងជាច្រើនទម្រង់ខុសៗគ្នា មុននឹងឱ្យទៅប្រឡងពិតប្រាកដ ដើម្បីធានាថាសិស្សពិតជាចេះក្បួនដោះស្រាយមែន មិនមែនគ្រាន់តែទន្ទេញចាំចម្លើយ។
Generalizability	សមត្ថភាពរបស់ម៉ូដែល AI ក្នុងការរក្សាបាននូវភាពត្រឹមត្រូវនៃការទស្សន៍ទាយដដែល នៅពេលយកវាទៅអនុវត្តលើស្ថានភាពថ្មីៗ ពេលវេលាខុសគ្នា ឬក្រុមមនុស្សផ្សេងគ្នា (ឧទាហរណ៍៖ យកប្រព័ន្ធដែលបង្ហាត់នៅអាមេរិក មកប្រើជាមួយសិស្សនៅកម្ពុជា) ជំនួសឱ្យការធ្វើបានល្អតែក្នុងបន្ទប់ពិសោធន៍។	ដូចជាអ្នករៀនបើកបរឡានដែលអាចបើកបានយ៉ាងរលូនមិនថានៅលើផ្លូវលំ ផ្លូវកៅស៊ូ ពេលថ្ងៃ ឬពេលយប់ គឺគាត់មានសមត្ថភាពទូទៅក្នុងការបើកបរគ្រប់កាលៈទេសៈ។
BROMP	ពិធីការ ឬក្បួនខ្នាតសម្រាប់វាយតម្លៃសិស្សដោយសង្កេតផ្ទាល់នៅក្នុងថ្នាក់រៀន ដោយតម្រូវឱ្យអ្នកជំនាញដើរមើលសិស្សម្នាក់ម្តងៗជាវង់រង្វិលក្នុងរយៈពេលជាក់លាក់ណាមួយ ដើម្បីវាយតម្លៃ និងកត់ត្រាពីអារម្មណ៍ និងអាកប្បកិរិយារបស់សិស្ស ទុកសម្រាប់ធ្វើជាទិន្នន័យគោល (Ground Truth) ផ្ទៀងផ្ទាត់ជាមួយកុំព្យូទ័រ។	ដូចជាគ្រូពេទ្យពិនិត្យជំងឺតាមស្តង់ដារមួយ ដែលតម្រូវឱ្យដើរពិនិត្យអ្នកជំងឺតាមគ្រែម្តងមួយៗ ដោយមើលទាំងទឹកមុខ កាយវិការ និងសកម្មភាពទូទៅ ដើម្បីកត់ត្រារោគសញ្ញាពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖