Original Title: An Affective Computing Model for Online Tutoring using Facial Expressions
Source: doi.org/10.14445/23488549/IJECE-V10I8P101
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

គំរូកុំព្យូទ័រតាមដានអារម្មណ៍សម្រាប់ការបង្រៀនតាមអនឡាញដោយប្រើការបញ្ចេញទឹកមុខ

ចំណងជើងដើម៖ An Affective Computing Model for Online Tutoring using Facial Expressions

អ្នកនិពន្ធ៖ K. Revathi (Dhanalakshmi College of Engineering), T. Tamilselvi (SRM Institute of Science and Technology), R. Saravanakumar (Dayananda Sagar Academy of Technology and Management), T. Divya (Panimalar Engineering College)

ឆ្នាំបោះពុម្ព៖ 2023 (SSRG International Journal of Electronics and Communication Engineering)

វិស័យសិក្សា៖ Computer Science / Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការបង្រៀនតាមអនឡាញជួបប្រទះបញ្ហាក្នុងការវាយតម្លៃការចូលរួម និងអារម្មណ៍របស់សិស្ស ដោយសារកង្វះទំនាក់ទំនងផ្ទាល់មុខ ដែលធ្វើឱ្យពិបាកក្នុងការដឹងថា តើសិស្សកំពុងយល់ ឬមានអារម្មណ៍យ៉ាងណាចំពោះមេរៀន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគំរូសិក្សាស៊ីជម្រៅ (Deep Learning) ដោយប្រើបច្ចេកទេសវិភាគរូបភាព ដើម្បីចាប់យក និងវិភាគអារម្មណ៍សិស្សតាមរយៈការបញ្ចេញទឹកមុខ។

ការប្រើប្រាស់សំណុំទិន្នន័យ (Dataset) ឈ្មោះ 'fer-2013' ពី Kaggle ដើម្បីបង្វឹកប្រព័ន្ធ។
ការទាញយកលក្ខណៈពិសេសរូបភាពដោយប្រើបច្ចេកទេស Discrete Wavelet Transform (DWT) និង Kernel PCA។
ការចាត់ថ្នាក់អារម្មណ៍ដោយប្រើបណ្តាញសរសៃប្រសាទ 3D Convolutional Neural Network (3DCNN)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូ 3DCNN ដែលបានស្នើឡើង សម្រេចបាននូវភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ ៩៨.៩% ក្នុងការកំណត់អារម្មណ៍សិស្ស។
ប្រព័ន្ធនេះមានដំណើរការល្អជាងគំរូដទៃទៀតដែលបានយកមកប្រៀបធៀប ដូចជា SVM (៩៦.៧%), K-NN (៩៣.៥%) និង CNN ធម្មតា (៩៥.៦%)។
លទ្ធផលបង្ហាញថា បច្ចេកវិទ្យានេះអាចជួយគ្រូបង្រៀនតាមអនឡាញឱ្យយល់ពីអារម្មណ៍សិស្ស (ដូចជា សប្បាយចិត្ត ភ័យខ្លាច ភ្ញាក់ផ្អើល ឬខឹង) បានយ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
3D Convolutional Neural Network (3DCNN) - Proposed Model បណ្តាញសរសៃប្រសាទកែច្នៃរូបភាព 3វិមាត្រ (3DCNN)	ផ្តល់នូវកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានប្រសិទ្ធភាពក្នុងការចាប់យកលក្ខណៈពិសេសនៃអារម្មណ៍ពីរូបភាព។	ទាមទារធនធានកុំព្យូទ័រខ្លាំងក្នុងការបង្វឹក (Training) បើធៀបនឹងម៉ូដែលសាមញ្ញ។	ភាពត្រឹមត្រូវ (Accuracy): ៩៨.៩% និង F-Score: ៨៨.៧%
Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM)	មានដំណើរការល្អគួរសម និងចំណាយពេលបង្វឹកតិចជាង Deep Learning សម្រាប់ទិន្នន័យតូច។	មិនសូវមានប្រសិទ្ធភាពដូច 3DCNN ក្នុងការវិភាគរូបភាពដែលមានភាពស្មុគស្មាញ។	ភាពត្រឹមត្រូវ (Accuracy): ៩៦.៧%
K-Nearest Neighbour (K-NN) វិធីសាស្ត្រ K-NN	ងាយស្រួលក្នុងការអនុវត្ត និងយល់ដឹងអំពីដំណើរការ។	ទទួលបានលទ្ធផលទាបជាងគេក្នុងការពិសោធន៍នេះ និងយឺតក្នុងការទស្សន៍ទាយលើទិន្នន័យធំ។	ភាពត្រឹមត្រូវ (Accuracy): ៩៣.៥%
Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN)	ជាមូលដ្ឋានគ្រឹះនៃការសិក្សាម៉ាស៊ីន ប៉ុន្តែមិនសូវល្អចំពោះទិន្នន័យរូបភាពដូច CNN។	បាត់បង់ព័ត៌មានអំពីទីតាំង (Spatial information) នៅក្នុងរូបភាព។	ភាពត្រឹមត្រូវ (Accuracy): ៩៣.៧%

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តគំរូនេះទាមទារការប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដែលត្រូវការធនធានផ្នែករឹងខ្លាំងគួរសម។

Hardware: ត្រូវការកុំព្យូទ័រដែលមាន GPU (ដូចជា NVIDIA) ដើម្បីពន្លឿនការបង្វឹកម៉ូដែល 3DCNN ព្រោះការប្រើ CPU នឹងយឺតខ្លាំង។
Software: ភាសា Python ដោយប្រើបណ្ណាល័យ TensorFlow និង Keras សម្រាប់បង្កើត និងបង្វឹកម៉ូដែល។
Dataset: សំណុំទិន្នន័យ 'fer-2013' ដែលមានរូបភាពមុខមនុស្ស ៤៨x៤៨ ភីកសែល ចែកជា ៧ អារម្មណ៍ផ្សេងគ្នា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសាធារណៈ 'fer-2013' ដែលភាគច្រើនជាមុខរបស់ជនជាតិបរទេស (Western/Caucasian)។ សម្រាប់បរិបទកម្ពុជា នេះអាចជាបញ្ហា (Bias) ព្រោះម៉ូដែលអាចនឹងមិនមានភាពត្រឹមត្រូវខ្ពស់ក្នុងការសម្គាល់ទឹកមុខសិស្សខ្មែរ ប្រសិនបើមិនបានបង្វឹកបន្ថែមជាមួយទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យអប់រំនៅកម្ពុជា ជាពិសេសក្នុងបរិបទដែលការរៀនតាមអនឡាញកំពុងកើនឡើង។

សាកលវិទ្យាល័យ និងគ្រឹះស្ថានឧត្តមសិក្សា: អាចប្រើដើម្បីតាមដានការយកចិត្តទុកដាក់របស់និស្សិតក្នុងពេលរៀនតាម Zoom ឬ Google Meet ដើម្បីឱ្យសាស្រ្តាចារ្យកែសម្រួលវិធីសាស្រ្តបង្រៀន។
កម្មវិធីបង្រៀនភាសាបរទេស (E-learning Platforms): ក្រុមហ៊ុន EdTech នៅកម្ពុជាអាចយកទៅប្រើដើម្បីវាយតម្លៃថា តើសិស្សមានអារម្មណ៍ធុញទ្រាន់ ឬសប្បាយរីករាយជាមួយមេរៀន។

ទោះបីជាលទ្ធផលបង្ហាញថាមានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែការអនុវត្តជាក់ស្តែងនៅកម្ពុជាទាមទារឱ្យមានការប្រមូលទិន្នន័យមុខសិស្សខ្មែរ ដើម្បីកាត់បន្ថយភាពលំអៀង (Data Bias) និងធានាបាននូវសុក្រឹតភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ និងឧបករណ៍: ចាប់ផ្តើមសិក្សាភាសា (Python) និងបណ្ណាល័យសំខាន់ៗដូចជា (Pandas), (NumPy), និង (OpenCV) សម្រាប់ការដោះស្រាយរូបភាព។
ការស្វែងយល់ពី Deep Learning: សិក្សាអំពីទ្រឹស្តីនៃ (Convolutional Neural Networks - CNN) និងរបៀបប្រើប្រាស់ Framework ដូចជា (TensorFlow) ឬ (Keras)។
ការអនុវត្តជាមួយទិន្នន័យគំរូ: ទាញយកទិន្នន័យ 'fer-2013' ពីគេហទំព័រ (Kaggle) ហើយសាកល្បងបង្កើតម៉ូដែល CNN សាមញ្ញដើម្បីសម្គាល់អារម្មណ៍។
ការប្រមូលទិន្នន័យក្នុងស្រុក: សហការជាមួយសាលារៀនដើម្បីថតរូបភាពទឹកមុខសិស្សកម្ពុជា (ដោយមានការអនុញ្ញាត) ដើម្បីបង្កើតជា Dataset សម្រាប់បង្វឹកម៉ូដែលឱ្យស្គាល់មុខខ្មែរបានច្បាស់។
ការអភិវឌ្ឍប្រព័ន្ធសាកល្បង: បង្កើតកម្មវិធីតូចមួយដែលអាចប្រើ WebCam ដើម្បីចាប់យកទឹកមុខ និងបង្ហាញអារម្មណ៍ជា Real-time ដោយប្រើម៉ូដែលដែលបានបង្វឹក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Affective Computing	បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យកុំព្យូទ័រយល់ ដឹង និងឆ្លើយតបទៅនឹងអារម្មណ៍របស់មនុស្ស។ នៅក្នុងបរិបទនៃការសិក្សានេះ វាគឺជារបៀបដែលកុំព្យូទ័រវិភាគទឹកមុខសិស្ស ដើម្បីដឹងថាពួកគេកំពុងសប្បាយចិត្ត ធុញទ្រាន់ ឬមិនយល់មេរៀន។	ដូចជាគ្រូបង្រៀនដែលពូកែសង្កេតទឹកមុខសិស្ស ដើម្បីដឹងថាសិស្សកំពុងយល់ ឬអត់។
Convolutional Neural Network (CNN)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (AI) ដែលជំនាញខាងវិភាគរូបភាព។ វារៀនចាប់យកលក្ខណៈពិសេសពីរូបភាព (ដូចជា ខ្សែ ជ្រុង និងរូបរាង) ដោយស្វ័យប្រវត្តិ ដើម្បីកំណត់ថាវាជារូបអ្វី។	ប្រៀបដូចជាភ្នែក និងខួរក្បាលរបស់កុំព្យូទ័រ ដែលអាចមើលរូបភាព ហើយស្គាល់ថាវាជារូបឆ្មា ឬឆ្កែ ដោយផ្អែកលើលក្ខណៈរបស់វា។
Discrete Wavelet Transform (DWT)	ជាវិធីសាស្ត្រគណិតវិទ្យាសម្រាប់បំបែករូបភាពទៅជាផ្នែកតូចៗ និងកាត់បន្ថយទំហំទិន្នន័យ (Dimensionality reduction) ប៉ុន្តែនៅតែរក្សាព័ត៌មានសំខាន់ៗរបស់រូបភាពនោះសម្រាប់ការវិភាគ។	ដូចជាការបង្រួមរូបភាពឱ្យតូច ដើម្បីឱ្យកុំព្យូទ័រដំណើរការលឿន ប៉ុន្តែរូបភាពនៅតែច្បាស់ល្មមអាចមើលយល់។
Kernel Principal Component Analysis (KPCA)	បច្ចេកទេសស្ថិតិដែលជួយសម្រួលទិន្នន័យដែលមានភាពស្មុគស្មាញ (Non-linear) ឱ្យមកនៅត្រឹមលក្ខណៈសំខាន់ៗបំផុត (Principal Components) ដើម្បីងាយស្រួលឱ្យកុំព្យូទ័រធ្វើការវិភាគ និងចំណាយពេលតិច។	ដូចជាការសង្ខេបសៀវភៅមួយក្បាលឱ្យនៅសល់តែចំណុចសំខាន់ៗ ដើម្បីងាយស្រួលយល់ និងចំណាយពេលអានតិច។
Confusion Matrix	តារាងដែលប្រើដើម្បីវាយតម្លៃលទ្ធផលនៃការទស្សន៍ទាយរបស់ម៉ាស៊ីន (Model)។ វាបង្ហាញចំនួនដងដែលម៉ាស៊ីនទាយត្រូវ និងទាយខុស ដោយបែងចែកតាមប្រភេទអារម្មណ៍នីមួយៗ (ដូចជា សប្បាយ ខឹង ឬភ័យ)។	ដូចជាតារាងពិន្ទុដែលបង្ហាញថា សិស្សឆ្លើយត្រូវប៉ុន្មានសំណួរ និងឆ្លើយខុសប៉ុន្មានសំណួរក្នុងមុខវិជ្ជានីមួយៗ។
F-Score	ជាតម្លៃរង្វាស់មួយដែលរួមបញ្ចូលភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញ (Recall) របស់ម៉ាស៊ីន។ វាប្រើដើម្បីវាស់ថាតើម៉ាស៊ីនដំណើរការបានល្អប៉ុណ្ណា ជាពិសេសនៅពេលទិន្នន័យមានភាពមិនស្មើគ្នា។	ជាពិន្ទុរួមមួយដែលប្រាប់យើងថា តើប្រព័ន្ធ AI ឆ្លាតវៃប៉ុណ្ណាក្នុងការទាយអារម្មណ៍ឱ្យត្រូវផង និងមិនឱ្យខុសផង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖