Original Title: Emotion Recognition for Education using Sentiment Analysis
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទទួលស្គាល់អារម្មណ៍សម្រាប់ការអប់រំដោយប្រើការវិភាគមនោសញ្ចេតនា

ចំណងជើងដើម៖ Emotion Recognition for Education using Sentiment Analysis

អ្នកនិពន្ធ៖ María Lucia Barron-Estrada (Tecnológico Nacional de México), Ramón Zatarain-Cabada (Tecnológico Nacional de México), Raúl Oramas-Bustillos (Tecnológico Nacional de México)

ឆ្នាំបោះពុម្ព៖ 2019 (Research in Computing Science)

វិស័យសិក្សា៖ Computer Science / Educational Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធបង្រៀនឆ្លាតវៃភាគច្រើនបច្ចុប្បន្នផ្តោតតែលើការរកឃើញអារម្មណ៍មូលដ្ឋាន (ដូចជាសប្បាយ ឬកើតទុក្ខ) ប៉ុន្តែមិនទាន់មានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកអារម្មណ៍ដែលទាក់ទងនឹងការរៀនសូត្រផ្ទាល់ ដូចជាការធុញទ្រាន់ ឬការតានតឹងចិត្ត ដើម្បីផ្តល់ការឆ្លើយតបឱ្យសមស្របដល់សិស្សនោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវប្រព័ន្ធវិភាគមនោសញ្ចេតនា (Sentiment Analyzer) ដោយប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដើម្បីសម្គាល់អារម្មណ៍សិស្សពីអត្ថបទភាសាអេស្ប៉ាញនៅក្នុងបរិបទនៃការរៀនសូត្រផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រ។

ការប្រើប្រាស់គំរូ CNN និង LSTM (Convolutional Neural Networks and Long Short Term Memory) ដើម្បីវិភាគអត្ថបទ
ការបង្កើត និងប្រើប្រាស់ទិន្នន័យអត្ថបទ (Text Corpus) ដែលផ្តោតលើមនោសញ្ចេតនាក្នុងការសិក្សា
ការធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធសិក្សាឆ្លាតវៃឈ្មោះ Java Sensei (Intelligent Learning Environment)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Deep Learning (CNN + LSTM) ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៨៨.២៦% ដែលខ្ពស់ជាងវិធីសាស្ត្រ Machine Learning បែបប្រពៃណីដទៃទៀត។
ប្រព័ន្ធនេះមានសមត្ថភាពសម្គាល់អារម្មណ៍សិក្សាសំខាន់ៗចំនួន ៥ គឺ៖ ធុញទ្រាន់ (Boring), តានតឹង (Frustrated), អព្យាក្រឹត (Neutral), រំភើប (Excited), និងការចូលរួម (Engaged)។
លទ្ធផលបង្ហាញថា បណ្តាញសរសៃប្រសាទ (Neural Networks) គឺជាជម្រើសដ៏មានប្រសិទ្ធភាពសម្រាប់ការទទួលស្គាល់ប៉ូលនៃអារម្មណ៍ និងអារម្មណ៍បន្ទាប់បន្សំនៅក្នុងបរិស្ថានអប់រំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
CNN + LSTM (Deep Learning) ការរួមបញ្ចូលគ្នារវាងបណ្តាញសរសៃប្រសាទ CNN និង LSTM	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងរវាងពាក្យ និងបរិបទនៃប្រយោគ ដែលនាំឱ្យទទួលបានលទ្ធផលល្អបំផុត។	ទាមទារទិន្នន័យច្រើនសម្រាប់ការបង្វឹក (Training) និងធនធានកុំព្យូទ័រខ្លាំងជាងវិធីសាស្ត្រធម្មតា។	ភាពត្រឹមត្រូវ (Accuracy)៖ ៨៨.២៦%
Bernoulli Naïve Bayes វិធីសាស្ត្រស្ថិតិលក្ខណៈប្រូបាប៊ីលីតេ	ដំណើរការបានល្អចំពោះការបែងចែកអត្ថបទ និងមិនសូវរងផលប៉ះពាល់ពីទិន្នន័យរំខាន (Irrelevant features)។	មានកម្រិតទាបជាង Deep Learning ក្នុងការយល់ពីអត្ថន័យស៊ីជម្រៅនៃប្រយោគ។	ភាពត្រឹមត្រូវ (Accuracy)៖ ៧៦.៧៧%
K-Nearest Neighbors (KNN) ក្បួនដោះស្រាយពឹងផ្អែកលើទិន្នន័យនៅជិតបំផុត	ងាយស្រួលយល់ និងអនុវត្តសម្រាប់ការបែងចែកក្រុមសាមញ្ញ។	ទទួលបានលទ្ធផលទាបជាងគេនៅក្នុងការពិសោធន៍នេះ។	ភាពត្រឹមត្រូវ (Accuracy)៖ ៦៨.៤៦%

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារធនធានសំខាន់ៗលើផ្នែកទិន្នន័យ និងសមត្ថភាពកុំព្យូទ័រសម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ។

Dataset: ត្រូវការឃ្លាំងទិន្នន័យអត្ថបទ (Text Corpus) ដែលមានការដាក់ស្លាកអារម្មណ៍ច្បាស់លាស់ (ក្នុងឯកសារនេះប្រើទិន្នន័យជាភាសាអេស្ប៉ាញ ចំនួន ១៥,៤០០ អត្ថបទ)
Hardware: ត្រូវការអង្គគណនាដែលមានសមត្ថភាពខ្ពស់ (ដូចជា GPU) ដើម្បីបង្វឹកម៉ូដែល CNN និង LSTM ឱ្យមានប្រសិទ្ធភាព
Integration Platform: ប្រព័ន្ធនេះត្រូវបានរចនាឡើងដើម្បីធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធបង្រៀនឆ្លាតវៃ (Intelligent Tutoring System - ITS) ឈ្មោះ Java Sensei

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅប្រទេសម៉ិកស៊ិក ដោយប្រើប្រាស់ទិន្នន័យជាភាសាអេស្ប៉ាញពីនិស្សិតផ្នែកវិស្វកម្មកុំព្យូទ័រ។ នេះជាចំណុចសំខាន់សម្រាប់កម្ពុជា ព្រោះការយកគំរូនេះមកប្រើផ្ទាល់គឺមិនអាចទៅរួចទេ ដោយសារភាពខុសគ្នានៃភាសា (Khmer vs Spanish) និងវប្បធម៌នៃការបញ្ចេញមតិរបស់សិស្ស។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ណាស់សម្រាប់ការអភិវឌ្ឍវិស័យអប់រំឌីជីថល (EdTech) នៅកម្ពុជា ប៉ុន្តែត្រូវការការកែសម្រួលលើផ្នែកភាសា។

សាកលវិទ្យាល័យបច្ចេកវិទ្យា (ITC/RUPP): អាចប្រើក្នុងថ្នាក់រៀនសរសេរកូដ (Programming) ដើម្បីស្ទង់មតិសិស្សភ្លាមៗថាពួកគេកំពុងធុញទ្រាន់ ឬតានតឹងនឹងលំហាត់ដែរឬទេ
ថ្នាលសិក្សាអេឡិចត្រូនិច (E-Learning Platforms): ក្រុមហ៊ុនដូចជា Sala ឬប្រព័ន្ធរបស់ក្រសួងអប់រំ អាចប្រើដើម្បីវិភាគមតិយោបល់ (Feedback) របស់សិស្សនៅក្នុងវេទិកាពិភាក្សា

គំរូស្ថាបត្យកម្ម CNN-LSTM គឺល្អប្រសើរ ប៉ុន្តែដើម្បីអនុវត្តនៅកម្ពុជា ដាច់ខាតត្រូវតែបង្កើតឃ្លាំងទិន្នន័យភាសាខ្មែរ (Khmer Corpus) ជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូលទិន្នន័យមតិយោបល់សិស្ស (Data Collection): ចាប់ផ្តើមប្រមូលទិន្នន័យជាអក្សរខ្មែរ ឬអង់គ្លេសពីក្រុម Telegram ឬ Facebook របស់ថ្នាក់រៀន ដោយផ្តោតលើមតិដែលបង្ហាញពីការយល់ ឬមិនយល់មេរៀន។
ការដាក់ស្លាកអារម្មណ៍ (Data Annotation): ធ្វើការបែងចែកទិន្នន័យទាំងនោះជា ៥ ក្រុមអារម្មណ៍សំខាន់ៗ៖ ធុញទ្រាន់ (Bored), តានតឹង (Frustrated), អព្យាក្រឹត (Neutral), រំភើប (Excited), និងចូលរួម (Engaged)។
ការរៀបចំទិន្នន័យភាសាខ្មែរ (Preprocessing): ប្រើប្រាស់ឧបករណ៍ដូចជា KhmerCut ឬ khmer-nltk ដើម្បីកាត់ពាក្យ (Tokenization) និងបំប្លែងអត្ថបទទៅជាវ៉ិចទ័រ (Word Embeddings)។
ការកសាងម៉ូដែល (Model Implementation): សរសេរកូដបង្កើតម៉ូដែល CNN-LSTM ដោយប្រើបណ្ណាល័យ TensorFlow ឬ PyTorch ដោយយកគំរូតាមស្ថាបត្យកម្មក្នុងឯកសារនេះ។
ការសាកល្បងនិងវាយតម្លៃ (Testing): ធ្វើការសាកល្បងជាមួយសិស្សមួយក្រុមតូច ដើម្បីផ្ទៀងផ្ទាត់ថាប្រព័ន្ធអាចចាប់យកអារម្មណ៍ 'តានតឹង' ឬ 'ធុញទ្រាន់' បានត្រឹមត្រូវដែរឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Sentiment Analysis	ដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីវិភាគអត្ថបទ និងស្វែងយល់ពីអារម្មណ៍របស់អ្នកសរសេរ ថាពួកគេកំពុងមានអារម្មណ៍វិជ្ជមាន អវិជ្ជមាន ឬអារម្មណ៍ជាក់លាក់ដូចជាធុញទ្រាន់ជាដើម។	ដូចជាពេលដែលគ្រូបង្រៀនអានសំបុត្ររបស់សិស្ស ហើយដឹងថាសិស្សកំពុងសប្បាយចិត្ត ឬកើតទុក្ខដោយមិនចាំបាច់ឃើញមុខ។
Convolutional Neural Network (CNN)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលពូកែក្នុងការស្កេនរកលំនាំ (Patterns) ឬលក្ខណៈពិសេសនៅក្នុងទិន្នន័យអត្ថបទ ដើម្បីបែងចែកក្រុម។	ប្រៀបដូចជាការប្រើហាយឡាយ (Highlighter) គូសចំណាំពាក្យសំខាន់ៗក្នុងសៀវភៅ ដើម្បីឆាប់យល់អត្ថន័យរួម។
Long Short Term Memory (LSTM)	បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យកុំព្យូទ័រ 'ចងចាំ' ពាក្យដែលបានសរសេរពីមុន ដើម្បីយល់អត្ថន័យនៃពាក្យបច្ចុប្បន្ននៅក្នុងប្រយោគមួយ ដែលមានសារៈសំខាន់ខ្លាំងសម្រាប់ការយល់បរិបទ។	ដូចការអានរឿងនិទានដែលអ្នកនៅចាំឈ្មោះតួអង្គពីទំព័រដើម ដើម្បីយល់ថាពាក្យ 'គាត់' នៅទំព័រចុងក្រោយសំដៅលើនរណា។
Intelligent Tutoring Systems (ITS)	ប្រព័ន្ធកម្មវិធីកុំព្យូទ័រដែលអាចបង្រៀន ផ្តល់លំហាត់ និងផ្តល់មតិត្រឡប់ (Feedback) ដល់សិស្សដោយស្វ័យប្រវត្តិ ដោយកែតម្រូវតាមកម្រិតសមត្ថភាពរបស់សិស្សម្នាក់ៗ។	ដូចមានគ្រូឯកទេសផ្ទាល់ខ្លួនម្នាក់នៅក្បែរ ប៉ុន្តែគ្រូនោះគឺជាកម្មវិធីកុំព្យូទ័រដ៏ឆ្លាតវៃ។
One hot encoding	វិធីសាស្ត្របំប្លែងពាក្យ ឬអក្សរទៅជាទម្រង់លេខ (ប៊ីត 0 និង 1) ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រអាចយកទៅធ្វើការគណនា និងវិភាគបាន។	ដូចការផ្តល់លេខកូដសម្គាល់ខ្លួនឱ្យសិស្សម្នាក់ៗ ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលគ្រប់គ្រងឈ្មោះរបស់ពួកគេ។
Learning Centered Emotions	អារម្មណ៍ដែលកើតឡើងជាក់លាក់នៅក្នុងបរិបទនៃការសិក្សា (ដូចជា ការធុញទ្រាន់ ការតានតឹង ឬការជក់ចិត្ត) ដែលខុសពីអារម្មណ៍ទូទៅ (ដូចជា សប្បាយ ឬ កើតទុក្ខ)។	មិនមែនជាអារម្មណ៍សប្បាយព្រោះបានញ៉ាំឆ្ងាញ់ទេ តែជាអារម្មណ៍ 'ស្មុគស្មាញ' ពេលដោះស្រាយលំហាត់មិនចេញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖