Original Title: Cognitive Intelligent Tutoring System based on Affective State
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធបង្រៀនឆ្លាតវៃតាមការយល់ដឹងដោយផ្អែកលើស្ថានភាពអារម្មណ៍

ចំណងជើងដើម៖ Cognitive Intelligent Tutoring System based on Affective State

អ្នកនិពន្ធ៖ N. Rajkumar (Annamalai University), V. Ramalingam (Annamalai University)

ឆ្នាំបោះពុម្ព៖ 2015 (Indian Journal of Science and Technology)

វិស័យសិក្សា៖ Computer Science & Educational Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធបង្រៀនឆ្លាតវៃ (ITS) បច្ចុប្បន្ននៅមានកម្រិតក្នុងការទទួលស្គាល់ និងឆ្លើយតបទៅនឹងស្ថានភាពអារម្មណ៍របស់សិស្ស (Affective State) ដែលបណ្តាលឱ្យសិស្សខ្វះការលើកទឹកចិត្ត និងការចូលរួមក្នុងការរៀនសូត្រ បើធៀបនឹងគ្រូបង្រៀនដែលជាមនុស្ស។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរចនាប្រព័ន្ធបង្រៀនឆ្លាតវៃបែបសន្ទនា (CITS) ដែលប្រើប្រាស់ទិន្នន័យពហុទម្រង់ (Multimodal features) ដើម្បីវិភាគអារម្មណ៍ និងប្រើប្រាស់គំរូនៃឥរិយាបថតាមការយល់ដឹង ដើម្បីបង្កើតអន្តរកម្មដូចមនុស្ស។

ការប្រើប្រាស់ Active Appearance Model (AAM) សម្រាប់ការទទួលស្គាល់ទឹកមុខ និងបច្ចេកទេស Camshift សម្រាប់ការតាមដានកាយវិការដៃ។
ការប្រើប្រាស់ Adaptive Neuro-Fuzzy Inference System (ANFIS) សម្រាប់ការបែងចែកចំណាត់ថ្នាក់អារម្មណ៍។
ការសំយោគសំឡេងតាមអារម្មណ៍ (Emotive Speech Synthesis) ដោយប្រើប្រាស់កម្មវិធី FESTIVAL-MBROLA។
ការបង្កើតគំរូឥរិយាបថតាមការយល់ដឹង (Cognitive Behavior Modeling) ដោយគ្រប់គ្រងលើចលនា និងការនិយាយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការធ្វើតេស្តស្ថិតិ Friedman បានបង្ហាញថាប្រព័ន្ធអាចកែប្រែឥរិយាបថ និងការនិយាយរបស់ខ្លួនបានយ៉ាងជោគជ័យទៅតាមស្ថានភាពរបស់សិស្ស។
សិស្សបានរាយការណ៍ថាមានភាពធុញទ្រាន់តិចជាងមុន និងមានការចូលរួមខ្លាំងជាងមុន ដោយសារអន្តរកម្មដែលមានលក្ខណៈរស់រវើក។
លទ្ធផលនៃការវាយតម្លៃបានបង្ហាញការពេញចិត្តខ្ពស់ ដោយរូបរាងតួអង្គទទួលបានពិន្ទុមធ្យម ៨.១៤/១០ និងសមត្ថភាពយល់ពីបំណងសិស្សទទួលបាន ៧.៩៨/១០។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Cognitive Intelligent Tutoring System (Proposed) ប្រព័ន្ធបង្រៀនឆ្លាតវៃតាមការយល់ដឹង (CITS) ដែលមានសមត្ថភាពបង្ហាញអារម្មណ៍	មានសមត្ថភាពទទួលស្គាល់ និងឆ្លើយតបចំពោះអារម្មណ៍សិស្ស (ដូចជា ធុញទ្រាន់ ឬច្របូកច្របល់) តាមរយៈទឹកមុខ កាយវិការ និងសំឡេង ដែលធ្វើឱ្យការរៀនកាន់តែមានភាពរស់រវើក។	ទាមទារការរួមបញ្ចូលគ្នានៃបច្ចេកវិទ្យាជាច្រើន (Computer Vision, Speech Processing, AI) ដែលធ្វើឱ្យប្រព័ន្ធមានភាពស្មុគស្មាញក្នុងការអភិវឌ្ឍ។	ទទួលបានពិន្ទុពេញចិត្តជាមធ្យម ៧.៩៨/១០ លើសមត្ថភាពយល់ពីបំណងរបស់សិស្ស និងកាត់បន្ថយភាពធុញទ្រាន់។
Neutral Virtual Tutor (Baseline) តួអង្គគ្រូបង្រៀននិម្មិតដែលគ្មានការបង្ហាញអារម្មណ៍ (Neutral)	ងាយស្រួលក្នុងការបង្កើតជាង ដោយមិនតម្រូវឱ្យមានការគណនាសម្របសម្រួលសំឡេង និងកាយវិការតាមពេលវេលាជាក់ស្តែង។	ខ្វះភាពទាក់ទាញ និងមិនអាចជួយលើកទឹកចិត្តសិស្សនៅពេលដែលពួកគេជួបបញ្ហា ឬធុញទ្រាន់អំឡុងពេលរៀន។	លទ្ធផលតេស្ត Friedman បង្ហាញថាមានកម្រិតទាបជាងយ៉ាងខ្លាំងក្នុងការចូលរួមរបស់អ្នកសិក្សា បើធៀបនឹងប្រព័ន្ធដែលមានអារម្មណ៍។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះមិនទាមទារឧបករណ៍ថ្លៃខ្លាំងទេ ប៉ុន្តែត្រូវការបណ្ណាល័យកម្មវិធីជាក់លាក់សម្រាប់ការវិភាគរូបភាព និងសំឡេង។

Hardware: កុំព្យូទ័រដែលមានកាមេរ៉ា (Webcam) និងមីក្រូហ្វូន ដើម្បីចាប់យកទឹកមុខ និងសំឡេងសិស្ស។
Software & Libraries: ប្រើប្រាស់ Microsoft Speech SDK 5.1 សម្រាប់ការបំប្លែងសំឡេង, FESTIVAL-MBROLA សម្រាប់ការសំយោគសំឡេងតាមអារម្មណ៍ និង Active Appearance Model (AAM)។
Algorithm Complexity: ត្រូវការប្រព័ន្ធ Adaptive Neuro-Fuzzy Inference System (ANFIS) ដើម្បីបែងចែកចំណាត់ថ្នាក់អារម្មណ៍ ដែលទាមទារការបង្វឹកទិន្នន័យ (Training Data)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅសាកលវិទ្យាល័យ Annamalai ប្រទេសឥណ្ឌា ជាមួយអ្នកចូលរួមចំនួន ៣៦ នាក់ (ប្រុស ៦០% ស្រី ៤០%)។ សម្រាប់បរិបទកម្ពុជា ភាពខុសគ្នានៃវប្បធម៌ក្នុងការបង្ហាញទឹកមុខ និងកាយវិការ អាចតម្រូវឱ្យមានការកែសម្រួលទិន្នន័យបង្វឹក (Training Data) ជាថ្មី ដើម្បីឱ្យប្រព័ន្ធដំណើរការបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ណាស់សម្រាប់ការលើកកម្ពស់វិស័យអប់រំតាមប្រព័ន្ធអេឡិចត្រូនិក (E-learning) នៅកម្ពុជាឱ្យកាន់តែមានប្រសិទ្ធភាព។

សាកលវិទ្យាល័យ និងគ្រឹះស្ថានឧត្តមសិក្សា (Higher Education): អាចយកទៅអនុវត្តក្នុងថ្នាក់រៀនកុំព្យូទ័រ ឬវិទ្យាសាស្ត្រ នៅសាកលវិទ្យាល័យដូចជា RUPP ឬ ITC ដើម្បីផ្តល់ការបង្រៀនបន្ថែមដល់និស្សិតដោយស្វ័យប្រវត្តិ។
ការរៀនភាសាបរទេស (Language Learning Centers): មានប្រយោជន៍សម្រាប់មជ្ឈមណ្ឌលភាសា ដើម្បីជួយសិស្សហ្វឹកហាត់ការនិយាយ និងទទួលបានការឆ្លើយតបភ្លាមៗពីតួអង្គនិម្មិត។
ការអប់រំពីចម្ងាយ (Remote Learning): ជួយដល់សិស្សនៅតំបន់ដាច់ស្រយាលឱ្យទទួលបានបទពិសោធន៍រៀនសូត្រដែលមានអន្តរកម្ម ដោយមិនមានអារម្មណ៍ថាឯកោ។

ទោះបីជាមានសក្តានុពលខ្ពស់ ប៉ុន្តែការអនុវត្តនៅកម្ពុជាទាមទារឱ្យមានការអភិវឌ្ឍបន្ថែមលើការស្គាល់ភាសាខ្មែរ (Khmer Speech Recognition) និងការសំយោគសំឡេងខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ ការសិក្សាអំពីការចាប់យកទិន្នន័យ (Data Acquisition): ចាប់ផ្តើមសិក្សាពីរបៀបប្រើប្រាស់ OpenCV និង Python ដើម្បីចាប់យកទឹកមុខ និងប្រើប្រាស់បច្ចេកទេស Camshift សម្រាប់ចាប់យកកាយវិការដៃ។
ជំហានទី ២៖ ការបង្កើតម៉ូដែលវិភាគអារម្មណ៍ (Emotion Recognition): អនុវត្តក្បួន Active Appearance Model (AAM) ឬប្រើប្រាស់ Deep Learning (ដូចជា CNN) ដើម្បីបែងចែកអារម្មណ៍ចំនួន ៧ ពីទឹកមុខសិស្ស។
ជំហានទី ៣៖ ការអភិវឌ្ឍប្រព័ន្ធធ្វើសេចក្តីសម្រេច (Cognitive Modeling): បង្កើតប្រព័ន្ធ Fuzzy Logic (អាចប្រើ ANFIS ក្នុង MATLAB ឬ Python) ដើម្បីកំណត់ថា តួអង្គនិម្មិតគួរឆ្លើយតបយ៉ាងដូចម្តេចចំពោះអារម្មណ៍នីមួយៗ។
ជំហានទី ៤៖ ការសំយោគសំឡេង និងបង្កើតតួអង្គ (Avatar Synthesis): សាកល្បងប្រើប្រាស់កម្មវិធី FESTIVAL ឬឧបករណ៍ទំនើបជាងនេះដូចជា Unity 3D ជាមួយ Google Text-to-Speech ដើម្បីបង្កើតតួអង្គដែលអាចនិយាយ និងធ្វើកាយវិការបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Intelligent Tutoring System (ITS)	ជាប្រព័ន្ធកុំព្យូទ័រដែលប្រើបញ្ញាសិប្បនិម្មិតដើម្បីបង្រៀនសិស្ស ដោយវាអាចផ្លាស់ប្តូរវិធីបង្រៀន និងផ្តល់មតិត្រឡប់ទៅតាមតម្រូវការជាក់ស្តែងរបស់សិស្សម្នាក់ៗដោយស្វ័យប្រវត្តិ។	ដូចជាគ្រូឯកជនម្នាក់ដែលដឹងថាពេលណាអ្នកមិនយល់ និងប្តូរវិធីពន្យល់ភ្លាមៗ ដើម្បីឱ្យអ្នកឆាប់ចេះ។
Affective State	សំដៅលើស្ថានភាពអារម្មណ៍ ឬចិត្តរបស់សិស្ស (ដូចជា ធុញទ្រាន់ ភ្ញាក់ផ្អើល ឬចាប់អារម្មណ៍) ដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមចាប់យក ដើម្បីឆ្លើយតបឱ្យសមស្របទៅនឹងអារម្មណ៍នោះ។	ដូចជាមិត្តភក្តិដែលសម្លឹងមើលមុខអ្នក ដើម្បីដឹងថាអ្នកកំពុងសប្បាយចិត្ត ឬកើតទុក្ខ មុននឹងនិយាយអ្វីមួយ។
Active Appearance Model (AAM)	ជាបច្ចេកទេសកុំព្យូទ័រមើលឃើញ (Computer Vision) ដែលប្រើសម្រាប់បង្កើតគំរូនៃផ្ទៃមុខ ដោយវាស់និងតាមដានចំណុចសំខាន់ៗដូចជា ភ្នែក ច្រមុះ និងមាត់ ដើម្បីវិភាគការផ្លាស់ប្តូរទឹកមុខ។	ដូចជាការគូសភ្ជាប់ចំណុចតូចៗនៅលើក្រដាស ដើម្បីបង្កើតជារូបរាងមុខមនុស្ស និងតាមដានចលនារបស់វា។
Adaptive Neuro-Fuzzy Inference System (ANFIS)	ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលរួមបញ្ចូលគ្នារវាងការរៀនរបស់ខួរក្បាលសិប្បនិម្មិត (Neural Network) និងតក្កវិជ្ជាស្រពិចស្រពិល (Fuzzy Logic) ដើម្បីវិភាគទិន្នន័យ និងសម្រេចចិត្តថា តើសិស្សកំពុងមានអារម្មណ៍បែបណា។	ដូចជាចុងភៅដែលភ្លក់សម្ល ហើយថែមថយគ្រឿងផ្សំតាមការប៉ាន់ស្មាននិងបទពិសោធន៍ ដើម្បីឱ្យរសជាតិចេញមកត្រឹមត្រូវបំផុត។
Multimodal behavior	ការប្រើប្រាស់មធ្យោបាយទំនាក់ទំនងច្រើនក្នុងពេលតែមួយរបស់ប្រព័ន្ធកុំព្យូទ័រ ដូចជាការបញ្ចេញសំឡេងផង ការធ្វើកាយវិការផង និងការបង្ហាញទឹកមុខផង ដើម្បីឱ្យការប្រាស្រ័យទាក់ទងមានភាពរស់រវើកដូចមនុស្ស។	ដូចជាពេលដែលយើងនិយាយលេងជាមួយមិត្តភក្តិ ដោយប្រើទាំងសំឡេង ដៃ និងទឹកមុខ មិនមែនគ្រាន់តែនិយាយស្មើរៗដូចមនុស្សយន្តនោះទេ។
Emotive Speech Synthesis	បច្ចេកវិទ្យាបង្កើតសំឡេងនិយាយដោយកុំព្យូទ័រ ដែលអាចបញ្ចូលអារម្មណ៍ (ដូចជា សប្បាយ ឬកើតទុក្ខ) ទៅក្នុងទឹកដមសំឡេងបាន មិនមែនគ្រាន់តែអានអក្សរតាមរបៀបស្ងួតៗនោះទេ។	ដូចជាតារាសម្តែងដែលអានអត្ថបទដោយដាក់មនោសញ្ចេតនា ខុសពីសំឡេងម៉ាស៊ីន Google Translate ដែលអានគ្មានឡើងចុះ។
Camshift technique	ជាវិធីសាស្ត្រកុំព្យូទ័រក្នុងការតាមដានវត្ថុដែលមានចលនា (ក្នុងអត្ថបទនេះគឺដៃ) ដោយផ្អែកលើពណ៌ ដើម្បីដឹងពីទីតាំង និងទិសដៅនៃកាយវិការរបស់សិស្ស។	ដូចជាពន្លឺភ្លើងហ្វា (Spotlight) ដែលបញ្ចាំងតាមដានតារាចម្រៀងនៅលើឆាក គ្រប់ទីកន្លែងដែលគាត់ដើរទៅ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖