Original Title: Speech-based Emotion and Emotion Change in Continuous Automatic Systems
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

អារម្មណ៍ផ្អែកលើការនិយាយ និងការផ្លាស់ប្តូរអារម្មណ៍នៅក្នុងប្រព័ន្ធស្វ័យប្រវត្តិបន្ត

ចំណងជើងដើម៖ Speech-based Emotion and Emotion Change in Continuous Automatic Systems

អ្នកនិពន្ធ៖ Zhaocheng Huang (University of New South Wales)

ឆ្នាំបោះពុម្ព៖ 2018

វិស័យសិក្សា៖ Affective Computing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទោះបីជាប្រព័ន្ធស្គាល់អារម្មណ៍តាមការនិយាយមានភាពជឿនលឿនក៏ដោយ ក៏ប្រព័ន្ធភាគច្រើននៅតែមានចន្លោះប្រហោងក្នុងការចាប់យកពេលវេលានិងទំហំនៃការផ្លាស់ប្តូរអារម្មណ៍ (Emotion change) នៅក្នុងការនិយាយបន្តបន្ទាប់គ្នា និងមិនទាន់ប្រើប្រាស់លក្ខណៈសូរស័ព្ទ (Phonetic features) ឱ្យបានពេញលេញនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីៗសម្រាប់រកទីតាំង និងទស្សន៍ទាយការផ្លាស់ប្តូរអារម្មណ៍ ដោយរួមបញ្ចូលលក្ខណៈសូរស័ព្ទ និងសក្ដានុពលនៃអារម្មណ៍ទៅក្នុងម៉ូដែលរៀនម៉ាស៊ីន (Machine learning models)។

ការទាញយកលក្ខណៈសំឡេងដែលយល់ពីសូរស័ព្ទ (Phonetically-aware acoustic features) បញ្ចូលក្នុងក្របខ័ណ្ឌ RVM-Staircase Regression
ការប្រើប្រាស់ក្របខ័ណ្ឌម៉ាទីងហ្គេលតាមបែបស្ថិតិ (Statistical Martingale framework) និងទម្រង់បង្អួចរំកិលទ្វេ (Dual-sliding window) ដើម្បីរកចំណុចផ្លាស់ប្តូរអារម្មណ៍
ការប្រើប្រាស់តម្រង Kalman (Kalman filtering) សម្រាប់ការធ្វើម៉ូដែលសក្ដានុពលអារម្មណ៍រួមគ្នា (Joint modeling) និងការបញ្ចូលគ្នាជារូបភាពប្រូបាប៊ីលីតេ (Probabilistic fusion)
ការធ្វើតេស្តវាយតម្លៃលើទិន្នន័យអារម្មណ៍ខ្នាតធំចំនួន៣ (RECOLA, SEMAINE, និង CreativeIT)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់លក្ខណៈសំឡេងដែលយល់ពីសូរស័ព្ទ (Phonetically-aware features) បានបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយរហូតដល់ ៧៩,៧% សម្រាប់ Valence និង ៧,០% សម្រាប់ Arousal។
ក្របខ័ណ្ឌ Martingale អាចរកឃើញចំណុចផ្លាស់ប្តូរអារម្មណ៍ប្រកបដោយប្រសិទ្ធភាព ជាមួយនឹងអត្រាបរាជ័យក្នុងការរកឃើញ (Miss detection) តិចជាង ១០% និងអត្រាប្រកាសអាសន្នខុស (False alarm) តិចជាង ២០%។
ការរួមបញ្ចូលសក្ដានុពលអារម្មណ៍ដោយប្រើ Kalman Filtering បានជួយកែលម្អភាពត្រឹមត្រូវបន្ថែមទៀតដល់ប្រព័ន្ធទស្សន៍ទាយអារម្មណ៍ដាច់ខាត (Absolute emotion prediction) ចំនួន ១,៨% សម្រាប់ Arousal និង ៧,៣% សម្រាប់ Valence ធៀបនឹងប្រព័ន្ធគោល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Generalised Likelihood Ratio (GLR) អនុបាតលទ្ធភាពទូទៅ (GLR)	មិនតម្រូវឱ្យមានចំណេះដឹងជាមុនអំពីប្រភេទអារម្មណ៍ ឬអត្តសញ្ញាណអ្នកនិយាយនោះទេ ដែលធ្វើឱ្យវាងាយស្រួលក្នុងការអនុវត្តទូទៅ។	ងាយរងឥទ្ធិពលពីការផ្លាស់ប្តូរសូរសព្ទអក្សរ (Phonetic variability) ដែលអាចធ្វើឱ្យប្រព័ន្ធចាប់យកចំណុចផ្លាស់ប្តូរខុស។	មានអត្រាបញ្ជាក់ខុស (EER) ខ្ពស់ជាងបើធៀបនឹងវិធីសាស្ត្រ Martingale ក្នុងការរកឃើញការផ្លាស់ប្តូរអារម្មណ៍។
Modified Martingale Framework ក្របខ័ណ្ឌម៉ាទីងហ្គេលកែច្នៃ (Modified Martingale Framework)	ដំណើរការបានយ៉ាងល្អក្នុងការស្វែងរកចំណុចផ្លាស់ប្តូរអារម្មណ៍តាមពេលវេលាជាក់ស្តែង (On-the-fly) និងកាត់បន្ថយការពន្យារពេលក្នុងការរកឃើញ (Low delay)។	ត្រូវការសាងសង់ម៉ូដែលតំណាងអារម្មណ៍ (Emotion model) ជាមុនសិន ដើម្បីវាស់ស្ទង់ភាពខុសគ្នា (Strangeness measure) ដែលតម្រូវឱ្យមានទិន្នន័យបង្វឹកល្អ។	សម្រេចបានអត្រាបរាជ័យក្នុងការរកឃើញ (Miss Detection) តិចជាង ១០% និងការប្រកាសអាសន្នខុស (False Alarm) តិចជាង ២០% សម្រាប់ Arousal និង Valence។
Phonetically-Aware eGeMAPS (PA-eGeMAPS) with OA-RVM លក្ខណៈសំឡេងដឹងពីសូរស័ព្ទ (PA-eGeMAPS) ប្រើជាមួយ OA-RVM	ចាប់យកទំនាក់ទំនងរវាងសូរសព្ទបន្លឺសំឡេង និងអារម្មណ៍បានល្អបំផុត ដោយច្របាច់បញ្ចូលព័ត៌មានលម្អិតនៃសម្លេងទៅក្នុងម៉ូដែល។	ទាមទារការប្រើប្រាស់កម្មវិធីបំបែកសូរស័ព្ទ (Phoneme recogniser) ស្មុគស្មាញ ដែលស៊ីទំហំផ្ទុកលទ្ធផលរហូតដល់ ៩៧៥ វិមាត្រ (Dimensions)។	បង្កើនភាពត្រឹមត្រូវសម្រាប់ការទស្សន៍ទាយ Valence រហូតដល់ ៧៩,៧% លើសំណុំទិន្នន័យ CreativeIT បើធៀបនឹងការមិនប្រើសូរស័ព្ទ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ សម្រាប់ការទាញយកលក្ខណៈសំឡេងនិងការបង្វឹកម៉ូដែល Machine Learning ជាពិសេសការដំណើរការ Deep Neural Networks (DNNs)។

Software: ត្រូវការកម្មវិធី openSMILE សម្រាប់ទាញយកលក្ខណៈសំឡេង eGeMAPS, កម្មវិធី BUT phoneme recogniser ឬ Kaldi សម្រាប់ទាញយកសូរស័ព្ទ និង MATLAB (SparseBayes Toolbox) សម្រាប់បង្វឹក RVM។
Hardware: ទាមទារម៉ាស៊ីនមាន CPU/GPU ល្បឿនលឿនដើម្បីដំណើរការការបង្វឹកកម្រិតខ្ពស់ (Cross-validation iterations) និងការទាញយក Bottleneck Features។
Dataset: ត្រូវការសំណុំទិន្នន័យសំឡេងដែលមានការវាយតម្លៃអារម្មណ៍ជាប់បន្តបន្ទាប់ (Continuous annotated data) ដូចជា RECOLA, SEMAINE ឬ IEMOCAP។
Expertise: អ្នកស្រាវជ្រាវត្រូវមានចំណេះដឹងផ្នែក Speech Signal Processing, Hidden Markov Models (HMM) និង Bayesian Machine Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (អាមេរិក និងអង់គ្លេស) ដូចជា IEMOCAP និង SEMAINE ព្រមទាំងភាសាបារាំង (RECOLA)។ សម្រាប់ប្រទេសកម្ពុជា ការកំណត់អារម្មណ៍តាមសូរសព្ទភាសាខ្មែរអាចមានលក្ខណៈខុសប្លែកពីអឺរ៉ុប ទាំងផ្នែករចនាសម្ព័ន្ធសំឡេងស្រៈ/ព្យញ្ជនៈ និងការបញ្ចេញអារម្មណ៍តាមវប្បធម៌។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្ដោតលើភាសាបរទេសក្ដី ក៏វិធីសាស្ត្រនៃការចាប់យកការផ្លាស់ប្តូរអារម្មណ៍តាមរយៈកម្រិតសំឡេងអាចផ្តល់ប្រយោជន៍យ៉ាងធំធេងដល់វិស័យបច្ចេកវិទ្យានៅកម្ពុជា។

សេវាកម្មអតិថិជន (Call Centers / Telecoms): ក្រុមហ៊ុនទូរគមនាគមន៍ដូចជា Smart ឬ Cellcard អាចប្រើប្រព័ន្ធនេះដើម្បីវិភាគសំឡេងហៅចូល (Call center) រកមើលអតិថិជនដែលមានកំហឹង ឬការមិនពេញចិត្តភ្លាមៗ រួចបញ្ជូនទូរស័ព្ទទៅកាន់អ្នកដោះស្រាយបញ្ហាជាន់ខ្ពស់។
វិស័យសុខាភិបាល និងសុខភាពផ្លូវចិត្ត (Healthcare & Mental Health): អង្គការ TPO Cambodia ឬគ្លីនិកចិត្តសាស្ត្រ អាចយកប្រព័ន្ធតាមដានការផ្លាស់ប្តូរអារម្មណ៍ (Emotion dynamics) នេះទៅប្រើប្រាស់ដើម្បីវាស់ស្ទង់រោគសញ្ញានៃជំងឺបាក់ទឹកចិត្ត (Depression) តាមរយៈការឆ្លើយតបយឺតយ៉ាវនៃសំឡេងអ្នកជំងឺ។
វិស័យអប់រំ និងការសិក្សាពីចម្ងាយ (MoEYS E-Learning): ក្រសួងអប់រំ ឬប្រព័ន្ធសិក្សាពីចម្ងាយ អាចប្រើប្រាស់វាដើម្បីតាមដានអារម្មណ៍ និងការចាប់អារម្មណ៍របស់សិស្សានុសិស្សពេលកំពុងសិក្សា តាមរយៈការវិភាគសំឡេងសួរឆ្លើយរវាងគ្រូនិងសិស្ស។

ការអភិវឌ្ឍប្រព័ន្ធ AI ស្គាល់អារម្មណ៍តាមភាសាខ្មែរ ដោយផ្អែកលើទឹស្តីនៃការផ្លាស់ប្តូរទំហំអារម្មណ៍ (Emotion Change) នេះ នឹងចូលរួមចំណែកយ៉ាងសកម្មក្នុងការបង្កើតចំណុចប្រទាក់ឆ្លាតវៃរវាងមនុស្សនិងម៉ាស៊ីននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ និងទាញយកលក្ខណៈសំឡេង: និស្សិតត្រូវរៀនពីវិធីប្រើប្រាស់ openSMILE ដើម្បីទាញយកលក្ខណៈសំឡេងកម្រិតទាប (LLDs) ដូចជា eGeMAPS ពីឯកសារសំឡេងសាកល្បង។
អនុវត្តការទាញយកសូរសព្ទ (Phoneme Extraction): ដំឡើងនិងប្រើប្រាស់ BUT phoneme recogniser ឬបង្កើត Acoustic Model ដោយប្រើ Kaldi ដើម្បីទាញយក Phone Log-Likelihood Ratio (PLLR) ពីទិន្នន័យសំឡេង។
ប្រមូលនិងកត់ត្រាទិន្នន័យអារម្មណ៍ភាសាខ្មែរ: បង្កើតសំណុំទិន្នន័យខ្នាតតូចជាភាសាខ្មែរ ហើយប្រើប្រាស់កម្មវិធីដូចជា Feeltrace ឬ Gtrace ដើម្បីវាយតម្លៃកម្រិត Arousal និង Valence តាមពេលវេលាជាក់ស្តែង។
បង្វឹកម៉ូដែល Machine Learning សម្រាប់ទស្សន៍ទាយអារម្មណ៍: សរសេរកូដប្រើប្រាស់ Support Vector Regression (SVR) ឬ Relevance Vector Machine (RVM) តាមរយៈ MATLAB ឬ Python (scikit-learn) ដើម្បីបង្វឹកម៉ូដែលទស្សន៍ទាយអារម្មណ៍ (Absolute Emotion Prediction)។
សាកល្បងការរកឃើញចំណុចផ្លាស់ប្តូរអារម្មណ៍ (Change Detection): អនុវត្តក្បួនដោះស្រាយ Kalman Filtering ឬ Martingale Framework ដើម្បីវាស់ស្ទង់ការវិវត្តនៃអារម្មណ៍ និងរកចំណុចដែលអ្នកនិយាយប្តូរអារម្មណ៍ពីធម្មតាទៅខឹង ឬសប្បាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Affective Computing	ជាវិស័យបច្ចេកវិទ្យាដែលសិក្សាពីការបង្កើតប្រព័ន្ធកុំព្យូទ័រដែលអាចចាប់យក វិភាគ និងឆ្លើយតបទៅនឹងអារម្មណ៍របស់មនុស្សតាមរយៈទិន្នន័យដូចជាសម្លេង ការបញ្ចេញទឹកមុខ និងសញ្ញាជីវសាស្ត្រផ្សេងៗ។	ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យមានបេះដូង ចេះអានទឹកមុខនិងយល់ពីអារម្មណ៍របស់យើង ដើម្បីវាអាចប្រាស្រ័យទាក់ទងជាមួយយើងដូចជាមនុស្សពិត។
Arousal and Valence	ជារង្វាស់វិមាត្រនៃអារម្មណ៍ ដែល Arousal វាស់ពីកម្រិតនៃភាពសកម្មឬរំភើប (ពីស្ងប់ស្ងាត់ទៅរំជើបរំជួល) រីឯ Valence វាស់ពីភាពវិជ្ជមានឬអវិជ្ជមាននៃអារម្មណ៍ (ពីសោកសៅទៅសប្បាយរីករាយ)។	ដូចជាត្រីវិស័យអារម្មណ៍ ដែលចង្អុលប្រាប់ថាអ្នកកំពុងពុះកញ្ជ្រោលកម្រិតណា (Arousal) និងកំពុងមានក្តីសុខឬទុក្ខកម្រិតណា (Valence)។
Martingale Framework	ជាក្របខ័ណ្ឌគណិតវិទ្យានិងស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីស្វែងរកចំណុចផ្លាស់ប្តូរ (Change point detection) តាមរយៈការតាមដានបម្រែបម្រួលទិន្នន័យបន្តបន្ទាប់ ដើម្បីមើលថាតើមានភាពខុសប្រក្រតីដែលបញ្ជាក់ពីការប្តូរអារម្មណ៍ពីមួយទៅមួយឬទេ។	ដូចជាសន្តិសុខដែលអង្កេតមើលកាមេរ៉ាសុវត្ថិភាពជាបន្តបន្ទាប់ ហើយចុចកណ្តឹងប្រកាសអាសន្នភ្លាមៗនៅពេលមានសកម្មភាពប្លែកណាមួយកើតឡើង។
Kalman Filtering	ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលជួយទស្សន៍ទាយ និងកែតម្រូវស្ថានភាពនៃប្រព័ន្ធមួយដែលកំពុងវិវឌ្ឍ (ដូចជាបម្រែបម្រួលអារម្មណ៍) ដោយផ្សំបញ្ចូលរវាងការទាយទុកជាមុន និងទិន្នន័យជាក់ស្តែងដែលមានសំឡេងរំខាន (Noise) ដើម្បីទទួលបានលទ្ធផលច្បាស់លាស់។	ដូចជាការបើកបរដោយប្រើ GPS ដែលទោះបីជាបាត់សេវាមួយភ្លែត ក៏ប្រព័ន្ធនៅតែអាចទាយដឹងថាអ្នកកំពុងនៅត្រង់ណាដោយផ្អែកលើល្បឿននិងទិសដៅចាស់របស់អ្នក។
Phone Log-Likelihood Ratio (PLLR)	ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសនៃសូរសព្ទដែលគណនាពីប្រូបាប៊ីលីតេនៃសម្លេងនីមួយៗ (Phonemes) ដើម្បីកំណត់ថាតើសម្លេងដែលបញ្ចេញមកតំណាងឱ្យអារម្មណ៍ប្រភេទណា។	ដូចជាឧបករណ៍ស្កេនដែលវាស់ស្ទង់ថាតើសម្លេងនៃការបញ្ចេញពាក្យឬស្រៈនីមួយៗរបស់អ្នកលាក់បង្កប់នូវកម្រិតអារម្មណ៍ខឹង ឬសប្បាយកម្រិតណា។
Relevance Vector Machine (RVM)	ជាម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning) សម្រាប់ធ្វើការចាត់ថ្នាក់ ឬទស្សន៍ទាយ (Regression) ដែលប្រើប្រាស់ទ្រឹស្តី Bayesian ដើម្បីផ្តល់លទ្ធផលជាទម្រង់ប្រូបាប៊ីលីតេ ដែលមានភាពសុក្រឹតនិងប្រើធនធានតិចជាម៉ូដែល SVM។	ដូចជាអ្នកជំនាញវិភាគដែលមិនត្រឹមតែអាចទាយថាថ្ងៃស្អែកភ្លៀងឬអត់ទេ តែថែមទាំងប្រាប់ពីភាគរយនៃកម្រិតទំនុកចិត្តថានឹងមានភ្លៀងធ្លាក់ទៀតផង។
eGeMAPS	ជាបណ្តុំនៃលក្ខណៈពិសេសនៃសម្លេង (Acoustic features) ស្តង់ដារដែលត្រូវបានចម្រាញ់រួចជាស្រេច ដើម្បីប្រើប្រាស់ជាទូទៅក្នុងការវិភាគការនិយាយ និងស្គាល់អារម្មណ៍ដោយមិនចាំបាច់ទាញយកទិន្នន័យសម្លេងច្រើនហួសហេតុពេក។	ដូចជាកញ្ចប់ឧបករណ៍ពេទ្យស្តង់ដារមួយ ដែលមានប្រដាប់វាស់កម្តៅ និងវាស់សម្ពាធឈាម ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលពិនិត្យកម្រិតអារម្មណ៍លឿននិងច្បាស់លាស់។
Emotion Dynamics	សំដៅលើការវិវឌ្ឍ ល្បឿន និងគន្លងនៃការផ្លាស់ប្តូរអារម្មណ៍របស់មនុស្សក្នុងចន្លោះពេលណាមួយ មិនមែនជាការមើលអារម្មណ៍ក្នុងន័យស្ងៀមទ្រឹងនោះទេ។	ដូចជាការមើលខ្សែវីដេអូដែលបង្ហាញពីសាច់រឿងរំកិលទៅមុខ ជាជាងការមើលរូបថតមួយសន្លឹកដែលនៅស្ងៀម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖