Original Title: Speech-based Emotion and Emotion Change in Continuous Automatic Systems
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

អារម្មណ៍ផ្អែកលើការនិយាយ និងការផ្លាស់ប្តូរអារម្មណ៍នៅក្នុងប្រព័ន្ធស្វ័យប្រវត្តិបន្ត

ចំណងជើងដើម៖ Speech-based Emotion and Emotion Change in Continuous Automatic Systems

អ្នកនិពន្ធ៖ Zhaocheng Huang (University of New South Wales)

ឆ្នាំបោះពុម្ព៖ 2018

វិស័យសិក្សា៖ Affective Computing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ទោះបីជាប្រព័ន្ធស្គាល់អារម្មណ៍តាមការនិយាយមានភាពជឿនលឿនក៏ដោយ ក៏ប្រព័ន្ធភាគច្រើននៅតែមានចន្លោះប្រហោងក្នុងការចាប់យកពេលវេលានិងទំហំនៃការផ្លាស់ប្តូរអារម្មណ៍ (Emotion change) នៅក្នុងការនិយាយបន្តបន្ទាប់គ្នា និងមិនទាន់ប្រើប្រាស់លក្ខណៈសូរស័ព្ទ (Phonetic features) ឱ្យបានពេញលេញនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីៗសម្រាប់រកទីតាំង និងទស្សន៍ទាយការផ្លាស់ប្តូរអារម្មណ៍ ដោយរួមបញ្ចូលលក្ខណៈសូរស័ព្ទ និងសក្ដានុពលនៃអារម្មណ៍ទៅក្នុងម៉ូដែលរៀនម៉ាស៊ីន (Machine learning models)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Generalised Likelihood Ratio (GLR)
អនុបាតលទ្ធភាពទូទៅ (GLR)
មិនតម្រូវឱ្យមានចំណេះដឹងជាមុនអំពីប្រភេទអារម្មណ៍ ឬអត្តសញ្ញាណអ្នកនិយាយនោះទេ ដែលធ្វើឱ្យវាងាយស្រួលក្នុងការអនុវត្តទូទៅ។ ងាយរងឥទ្ធិពលពីការផ្លាស់ប្តូរសូរសព្ទអក្សរ (Phonetic variability) ដែលអាចធ្វើឱ្យប្រព័ន្ធចាប់យកចំណុចផ្លាស់ប្តូរខុស។ មានអត្រាបញ្ជាក់ខុស (EER) ខ្ពស់ជាងបើធៀបនឹងវិធីសាស្ត្រ Martingale ក្នុងការរកឃើញការផ្លាស់ប្តូរអារម្មណ៍។
Modified Martingale Framework
ក្របខ័ណ្ឌម៉ាទីងហ្គេលកែច្នៃ (Modified Martingale Framework)
ដំណើរការបានយ៉ាងល្អក្នុងការស្វែងរកចំណុចផ្លាស់ប្តូរអារម្មណ៍តាមពេលវេលាជាក់ស្តែង (On-the-fly) និងកាត់បន្ថយការពន្យារពេលក្នុងការរកឃើញ (Low delay)។ ត្រូវការសាងសង់ម៉ូដែលតំណាងអារម្មណ៍ (Emotion model) ជាមុនសិន ដើម្បីវាស់ស្ទង់ភាពខុសគ្នា (Strangeness measure) ដែលតម្រូវឱ្យមានទិន្នន័យបង្វឹកល្អ។ សម្រេចបានអត្រាបរាជ័យក្នុងការរកឃើញ (Miss Detection) តិចជាង ១០% និងការប្រកាសអាសន្នខុស (False Alarm) តិចជាង ២០% សម្រាប់ Arousal និង Valence។
Phonetically-Aware eGeMAPS (PA-eGeMAPS) with OA-RVM
លក្ខណៈសំឡេងដឹងពីសូរស័ព្ទ (PA-eGeMAPS) ប្រើជាមួយ OA-RVM
ចាប់យកទំនាក់ទំនងរវាងសូរសព្ទបន្លឺសំឡេង និងអារម្មណ៍បានល្អបំផុត ដោយច្របាច់បញ្ចូលព័ត៌មានលម្អិតនៃសម្លេងទៅក្នុងម៉ូដែល។ ទាមទារការប្រើប្រាស់កម្មវិធីបំបែកសូរស័ព្ទ (Phoneme recogniser) ស្មុគស្មាញ ដែលស៊ីទំហំផ្ទុកលទ្ធផលរហូតដល់ ៩៧៥ វិមាត្រ (Dimensions)។ បង្កើនភាពត្រឹមត្រូវសម្រាប់ការទស្សន៍ទាយ Valence រហូតដល់ ៧៩,៧% លើសំណុំទិន្នន័យ CreativeIT បើធៀបនឹងការមិនប្រើសូរស័ព្ទ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ សម្រាប់ការទាញយកលក្ខណៈសំឡេងនិងការបង្វឹកម៉ូដែល Machine Learning ជាពិសេសការដំណើរការ Deep Neural Networks (DNNs)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (អាមេរិក និងអង់គ្លេស) ដូចជា IEMOCAP និង SEMAINE ព្រមទាំងភាសាបារាំង (RECOLA)។ សម្រាប់ប្រទេសកម្ពុជា ការកំណត់អារម្មណ៍តាមសូរសព្ទភាសាខ្មែរអាចមានលក្ខណៈខុសប្លែកពីអឺរ៉ុប ទាំងផ្នែករចនាសម្ព័ន្ធសំឡេងស្រៈ/ព្យញ្ជនៈ និងការបញ្ចេញអារម្មណ៍តាមវប្បធម៌។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្ដោតលើភាសាបរទេសក្ដី ក៏វិធីសាស្ត្រនៃការចាប់យកការផ្លាស់ប្តូរអារម្មណ៍តាមរយៈកម្រិតសំឡេងអាចផ្តល់ប្រយោជន៍យ៉ាងធំធេងដល់វិស័យបច្ចេកវិទ្យានៅកម្ពុជា។

ការអភិវឌ្ឍប្រព័ន្ធ AI ស្គាល់អារម្មណ៍តាមភាសាខ្មែរ ដោយផ្អែកលើទឹស្តីនៃការផ្លាស់ប្តូរទំហំអារម្មណ៍ (Emotion Change) នេះ នឹងចូលរួមចំណែកយ៉ាងសកម្មក្នុងការបង្កើតចំណុចប្រទាក់ឆ្លាតវៃរវាងមនុស្សនិងម៉ាស៊ីននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះ និងទាញយកលក្ខណៈសំឡេង: និស្សិតត្រូវរៀនពីវិធីប្រើប្រាស់ openSMILE ដើម្បីទាញយកលក្ខណៈសំឡេងកម្រិតទាប (LLDs) ដូចជា eGeMAPS ពីឯកសារសំឡេងសាកល្បង។
  2. អនុវត្តការទាញយកសូរសព្ទ (Phoneme Extraction): ដំឡើងនិងប្រើប្រាស់ BUT phoneme recogniser ឬបង្កើត Acoustic Model ដោយប្រើ Kaldi ដើម្បីទាញយក Phone Log-Likelihood Ratio (PLLR) ពីទិន្នន័យសំឡេង។
  3. ប្រមូលនិងកត់ត្រាទិន្នន័យអារម្មណ៍ភាសាខ្មែរ: បង្កើតសំណុំទិន្នន័យខ្នាតតូចជាភាសាខ្មែរ ហើយប្រើប្រាស់កម្មវិធីដូចជា FeeltraceGtrace ដើម្បីវាយតម្លៃកម្រិត Arousal និង Valence តាមពេលវេលាជាក់ស្តែង។
  4. បង្វឹកម៉ូដែល Machine Learning សម្រាប់ទស្សន៍ទាយអារម្មណ៍: សរសេរកូដប្រើប្រាស់ Support Vector Regression (SVR)Relevance Vector Machine (RVM) តាមរយៈ MATLABPython (scikit-learn) ដើម្បីបង្វឹកម៉ូដែលទស្សន៍ទាយអារម្មណ៍ (Absolute Emotion Prediction)។
  5. សាកល្បងការរកឃើញចំណុចផ្លាស់ប្តូរអារម្មណ៍ (Change Detection): អនុវត្តក្បួនដោះស្រាយ Kalman FilteringMartingale Framework ដើម្បីវាស់ស្ទង់ការវិវត្តនៃអារម្មណ៍ និងរកចំណុចដែលអ្នកនិយាយប្តូរអារម្មណ៍ពីធម្មតាទៅខឹង ឬសប្បាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Affective Computing ជាវិស័យបច្ចេកវិទ្យាដែលសិក្សាពីការបង្កើតប្រព័ន្ធកុំព្យូទ័រដែលអាចចាប់យក វិភាគ និងឆ្លើយតបទៅនឹងអារម្មណ៍របស់មនុស្សតាមរយៈទិន្នន័យដូចជាសម្លេង ការបញ្ចេញទឹកមុខ និងសញ្ញាជីវសាស្ត្រផ្សេងៗ។ ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យមានបេះដូង ចេះអានទឹកមុខនិងយល់ពីអារម្មណ៍របស់យើង ដើម្បីវាអាចប្រាស្រ័យទាក់ទងជាមួយយើងដូចជាមនុស្សពិត។
Arousal and Valence ជារង្វាស់វិមាត្រនៃអារម្មណ៍ ដែល Arousal វាស់ពីកម្រិតនៃភាពសកម្មឬរំភើប (ពីស្ងប់ស្ងាត់ទៅរំជើបរំជួល) រីឯ Valence វាស់ពីភាពវិជ្ជមានឬអវិជ្ជមាននៃអារម្មណ៍ (ពីសោកសៅទៅសប្បាយរីករាយ)។ ដូចជាត្រីវិស័យអារម្មណ៍ ដែលចង្អុលប្រាប់ថាអ្នកកំពុងពុះកញ្ជ្រោលកម្រិតណា (Arousal) និងកំពុងមានក្តីសុខឬទុក្ខកម្រិតណា (Valence)។
Martingale Framework ជាក្របខ័ណ្ឌគណិតវិទ្យានិងស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីស្វែងរកចំណុចផ្លាស់ប្តូរ (Change point detection) តាមរយៈការតាមដានបម្រែបម្រួលទិន្នន័យបន្តបន្ទាប់ ដើម្បីមើលថាតើមានភាពខុសប្រក្រតីដែលបញ្ជាក់ពីការប្តូរអារម្មណ៍ពីមួយទៅមួយឬទេ។ ដូចជាសន្តិសុខដែលអង្កេតមើលកាមេរ៉ាសុវត្ថិភាពជាបន្តបន្ទាប់ ហើយចុចកណ្តឹងប្រកាសអាសន្នភ្លាមៗនៅពេលមានសកម្មភាពប្លែកណាមួយកើតឡើង។
Kalman Filtering ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលជួយទស្សន៍ទាយ និងកែតម្រូវស្ថានភាពនៃប្រព័ន្ធមួយដែលកំពុងវិវឌ្ឍ (ដូចជាបម្រែបម្រួលអារម្មណ៍) ដោយផ្សំបញ្ចូលរវាងការទាយទុកជាមុន និងទិន្នន័យជាក់ស្តែងដែលមានសំឡេងរំខាន (Noise) ដើម្បីទទួលបានលទ្ធផលច្បាស់លាស់។ ដូចជាការបើកបរដោយប្រើ GPS ដែលទោះបីជាបាត់សេវាមួយភ្លែត ក៏ប្រព័ន្ធនៅតែអាចទាយដឹងថាអ្នកកំពុងនៅត្រង់ណាដោយផ្អែកលើល្បឿននិងទិសដៅចាស់របស់អ្នក។
Phone Log-Likelihood Ratio (PLLR) ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសនៃសូរសព្ទដែលគណនាពីប្រូបាប៊ីលីតេនៃសម្លេងនីមួយៗ (Phonemes) ដើម្បីកំណត់ថាតើសម្លេងដែលបញ្ចេញមកតំណាងឱ្យអារម្មណ៍ប្រភេទណា។ ដូចជាឧបករណ៍ស្កេនដែលវាស់ស្ទង់ថាតើសម្លេងនៃការបញ្ចេញពាក្យឬស្រៈនីមួយៗរបស់អ្នកលាក់បង្កប់នូវកម្រិតអារម្មណ៍ខឹង ឬសប្បាយកម្រិតណា។
Relevance Vector Machine (RVM) ជាម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning) សម្រាប់ធ្វើការចាត់ថ្នាក់ ឬទស្សន៍ទាយ (Regression) ដែលប្រើប្រាស់ទ្រឹស្តី Bayesian ដើម្បីផ្តល់លទ្ធផលជាទម្រង់ប្រូបាប៊ីលីតេ ដែលមានភាពសុក្រឹតនិងប្រើធនធានតិចជាម៉ូដែល SVM។ ដូចជាអ្នកជំនាញវិភាគដែលមិនត្រឹមតែអាចទាយថាថ្ងៃស្អែកភ្លៀងឬអត់ទេ តែថែមទាំងប្រាប់ពីភាគរយនៃកម្រិតទំនុកចិត្តថានឹងមានភ្លៀងធ្លាក់ទៀតផង។
eGeMAPS ជាបណ្តុំនៃលក្ខណៈពិសេសនៃសម្លេង (Acoustic features) ស្តង់ដារដែលត្រូវបានចម្រាញ់រួចជាស្រេច ដើម្បីប្រើប្រាស់ជាទូទៅក្នុងការវិភាគការនិយាយ និងស្គាល់អារម្មណ៍ដោយមិនចាំបាច់ទាញយកទិន្នន័យសម្លេងច្រើនហួសហេតុពេក។ ដូចជាកញ្ចប់ឧបករណ៍ពេទ្យស្តង់ដារមួយ ដែលមានប្រដាប់វាស់កម្តៅ និងវាស់សម្ពាធឈាម ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលពិនិត្យកម្រិតអារម្មណ៍លឿននិងច្បាស់លាស់។
Emotion Dynamics សំដៅលើការវិវឌ្ឍ ល្បឿន និងគន្លងនៃការផ្លាស់ប្តូរអារម្មណ៍របស់មនុស្សក្នុងចន្លោះពេលណាមួយ មិនមែនជាការមើលអារម្មណ៍ក្នុងន័យស្ងៀមទ្រឹងនោះទេ។ ដូចជាការមើលខ្សែវីដេអូដែលបង្ហាញពីសាច់រឿងរំកិលទៅមុខ ជាជាងការមើលរូបថតមួយសន្លឹកដែលនៅស្ងៀម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖