បញ្ហា (The Problem)៖ ទោះបីជាប្រព័ន្ធស្គាល់អារម្មណ៍តាមការនិយាយមានភាពជឿនលឿនក៏ដោយ ក៏ប្រព័ន្ធភាគច្រើននៅតែមានចន្លោះប្រហោងក្នុងការចាប់យកពេលវេលានិងទំហំនៃការផ្លាស់ប្តូរអារម្មណ៍ (Emotion change) នៅក្នុងការនិយាយបន្តបន្ទាប់គ្នា និងមិនទាន់ប្រើប្រាស់លក្ខណៈសូរស័ព្ទ (Phonetic features) ឱ្យបានពេញលេញនៅឡើយ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីៗសម្រាប់រកទីតាំង និងទស្សន៍ទាយការផ្លាស់ប្តូរអារម្មណ៍ ដោយរួមបញ្ចូលលក្ខណៈសូរស័ព្ទ និងសក្ដានុពលនៃអារម្មណ៍ទៅក្នុងម៉ូដែលរៀនម៉ាស៊ីន (Machine learning models)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Generalised Likelihood Ratio (GLR) អនុបាតលទ្ធភាពទូទៅ (GLR) |
មិនតម្រូវឱ្យមានចំណេះដឹងជាមុនអំពីប្រភេទអារម្មណ៍ ឬអត្តសញ្ញាណអ្នកនិយាយនោះទេ ដែលធ្វើឱ្យវាងាយស្រួលក្នុងការអនុវត្តទូទៅ។ | ងាយរងឥទ្ធិពលពីការផ្លាស់ប្តូរសូរសព្ទអក្សរ (Phonetic variability) ដែលអាចធ្វើឱ្យប្រព័ន្ធចាប់យកចំណុចផ្លាស់ប្តូរខុស។ | មានអត្រាបញ្ជាក់ខុស (EER) ខ្ពស់ជាងបើធៀបនឹងវិធីសាស្ត្រ Martingale ក្នុងការរកឃើញការផ្លាស់ប្តូរអារម្មណ៍។ |
| Modified Martingale Framework ក្របខ័ណ្ឌម៉ាទីងហ្គេលកែច្នៃ (Modified Martingale Framework) |
ដំណើរការបានយ៉ាងល្អក្នុងការស្វែងរកចំណុចផ្លាស់ប្តូរអារម្មណ៍តាមពេលវេលាជាក់ស្តែង (On-the-fly) និងកាត់បន្ថយការពន្យារពេលក្នុងការរកឃើញ (Low delay)។ | ត្រូវការសាងសង់ម៉ូដែលតំណាងអារម្មណ៍ (Emotion model) ជាមុនសិន ដើម្បីវាស់ស្ទង់ភាពខុសគ្នា (Strangeness measure) ដែលតម្រូវឱ្យមានទិន្នន័យបង្វឹកល្អ។ | សម្រេចបានអត្រាបរាជ័យក្នុងការរកឃើញ (Miss Detection) តិចជាង ១០% និងការប្រកាសអាសន្នខុស (False Alarm) តិចជាង ២០% សម្រាប់ Arousal និង Valence។ |
| Phonetically-Aware eGeMAPS (PA-eGeMAPS) with OA-RVM លក្ខណៈសំឡេងដឹងពីសូរស័ព្ទ (PA-eGeMAPS) ប្រើជាមួយ OA-RVM |
ចាប់យកទំនាក់ទំនងរវាងសូរសព្ទបន្លឺសំឡេង និងអារម្មណ៍បានល្អបំផុត ដោយច្របាច់បញ្ចូលព័ត៌មានលម្អិតនៃសម្លេងទៅក្នុងម៉ូដែល។ | ទាមទារការប្រើប្រាស់កម្មវិធីបំបែកសូរស័ព្ទ (Phoneme recogniser) ស្មុគស្មាញ ដែលស៊ីទំហំផ្ទុកលទ្ធផលរហូតដល់ ៩៧៥ វិមាត្រ (Dimensions)។ | បង្កើនភាពត្រឹមត្រូវសម្រាប់ការទស្សន៍ទាយ Valence រហូតដល់ ៧៩,៧% លើសំណុំទិន្នន័យ CreativeIT បើធៀបនឹងការមិនប្រើសូរស័ព្ទ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ សម្រាប់ការទាញយកលក្ខណៈសំឡេងនិងការបង្វឹកម៉ូដែល Machine Learning ជាពិសេសការដំណើរការ Deep Neural Networks (DNNs)។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (អាមេរិក និងអង់គ្លេស) ដូចជា IEMOCAP និង SEMAINE ព្រមទាំងភាសាបារាំង (RECOLA)។ សម្រាប់ប្រទេសកម្ពុជា ការកំណត់អារម្មណ៍តាមសូរសព្ទភាសាខ្មែរអាចមានលក្ខណៈខុសប្លែកពីអឺរ៉ុប ទាំងផ្នែករចនាសម្ព័ន្ធសំឡេងស្រៈ/ព្យញ្ជនៈ និងការបញ្ចេញអារម្មណ៍តាមវប្បធម៌។
ទោះបីជាការសិក្សានេះផ្ដោតលើភាសាបរទេសក្ដី ក៏វិធីសាស្ត្រនៃការចាប់យកការផ្លាស់ប្តូរអារម្មណ៍តាមរយៈកម្រិតសំឡេងអាចផ្តល់ប្រយោជន៍យ៉ាងធំធេងដល់វិស័យបច្ចេកវិទ្យានៅកម្ពុជា។
ការអភិវឌ្ឍប្រព័ន្ធ AI ស្គាល់អារម្មណ៍តាមភាសាខ្មែរ ដោយផ្អែកលើទឹស្តីនៃការផ្លាស់ប្តូរទំហំអារម្មណ៍ (Emotion Change) នេះ នឹងចូលរួមចំណែកយ៉ាងសកម្មក្នុងការបង្កើតចំណុចប្រទាក់ឆ្លាតវៃរវាងមនុស្សនិងម៉ាស៊ីននៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Affective Computing | ជាវិស័យបច្ចេកវិទ្យាដែលសិក្សាពីការបង្កើតប្រព័ន្ធកុំព្យូទ័រដែលអាចចាប់យក វិភាគ និងឆ្លើយតបទៅនឹងអារម្មណ៍របស់មនុស្សតាមរយៈទិន្នន័យដូចជាសម្លេង ការបញ្ចេញទឹកមុខ និងសញ្ញាជីវសាស្ត្រផ្សេងៗ។ | ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យមានបេះដូង ចេះអានទឹកមុខនិងយល់ពីអារម្មណ៍របស់យើង ដើម្បីវាអាចប្រាស្រ័យទាក់ទងជាមួយយើងដូចជាមនុស្សពិត។ |
| Arousal and Valence | ជារង្វាស់វិមាត្រនៃអារម្មណ៍ ដែល Arousal វាស់ពីកម្រិតនៃភាពសកម្មឬរំភើប (ពីស្ងប់ស្ងាត់ទៅរំជើបរំជួល) រីឯ Valence វាស់ពីភាពវិជ្ជមានឬអវិជ្ជមាននៃអារម្មណ៍ (ពីសោកសៅទៅសប្បាយរីករាយ)។ | ដូចជាត្រីវិស័យអារម្មណ៍ ដែលចង្អុលប្រាប់ថាអ្នកកំពុងពុះកញ្ជ្រោលកម្រិតណា (Arousal) និងកំពុងមានក្តីសុខឬទុក្ខកម្រិតណា (Valence)។ |
| Martingale Framework | ជាក្របខ័ណ្ឌគណិតវិទ្យានិងស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីស្វែងរកចំណុចផ្លាស់ប្តូរ (Change point detection) តាមរយៈការតាមដានបម្រែបម្រួលទិន្នន័យបន្តបន្ទាប់ ដើម្បីមើលថាតើមានភាពខុសប្រក្រតីដែលបញ្ជាក់ពីការប្តូរអារម្មណ៍ពីមួយទៅមួយឬទេ។ | ដូចជាសន្តិសុខដែលអង្កេតមើលកាមេរ៉ាសុវត្ថិភាពជាបន្តបន្ទាប់ ហើយចុចកណ្តឹងប្រកាសអាសន្នភ្លាមៗនៅពេលមានសកម្មភាពប្លែកណាមួយកើតឡើង។ |
| Kalman Filtering | ជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាដែលជួយទស្សន៍ទាយ និងកែតម្រូវស្ថានភាពនៃប្រព័ន្ធមួយដែលកំពុងវិវឌ្ឍ (ដូចជាបម្រែបម្រួលអារម្មណ៍) ដោយផ្សំបញ្ចូលរវាងការទាយទុកជាមុន និងទិន្នន័យជាក់ស្តែងដែលមានសំឡេងរំខាន (Noise) ដើម្បីទទួលបានលទ្ធផលច្បាស់លាស់។ | ដូចជាការបើកបរដោយប្រើ GPS ដែលទោះបីជាបាត់សេវាមួយភ្លែត ក៏ប្រព័ន្ធនៅតែអាចទាយដឹងថាអ្នកកំពុងនៅត្រង់ណាដោយផ្អែកលើល្បឿននិងទិសដៅចាស់របស់អ្នក។ |
| Phone Log-Likelihood Ratio (PLLR) | ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសនៃសូរសព្ទដែលគណនាពីប្រូបាប៊ីលីតេនៃសម្លេងនីមួយៗ (Phonemes) ដើម្បីកំណត់ថាតើសម្លេងដែលបញ្ចេញមកតំណាងឱ្យអារម្មណ៍ប្រភេទណា។ | ដូចជាឧបករណ៍ស្កេនដែលវាស់ស្ទង់ថាតើសម្លេងនៃការបញ្ចេញពាក្យឬស្រៈនីមួយៗរបស់អ្នកលាក់បង្កប់នូវកម្រិតអារម្មណ៍ខឹង ឬសប្បាយកម្រិតណា។ |
| Relevance Vector Machine (RVM) | ជាម៉ូដែលរៀនម៉ាស៊ីន (Machine Learning) សម្រាប់ធ្វើការចាត់ថ្នាក់ ឬទស្សន៍ទាយ (Regression) ដែលប្រើប្រាស់ទ្រឹស្តី Bayesian ដើម្បីផ្តល់លទ្ធផលជាទម្រង់ប្រូបាប៊ីលីតេ ដែលមានភាពសុក្រឹតនិងប្រើធនធានតិចជាម៉ូដែល SVM។ | ដូចជាអ្នកជំនាញវិភាគដែលមិនត្រឹមតែអាចទាយថាថ្ងៃស្អែកភ្លៀងឬអត់ទេ តែថែមទាំងប្រាប់ពីភាគរយនៃកម្រិតទំនុកចិត្តថានឹងមានភ្លៀងធ្លាក់ទៀតផង។ |
| eGeMAPS | ជាបណ្តុំនៃលក្ខណៈពិសេសនៃសម្លេង (Acoustic features) ស្តង់ដារដែលត្រូវបានចម្រាញ់រួចជាស្រេច ដើម្បីប្រើប្រាស់ជាទូទៅក្នុងការវិភាគការនិយាយ និងស្គាល់អារម្មណ៍ដោយមិនចាំបាច់ទាញយកទិន្នន័យសម្លេងច្រើនហួសហេតុពេក។ | ដូចជាកញ្ចប់ឧបករណ៍ពេទ្យស្តង់ដារមួយ ដែលមានប្រដាប់វាស់កម្តៅ និងវាស់សម្ពាធឈាម ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលពិនិត្យកម្រិតអារម្មណ៍លឿននិងច្បាស់លាស់។ |
| Emotion Dynamics | សំដៅលើការវិវឌ្ឍ ល្បឿន និងគន្លងនៃការផ្លាស់ប្តូរអារម្មណ៍របស់មនុស្សក្នុងចន្លោះពេលណាមួយ មិនមែនជាការមើលអារម្មណ៍ក្នុងន័យស្ងៀមទ្រឹងនោះទេ។ | ដូចជាការមើលខ្សែវីដេអូដែលបង្ហាញពីសាច់រឿងរំកិលទៅមុខ ជាជាងការមើលរូបថតមួយសន្លឹកដែលនៅស្ងៀម។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖