បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការបង្កើតកាយវិការនិងចលនារាងកាយ (Body language) សម្រាប់តួអង្គនិម្មិត (Virtual characters) ដោយស្វ័យប្រវត្តិ ដោយពឹងផ្អែកលើចង្វាក់និងកម្រិតសម្លេងនៃការនិយាយ (Speech prosody) ក្នុងពេលជាក់ស្តែង។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យថតចលនា (Motion capture) រយៈពេល១២នាទី ដើម្បីបង្វឹក និងវាយតម្លៃម៉ូដែលប្រូបាប៊ីលីតេផ្សេងៗក្នុងការស្វែងរកទំនាក់ទំនងរវាងសម្លេងនិយាយ និងសក្ដានុពលនៃកាយវិការ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Discrete Remapped HMM ម៉ូដែល Hidden Markov ប្រើបច្ចេកទេស Remapped ប្រភេទ Discrete |
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យករចនាសម្ព័ន្ធលាក់កំបាំងរវាងការនិយាយនិងចលនា ហើយដំណើរការល្អនៅពេលសញ្ញាទាំងពីរមានទម្រង់ស្រដៀងគ្នា។ វាមិនសូវងាយនឹងជួបបញ្ហា Overfitting នោះទេ។ | ទាមទារការចងបណ្តុំ (Clustering) ទិន្នន័យបញ្ចូលនិងបញ្ចេញជាមុន ដែលអាចបាត់បង់ព័ត៌មានលម្អិតមួយចំនួននៃចលនា។ | ផ្តល់តម្លៃ Cross-correlation ខ្ពស់បំផុត និងកម្រិតលម្អៀង (Squared Error) ទាបជាងគេបំផុតនៅក្នុងការវាយតម្លៃភាគច្រើន។ |
| Conditional Random Fields (CRFs) ម៉ូដែល Conditional Random Fields (ទាំង Discrete និង Continuous) |
ជាប្រភេទ Discriminative Model ដែលមិនតម្រូវឱ្យមានការសន្មត់ឯករាជ្យភាពនៃទិន្នន័យសង្កេត និងអាចប្រើប្រាស់លក្ខណៈពិសេស (Features) នៃសម្លេងបានច្រើនជាង HMMs ក្នុងពេលតែមួយ។ | ខ្សោយក្នុងការធ្វើម៉ូដែលទិន្នន័យបន្តបន្ទាប់ (Continuous distribution) និងខ្វះ Hidden states សម្រាប់ចាប់យកទំនាក់ទំនងកាយវិការរយៈពេលវែង។ ទាមទារការបង្កើនប្រសិទ្ធភាពសកល (Global optimization) ដែលស៊ីពេលយូរ។ | ដំណើរការមិនសូវបានល្អ ជាពិសេសម៉ូដែល Continuous CRF ដែលមានកម្រិត Error ខ្ពស់ជាងគេ និង Cross-correlation ទាបជាង HMM ឆ្ងាយ។ |
| Jointly-Trained HMM ម៉ូដែល Hidden Markov បង្វឹកបញ្ជូលគ្នា (Jointly-Trained) |
អាចបង្កើតទាំងសញ្ញាបញ្ចេញនិងបញ្ចូលរួមគ្នាក្នុងពេលតែមួយ ដែលជាទ្រឹស្តីសក្តិសមសម្រាប់សញ្ញាដែលមានរចនាសម្ព័ន្ធខុសគ្នាខ្លាំង។ | ងាយនឹងជួបបញ្ហា Overfitting និងធ្លាក់ចូលក្នុងទីតាំង Local optima ដោយសារវាមានប៉ារ៉ាម៉ែត្រច្រើនពេកដែលត្រូវគណនា។ | ទទួលបានលទ្ធផលត្រឹមចំណាត់ថ្នាក់មធ្យម តែនៅចាញ់ម៉ូដែល Remapped HMM ជាប្រចាំក្នុងការធ្វើតេស្តជាក់ស្តែង។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីកម្លាំងម៉ាស៊ីនកុំព្យូទ័រក៏ដោយ ក៏ប្រព័ន្ធនេះទាមទារឧបករណ៍និងកម្មវិធីឯកទេសជាក់លាក់ដើម្បីប្រមូលនិងវិភាគទិន្នន័យ។
ការសិក្សានេះប្រមូលទិន្នន័យពីមនុស្សពិតចំនួនតិចតួចបំផុត ដោយផ្អែកលើការសន្ទនាជាភាសាអង់គ្លេសជុំវិញប្រធានបទនយោបាយ និងការសម្តែង។ កាយវិការ និងចង្វាក់នៃការនិយាយ (Prosody) គឺអាស្រ័យយ៉ាងខ្លាំងទៅលើវប្បធម៌ និងភាសា។ ដូច្នេះ ការយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់នៅកម្ពុជាអាចនឹងបង្កើតកាយវិការដែលមិនសមស្រប ឬមើលទៅមិនសូវធម្មជាតិសម្រាប់បរិបទការនិយាយនិងវប្បធម៌របស់ជនជាតិខ្មែរឡើយ។
ទោះបីជាមានគម្លាតទិន្នន័យវប្បធម៌ក៏ដោយ វិធីសាស្ត្រស្នូលនេះមានសក្តានុពល និងអត្ថប្រយោជន៍ខ្ពស់សម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យានៅកម្ពុជា។
បច្ចេកវិទ្យានេះអាចជួយជំរុញការបង្កើតតួអង្គនិម្មិតនៅកម្ពុជាឱ្យកាន់តែមានភាពរស់រវើក និងស៊ីជម្រៅ ក្នុងលក្ខខណ្ឌដែលអ្នកអភិវឌ្ឍន៍ធ្វើការប្រមូលទិន្នន័យចលនាផ្អែកលើវប្បធម៌កម្ពុជាបន្ថែម។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Speech Prosody | ជម្រុះសម្លេង ចង្វាក់ កម្រិតខ្ពស់ទាប និងកម្លាំងនៃសម្លេងពេលនិយាយ ដែលបញ្ជាក់ពីអារម្មណ៍ ឬការសង្កត់ន័យ ដោយមិនពឹងផ្អែកលើអត្ថន័យនៃពាក្យផ្ទាល់ឡើយ។ | ដូចជាការស្តាប់បទចម្រៀងភាសាបរទេស ទោះយើងមិនយល់ពាក្យ ក៏យើងអាចដឹងថាអ្នកចម្រៀងកំពុងខឹង ឬសប្បាយចិត្តតាមរយៈចង្វាក់និងកម្លាំងសម្លេង។ |
| Hidden Markov Model (HMM) | ម៉ូដែលប្រូបាប៊ីលីតេតាមលំដាប់លំដោយ ដែលប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពលាក់កំបាំង (Hidden states ឧ. កាយវិការ) ដោយផ្អែកលើទិន្នន័យដែលអាចសង្កេតឃើញជាបន្តបន្ទាប់ (Observables ឧ. សម្លេង)។ | ដូចជាការទស្សន៍ទាយថាអាកាសធាតុថ្ងៃនេះកំពុងភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សភាគច្រើនដើរកាន់ឆ័ត្រឬអត់ (ឃើញតែឆ័ត្រ តែមិនបានឃើញមេឃ)។ |
| Conditional Random Field (CRF) | ម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine Learning) បែប Discriminative ដែលប្រើសម្រាប់ទស្សន៍ទាយលំដាប់លំដោយនៃទិន្នន័យ ដោយវាយតម្លៃលើបរិបទនិងទំនាក់ទំនងជុំវិញនៃទិន្នន័យនោះ មិនដូច HMM ដែលសន្មត់ថាទិន្នន័យនីមួយៗឯករាជ្យពីគ្នានោះទេ។ | ដូចជាការទស្សន៍ទាយពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយមើលពាក្យដែលនៅពីមុខនិងពីក្រោយវា ដើម្បីឱ្យការទស្សន៍ទាយកាន់តែត្រឹមត្រូវ។ |
| Dynamic Time Warping (DTW) | ក្បួនអាល់កូរីតសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងស៊េរីទិន្នន័យពេលវេលាពីរ (Time series) ដែលអាចមានល្បឿនខុសគ្នា ដូចជាការផ្ទៀងផ្ទាត់ចលនាដែលប្រព័ន្ធបង្កើតបានទៅនឹងចលនាពិតប្រាកដ។ | ដូចជាការប្រៀបធៀបមនុស្សពីរនាក់ដើរលើផ្លូវតែមួយ ទោះម្នាក់ដើរលឿន ម្នាក់ដើរយឺត ក៏ប្រព័ន្ធនេះដឹងថាពួកគេកំពុងដើរតាមគន្លងផ្លូវតែមួយដូចគ្នា។ |
| Laban Movement Analysis (LMA) | ប្រព័ន្ធស្តង់ដារសម្រាប់ពិពណ៌នា និងវិភាគចលនារបស់មនុស្ស ដោយផ្តោតលើធាតុផ្សំដូចជា ថាមពល (Effort) ទម្រង់ (Shape) ទីធ្លា (Space) និងពេលវេលា (Time) ដើម្បីយល់ពីសក្ដានុពលនៃចលនា។ | ដូចជាក្បួនវាយតម្លៃក្បាច់រាំ ដែលអាចប្រាប់ថាតើអ្នករាំបញ្ចេញកម្លាំងខ្លាំងឬខ្សោយ រហ័សឬយឺត និងមានចលនារឹងមាំឬទន់ភ្លន់។ |
| Viterbi algorithm | ក្បួនគណនាសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំងដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត (Most likely sequence) នៅក្នុងម៉ូដែល HMM ដែលស័ក្តិសមសម្រាប់ប្រើលើទិន្នន័យដែលបានកត់ត្រារួច (Offline)។ | ដូចជាការប្រើប្រាស់ផែនទី GPS ដើម្បីរកផ្លូវដែលខ្លីនិងលឿនបំផុតពីចំណុច A ទៅចំណុច B បន្ទាប់ពីវាស្គាល់គ្រប់បណ្តាញផ្លូវទាំងអស់ច្បាស់លាស់។ |
| Gesture unit | ឯកតានៃកាយវិការពេញលេញមួយ ដែលរួមមានដំណាក់កាលត្រៀមខ្លួន (Pre-stroke hold) ដំណាក់កាលបញ្ចេញកាយវិការចម្បង (Stroke) និងដំណាក់កាលទប់ទម្រង់ ឬដកដៃមកវិញ (Post-stroke hold / Retraction)។ | ដូចជាសកម្មភាពវាយសី ដែលមានការងើបដៃឡើង (ត្រៀម) ការវាយសី (សកម្មភាពចម្បង) និងការទម្លាក់ដៃចុះវិញ (បញ្ចប់)។ |
| Motion Planner | ផ្នែកនៃប្រព័ន្ធកុំព្យូទ័រ ដែលមានតួនាទីជ្រើសរើស និងតភ្ជាប់បំណែកចលនាផ្សេងៗគ្នាពីបណ្ណាល័យទិន្នន័យ (Database) ដើម្បីបង្កើតជាចលនាថ្មីមួយដែលរលូន និងស៊ីសង្វាក់ជាមួយសម្លេងបញ្ចូល។ | ដូចជាអ្នកកាត់តវីដេអូ ដែលយកឃ្លីបវីដេអូខ្លីៗមកតម្រៀបនិងបញ្ចួលគ្នា ឱ្យក្លាយជារឿងមួយដែលមើលទៅរលូននិងមិនទាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖