បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការទាមទារទិន្នន័យរូបភាពនិងចលនា (Visual training data) ក្នុងបរិមាណច្រើនសម្រាប់ការបង្កើតប្រព័ន្ធសំយោគការនិយាយជារូបភាព 3D ដោយស្នើឡើងនូវវិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive approach) ដើម្បីកាត់បន្ថយតម្រូវការទិន្នន័យ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតប្រព័ន្ធសំយោគការនិយាយជារូបភាពដែលអាចបន្ស៊ាំបាន ដោយប្រើប្រាស់ទិន្នន័យចាប់យកចលនា 3D (3D motion capture data) និងម៉ូដែល Hidden semi-Markov (HSMMs)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Recorded Data (Ground Truth) ទិន្នន័យថតបានជាក់ស្តែង (Recorded) |
មានភាពប្រាកដនិយម និងបង្ហាញពីចលនាមុខបានច្បាស់លាស់បំផុតតាមបែបធម្មជាតិ។ | មិនអាចសំយោគប្រយោគថ្មីៗបានទេ ហើយតម្រូវឱ្យមានការថតវីដេអូ និងសម្លេងដោយផ្ទាល់សម្រាប់រាល់អត្ថបទទាំងអស់។ | ទទួលបានការពេញចិត្តខ្ពស់បំផុត និងដាច់ស្រឡះពីអ្នកចូលរួមវាយតម្លៃ បើធៀបនឹងវិធីសាស្ត្រសំយោគទាំងអស់។ |
| Speaker-adaptive (adapt small) ម៉ូដែលបន្ស៊ាំតាមអ្នកនិយាយដែលមានទិន្នន័យតិច (Adapt small) |
ទាមទារទិន្នន័យពីអ្នកនិយាយគោលដៅតិចតួចបំផុត (ត្រឹមតែ ១៩ ប្រយោគ) តែនៅតែផ្តល់លទ្ធផលល្អ ដោយប្រើប្រាស់ម៉ូដែលគោលពីអ្នកនិយាយច្រើននាក់។ | គុណភាពចលនាមុខនៅតែមិនទាន់ល្អស្មើម៉ូដែលដែលមានទិន្នន័យច្រើន ហើយត្រូវការពេលវេលាដើម្បីបង្កើតម៉ូដែលគោលជាមុន។ | ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (sd small) យ៉ាងច្បាស់លាស់ក្នុងកម្រិតស្ថិតិ។ |
| Speaker-dependent (sd small) ម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (SD small) |
ងាយស្រួលក្នុងការហ្វឹកហាត់ប្រសិនបើមានទិន្នន័យតែពីមនុស្សម្នាក់ដោយមិនចាំបាច់បង្កើតម៉ូដែលគោលរួម។ | ដំណើរការមិនបានល្អទាល់តែសោះនៅពេលទិន្នន័យមានកំណត់ ធ្វើឱ្យចលនាមុខមិនសូវសមហេតុផល។ | ទទួលបានការគាំទ្រតិចតួចបំផុត និងអន់ជាងគេក្នុងចំណោមវិធីសាស្ត្រដែលបានយកមកប្រៀបធៀប។ |
| Speaker-dependent (sd) ម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ទិន្នន័យច្រើន (SD) |
អាចបង្កើតការសំយោគចលនាមុខបានល្អ និងមានភាពរលូន ប្រសិនបើមានទិន្នន័យគ្រប់គ្រាន់។ | ទាមទារទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ (២១២ ប្រយោគ) សម្រាប់អ្នកនិយាយម្នាក់ៗ ដែលត្រូវចំណាយពេល និងធនធានខ្ពស់។ | មាននិន្នាការទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែល adapt បន្តិចបន្តួច ប៉ុន្តែមិនមានភាពខុសគ្នាជាលក្ខណៈស្ថិតិធំដុំនោះទេ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធសំយោគការនិយាយជារូបភាពនេះ ទាមទារការវិនិយោគធនធានខ្ពស់លើឧបករណ៍ផ្នែករឹងសម្រាប់ការចាប់យកចលនា និងកម្មវិធីកុំព្យូទ័រឯកទេស។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីអ្នកនិយាយភាសាអាល្លឺម៉ង់ (Austrian German) ចំនួន ៣ នាក់ប៉ុណ្ណោះ ដែលជាចំនួនតិចតួច និងមិនតំណាងឱ្យភាពចម្រុះនៃទម្រង់មុខទូទៅ។ សម្រាប់កម្ពុជា ការអនុវត្តប្រព័ន្ធនេះទាមទារការប្រមូលទិន្នន័យពីជនជាតិខ្មែរផ្ទាល់ ដើម្បីធានាថាចលនាមាត់ និងការបញ្ចេញសូរសព្ទ (Phonemes) ស៊ីគ្នានឹងភាសាខ្មែរដែលមានលក្ខណៈពិសេសរបស់ខ្លួន។
បច្ចេកវិទ្យាសំយោគការនិយាយជារូបភាព 3D នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធអន្តរកម្មឌីជីថលនៅកម្ពុជា ទោះបីជាត្រូវការទុនវិនិយោគលើការប្រមូលទិន្នន័យដំបូងក៏ដោយ។
សរុបមក ការប្រើប្រាស់វិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive) គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃសម្រាប់កម្ពុជា ក្នុងការកាត់បន្ថយការចំណាយលើការប្រមូលទិន្នន័យ និងជំរុញការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតក្នុងវិស័យពហុព័ត៌មាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Models (HMMs) | ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់ទស្សន៍ទាយឬតំណាងឱ្យប្រព័ន្ធដែលមានការផ្លាស់ប្តូរស្ថានភាពពីមួយទៅមួយតាមពេលវេលា (ដែលយើងមើលមិនឃើញផ្ទាល់)។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីរៀននិងបង្កើតលំដាប់លំដោយនៃចលនាមាត់ និងសម្លេងនិយាយ។ | ដូចជាការទស្សន៍ទាយថាថ្ងៃស្អែកមានភ្លៀងឬអត់ ដោយមើលលើសីតុណ្ហភាពនិងពពកថ្ងៃនេះ ទោះបីជាយើងមិនដឹងច្បាស់ពីចលនាខ្យល់កម្រិតខ្ពស់ក៏ដោយ។ |
| Speaker-adaptive training (SAT) | វិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិតដោយបង្កើត "ម៉ូដែលរួម ឬម៉ូដែលជាមធ្យម" ពីទិន្នន័យមនុស្សច្រើននាក់ជាមុនសិន បន្ទាប់មកទើបយកវាទៅកែសម្រួលបន្តិចបន្តួចឱ្យត្រូវនឹងទម្រង់មុខឬសម្លេងរបស់មនុស្សថ្មីម្នាក់ទៀត ដោយប្រើទិន្នន័យរបស់គាត់តែបន្តិចបន្តួច។ | ដូចជាការកាត់អាវធំមួយដែលអាចពាក់បានគ្រប់គ្នាជាមុន រួចទើបយកមកកែទំហំបន្តិចបន្តួចឱ្យតម្រូវរាងអ្នកពាក់ជាក់លាក់ណាម្នាក់ ជាជាងការកាត់អាវថ្មីពីចំណុចសូន្យ។ |
| Principal Component Analysis (PCA) | បច្ចេកទេសគណិតវិទ្យាសម្រាប់កាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ (ក្នុងឯកសារនេះគឺកាត់បន្ថយចំណុចលើផ្ទៃមុខពី ៩៩ មកត្រឹម ៣០ ចំណុច) ដោយរក្សាទុកតែលក្ខណៈសំខាន់ៗបំផុត និងបំបាត់ទិន្នន័យដែលត្រួតស៊ីគ្នា ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលគណនា និងដើរលឿន។ | ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយក្បាលឱ្យនៅត្រឹមមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យសំខាន់ៗដោយបោះបង់ពាក្យមិនចាំបាច់ចោល។ |
| Motion capture | ដំណើរការនៃការចាប់យកចលនារបស់មនុស្សពិតៗទៅក្នុងកុំព្យូទ័រ ដោយប្រើចំណុចចំណាំងផ្លាត (Markers) បិទលើផ្ទៃមុខ និងកាមេរ៉ាពិសេស ដើម្បីកត់ត្រាទីតាំង 3D នៃចលនាមាត់ និងការបញ្ចេញទឹកមុខពេលកំពុងនិយាយ។ | ដូចជាការយកអំពូលភ្លើងតូចៗទៅបិទលើសន្លាក់នៃរាងកាយអ្នករាំក្នុងបន្ទប់ងងឹត រួចថតយកតែចលនាពន្លឺទាំងនោះដើម្បីដឹងថាតើគាត់រាំមានទម្រង់យ៉ាងម៉េច។ |
| Constrained Maximum Likelihood Linear Regression (CMLLR) | ក្បួនអាល់កូរីតមគណិតវិទ្យាដែលប្រើសម្រាប់បំលែង និងកែតម្រូវលក្ខណៈទូទៅនៃម៉ូដែលមធ្យម ឱ្យស៊ីគ្នាយ៉ាងជាក់លាក់ទៅនឹងទម្រង់សម្លេង និងចលនាមាត់របស់អ្នកនិយាយគោលដៅនៅក្នុងដំណាក់កាលបន្ស៊ាំម៉ូដែល (Adaptation)។ | ដូចជាការប្រើប្រាស់តម្រង (Filter) ក្នុងកាមេរ៉ាទូរស័ព្ទ ដើម្បីប្តូរពណ៌ និងពន្លឺនៃរូបភាពទូទៅឱ្យមើលទៅស្រដៀងនឹងស្តាយថតរូបប្រចាំខ្លួនរបស់អ្នក។ |
| rig / bones | រចនាសម្ព័ន្ធឆ្អឹង ឬចំណុចបញ្ជាដែលលាក់នៅខាងក្នុងតួអង្គ 3D ក្នុងកម្មវិធីកុំព្យូទ័រ (Animation software) ដែលប្រើសម្រាប់ទាញ និងកម្រើកផ្ទៃខាងក្រៅ (ស្បែក) របស់តួអង្គនោះឱ្យមានចលនាដូចមនុស្សពិត។ | ដូចជាខ្សែញាក់ដែលចងជាប់នឹងអវយវៈរបស់អាយ៉ង (តុក្កតា) ដើម្បីទាញឱ្យវាមានចលនាតាមការចង់បានរបស់អ្នកបញ្ជា។ |
| Forced alignment | បច្ចេកទេសដែលប្រើកុំព្យូទ័រដើម្បីផ្គូផ្គងសម្លេងដែលថតបាន ជាមួយនឹងអត្ថបទជាអក្សរដោយស្វ័យប្រវត្តិ សំដៅស្វែងរកពេលវេលាចាប់ផ្តើម និងបញ្ចប់យ៉ាងច្បាស់លាស់នៃសូរសព្ទ (Phone) នីមួយៗនៅក្នុងប្រយោគ។ | ដូចជាអក្សរក្នុងកម្មវិធីច្រៀងខារ៉ាអូខេ (Karaoke) ដែលលោតប្តូរពណ៌ចំពេលដែលអ្នកចម្រៀងបញ្ចេញសម្លេងពាក្យនោះយ៉ាងជាក់លាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖