Original Title: Speaker-adaptive visual speech synthesis in the HMM-framework
Source: doi.org/10.21437/Interspeech.2012-291
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសំយោគរូបភាពនៃការនិយាយដោយបន្ស៊ាំតាមអ្នកនិយាយនៅក្នុងក្របខ័ណ្ឌ HMM

ចំណងជើងដើម៖ Speaker-adaptive visual speech synthesis in the HMM-framework

អ្នកនិពន្ធ៖ Dietmar Schabus (FTW Telecommunications Research Center Vienna, Austria & Graz University of Technology, Graz, Austria), Michael Pucher (FTW Telecommunications Research Center Vienna, Austria), Gregor Hofer (FTW Telecommunications Research Center Vienna, Austria)

ឆ្នាំបោះពុម្ព៖ 2012 INTERSPEECH

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការទាមទារទិន្នន័យរូបភាពនិងចលនា (Visual training data) ក្នុងបរិមាណច្រើនសម្រាប់ការបង្កើតប្រព័ន្ធសំយោគការនិយាយជារូបភាព 3D ដោយស្នើឡើងនូវវិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive approach) ដើម្បីកាត់បន្ថយតម្រូវការទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតប្រព័ន្ធសំយោគការនិយាយជារូបភាពដែលអាចបន្ស៊ាំបាន ដោយប្រើប្រាស់ទិន្នន័យចាប់យកចលនា 3D (3D motion capture data) និងម៉ូដែល Hidden semi-Markov (HSMMs)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Recorded Data (Ground Truth)
ទិន្នន័យថតបានជាក់ស្តែង (Recorded)
មានភាពប្រាកដនិយម និងបង្ហាញពីចលនាមុខបានច្បាស់លាស់បំផុតតាមបែបធម្មជាតិ។ មិនអាចសំយោគប្រយោគថ្មីៗបានទេ ហើយតម្រូវឱ្យមានការថតវីដេអូ និងសម្លេងដោយផ្ទាល់សម្រាប់រាល់អត្ថបទទាំងអស់។ ទទួលបានការពេញចិត្តខ្ពស់បំផុត និងដាច់ស្រឡះពីអ្នកចូលរួមវាយតម្លៃ បើធៀបនឹងវិធីសាស្ត្រសំយោគទាំងអស់។
Speaker-adaptive (adapt small)
ម៉ូដែលបន្ស៊ាំតាមអ្នកនិយាយដែលមានទិន្នន័យតិច (Adapt small)
ទាមទារទិន្នន័យពីអ្នកនិយាយគោលដៅតិចតួចបំផុត (ត្រឹមតែ ១៩ ប្រយោគ) តែនៅតែផ្តល់លទ្ធផលល្អ ដោយប្រើប្រាស់ម៉ូដែលគោលពីអ្នកនិយាយច្រើននាក់។ គុណភាពចលនាមុខនៅតែមិនទាន់ល្អស្មើម៉ូដែលដែលមានទិន្នន័យច្រើន ហើយត្រូវការពេលវេលាដើម្បីបង្កើតម៉ូដែលគោលជាមុន។ ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (sd small) យ៉ាងច្បាស់លាស់ក្នុងកម្រិតស្ថិតិ។
Speaker-dependent (sd small)
ម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (SD small)
ងាយស្រួលក្នុងការហ្វឹកហាត់ប្រសិនបើមានទិន្នន័យតែពីមនុស្សម្នាក់ដោយមិនចាំបាច់បង្កើតម៉ូដែលគោលរួម។ ដំណើរការមិនបានល្អទាល់តែសោះនៅពេលទិន្នន័យមានកំណត់ ធ្វើឱ្យចលនាមុខមិនសូវសមហេតុផល។ ទទួលបានការគាំទ្រតិចតួចបំផុត និងអន់ជាងគេក្នុងចំណោមវិធីសាស្ត្រដែលបានយកមកប្រៀបធៀប។
Speaker-dependent (sd)
ម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ទិន្នន័យច្រើន (SD)
អាចបង្កើតការសំយោគចលនាមុខបានល្អ និងមានភាពរលូន ប្រសិនបើមានទិន្នន័យគ្រប់គ្រាន់។ ទាមទារទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ (២១២ ប្រយោគ) សម្រាប់អ្នកនិយាយម្នាក់ៗ ដែលត្រូវចំណាយពេល និងធនធានខ្ពស់។ មាននិន្នាការទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែល adapt បន្តិចបន្តួច ប៉ុន្តែមិនមានភាពខុសគ្នាជាលក្ខណៈស្ថិតិធំដុំនោះទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធសំយោគការនិយាយជារូបភាពនេះ ទាមទារការវិនិយោគធនធានខ្ពស់លើឧបករណ៍ផ្នែករឹងសម្រាប់ការចាប់យកចលនា និងកម្មវិធីកុំព្យូទ័រឯកទេស។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីអ្នកនិយាយភាសាអាល្លឺម៉ង់ (Austrian German) ចំនួន ៣ នាក់ប៉ុណ្ណោះ ដែលជាចំនួនតិចតួច និងមិនតំណាងឱ្យភាពចម្រុះនៃទម្រង់មុខទូទៅ។ សម្រាប់កម្ពុជា ការអនុវត្តប្រព័ន្ធនេះទាមទារការប្រមូលទិន្នន័យពីជនជាតិខ្មែរផ្ទាល់ ដើម្បីធានាថាចលនាមាត់ និងការបញ្ចេញសូរសព្ទ (Phonemes) ស៊ីគ្នានឹងភាសាខ្មែរដែលមានលក្ខណៈពិសេសរបស់ខ្លួន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាសំយោគការនិយាយជារូបភាព 3D នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធអន្តរកម្មឌីជីថលនៅកម្ពុជា ទោះបីជាត្រូវការទុនវិនិយោគលើការប្រមូលទិន្នន័យដំបូងក៏ដោយ។

សរុបមក ការប្រើប្រាស់វិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive) គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃសម្រាប់កម្ពុជា ក្នុងការកាត់បន្ថយការចំណាយលើការប្រមូលទិន្នន័យ និងជំរុញការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតក្នុងវិស័យពហុព័ត៌មាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ HMMs និងការកែច្នៃសម្លេង: រៀនពីការប្រើប្រាស់ HTS (HMM-based Speech Synthesis System) និង HTK toolkit ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលរៀនពីទំនាក់ទំនងរវាងសូរសព្ទសម្លេង (Acoustic features) និងអត្ថបទ។
  2. ប្រមូលទិន្នន័យសម្លេងនិងរូបភាពជាភាសាខ្មែរ: បង្កើតគម្រោងតូចមួយប្រមូលវីដេអូកម្រិតច្បាស់របស់អ្នកនិយាយភាសាខ្មែរ។ ជំនួសឱ្យការប្រើប្រាស់ឧបករណ៍ Motion Capture ថ្លៃៗ និស្សិតអាចប្រើប្រាស់បណ្ណាល័យ Computer Vision ដូចជា MediaPipe ឬ OpenCV ដើម្បីទាញយកចំណុចនៅលើមុខ (Facial Landmarks) ពីវីដេអូធម្មតា។
  3. កាត់បន្ថយទំហំទិន្នន័យ និងហ្វឹកហាត់ម៉ូដែលគោល: អនុវត្តបច្ចេកទេស PCA និង SVD លើទិន្នន័យចលនាមុខ ដើម្បីបន្ថយទំហំទិន្នន័យ (Dimensionality Reduction) មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល Hidden semi-Markov (HSMMs) សម្រាប់ការហ្វឹកហាត់បង្កើតជាម៉ូដែលជាមធ្យម (Average Voice Model)។
  4. អនុវត្តបច្ចេកទេសបន្ស៊ាំតាមអ្នកនិយាយ (Speaker Adaptation): សាកល្បងប្រើប្រាស់ទិន្នន័យសម្លេងនិងចលនាមុខក្នុងចំនួនតិចតួច (ប្រហែល ២០ ប្រយោគ) របស់អ្នកនិយាយគោលដៅថ្មី ដើម្បីធ្វើការបន្ស៊ាំម៉ូដែល (Adaptation) ដោយប្រើបច្ចេកទេស CMLLR ដូចដែលបានរៀបរាប់ក្នុងឯកសារស្រាវជ្រាវ។
  5. ធ្វើសមាហរណកម្មជាមួយម៉ូដែល 3D: ប្រើប្រាស់កម្មវិធីបង្កើតហ្គេម និងគំនូរជីវចលឥតគិតថ្លៃដូចជា Blender ឬ Unity ដើម្បីផ្សារភ្ជាប់ជាមួយនឹងលទ្ធផលប៉ារ៉ាម៉ែត្រចលនាដែលម៉ូដែលបញ្ចេញ (Generated parameters) សំដៅបង្កើតជាតួអង្គនិម្មិត 3D (3D Avatar) ដែលអាចនិយាយភាសាខ្មែរបានតាមចលនាមាត់ត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Models (HMMs) ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់ទស្សន៍ទាយឬតំណាងឱ្យប្រព័ន្ធដែលមានការផ្លាស់ប្តូរស្ថានភាពពីមួយទៅមួយតាមពេលវេលា (ដែលយើងមើលមិនឃើញផ្ទាល់)។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីរៀននិងបង្កើតលំដាប់លំដោយនៃចលនាមាត់ និងសម្លេងនិយាយ។ ដូចជាការទស្សន៍ទាយថាថ្ងៃស្អែកមានភ្លៀងឬអត់ ដោយមើលលើសីតុណ្ហភាពនិងពពកថ្ងៃនេះ ទោះបីជាយើងមិនដឹងច្បាស់ពីចលនាខ្យល់កម្រិតខ្ពស់ក៏ដោយ។
Speaker-adaptive training (SAT) វិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិតដោយបង្កើត "ម៉ូដែលរួម ឬម៉ូដែលជាមធ្យម" ពីទិន្នន័យមនុស្សច្រើននាក់ជាមុនសិន បន្ទាប់មកទើបយកវាទៅកែសម្រួលបន្តិចបន្តួចឱ្យត្រូវនឹងទម្រង់មុខឬសម្លេងរបស់មនុស្សថ្មីម្នាក់ទៀត ដោយប្រើទិន្នន័យរបស់គាត់តែបន្តិចបន្តួច។ ដូចជាការកាត់អាវធំមួយដែលអាចពាក់បានគ្រប់គ្នាជាមុន រួចទើបយកមកកែទំហំបន្តិចបន្តួចឱ្យតម្រូវរាងអ្នកពាក់ជាក់លាក់ណាម្នាក់ ជាជាងការកាត់អាវថ្មីពីចំណុចសូន្យ។
Principal Component Analysis (PCA) បច្ចេកទេសគណិតវិទ្យាសម្រាប់កាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ (ក្នុងឯកសារនេះគឺកាត់បន្ថយចំណុចលើផ្ទៃមុខពី ៩៩ មកត្រឹម ៣០ ចំណុច) ដោយរក្សាទុកតែលក្ខណៈសំខាន់ៗបំផុត និងបំបាត់ទិន្នន័យដែលត្រួតស៊ីគ្នា ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលគណនា និងដើរលឿន។ ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយក្បាលឱ្យនៅត្រឹមមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យសំខាន់ៗដោយបោះបង់ពាក្យមិនចាំបាច់ចោល។
Motion capture ដំណើរការនៃការចាប់យកចលនារបស់មនុស្សពិតៗទៅក្នុងកុំព្យូទ័រ ដោយប្រើចំណុចចំណាំងផ្លាត (Markers) បិទលើផ្ទៃមុខ និងកាមេរ៉ាពិសេស ដើម្បីកត់ត្រាទីតាំង 3D នៃចលនាមាត់ និងការបញ្ចេញទឹកមុខពេលកំពុងនិយាយ។ ដូចជាការយកអំពូលភ្លើងតូចៗទៅបិទលើសន្លាក់នៃរាងកាយអ្នករាំក្នុងបន្ទប់ងងឹត រួចថតយកតែចលនាពន្លឺទាំងនោះដើម្បីដឹងថាតើគាត់រាំមានទម្រង់យ៉ាងម៉េច។
Constrained Maximum Likelihood Linear Regression (CMLLR) ក្បួនអាល់កូរីតមគណិតវិទ្យាដែលប្រើសម្រាប់បំលែង និងកែតម្រូវលក្ខណៈទូទៅនៃម៉ូដែលមធ្យម ឱ្យស៊ីគ្នាយ៉ាងជាក់លាក់ទៅនឹងទម្រង់សម្លេង និងចលនាមាត់របស់អ្នកនិយាយគោលដៅនៅក្នុងដំណាក់កាលបន្ស៊ាំម៉ូដែល (Adaptation)។ ដូចជាការប្រើប្រាស់តម្រង (Filter) ក្នុងកាមេរ៉ាទូរស័ព្ទ ដើម្បីប្តូរពណ៌ និងពន្លឺនៃរូបភាពទូទៅឱ្យមើលទៅស្រដៀងនឹងស្តាយថតរូបប្រចាំខ្លួនរបស់អ្នក។
rig / bones រចនាសម្ព័ន្ធឆ្អឹង ឬចំណុចបញ្ជាដែលលាក់នៅខាងក្នុងតួអង្គ 3D ក្នុងកម្មវិធីកុំព្យូទ័រ (Animation software) ដែលប្រើសម្រាប់ទាញ និងកម្រើកផ្ទៃខាងក្រៅ (ស្បែក) របស់តួអង្គនោះឱ្យមានចលនាដូចមនុស្សពិត។ ដូចជាខ្សែញាក់ដែលចងជាប់នឹងអវយវៈរបស់អាយ៉ង (តុក្កតា) ដើម្បីទាញឱ្យវាមានចលនាតាមការចង់បានរបស់អ្នកបញ្ជា។
Forced alignment បច្ចេកទេសដែលប្រើកុំព្យូទ័រដើម្បីផ្គូផ្គងសម្លេងដែលថតបាន ជាមួយនឹងអត្ថបទជាអក្សរដោយស្វ័យប្រវត្តិ សំដៅស្វែងរកពេលវេលាចាប់ផ្តើម និងបញ្ចប់យ៉ាងច្បាស់លាស់នៃសូរសព្ទ (Phone) នីមួយៗនៅក្នុងប្រយោគ។ ដូចជាអក្សរក្នុងកម្មវិធីច្រៀងខារ៉ាអូខេ (Karaoke) ដែលលោតប្តូរពណ៌ចំពេលដែលអ្នកចម្រៀងបញ្ចេញសម្លេងពាក្យនោះយ៉ាងជាក់លាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖