Original Title: Speaker-adaptive visual speech synthesis in the HMM-framework
Source: doi.org/10.21437/Interspeech.2012-291
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសំយោគរូបភាពនៃការនិយាយដោយបន្ស៊ាំតាមអ្នកនិយាយនៅក្នុងក្របខ័ណ្ឌ HMM

ចំណងជើងដើម៖ Speaker-adaptive visual speech synthesis in the HMM-framework

អ្នកនិពន្ធ៖ Dietmar Schabus (FTW Telecommunications Research Center Vienna, Austria & Graz University of Technology, Graz, Austria), Michael Pucher (FTW Telecommunications Research Center Vienna, Austria), Gregor Hofer (FTW Telecommunications Research Center Vienna, Austria)

ឆ្នាំបោះពុម្ព៖ 2012 INTERSPEECH

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការទាមទារទិន្នន័យរូបភាពនិងចលនា (Visual training data) ក្នុងបរិមាណច្រើនសម្រាប់ការបង្កើតប្រព័ន្ធសំយោគការនិយាយជារូបភាព 3D ដោយស្នើឡើងនូវវិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive approach) ដើម្បីកាត់បន្ថយតម្រូវការទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតប្រព័ន្ធសំយោគការនិយាយជារូបភាពដែលអាចបន្ស៊ាំបាន ដោយប្រើប្រាស់ទិន្នន័យចាប់យកចលនា 3D (3D motion capture data) និងម៉ូដែល Hidden semi-Markov (HSMMs)។

ការប្រមូលទិន្នន័យចលនាផ្ទៃមុខ 3D (3D facial marker data collection)
ការកាត់បន្ថយទំហំទិន្នន័យតាមរយៈ PCA និង SVD (Dimensionality reduction via PCA and SVD)
ការហ្វឹកហាត់ម៉ូដែលបន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive training using CMLLR)
ការវាយតម្លៃតាមរយៈការសង្កេតរបស់អ្នកចូលរួមចំនួន ២៨ នាក់ (Perceptive evaluation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive training) មានប្រសិទ្ធភាពខ្ពស់ជាងវិធីសាស្ត្រផ្អែកលើអ្នកនិយាយតែម្នាក់ (Speaker-dependent training) នៅពេលមានទិន្នន័យហ្វឹកហាត់តិចតួច។
ក្នុងការវាយតម្លៃជាក់ស្តែង ម៉ូដែលបន្ស៊ាំដែលមានទិន្នន័យតិច (Adapted small) ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (SD small) ដោយមានភាពខុសគ្នាជាលក្ខណៈស្ថិតិយ៉ាងច្បាស់លាស់។
ទោះបីជាយ៉ាងណាក៏ដោយ ចលនាដែលថតបានពីមនុស្សពិត (Recorded data) នៅតែត្រូវបានអ្នកចូលរួមវាយតម្លៃថាមានភាពល្អប្រសើរដាច់ស្រឡះ បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រសំយោគ (Synthesis methods) ទាំងអស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Recorded Data (Ground Truth) ទិន្នន័យថតបានជាក់ស្តែង (Recorded)	មានភាពប្រាកដនិយម និងបង្ហាញពីចលនាមុខបានច្បាស់លាស់បំផុតតាមបែបធម្មជាតិ។	មិនអាចសំយោគប្រយោគថ្មីៗបានទេ ហើយតម្រូវឱ្យមានការថតវីដេអូ និងសម្លេងដោយផ្ទាល់សម្រាប់រាល់អត្ថបទទាំងអស់។	ទទួលបានការពេញចិត្តខ្ពស់បំផុត និងដាច់ស្រឡះពីអ្នកចូលរួមវាយតម្លៃ បើធៀបនឹងវិធីសាស្ត្រសំយោគទាំងអស់។
Speaker-adaptive (adapt small) ម៉ូដែលបន្ស៊ាំតាមអ្នកនិយាយដែលមានទិន្នន័យតិច (Adapt small)	ទាមទារទិន្នន័យពីអ្នកនិយាយគោលដៅតិចតួចបំផុត (ត្រឹមតែ ១៩ ប្រយោគ) តែនៅតែផ្តល់លទ្ធផលល្អ ដោយប្រើប្រាស់ម៉ូដែលគោលពីអ្នកនិយាយច្រើននាក់។	គុណភាពចលនាមុខនៅតែមិនទាន់ល្អស្មើម៉ូដែលដែលមានទិន្នន័យច្រើន ហើយត្រូវការពេលវេលាដើម្បីបង្កើតម៉ូដែលគោលជាមុន។	ទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (sd small) យ៉ាងច្បាស់លាស់ក្នុងកម្រិតស្ថិតិ។
Speaker-dependent (sd small) ម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ដែលមានទិន្នន័យតិច (SD small)	ងាយស្រួលក្នុងការហ្វឹកហាត់ប្រសិនបើមានទិន្នន័យតែពីមនុស្សម្នាក់ដោយមិនចាំបាច់បង្កើតម៉ូដែលគោលរួម។	ដំណើរការមិនបានល្អទាល់តែសោះនៅពេលទិន្នន័យមានកំណត់ ធ្វើឱ្យចលនាមុខមិនសូវសមហេតុផល។	ទទួលបានការគាំទ្រតិចតួចបំផុត និងអន់ជាងគេក្នុងចំណោមវិធីសាស្ត្រដែលបានយកមកប្រៀបធៀប។
Speaker-dependent (sd) ម៉ូដែលផ្អែកលើអ្នកនិយាយតែម្នាក់ទិន្នន័យច្រើន (SD)	អាចបង្កើតការសំយោគចលនាមុខបានល្អ និងមានភាពរលូន ប្រសិនបើមានទិន្នន័យគ្រប់គ្រាន់។	ទាមទារទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ (២១២ ប្រយោគ) សម្រាប់អ្នកនិយាយម្នាក់ៗ ដែលត្រូវចំណាយពេល និងធនធានខ្ពស់។	មាននិន្នាការទទួលបានការពេញចិត្តច្រើនជាងម៉ូដែល adapt បន្តិចបន្តួច ប៉ុន្តែមិនមានភាពខុសគ្នាជាលក្ខណៈស្ថិតិធំដុំនោះទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធសំយោគការនិយាយជារូបភាពនេះ ទាមទារការវិនិយោគធនធានខ្ពស់លើឧបករណ៍ផ្នែករឹងសម្រាប់ការចាប់យកចលនា និងកម្មវិធីកុំព្យូទ័រឯកទេស។

Hardware: ប្រព័ន្ធចាប់យកចលនា 3D (3D Motion Capture System) ដូចជាម៉ាក OptiTrack ដែលអាចចាប់យកទិន្នន័យក្នុងល្បឿន 100Hz និងកាមេរ៉ាថតវីដេអូកម្រិតខ្ពស់។
Software: កម្មវិធីសម្រាប់បំប្លែងចលនា 3D (Professional animation software) និងឧបករណ៍ HTK/HTS សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Hidden Markov Models។
Dataset: កម្រងទិន្នន័យសម្លេងដែលមានគុណភាពខ្ពស់ ព្រមទាំងទីតាំងចំណុចនៅលើផ្ទៃមុខ (41 reflective markers) ភ្ជាប់ជាមួយសម្លេងដែលត្រូវគ្នា (Synchronous corpus)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកចលនាផ្ទៃមុខ 3D (3D facial animation), ដំណើរការសញ្ញា (Signal processing), និង Machine Learning (HMMs/HSMMs)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីអ្នកនិយាយភាសាអាល្លឺម៉ង់ (Austrian German) ចំនួន ៣ នាក់ប៉ុណ្ណោះ ដែលជាចំនួនតិចតួច និងមិនតំណាងឱ្យភាពចម្រុះនៃទម្រង់មុខទូទៅ។ សម្រាប់កម្ពុជា ការអនុវត្តប្រព័ន្ធនេះទាមទារការប្រមូលទិន្នន័យពីជនជាតិខ្មែរផ្ទាល់ ដើម្បីធានាថាចលនាមាត់ និងការបញ្ចេញសូរសព្ទ (Phonemes) ស៊ីគ្នានឹងភាសាខ្មែរដែលមានលក្ខណៈពិសេសរបស់ខ្លួន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាសំយោគការនិយាយជារូបភាព 3D នេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធអន្តរកម្មឌីជីថលនៅកម្ពុជា ទោះបីជាត្រូវការទុនវិនិយោគលើការប្រមូលទិន្នន័យដំបូងក៏ដោយ។

ការអប់រំ និង E-learning: អាចប្រើប្រាស់ដើម្បីបង្កើតគ្រូបង្រៀននិម្មិត (Virtual Teachers) ដែលអាចអានអត្ថបទជាភាសាខ្មែរជួយដល់សិស្សានុសិស្ស ជាពិសេសកុមារដែលមានបញ្ហាការស្តាប់តាមរយៈការមើលចលនាមាត់។
សេវាកម្មអតិថិជនឌីជីថល (Banking/Telecoms): ធនាគារ ឬក្រុមហ៊ុនទូរស័ព្ទនៅកម្ពុជា អាចបង្កើតភ្នាក់ងារនិម្មិត (Virtual Assistants) 3D ដែលមានមុខមាត់ដូចមនុស្សពិតដើម្បីឆ្លើយតបអតិថិជននៅលើអេក្រង់ ឬកម្មវិធីទូរស័ព្ទ។
វិស័យកម្សាន្ត និងគំនូរជីវចល (Animation Studios): ជួយកាត់បន្ថយពេលវេលាផលិតកម្មយ៉ាងច្រើនសម្រាប់ស្ទូឌីយោគំនូរជីវចលនៅកម្ពុជា ដោយស្វ័យប្រវត្តិកម្មចលនាមាត់តួអង្គ 3D តាមរយៈការបញ្ចូលអត្ថបទ ឬសម្លេង។

សរុបមក ការប្រើប្រាស់វិធីសាស្ត្របន្ស៊ាំតាមអ្នកនិយាយ (Speaker-adaptive) គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃសម្រាប់កម្ពុជា ក្នុងការកាត់បន្ថយការចំណាយលើការប្រមូលទិន្នន័យ និងជំរុញការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតក្នុងវិស័យពហុព័ត៌មាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ HMMs និងការកែច្នៃសម្លេង: រៀនពីការប្រើប្រាស់ HTS (HMM-based Speech Synthesis System) និង HTK toolkit ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលរៀនពីទំនាក់ទំនងរវាងសូរសព្ទសម្លេង (Acoustic features) និងអត្ថបទ។
ប្រមូលទិន្នន័យសម្លេងនិងរូបភាពជាភាសាខ្មែរ: បង្កើតគម្រោងតូចមួយប្រមូលវីដេអូកម្រិតច្បាស់របស់អ្នកនិយាយភាសាខ្មែរ។ ជំនួសឱ្យការប្រើប្រាស់ឧបករណ៍ Motion Capture ថ្លៃៗ និស្សិតអាចប្រើប្រាស់បណ្ណាល័យ Computer Vision ដូចជា MediaPipe ឬ OpenCV ដើម្បីទាញយកចំណុចនៅលើមុខ (Facial Landmarks) ពីវីដេអូធម្មតា។
កាត់បន្ថយទំហំទិន្នន័យ និងហ្វឹកហាត់ម៉ូដែលគោល: អនុវត្តបច្ចេកទេស PCA និង SVD លើទិន្នន័យចលនាមុខ ដើម្បីបន្ថយទំហំទិន្នន័យ (Dimensionality Reduction) មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល Hidden semi-Markov (HSMMs) សម្រាប់ការហ្វឹកហាត់បង្កើតជាម៉ូដែលជាមធ្យម (Average Voice Model)។
អនុវត្តបច្ចេកទេសបន្ស៊ាំតាមអ្នកនិយាយ (Speaker Adaptation): សាកល្បងប្រើប្រាស់ទិន្នន័យសម្លេងនិងចលនាមុខក្នុងចំនួនតិចតួច (ប្រហែល ២០ ប្រយោគ) របស់អ្នកនិយាយគោលដៅថ្មី ដើម្បីធ្វើការបន្ស៊ាំម៉ូដែល (Adaptation) ដោយប្រើបច្ចេកទេស CMLLR ដូចដែលបានរៀបរាប់ក្នុងឯកសារស្រាវជ្រាវ។
ធ្វើសមាហរណកម្មជាមួយម៉ូដែល 3D: ប្រើប្រាស់កម្មវិធីបង្កើតហ្គេម និងគំនូរជីវចលឥតគិតថ្លៃដូចជា Blender ឬ Unity ដើម្បីផ្សារភ្ជាប់ជាមួយនឹងលទ្ធផលប៉ារ៉ាម៉ែត្រចលនាដែលម៉ូដែលបញ្ចេញ (Generated parameters) សំដៅបង្កើតជាតួអង្គនិម្មិត 3D (3D Avatar) ដែលអាចនិយាយភាសាខ្មែរបានតាមចលនាមាត់ត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Models (HMMs)	ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់ទស្សន៍ទាយឬតំណាងឱ្យប្រព័ន្ធដែលមានការផ្លាស់ប្តូរស្ថានភាពពីមួយទៅមួយតាមពេលវេលា (ដែលយើងមើលមិនឃើញផ្ទាល់)។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីរៀននិងបង្កើតលំដាប់លំដោយនៃចលនាមាត់ និងសម្លេងនិយាយ។	ដូចជាការទស្សន៍ទាយថាថ្ងៃស្អែកមានភ្លៀងឬអត់ ដោយមើលលើសីតុណ្ហភាពនិងពពកថ្ងៃនេះ ទោះបីជាយើងមិនដឹងច្បាស់ពីចលនាខ្យល់កម្រិតខ្ពស់ក៏ដោយ។
Speaker-adaptive training (SAT)	វិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិតដោយបង្កើត "ម៉ូដែលរួម ឬម៉ូដែលជាមធ្យម" ពីទិន្នន័យមនុស្សច្រើននាក់ជាមុនសិន បន្ទាប់មកទើបយកវាទៅកែសម្រួលបន្តិចបន្តួចឱ្យត្រូវនឹងទម្រង់មុខឬសម្លេងរបស់មនុស្សថ្មីម្នាក់ទៀត ដោយប្រើទិន្នន័យរបស់គាត់តែបន្តិចបន្តួច។	ដូចជាការកាត់អាវធំមួយដែលអាចពាក់បានគ្រប់គ្នាជាមុន រួចទើបយកមកកែទំហំបន្តិចបន្តួចឱ្យតម្រូវរាងអ្នកពាក់ជាក់លាក់ណាម្នាក់ ជាជាងការកាត់អាវថ្មីពីចំណុចសូន្យ។
Principal Component Analysis (PCA)	បច្ចេកទេសគណិតវិទ្យាសម្រាប់កាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ (ក្នុងឯកសារនេះគឺកាត់បន្ថយចំណុចលើផ្ទៃមុខពី ៩៩ មកត្រឹម ៣០ ចំណុច) ដោយរក្សាទុកតែលក្ខណៈសំខាន់ៗបំផុត និងបំបាត់ទិន្នន័យដែលត្រួតស៊ីគ្នា ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលគណនា និងដើរលឿន។	ដូចជាការសង្ខេបសៀវភៅក្រាស់មួយក្បាលឱ្យនៅត្រឹមមួយទំព័រ ដែលនៅតែរក្សាអត្ថន័យសំខាន់ៗដោយបោះបង់ពាក្យមិនចាំបាច់ចោល។
Motion capture	ដំណើរការនៃការចាប់យកចលនារបស់មនុស្សពិតៗទៅក្នុងកុំព្យូទ័រ ដោយប្រើចំណុចចំណាំងផ្លាត (Markers) បិទលើផ្ទៃមុខ និងកាមេរ៉ាពិសេស ដើម្បីកត់ត្រាទីតាំង 3D នៃចលនាមាត់ និងការបញ្ចេញទឹកមុខពេលកំពុងនិយាយ។	ដូចជាការយកអំពូលភ្លើងតូចៗទៅបិទលើសន្លាក់នៃរាងកាយអ្នករាំក្នុងបន្ទប់ងងឹត រួចថតយកតែចលនាពន្លឺទាំងនោះដើម្បីដឹងថាតើគាត់រាំមានទម្រង់យ៉ាងម៉េច។
Constrained Maximum Likelihood Linear Regression (CMLLR)	ក្បួនអាល់កូរីតមគណិតវិទ្យាដែលប្រើសម្រាប់បំលែង និងកែតម្រូវលក្ខណៈទូទៅនៃម៉ូដែលមធ្យម ឱ្យស៊ីគ្នាយ៉ាងជាក់លាក់ទៅនឹងទម្រង់សម្លេង និងចលនាមាត់របស់អ្នកនិយាយគោលដៅនៅក្នុងដំណាក់កាលបន្ស៊ាំម៉ូដែល (Adaptation)។	ដូចជាការប្រើប្រាស់តម្រង (Filter) ក្នុងកាមេរ៉ាទូរស័ព្ទ ដើម្បីប្តូរពណ៌ និងពន្លឺនៃរូបភាពទូទៅឱ្យមើលទៅស្រដៀងនឹងស្តាយថតរូបប្រចាំខ្លួនរបស់អ្នក។
rig / bones	រចនាសម្ព័ន្ធឆ្អឹង ឬចំណុចបញ្ជាដែលលាក់នៅខាងក្នុងតួអង្គ 3D ក្នុងកម្មវិធីកុំព្យូទ័រ (Animation software) ដែលប្រើសម្រាប់ទាញ និងកម្រើកផ្ទៃខាងក្រៅ (ស្បែក) របស់តួអង្គនោះឱ្យមានចលនាដូចមនុស្សពិត។	ដូចជាខ្សែញាក់ដែលចងជាប់នឹងអវយវៈរបស់អាយ៉ង (តុក្កតា) ដើម្បីទាញឱ្យវាមានចលនាតាមការចង់បានរបស់អ្នកបញ្ជា។
Forced alignment	បច្ចេកទេសដែលប្រើកុំព្យូទ័រដើម្បីផ្គូផ្គងសម្លេងដែលថតបាន ជាមួយនឹងអត្ថបទជាអក្សរដោយស្វ័យប្រវត្តិ សំដៅស្វែងរកពេលវេលាចាប់ផ្តើម និងបញ្ចប់យ៉ាងច្បាស់លាស់នៃសូរសព្ទ (Phone) នីមួយៗនៅក្នុងប្រយោគ។	ដូចជាអក្សរក្នុងកម្មវិធីច្រៀងខារ៉ាអូខេ (Karaoke) ដែលលោតប្តូរពណ៌ចំពេលដែលអ្នកចម្រៀងបញ្ចេញសម្លេងពាក្យនោះយ៉ាងជាក់លាក់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖