Original Title: Corpus design for expressive speech: impact of the utterance length
Source: doi.org/10.21437/SpeechProsody.2020-195
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរចនាសំណុំទិន្នន័យសម្រាប់ការនិយាយប្រកបដោយមនោសញ្ចេតនា៖ ឥទ្ធិពលនៃប្រវែងកន្សោមពាក្យ

ចំណងជើងដើម៖ Corpus design for expressive speech: impact of the utterance length

អ្នកនិពន្ធ៖ Meysam Shamsi (Univ Rennes, CNRS, IRISA), Jonathan Chevelu (Univ Rennes, CNRS, IRISA), Nelly Barbot (Univ Rennes, CNRS, IRISA), Damien Lolive (Univ Rennes, CNRS, IRISA)

ឆ្នាំបោះពុម្ព៖ 2020 Speech Prosody

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការចំណាយខ្ពស់ក្នុងការថតសំឡេងសម្រាប់ប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេង (Text-to-Speech) ដោយស្វែងរកវិធីសាស្ត្រជ្រើសរើសប្រយោគដ៏ល្អបំផុតដើម្បីបង្កើតសំណុំទិន្នន័យតូចតែមានគុណភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសសំណុំទិន្នន័យចំនួន ៤ ដោយប្រើប្រាស់សៀវភៅសំឡេងភាសាបារាំងចំនួន ២ និងម៉ាស៊ីន TTS ចំនួន ២ ប្រភេទ ដើម្បីវាយតម្លៃគុណភាពនៃការសំយោគសំឡេង។

ការជ្រើសរើសកន្សោមពាក្យ (Utterance Selection Methods): ការប្រើប្រាស់វិធីសាស្ត្រ Random, Set covering, CNN-KMeans, និង Shortest
ការវាយតម្លៃតាមរយៈរង្វាស់គោលដៅ (Objective Measures): ការគណនាលើការចំណាយលើការតភ្ជាប់ (Concatenation cost) និងចំណាយសរុប (Global cost) នៃប្រព័ន្ធ TTS
ការវាយតម្លៃតាមរយៈការស្តាប់ (Perceptual Evaluation): ការធ្វើតេស្តចំណូលចិត្ត (AB preference test) ដោយអ្នកស្តាប់ចំនួន ១២ នាក់លើសំឡេងចំនួន ២០០ គូ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រជ្រើសរើសកន្សោមពាក្យខ្លីបំផុត (Shortest method) បានផ្តល់នូវសំឡេងដែលមានគុណភាពល្អបំផុត ទាំងក្នុងការវាយតម្លៃដោយប្រព័ន្ធ និងការស្តាប់ផ្ទាល់។
រង្វាស់ប្រពៃណីដូចជាអត្រាគ្របដណ្តប់នៃឯកតា (Unit coverage rate) និងគម្លាតនៃការចែកចាយ (KLD) មិនមែនជារង្វាស់ដ៏ល្អសម្រាប់ទស្សន៍ទាយគុណភាពនៃសំណុំទិន្នន័យសំឡេងទំហំធំនោះទេ។
ការប្រើប្រាស់ប្រយោគខ្លីៗក្នុងសំណុំទិន្នន័យ មិនបានធ្វើឱ្យមានការធ្លាក់ចុះនូវសមត្ថភាពរបស់ប្រព័ន្ធ TTS ក្នុងការបង្កើតសំឡេងសម្រាប់ប្រយោគវែងៗនោះទេ ដោយមេគុណសហសម្ព័ន្ធ (Pearson correlation) មានកម្រិតទាបជាង ០.១២ ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Random Selection ការជ្រើសរើសដោយចៃដន្យ	ងាយស្រួលក្នុងការអនុវត្ត និងរក្សាបាននូវទម្រង់នៃការចែកចាយទិន្នន័យដើម (KLD ទាប)។	លទ្ធផលមិនសូវមានស្ថិរភាព ហើយគុណភាពនៃការសំយោគសំឡេងស្ថិតនៅកម្រិតមធ្យម។	មានអត្រាចំណាយ (Global Cost) ខ្ពស់ជាងវិធីសាស្ត្រ Shortest ក្នុងការវាយតម្លៃដោយប្រព័ន្ធ។
Set Covering ការគ្របដណ្តប់សំណុំឯកតា (Greedy Algorithm)	ធានាបាននូវការគ្របដណ្តប់ឯកតាសំឡេង (Diphones/Triphones) ស្ទើរតែទាំងអស់ដែលមានក្នុងអត្ថបទដើម។	មានទំនោរជ្រើសរើសប្រយោគវែងៗ ដែលធ្វើឱ្យការថតសំឡេងមានភាពស្មុគស្មាញ និងទទួលបានសំឡេងរឹងៗ។	ផ្តល់លទ្ធផលអន់បំផុត ដោយមានអត្រាចំណាយ TTS ខ្ពស់ជាងការជ្រើសរើសដោយចៃដន្យទៅទៀត។
CNN-KMeans ការដាក់ជាបណ្ដុំដោយប្រើ CNN និង KMeans	ជាវិធីសាស្ត្រទំនើប (State-of-the-art) ដែលប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដើម្បីរៀបចំទិន្នន័យតាមលក្ខណៈភាសាវិទ្យា។	ទាមទារការរៀបចំកូដស្មុគស្មាញ និងចំណាយធនធានកុំព្យូទ័រក្នុងការហ្វឹកហាត់ម៉ូដែល Auto-encoder។	ចាញ់វិធីសាស្ត្រ Shortest ទាំងក្នុងការវាយតម្លៃដោយប្រព័ន្ធ និងការធ្វើតេស្តស្តាប់ដោយមនុស្ស។
Shortest ការជ្រើសរើសកន្សោមពាក្យខ្លីបំផុត	សាមញ្ញបំផុត ងាយស្រួលសម្រាប់អ្នកបញ្ចេញសំឡេងអាន និងបង្កើតបាននូវបំរែបំរួលសម្លេង (Prosody) ច្រើនប្រភេទ។	មិនធានាបានការគ្របដណ្តប់គ្រប់ឯកតាសំឡេងទាំងអស់ឡើយ (KLD ខ្ពស់)។	ទទួលបានចំណាត់ថ្នាក់លេខ១ ពីអ្នកស្តាប់ និងមានតម្លៃចំណាយ TTS (Global Cost) ទាបបំផុត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាសំឡេងដែលមានគុណភាពខ្ពស់ ព្រមទាំងពេលវេលាសម្រាប់ការវាយតម្លៃដោយមនុស្សដោយផ្ទាល់។

Dataset: សៀវភៅសំឡេងភាសាបារាំងចំនួន ២ (មានរយៈពេលប្រហែល ១០ ម៉ោងក្នុងមួយសៀវភៅ)។
Software: ប្រព័ន្ធ Text-to-Speech ចំនួន២ប្រភេទគឺ Expert TTS (Unit Selection) និង Hybrid TTS។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ (មាន GPU) សម្រាប់ដំណើរការម៉ូដែល DNN ក្នុងប្រព័ន្ធ Hybrid TTS និង CNN auto-encoder។
Human Resources: អ្នកស្ម័គ្រចិត្តចំនួន ១២ នាក់ សម្រាប់ការធ្វើតេស្តវាយតម្លៃគុណភាពសំឡេង (Perceptual AB preference test)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សៀវភៅសំឡេងភាសាបារាំងតែប៉ុណ្ណោះ (អ្នកអានប្រុសម្នាក់ និងស្រីម្នាក់) ដែលមិនមែនជាភាសាដែលមានសំនៀងឡើងចុះអត្ថន័យខុសគ្នា (Tonal language) នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ភាសាខ្មែរមានទម្រង់សូរសព្ទខុសគ្នាឆ្ងាយ មានស្រៈច្រើន និងការបញ្ចេញសំឡេងស្មុគស្មាញ ដូច្នេះការប្រើប្រាស់ត្រឹមតែប្រយោគខ្លីៗ អាចនឹងមិនគ្រប់គ្រាន់ក្នុងការគ្របដណ្តប់ស្រៈឬព្យញ្ជនៈកម្រៗឡើយ ទោះបីជាវិធីនេះជួយឱ្យសំឡេងមានលក្ខណៈធម្មជាតិក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ «ជ្រើសរើសប្រយោគខ្លីបំផុត» នេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័នស្រាវជ្រាវនៅកម្ពុជា ព្រោះវាចំណាយពេលតិច និងងាយស្រួលរៀបចំទិន្នន័យ។

ការបង្កើតប្រព័ន្ធ TTS ភាសាខ្មែរ (NIPTICT/CADT): អ្នកស្រាវជ្រាវអាចសាកល្បងប្រើវិធីនេះដើម្បីជ្រើសរើសប្រយោគខ្លីៗពីអត្ថបទសារព័ត៌មាន ដើម្បីថតសំឡេង និងហ្វឹកហាត់ AI ឱ្យអានព័ត៌មានដោយស្វ័យប្រវត្តិ។
ប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិ IVR សម្រាប់ក្រុមហ៊ុនទូរគមនាគមន៍ (Smart, Cellcard): ក្រុមហ៊ុនអាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីរៀបចំសេណារីយ៉ូថតសំឡេងអ្នកប្រកាស ដែលមានការបញ្ចេញសំឡេងច្បាស់លាស់ មានមនោសញ្ចេតនា និងសន្សំសំចៃថវិកាថតសំឡេង។
សៀវភៅសំឡេងសម្រាប់អ្នកពិការភ្នែក (National Institute for Special Education): អាចយកគំនិតនេះទៅបង្កើតសំឡេងនិម្មិតដោយប្រមូលប្រយោគខ្លីៗពីសៀវភៅរឿង ដើម្បីឱ្យ AI មានសំឡេងអានរស់រវើក មិនរឹងត្អឹង។

ជារួម វិធីសាស្ត្រនេះផ្តល់នូវផ្លូវកាត់ដ៏ងាយស្រួល ក្នុងការរៀបចំសំណុំទិន្នន័យថតសំឡេង (Voice Corpus) ប្រកបដោយគុណភាព ដោយមិនតម្រូវឱ្យមានក្បួនគណិតវិទ្យាស្មុគស្មាញឡើយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូល និងបំបែកទិន្នន័យអត្ថបទ: ប្រមូលទិន្នន័យពីវីគីភីឌា ឬគេហទំព័រព័ត៌មាន រួចបំបែកអត្ថបទទាំងនោះជាល្បះឬប្រយោគខ្លីៗ ដោយប្រើប្រាស់ Python (NLTK ឬ Regular Expressions)។
អនុវត្តក្បួន Shortest Selection: សរសេរកូដ Python ដើម្បីរាប់ចំនួនតួអក្សរ ឬពាង្គក្នុងមួយប្រយោគ រួចតម្រៀបបញ្ជីពីខ្លីទៅវែង។ ជ្រើសរើសយកប្រយោគខ្លីៗបំផុត រហូតដល់បានទំហំទិន្នន័យដែលចង់បាន (ឧទាហរណ៍៖ ចំនួនប្រយោគដែលអាចថតបាន ១ ម៉ោង)។
ការថតសំឡេងដោយអ្នកជំនាញ: យកបញ្ជីប្រយោគខ្លីៗទាំងនោះទៅឱ្យអ្នកប្រកាស (Voice Talent) ធ្វើការថតសំឡេង នៅក្នុងបន្ទប់ស្ទូឌីយោដែលមានសភាពស្ងាត់ល្អ ដោយប្រើប្រាស់កម្មវិធីដូចជា Audacity ឬ Adobe Audition។
ហ្វឹកហាត់ម៉ូដែលសំឡេង (Model Training): ប្រើប្រាស់ឧបករណ៍បច្ចេកវិទ្យាបើកចំហរដូចជា Coqui TTS ឬ VITS ដើម្បីហ្វឹកហាត់ម៉ូដែលបំប្លែងអត្ថបទទៅជាសំឡេង ដោយផ្គូផ្គងអត្ថបទជាមួយសំឡេងដែលបានថត។
ធ្វើតេស្ត និងវាយតម្លៃដោយអ្នកស្តាប់: យកអត្ថបទថ្មីដែលម៉ូដែលមិនធ្លាប់ស្គាល់ មកឱ្យប្រព័ន្ធអាន រួចរៀបចំការធ្វើតេស្តស្តាប់ (AB Preference Test) ជាមួយអ្នកស្ម័គ្រចិត្តដើម្បីវាយតម្លៃភាពរលូន និងលក្ខណៈធម្មជាតិនៃសំឡេងដែលត្រូវបានសំយោគ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Text-to-Speech (TTS)	ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីបំប្លែងអត្ថបទសរសេរ ទៅជាសំឡេងនិយាយរបស់មនុស្សដោយស្វ័យប្រវត្តិ។	ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលបញ្ចេញសំឡេងអានរាល់ពាក្យដែលយើងវាយបញ្ចូលទៅក្នុងកុំព្យូទ័រឱ្យយើងស្តាប់។
Voice Corpus	សំណុំទិន្នន័យដែលផ្ទុកនូវឯកសារសំឡេងថត និងអត្ថបទដែលត្រូវគ្នា ដែលអ្នកស្រាវជ្រាវប្រើប្រាស់សម្រាប់បង្ហាត់ប្រព័ន្ធបញ្ចេញសំឡេង (AI) ឱ្យចេះនិយាយ។	ដូចជាវចនានុក្រមសំឡេង ដែលកុំព្យូទ័ររៀនសូត្រពីរបៀបបញ្ចេញសំឡេងតាមរយៈការស្តាប់គំរូទាំងនោះជាដដែលៗ។
Utterance	កន្សោមពាក្យ ឬប្រយោគពេញលេញមួយដែលត្រូវបានបញ្ចេញសំឡេង តាំងពីចាប់ផ្តើមរហូតដល់បញ្ចប់ការនិយាយមុនពេលដកដង្ហើម ឬឈប់។	ដូចជារបៀបដែលយើងនិយាយមួយឃ្លាៗ ឬមួយប្រយោគ មុនពេលសម្រាកដកដង្ហើមម្តង។
Set covering problem	បញ្ហានៃការស្វែងរក និងជ្រើសរើសសំណុំទិន្នន័យរង (Sub-corpus) ឱ្យបានតូចបំផុត តែត្រូវធានាថាវាមានផ្ទុកនូវគ្រប់ឯកតាសូរសព្ទទាំងអស់ដែលមានក្នុងអត្ថបទដើម។	ដូចជាការរើសសិស្សមួយក្រុមតូចបំផុត ប៉ុន្តែធានាថាមានអ្នកចេះលេងឧបករណ៍តន្ត្រីគ្រប់ប្រភេទដើម្បីបង្កើតជាក្រុមតន្ត្រីមួយដែលពេញលេញ។
Kullback-Leibler Divergence (KLD)	រង្វាស់គណិតវិទ្យាដែលប្រើដើម្បីវាស់ពីគម្លាត ឬភាពខុសគ្នារវាងរបាយនៃការចែកចាយទិន្នន័យពីរ (ឧទាហរណ៍ ភាពខុសគ្នានៃការចែកចាយសូរសព្ទរវាងសំណុំទិន្នន័យតូច និងអត្ថបទដើមទាំងមូល)។	ដូចជាការប្រៀបធៀបរូបមន្តធ្វើម្ហូបពីរមុខ ដើម្បីមើលថាតើសមាមាត្រនៃការប្រើប្រាស់គ្រឿងផ្សំមានភាពខុសគ្នាកម្រិតណា។
Diphone / Triphone	ឯកតាសំឡេងតូចៗដែលផ្សំឡើងពីសូរសព្ទពីរ (Diphone) ឬបី (Triphone) ជាប់គ្នា ដែលប្រព័ន្ធ TTS កាត់យកមកប្រើដើម្បីផ្គុំជាពាក្យពេញលេញ។	ដូចជាបំណែកឡេហ្គោ (Lego) តូចៗ ដែលគេយកមកតភ្ជាប់គ្នាដើម្បីសាងសង់ជារូបរាងអ្វីមួយ។
CNN-KMeans	វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដើម្បីទាញយកលក្ខណៈសម្បត្តិនៃទិន្នន័យ និងក្បួន KMeans ដើម្បីចាត់ថ្នាក់ទិន្នន័យជាក្រុមៗ សម្រាប់ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិ។	ដូចជាម៉ាស៊ីនដែលចេះស្គាល់និងបែងចែកប្រភេទផ្លែឈើតាមពណ៌និងទំហំ (CNN) រួចរៀបចំវាដាក់កន្ត្រកផ្សេងៗគ្នាដោយស្វ័យប្រវត្តិ (KMeans)។
Prosody / Prosodic variation	បម្រែបម្រួលនៃសំនៀងឡើងចុះ ចង្វាក់ កម្រិតសំឡេង និងការសង្កត់ន័យក្នុងការនិយាយ ដែលធ្វើឱ្យការនិយាយមានមនោសញ្ចេតនា និងលក្ខណៈធម្មជាតិ។	ដូចជាការនិយាយដែលមានការឡើងចុះសម្លេងតាមកាលៈទេសៈ មិនមែនស្មើធេងគ្មានព្រលឹងដូចមនុស្សយន្តនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖