Original Title: Corpus design for expressive speech: impact of the utterance length
Source: doi.org/10.21437/SpeechProsody.2020-195
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរចនាសំណុំទិន្នន័យសម្រាប់ការនិយាយប្រកបដោយមនោសញ្ចេតនា៖ ឥទ្ធិពលនៃប្រវែងកន្សោមពាក្យ

ចំណងជើងដើម៖ Corpus design for expressive speech: impact of the utterance length

អ្នកនិពន្ធ៖ Meysam Shamsi (Univ Rennes, CNRS, IRISA), Jonathan Chevelu (Univ Rennes, CNRS, IRISA), Nelly Barbot (Univ Rennes, CNRS, IRISA), Damien Lolive (Univ Rennes, CNRS, IRISA)

ឆ្នាំបោះពុម្ព៖ 2020 Speech Prosody

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការចំណាយខ្ពស់ក្នុងការថតសំឡេងសម្រាប់ប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេង (Text-to-Speech) ដោយស្វែងរកវិធីសាស្ត្រជ្រើសរើសប្រយោគដ៏ល្អបំផុតដើម្បីបង្កើតសំណុំទិន្នន័យតូចតែមានគុណភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសសំណុំទិន្នន័យចំនួន ៤ ដោយប្រើប្រាស់សៀវភៅសំឡេងភាសាបារាំងចំនួន ២ និងម៉ាស៊ីន TTS ចំនួន ២ ប្រភេទ ដើម្បីវាយតម្លៃគុណភាពនៃការសំយោគសំឡេង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Selection
ការជ្រើសរើសដោយចៃដន្យ
ងាយស្រួលក្នុងការអនុវត្ត និងរក្សាបាននូវទម្រង់នៃការចែកចាយទិន្នន័យដើម (KLD ទាប)។ លទ្ធផលមិនសូវមានស្ថិរភាព ហើយគុណភាពនៃការសំយោគសំឡេងស្ថិតនៅកម្រិតមធ្យម។ មានអត្រាចំណាយ (Global Cost) ខ្ពស់ជាងវិធីសាស្ត្រ Shortest ក្នុងការវាយតម្លៃដោយប្រព័ន្ធ។
Set Covering
ការគ្របដណ្តប់សំណុំឯកតា (Greedy Algorithm)
ធានាបាននូវការគ្របដណ្តប់ឯកតាសំឡេង (Diphones/Triphones) ស្ទើរតែទាំងអស់ដែលមានក្នុងអត្ថបទដើម។ មានទំនោរជ្រើសរើសប្រយោគវែងៗ ដែលធ្វើឱ្យការថតសំឡេងមានភាពស្មុគស្មាញ និងទទួលបានសំឡេងរឹងៗ។ ផ្តល់លទ្ធផលអន់បំផុត ដោយមានអត្រាចំណាយ TTS ខ្ពស់ជាងការជ្រើសរើសដោយចៃដន្យទៅទៀត។
CNN-KMeans
ការដាក់ជាបណ្ដុំដោយប្រើ CNN និង KMeans
ជាវិធីសាស្ត្រទំនើប (State-of-the-art) ដែលប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដើម្បីរៀបចំទិន្នន័យតាមលក្ខណៈភាសាវិទ្យា។ ទាមទារការរៀបចំកូដស្មុគស្មាញ និងចំណាយធនធានកុំព្យូទ័រក្នុងការហ្វឹកហាត់ម៉ូដែល Auto-encoder។ ចាញ់វិធីសាស្ត្រ Shortest ទាំងក្នុងការវាយតម្លៃដោយប្រព័ន្ធ និងការធ្វើតេស្តស្តាប់ដោយមនុស្ស។
Shortest
ការជ្រើសរើសកន្សោមពាក្យខ្លីបំផុត
សាមញ្ញបំផុត ងាយស្រួលសម្រាប់អ្នកបញ្ចេញសំឡេងអាន និងបង្កើតបាននូវបំរែបំរួលសម្លេង (Prosody) ច្រើនប្រភេទ។ មិនធានាបានការគ្របដណ្តប់គ្រប់ឯកតាសំឡេងទាំងអស់ឡើយ (KLD ខ្ពស់)។ ទទួលបានចំណាត់ថ្នាក់លេខ១ ពីអ្នកស្តាប់ និងមានតម្លៃចំណាយ TTS (Global Cost) ទាបបំផុត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាសំឡេងដែលមានគុណភាពខ្ពស់ ព្រមទាំងពេលវេលាសម្រាប់ការវាយតម្លៃដោយមនុស្សដោយផ្ទាល់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សៀវភៅសំឡេងភាសាបារាំងតែប៉ុណ្ណោះ (អ្នកអានប្រុសម្នាក់ និងស្រីម្នាក់) ដែលមិនមែនជាភាសាដែលមានសំនៀងឡើងចុះអត្ថន័យខុសគ្នា (Tonal language) នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ភាសាខ្មែរមានទម្រង់សូរសព្ទខុសគ្នាឆ្ងាយ មានស្រៈច្រើន និងការបញ្ចេញសំឡេងស្មុគស្មាញ ដូច្នេះការប្រើប្រាស់ត្រឹមតែប្រយោគខ្លីៗ អាចនឹងមិនគ្រប់គ្រាន់ក្នុងការគ្របដណ្តប់ស្រៈឬព្យញ្ជនៈកម្រៗឡើយ ទោះបីជាវិធីនេះជួយឱ្យសំឡេងមានលក្ខណៈធម្មជាតិក៏ដោយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ «ជ្រើសរើសប្រយោគខ្លីបំផុត» នេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័នស្រាវជ្រាវនៅកម្ពុជា ព្រោះវាចំណាយពេលតិច និងងាយស្រួលរៀបចំទិន្នន័យ។

ជារួម វិធីសាស្ត្រនេះផ្តល់នូវផ្លូវកាត់ដ៏ងាយស្រួល ក្នុងការរៀបចំសំណុំទិន្នន័យថតសំឡេង (Voice Corpus) ប្រកបដោយគុណភាព ដោយមិនតម្រូវឱ្យមានក្បួនគណិតវិទ្យាស្មុគស្មាញឡើយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងបំបែកទិន្នន័យអត្ថបទ: ប្រមូលទិន្នន័យពីវីគីភីឌា ឬគេហទំព័រព័ត៌មាន រួចបំបែកអត្ថបទទាំងនោះជាល្បះឬប្រយោគខ្លីៗ ដោយប្រើប្រាស់ Python (NLTK ឬ Regular Expressions)
  2. អនុវត្តក្បួន Shortest Selection: សរសេរកូដ Python ដើម្បីរាប់ចំនួនតួអក្សរ ឬពាង្គក្នុងមួយប្រយោគ រួចតម្រៀបបញ្ជីពីខ្លីទៅវែង។ ជ្រើសរើសយកប្រយោគខ្លីៗបំផុត រហូតដល់បានទំហំទិន្នន័យដែលចង់បាន (ឧទាហរណ៍៖ ចំនួនប្រយោគដែលអាចថតបាន ១ ម៉ោង)។
  3. ការថតសំឡេងដោយអ្នកជំនាញ: យកបញ្ជីប្រយោគខ្លីៗទាំងនោះទៅឱ្យអ្នកប្រកាស (Voice Talent) ធ្វើការថតសំឡេង នៅក្នុងបន្ទប់ស្ទូឌីយោដែលមានសភាពស្ងាត់ល្អ ដោយប្រើប្រាស់កម្មវិធីដូចជា AudacityAdobe Audition
  4. ហ្វឹកហាត់ម៉ូដែលសំឡេង (Model Training): ប្រើប្រាស់ឧបករណ៍បច្ចេកវិទ្យាបើកចំហរដូចជា Coqui TTSVITS ដើម្បីហ្វឹកហាត់ម៉ូដែលបំប្លែងអត្ថបទទៅជាសំឡេង ដោយផ្គូផ្គងអត្ថបទជាមួយសំឡេងដែលបានថត។
  5. ធ្វើតេស្ត និងវាយតម្លៃដោយអ្នកស្តាប់: យកអត្ថបទថ្មីដែលម៉ូដែលមិនធ្លាប់ស្គាល់ មកឱ្យប្រព័ន្ធអាន រួចរៀបចំការធ្វើតេស្តស្តាប់ (AB Preference Test) ជាមួយអ្នកស្ម័គ្រចិត្តដើម្បីវាយតម្លៃភាពរលូន និងលក្ខណៈធម្មជាតិនៃសំឡេងដែលត្រូវបានសំយោគ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Text-to-Speech (TTS) ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីបំប្លែងអត្ថបទសរសេរ ទៅជាសំឡេងនិយាយរបស់មនុស្សដោយស្វ័យប្រវត្តិ។ ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលបញ្ចេញសំឡេងអានរាល់ពាក្យដែលយើងវាយបញ្ចូលទៅក្នុងកុំព្យូទ័រឱ្យយើងស្តាប់។
Voice Corpus សំណុំទិន្នន័យដែលផ្ទុកនូវឯកសារសំឡេងថត និងអត្ថបទដែលត្រូវគ្នា ដែលអ្នកស្រាវជ្រាវប្រើប្រាស់សម្រាប់បង្ហាត់ប្រព័ន្ធបញ្ចេញសំឡេង (AI) ឱ្យចេះនិយាយ។ ដូចជាវចនានុក្រមសំឡេង ដែលកុំព្យូទ័ររៀនសូត្រពីរបៀបបញ្ចេញសំឡេងតាមរយៈការស្តាប់គំរូទាំងនោះជាដដែលៗ។
Utterance កន្សោមពាក្យ ឬប្រយោគពេញលេញមួយដែលត្រូវបានបញ្ចេញសំឡេង តាំងពីចាប់ផ្តើមរហូតដល់បញ្ចប់ការនិយាយមុនពេលដកដង្ហើម ឬឈប់។ ដូចជារបៀបដែលយើងនិយាយមួយឃ្លាៗ ឬមួយប្រយោគ មុនពេលសម្រាកដកដង្ហើមម្តង។
Set covering problem បញ្ហានៃការស្វែងរក និងជ្រើសរើសសំណុំទិន្នន័យរង (Sub-corpus) ឱ្យបានតូចបំផុត តែត្រូវធានាថាវាមានផ្ទុកនូវគ្រប់ឯកតាសូរសព្ទទាំងអស់ដែលមានក្នុងអត្ថបទដើម។ ដូចជាការរើសសិស្សមួយក្រុមតូចបំផុត ប៉ុន្តែធានាថាមានអ្នកចេះលេងឧបករណ៍តន្ត្រីគ្រប់ប្រភេទដើម្បីបង្កើតជាក្រុមតន្ត្រីមួយដែលពេញលេញ។
Kullback-Leibler Divergence (KLD) រង្វាស់គណិតវិទ្យាដែលប្រើដើម្បីវាស់ពីគម្លាត ឬភាពខុសគ្នារវាងរបាយនៃការចែកចាយទិន្នន័យពីរ (ឧទាហរណ៍ ភាពខុសគ្នានៃការចែកចាយសូរសព្ទរវាងសំណុំទិន្នន័យតូច និងអត្ថបទដើមទាំងមូល)។ ដូចជាការប្រៀបធៀបរូបមន្តធ្វើម្ហូបពីរមុខ ដើម្បីមើលថាតើសមាមាត្រនៃការប្រើប្រាស់គ្រឿងផ្សំមានភាពខុសគ្នាកម្រិតណា។
Diphone / Triphone ឯកតាសំឡេងតូចៗដែលផ្សំឡើងពីសូរសព្ទពីរ (Diphone) ឬបី (Triphone) ជាប់គ្នា ដែលប្រព័ន្ធ TTS កាត់យកមកប្រើដើម្បីផ្គុំជាពាក្យពេញលេញ។ ដូចជាបំណែកឡេហ្គោ (Lego) តូចៗ ដែលគេយកមកតភ្ជាប់គ្នាដើម្បីសាងសង់ជារូបរាងអ្វីមួយ។
CNN-KMeans វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដើម្បីទាញយកលក្ខណៈសម្បត្តិនៃទិន្នន័យ និងក្បួន KMeans ដើម្បីចាត់ថ្នាក់ទិន្នន័យជាក្រុមៗ សម្រាប់ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិ។ ដូចជាម៉ាស៊ីនដែលចេះស្គាល់និងបែងចែកប្រភេទផ្លែឈើតាមពណ៌និងទំហំ (CNN) រួចរៀបចំវាដាក់កន្ត្រកផ្សេងៗគ្នាដោយស្វ័យប្រវត្តិ (KMeans)។
Prosody / Prosodic variation បម្រែបម្រួលនៃសំនៀងឡើងចុះ ចង្វាក់ កម្រិតសំឡេង និងការសង្កត់ន័យក្នុងការនិយាយ ដែលធ្វើឱ្យការនិយាយមានមនោសញ្ចេតនា និងលក្ខណៈធម្មជាតិ។ ដូចជាការនិយាយដែលមានការឡើងចុះសម្លេងតាមកាលៈទេសៈ មិនមែនស្មើធេងគ្មានព្រលឹងដូចមនុស្សយន្តនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖