Original Title: Automatic sentence selection from speech corpora including diverse speech for improved HMM-TTS synthesis quality
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិពីកម្រងទិន្នន័យសំឡេងរួមមានសំឡេងចម្រុះសម្រាប់ការធ្វើឱ្យប្រសើរឡើងនូវគុណភាពនៃការសំយោគសំឡេង HMM-TTS

ចំណងជើងដើម៖ Automatic sentence selection from speech corpora including diverse speech for improved HMM-TTS synthesis quality

អ្នកនិពន្ធ៖ Norbert Braunschweiler (Toshiba Research Europe Ltd.), Sabine Buchholz (Toshiba Research Europe Ltd.)

ឆ្នាំបោះពុម្ព៖ 2011 INTERSPEECH

វិស័យសិក្សា៖ Speech Synthesis / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់សៀវភៅសំឡេង (Audiobooks) ដែលមានទម្រង់សំឡេងចម្រុះ (Diverse speech) សម្រាប់ការបណ្តុះបណ្តាលប្រព័ន្ធសំយោគសំឡេង HMM-TTS ដែលជាទូទៅធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតវិធីសាស្ត្រជ្រើសរើសប្រយោគអព្យាក្រឹតដោយស្វ័យប្រវត្តិផ្អែកលើច្បាប់ (Rule-based approach) និងធ្វើការវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់ (Listening tests) ធៀបនឹងការជ្រើសរើសដោយដៃនិងទិន្នន័យដើមទាំងមូល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Full Training Set (Voice FULL)
ការប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាលទាំងស្រុង (Voice FULL)
ប្រើប្រាស់ទិន្នន័យបានច្រើនជាអតិបរមា និងមិនទាមទារការចំណាយពេលវេលាក្នុងការចម្រាញ់ទិន្នន័យ។ ការរាប់បញ្ចូលសំឡេងមិនអព្យាក្រឹតច្រើន ធ្វើឱ្យម៉ូដែលបាត់បង់លំនឹង (Over-smoothing) និងធ្វើឱ្យគុណភាពសំយោគសំឡេងធ្លាក់ចុះ។ ទទួលបានការពេញចិត្តពីអ្នកស្តាប់ត្រឹមតែ ៣២,៥% ទៅ ៣២,៩% ប៉ុណ្ណោះធៀបនឹងវិធីសាស្ត្រចម្រាញ់ទិន្នន័យផ្សេងទៀត។
Manual Selection (Voice NEUTRAL_hand)
ការជ្រើសរើសទិន្នន័យអព្យាក្រឹតដោយមនុស្ស (Voice NEUTRAL_hand)
ផ្តល់គុណភាពសំឡេងល្អបំផុត ព្រោះមនុស្សអាចវាយតម្លៃកត្តាស្មុគស្មាញដូចជាគុណភាពសំឡេង អត្រានៃការនិយាយ និងការបង្ខូចទ្រង់ទ្រាយបានច្បាស់។ ទាមទារកម្លាំងពលកម្ម និងពេលវេលាយូរខ្លាំង ដែលមិនអាចអនុវត្តបានជាក់ស្តែងសម្រាប់កម្រងទិន្នន័យសៀវភៅសំឡេងដែលមានទំហំធំ។ ទទួលបានការពេញចិត្តខ្ពស់បំផុត ៥៣,៩% ធៀបនឹងការមិនចម្រាញ់ទិន្នន័យ និង ៤៧,៧% ធៀបនឹងការជ្រើសរើសដោយស្វ័យប្រវត្តិ។
Automatic Selection (Voice NEUTRAL_auto)
ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិ (Voice NEUTRAL_auto)
អាចដំណើរការចម្រាញ់ទិន្នន័យខ្នាតធំបានយ៉ាងលឿន និងធ្វើឱ្យគុណភាពសំយោគសំឡេងប្រសើរជាងការប្រើទិន្នន័យស្រមោចគួរឱ្យកត់សម្គាល់។ មិនទាន់មានភាពសុក្រឹតដូចមនុស្សនៅឡើយ ដោយមានការកាត់ចោលប្រយោគត្រឹមត្រូវខ្លះ និងពឹងផ្អែកលើការកំណត់តម្លៃ (Threshold) ដោយដៃ។ ទទួលបានការពេញចិត្ត ៤៩,៣% ធៀបនឹងការមិនចម្រាញ់ទិន្នន័យ (៣២,៩%) ទោះបីជាមានកម្រិតទាបជាងការជ្រើសរើសដោយមនុស្សបន្តិចក្តី។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ វាទាមទារកម្មវិធីសម្រាប់ស្រخراجលក្ខណៈសូរសព្ទនិងកម្លាំងម៉ាស៊ីនដើម្បីបណ្តុះបណ្តាលម៉ូដែល HMM-TTS។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសៀវភៅសំឡេងភាសាអង់គ្លេស-អាមេរិក អានដោយបុរសតែម្នាក់ និងជារចនាបថអត្ថបទក្នុងទសវត្សរ៍ឆ្នាំ ១៨៨០។ លក្ខណៈអត្ថបទដែលបានប្រើដើម្បីច្រានចោលប្រយោគ (ឧទាហរណ៍ សញ្ញាសម្រង់អង់គ្លេស, ពាក្យឧទាន "Ah, Oh") គឺមានលក្ខណៈឯកតោភាគី។ សម្រាប់ប្រទេសកម្ពុជា ការចម្លងវិធីសាស្ត្រនេះទាមទារឱ្យមានការកែតម្រូវច្បាប់វិនិច្ឆ័យទាំងនេះឱ្យស្របតាមរចនាសម្ព័ន្ធវេយ្យាករណ៍ ការបញ្ចេញសំឡេង និងវណ្ណយុត្តិរបស់ភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការចម្រាញ់ទិន្នន័យដោយស្វ័យប្រវត្តិនេះមានសក្តានុពលខ្ពស់សម្រាប់កម្ពុជា ក្នុងការកសាងប្រព័ន្ធ Text-to-Speech (TTS) ភាសាខ្មែរដោយប្រើប្រាស់ទិន្នន័យប្រភពបើកចំហដែលមានស្រាប់។

សរុបមក ការអនុវត្តវិធានការច្រានចោលទិន្នន័យមិនអព្យាក្រឹតផ្អែកលើលក្ខណៈសូរសព្ទនិងអត្ថបទ គឺជាវិធីសាស្ត្រដ៏សាមញ្ញប៉ុន្តែមានប្រសិទ្ធភាពដែលអ្នកស្រាវជ្រាវកម្ពុជាអាចចាប់ផ្តើមអនុវត្តបានភ្លាមៗក្នុងការកសាងមូលដ្ឋានទិន្នន័យសំឡេងភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូលនិងតម្រឹមទិន្នន័យសៀវភៅសំឡេងខ្មែរ: ប្រមូលឯកសារអូឌីយ៉ូអានសៀវភៅខ្មែរនិងអត្ថបទដើម រួចប្រើប្រាស់បច្ចេកទេស Forced Alignment តាមរយៈឧបករណ៍ដូចជា MFA (Montreal Forced Aligner) ដើម្បីកាត់ប្រយោគនិងផ្គូផ្គងអត្ថបទជាមួយសំឡេងឱ្យបានត្រឹមត្រូវ។
  2. ស្រخراجនិងវិភាគលក្ខណៈសូរសព្ទ: ប្រើប្រាស់បណ្ណាល័យ LibrosaParselmouth (ផ្អែកលើ Praat) ក្នុង Python ដើម្បីគណនាកម្រិតប្រេកង់ (f0) និងទំហំថាមពលសំឡេង (RMS amplitude) ជាមធ្យមនៃកម្រងទិន្នន័យ ដើម្បីរកនិងកាត់ចោលប្រយោគដែលលឺខ្លាំងពេក ឬខ្សឹប។
  3. បង្កើតច្បាប់ចម្រាញ់អត្ថបទខ្មែរ (Text Heuristics): សរសេរកូដ Regex ក្នុង Python ដើម្បីច្រានចោលប្រយោគសន្ទនា (ដែលមានសញ្ញាអញ្ញបរិវិត្ត « ») ពាក្យឧទាន (ឧទាហរណ៍ ឱ! អ្ហា!) និងប្រយោគដែលមានបញ្ហា Text Normalization ដូចជាតួអក្សរកាត់ ឬលេខកូដស្មុគស្មាញ។
  4. ហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេង (TTS Training): យកទិន្នន័យអព្យាក្រឹតដែលបានចម្រាញ់រួច ទៅហ្វឹកហាត់ក្នុងប្រព័ន្ធ TTS។ ទោះបីឯកសារដើមប្រើ HMM ក៏ដោយ អ្នកស្រាវជ្រាវគួរសាកល្បងប្រើប្រាស់ស្ថាបត្យកម្មទំនើបៗដូចជា VITSFastSpeech2 ជាមួយទិន្នន័យដែលបានសម្អាតនេះ។
  5. វាយតម្លៃគុណភាពចំណូលចិត្តរបស់អ្នកស្តាប់: រៀបចំការធ្វើតេស្ត AB Testing ដោយឱ្យអ្នកស្ម័គ្រចិត្តស្តាប់ប្រៀបធៀបសំឡេងដែលបង្កើតចេញពីទិន្នន័យពេញលេញ និងទិន្នន័យដែលបានចម្រាញ់ ដោយប្រើប្រាស់ Google FormsProlific ដើម្បីប្រមូលពិន្ទុចំណូលចិត្ត (Preference Score)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
HMM-TTS ប្រព័ន្ធសំយោគសំឡេងដោយប្រើម៉ូដែល Hidden Markov ដែលប្រើប្រាស់ស្ថិតិនិងគណិតវិទ្យាដើម្បីរៀនពីទិន្នន័យសំឡេងរបស់មនុស្ស រួចយកចំណេះដឹងនោះទៅបង្កើតសំឡេងថ្មីពីអត្ថបទដែលទើបនឹងបញ្ចូល។ ដូចជាសិល្បករម្នាក់ដែលរៀនពីទម្រង់សំឡេងរបស់មនុស្សជាច្រើន រួចយកមកផ្សំគ្នាបង្កើតជាសំឡេងថ្មីមួយតាមអត្ថបទដែលយើងវាយបញ្ចូលទៅឱ្យ។
f0 រលកប្រេកង់មូលដ្ឋាននៃសំឡេង (Fundamental frequency) ដែលជាទូទៅត្រូវបានប្រើដើម្បីវាស់ពីកម្រិតភាពខ្ពស់ឬទាប (pitch) នៃសំឡេងរបស់មនុស្ស។ នៅក្នុងការសិក្សានេះ គេប្រើវាដើម្បីរកមើលប្រយោគដែលមានការបញ្ចេញសំឡេងមិនប្រក្រតី (ឧទាហរណ៍ ស្រែក ឬ យំ)។ ដូចជាការចុចគ្រាប់ចុចព្យាណូ បើចុចខាងស្តាំសំឡេងតូចស្រួច (f0 ខ្ពស់) បើចុចខាងឆ្វេងសំឡេងធំគ្រលរ (f0 ទាប)។
RMS amplitude រង្វាស់នៃថាមពលមធ្យម ឬកម្រិតភាពខ្លាំងនៃការបន្លឺសំឡេង (loudness) នៅក្នុងឯកសារអូឌីយ៉ូ។ វាត្រូវបានប្រើជាលក្ខណៈវិនិច្ឆ័យដើម្បីកាត់ចោលប្រយោគណាដែលថតមកលឺខ្លាំងពេក ឬខ្សឹបពេកដែលធ្វើឱ្យខូចគុណភាពទិន្នន័យ។ ដូចជាការមួលប៊ូតុងវ៉ុលលីម (Volume) នៅលើវិទ្យុ ដែលបង្ហាញថាតើសំឡេងនោះលឺខ្លាំង ឬខ្សោយកម្រិតណា។
Text normalization ដំណើរការបំប្លែងអត្ថបទដែលមិនមែនជាពាក្យពេញលេញ ដូចជាលេខ និមិត្តសញ្ញា ឬកាលបរិច្ឆេទ ទៅជាពាក្យពេញដែលអាចអានបញ្ចេញសំឡេងបាន (ឧទាហរណ៍ "១៨៨០" ទៅជា "មួយពាន់ប្រាំបីរយប៉ែតសិប") មុននឹងប្រព័ន្ធបំប្លែងវាទៅជាសំឡេង។ ដូចជាការសរសេរពន្យល់របៀបអានសញ្ញា ឬលេខកាត់នានានៅលើក្រដាសព្រាង ដើម្បីឱ្យអ្នកអានព័ត៌មានអានបានត្រឹមត្រូវនិងមិនរអាក់រអួល។
Unit selection បច្ចេកទេសសំយោគសំឡេងបែបប្រពៃណីដែលដំណើរការដោយការកាត់យកបំណែកសំឡេងតូចៗ (units) ពីទិន្នន័យសំឡេងមនុស្សពិតដែលបានថតទុក រួចយកមកតភ្ជាប់គ្នាដើម្បីបង្កើតជាពាក្យ ឬប្រយោគថ្មី។ ដូចជាការកាត់តួអក្សរពីកាសែតចាស់ៗយកមកតម្រៀបភ្ជាប់គ្នា ដើម្បីបង្កើតជាសារថ្មីមួយ។
Over-smoothing បញ្ហាដែលកើតឡើងនៅក្នុងប្រព័ន្ធ HMM-TTS នៅពេលដែលប្រព័ន្ធព្យាយាមធ្វើឱ្យកម្រិតប្រែប្រួលនៃទិន្នន័យមានភាពរលូនពេក ដែលធ្វើឱ្យសំឡេងដែលបង្កើតចេញមកបាត់បង់ភាពលម្អិត ស្តាប់ទៅស្អក ឬបាត់បង់លក្ខណៈធម្មជាតិ។ ដូចជាការប្រើកម្មវិធីកែរូបថតធ្វើឱ្យស្បែកមុខរលោងខ្លាំងពេក រហូតដល់បាត់បង់ទម្រង់ធម្មជាតិនៃមុខ និងមើលទៅដូចតុក្កតាជ័រ។
Speech corpora បណ្តុំនៃកម្រងទិន្នន័យសំឡេង និងអត្ថបទរៀបរាប់ពីសំឡេងនោះ ដែលត្រូវបានចងក្រងទុកជាប្រព័ន្ធសម្រាប់ប្រើប្រាស់ក្នុងការស្រាវជ្រាវ ការវិភាគ ឬការបណ្តុះបណ្តាលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។ ដូចជាបណ្ណាល័យដ៏ធំមួយដែលផ្ទុកនូវសៀវភៅនិងខ្សែអាត់សំឡេងអានសៀវភៅនោះ ដើម្បីងាយស្រួលឱ្យកុំព្យូទ័ររៀនស្តាប់និងនិយាយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖