Original Title: Automatic sentence selection from speech corpora including diverse speech for improved HMM-TTS synthesis quality
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិពីកម្រងទិន្នន័យសំឡេងរួមមានសំឡេងចម្រុះសម្រាប់ការធ្វើឱ្យប្រសើរឡើងនូវគុណភាពនៃការសំយោគសំឡេង HMM-TTS

ចំណងជើងដើម៖ Automatic sentence selection from speech corpora including diverse speech for improved HMM-TTS synthesis quality

អ្នកនិពន្ធ៖ Norbert Braunschweiler (Toshiba Research Europe Ltd.), Sabine Buchholz (Toshiba Research Europe Ltd.)

ឆ្នាំបោះពុម្ព៖ 2011 INTERSPEECH

វិស័យសិក្សា៖ Speech Synthesis / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់សៀវភៅសំឡេង (Audiobooks) ដែលមានទម្រង់សំឡេងចម្រុះ (Diverse speech) សម្រាប់ការបណ្តុះបណ្តាលប្រព័ន្ធសំយោគសំឡេង HMM-TTS ដែលជាទូទៅធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតវិធីសាស្ត្រជ្រើសរើសប្រយោគអព្យាក្រឹតដោយស្វ័យប្រវត្តិផ្អែកលើច្បាប់ (Rule-based approach) និងធ្វើការវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់ (Listening tests) ធៀបនឹងការជ្រើសរើសដោយដៃនិងទិន្នន័យដើមទាំងមូល។

ការទាញយកលក្ខណៈសូរសព្ទ (Acoustic features extraction) ដូចជាកម្រិត f0 និងកម្រិតសំឡេង (RMS amplitude) ដើម្បីច្រានចោលសំឡេងមិនប្រក្រតី។
ការវិភាគលក្ខណៈអត្ថបទ (Text based features analysis) ដើម្បីកំណត់ប្រយោគសន្ទនាដោយប្រើសញ្ញាសម្រង់ និងកំហុសនៃការធ្វើឱ្យអត្ថបទមានលក្ខណៈស្តង់ដារ (Text normalization errors)។
ការធ្វើតេស្តចំណូលចិត្តរបស់អ្នកស្តាប់តាមរយៈបណ្តាញមហាជន (Crowdsourced preference tests)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការលុបចោលទិន្នន័យសំឡេងមិនអព្យាក្រឹតដោយដៃបានធ្វើឱ្យគុណភាពនៃការសំយោគសំឡេងប្រសើរឡើង ដោយទទួលបានការពេញចិត្ត ៥៣,៩% ធៀបនឹង ៣២,៥% ទោះបីជាទំហំទិន្នន័យថយចុះពាក់កណ្តាលក៏ដោយ។
វិធីសាស្ត្រជ្រើសរើសដោយស្វ័យប្រវត្តិបានច្រានចោលប្រយោគសរុបចំនួន ៤២,១% ដែលភាគច្រើនត្រូវបានរកឃើញតាមរយៈសញ្ញាសម្រង់ទ្វេ (Double quotes) និងភាពខុសគ្នានៃកម្រិតសំឡេង (f0 outliers)។
ទោះបីជាវិធីសាស្ត្រស្វ័យប្រវត្តិមិនទាន់អាចប្រៀបធៀបជាមួយការជ្រើសរើសដោយមនុស្សបានទាំងស្រុងក៏ដោយ វាបានបង្ហាញពីភាពប្រសើរឡើងគួរឱ្យកត់សម្គាល់ជាមួយនឹងការពេញចិត្ត ៤៩,៣% ធៀបនឹង ៣២,៩% លើការប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាលទាំងស្រុង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Full Training Set (Voice FULL) ការប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាលទាំងស្រុង (Voice FULL)	ប្រើប្រាស់ទិន្នន័យបានច្រើនជាអតិបរមា និងមិនទាមទារការចំណាយពេលវេលាក្នុងការចម្រាញ់ទិន្នន័យ។	ការរាប់បញ្ចូលសំឡេងមិនអព្យាក្រឹតច្រើន ធ្វើឱ្យម៉ូដែលបាត់បង់លំនឹង (Over-smoothing) និងធ្វើឱ្យគុណភាពសំយោគសំឡេងធ្លាក់ចុះ។	ទទួលបានការពេញចិត្តពីអ្នកស្តាប់ត្រឹមតែ ៣២,៥% ទៅ ៣២,៩% ប៉ុណ្ណោះធៀបនឹងវិធីសាស្ត្រចម្រាញ់ទិន្នន័យផ្សេងទៀត។
Manual Selection (Voice NEUTRAL_hand) ការជ្រើសរើសទិន្នន័យអព្យាក្រឹតដោយមនុស្ស (Voice NEUTRAL_hand)	ផ្តល់គុណភាពសំឡេងល្អបំផុត ព្រោះមនុស្សអាចវាយតម្លៃកត្តាស្មុគស្មាញដូចជាគុណភាពសំឡេង អត្រានៃការនិយាយ និងការបង្ខូចទ្រង់ទ្រាយបានច្បាស់។	ទាមទារកម្លាំងពលកម្ម និងពេលវេលាយូរខ្លាំង ដែលមិនអាចអនុវត្តបានជាក់ស្តែងសម្រាប់កម្រងទិន្នន័យសៀវភៅសំឡេងដែលមានទំហំធំ។	ទទួលបានការពេញចិត្តខ្ពស់បំផុត ៥៣,៩% ធៀបនឹងការមិនចម្រាញ់ទិន្នន័យ និង ៤៧,៧% ធៀបនឹងការជ្រើសរើសដោយស្វ័យប្រវត្តិ។
Automatic Selection (Voice NEUTRAL_auto) ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិ (Voice NEUTRAL_auto)	អាចដំណើរការចម្រាញ់ទិន្នន័យខ្នាតធំបានយ៉ាងលឿន និងធ្វើឱ្យគុណភាពសំយោគសំឡេងប្រសើរជាងការប្រើទិន្នន័យស្រមោចគួរឱ្យកត់សម្គាល់។	មិនទាន់មានភាពសុក្រឹតដូចមនុស្សនៅឡើយ ដោយមានការកាត់ចោលប្រយោគត្រឹមត្រូវខ្លះ និងពឹងផ្អែកលើការកំណត់តម្លៃ (Threshold) ដោយដៃ។	ទទួលបានការពេញចិត្ត ៤៩,៣% ធៀបនឹងការមិនចម្រាញ់ទិន្នន័យ (៣២,៩%) ទោះបីជាមានកម្រិតទាបជាងការជ្រើសរើសដោយមនុស្សបន្តិចក្តី។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ វាទាមទារកម្មវិធីសម្រាប់ស្រخراجលក្ខណៈសូរសព្ទនិងកម្លាំងម៉ាស៊ីនដើម្បីបណ្តុះបណ្តាលម៉ូដែល HMM-TTS។

Dataset: កម្រងទិន្នន័យសៀវភៅសំឡេង (Audiobooks) ដែលមានការតម្រឹមអត្ថបទនិងសំឡេងស្របគ្នា។ ក្នុងការសិក្សានេះប្រើសៀវភៅ "A Tramp Abroad" ពី LibriVox រយៈពេលជាង ១៥ ម៉ោង។
Software: កម្មវិធីសម្រាប់ទាញយកលក្ខណៈសូរសព្ទ (Acoustic features) ដូចជាកម្រិត f0 និង RMS amplitude រួមជាមួយនឹងប្រព័ន្ធកសាងម៉ូដែល HMM-TTS (ឧទាហរណ៍ HTS)។
Expertise: ចំណេះដឹងផ្នែកកែច្នៃភាសាធម្មជាតិ (NLP) សូរសព្ទសាស្ត្រ និងសមត្ថភាពក្នុងការកំណត់កន្សោមធម្មតា (Regular Expressions) ដើម្បីត្រងអត្ថបទ។
Hardware: កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យម ឬខ្ពស់សម្រាប់ការគណនាទិន្នន័យអូឌីយ៉ូរាប់ម៉ោង និងដំណើរការបណ្តុះបណ្តាលម៉ូដែលស្ថិតិ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសៀវភៅសំឡេងភាសាអង់គ្លេស-អាមេរិក អានដោយបុរសតែម្នាក់ និងជារចនាបថអត្ថបទក្នុងទសវត្សរ៍ឆ្នាំ ១៨៨០។ លក្ខណៈអត្ថបទដែលបានប្រើដើម្បីច្រានចោលប្រយោគ (ឧទាហរណ៍ សញ្ញាសម្រង់អង់គ្លេស, ពាក្យឧទាន "Ah, Oh") គឺមានលក្ខណៈឯកតោភាគី។ សម្រាប់ប្រទេសកម្ពុជា ការចម្លងវិធីសាស្ត្រនេះទាមទារឱ្យមានការកែតម្រូវច្បាប់វិនិច្ឆ័យទាំងនេះឱ្យស្របតាមរចនាសម្ព័ន្ធវេយ្យាករណ៍ ការបញ្ចេញសំឡេង និងវណ្ណយុត្តិរបស់ភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការចម្រាញ់ទិន្នន័យដោយស្វ័យប្រវត្តិនេះមានសក្តានុពលខ្ពស់សម្រាប់កម្ពុជា ក្នុងការកសាងប្រព័ន្ធ Text-to-Speech (TTS) ភាសាខ្មែរដោយប្រើប្រាស់ទិន្នន័យប្រភពបើកចំហដែលមានស្រាប់។

សៀវភៅសំឡេងសម្រាប់ការអប់រំ (MoEYS E-learning): ក្រសួងអប់រំអាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីទាញយកទិន្នន័យពីរឿងនិទាន ឬសៀវភៅអានខ្មែរដែលមានស្រាប់នៅលើអ៊ីនធឺណិត (ឧទាហរណ៍ វីដេអូ YouTube) មកហ្វឹកហាត់ប្រព័ន្ធអានសៀវភៅស្វ័យប្រវត្តិ ដោយមិនចាំបាច់ចំណាយថវិកាជួលអ្នកអានអាជីពឡើងវិញ។
បច្ចេកវិទ្យាជំនួយសម្រាប់ជនពិការភ្នែក: សាលា និងអង្គការនានា (ដូចជាអង្គការគ្រួសារថ្មី) អាចយកវិធីនេះដើម្បីបង្កើតសំឡេង AI ខ្មែរដែលស្តាប់ទៅធម្មជាតិ និងមិនមានការរំខាន ដើម្បីបំប្លែងឯកសារសិក្សាទៅជាសំឡេងដែលមានគុណភាពខ្ពស់។
សេវាកម្មអតិថិជន និងជំនួយការនិម្មិត (Virtual Assistants): ធនាគារ ឬក្រុមហ៊ុនទូរគមនាគមន៍ក្នុងស្រុក អាចកាត់បន្ថយសំឡេងរំខានពីកម្រងទិន្នន័យថតសម្លេងសេវាកម្មអតិថិជនរបស់ពួកគេ ដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិ (IVR) ដែលមានសម្លេងរលូននិងមានលំនឹង។

សរុបមក ការអនុវត្តវិធានការច្រានចោលទិន្នន័យមិនអព្យាក្រឹតផ្អែកលើលក្ខណៈសូរសព្ទនិងអត្ថបទ គឺជាវិធីសាស្ត្រដ៏សាមញ្ញប៉ុន្តែមានប្រសិទ្ធភាពដែលអ្នកស្រាវជ្រាវកម្ពុជាអាចចាប់ផ្តើមអនុវត្តបានភ្លាមៗក្នុងការកសាងមូលដ្ឋានទិន្នន័យសំឡេងភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ប្រមូលនិងតម្រឹមទិន្នន័យសៀវភៅសំឡេងខ្មែរ: ប្រមូលឯកសារអូឌីយ៉ូអានសៀវភៅខ្មែរនិងអត្ថបទដើម រួចប្រើប្រាស់បច្ចេកទេស Forced Alignment តាមរយៈឧបករណ៍ដូចជា MFA (Montreal Forced Aligner) ដើម្បីកាត់ប្រយោគនិងផ្គូផ្គងអត្ថបទជាមួយសំឡេងឱ្យបានត្រឹមត្រូវ។
ស្រخراجនិងវិភាគលក្ខណៈសូរសព្ទ: ប្រើប្រាស់បណ្ណាល័យ Librosa ឬ Parselmouth (ផ្អែកលើ Praat) ក្នុង Python ដើម្បីគណនាកម្រិតប្រេកង់ (f0) និងទំហំថាមពលសំឡេង (RMS amplitude) ជាមធ្យមនៃកម្រងទិន្នន័យ ដើម្បីរកនិងកាត់ចោលប្រយោគដែលលឺខ្លាំងពេក ឬខ្សឹប។
បង្កើតច្បាប់ចម្រាញ់អត្ថបទខ្មែរ (Text Heuristics): សរសេរកូដ Regex ក្នុង Python ដើម្បីច្រានចោលប្រយោគសន្ទនា (ដែលមានសញ្ញាអញ្ញបរិវិត្ត « ») ពាក្យឧទាន (ឧទាហរណ៍ ឱ! អ្ហា!) និងប្រយោគដែលមានបញ្ហា Text Normalization ដូចជាតួអក្សរកាត់ ឬលេខកូដស្មុគស្មាញ។
ហ្វឹកហាត់ម៉ូដែលសំយោគសំឡេង (TTS Training): យកទិន្នន័យអព្យាក្រឹតដែលបានចម្រាញ់រួច ទៅហ្វឹកហាត់ក្នុងប្រព័ន្ធ TTS។ ទោះបីឯកសារដើមប្រើ HMM ក៏ដោយ អ្នកស្រាវជ្រាវគួរសាកល្បងប្រើប្រាស់ស្ថាបត្យកម្មទំនើបៗដូចជា VITS ឬ FastSpeech2 ជាមួយទិន្នន័យដែលបានសម្អាតនេះ។
វាយតម្លៃគុណភាពចំណូលចិត្តរបស់អ្នកស្តាប់: រៀបចំការធ្វើតេស្ត AB Testing ដោយឱ្យអ្នកស្ម័គ្រចិត្តស្តាប់ប្រៀបធៀបសំឡេងដែលបង្កើតចេញពីទិន្នន័យពេញលេញ និងទិន្នន័យដែលបានចម្រាញ់ ដោយប្រើប្រាស់ Google Forms ឬ Prolific ដើម្បីប្រមូលពិន្ទុចំណូលចិត្ត (Preference Score)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
HMM-TTS	ប្រព័ន្ធសំយោគសំឡេងដោយប្រើម៉ូដែល Hidden Markov ដែលប្រើប្រាស់ស្ថិតិនិងគណិតវិទ្យាដើម្បីរៀនពីទិន្នន័យសំឡេងរបស់មនុស្ស រួចយកចំណេះដឹងនោះទៅបង្កើតសំឡេងថ្មីពីអត្ថបទដែលទើបនឹងបញ្ចូល។	ដូចជាសិល្បករម្នាក់ដែលរៀនពីទម្រង់សំឡេងរបស់មនុស្សជាច្រើន រួចយកមកផ្សំគ្នាបង្កើតជាសំឡេងថ្មីមួយតាមអត្ថបទដែលយើងវាយបញ្ចូលទៅឱ្យ។
f0	រលកប្រេកង់មូលដ្ឋាននៃសំឡេង (Fundamental frequency) ដែលជាទូទៅត្រូវបានប្រើដើម្បីវាស់ពីកម្រិតភាពខ្ពស់ឬទាប (pitch) នៃសំឡេងរបស់មនុស្ស។ នៅក្នុងការសិក្សានេះ គេប្រើវាដើម្បីរកមើលប្រយោគដែលមានការបញ្ចេញសំឡេងមិនប្រក្រតី (ឧទាហរណ៍ ស្រែក ឬ យំ)។	ដូចជាការចុចគ្រាប់ចុចព្យាណូ បើចុចខាងស្តាំសំឡេងតូចស្រួច (f0 ខ្ពស់) បើចុចខាងឆ្វេងសំឡេងធំគ្រលរ (f0 ទាប)។
RMS amplitude	រង្វាស់នៃថាមពលមធ្យម ឬកម្រិតភាពខ្លាំងនៃការបន្លឺសំឡេង (loudness) នៅក្នុងឯកសារអូឌីយ៉ូ។ វាត្រូវបានប្រើជាលក្ខណៈវិនិច្ឆ័យដើម្បីកាត់ចោលប្រយោគណាដែលថតមកលឺខ្លាំងពេក ឬខ្សឹបពេកដែលធ្វើឱ្យខូចគុណភាពទិន្នន័យ។	ដូចជាការមួលប៊ូតុងវ៉ុលលីម (Volume) នៅលើវិទ្យុ ដែលបង្ហាញថាតើសំឡេងនោះលឺខ្លាំង ឬខ្សោយកម្រិតណា។
Text normalization	ដំណើរការបំប្លែងអត្ថបទដែលមិនមែនជាពាក្យពេញលេញ ដូចជាលេខ និមិត្តសញ្ញា ឬកាលបរិច្ឆេទ ទៅជាពាក្យពេញដែលអាចអានបញ្ចេញសំឡេងបាន (ឧទាហរណ៍ "១៨៨០" ទៅជា "មួយពាន់ប្រាំបីរយប៉ែតសិប") មុននឹងប្រព័ន្ធបំប្លែងវាទៅជាសំឡេង។	ដូចជាការសរសេរពន្យល់របៀបអានសញ្ញា ឬលេខកាត់នានានៅលើក្រដាសព្រាង ដើម្បីឱ្យអ្នកអានព័ត៌មានអានបានត្រឹមត្រូវនិងមិនរអាក់រអួល។
Unit selection	បច្ចេកទេសសំយោគសំឡេងបែបប្រពៃណីដែលដំណើរការដោយការកាត់យកបំណែកសំឡេងតូចៗ (units) ពីទិន្នន័យសំឡេងមនុស្សពិតដែលបានថតទុក រួចយកមកតភ្ជាប់គ្នាដើម្បីបង្កើតជាពាក្យ ឬប្រយោគថ្មី។	ដូចជាការកាត់តួអក្សរពីកាសែតចាស់ៗយកមកតម្រៀបភ្ជាប់គ្នា ដើម្បីបង្កើតជាសារថ្មីមួយ។
Over-smoothing	បញ្ហាដែលកើតឡើងនៅក្នុងប្រព័ន្ធ HMM-TTS នៅពេលដែលប្រព័ន្ធព្យាយាមធ្វើឱ្យកម្រិតប្រែប្រួលនៃទិន្នន័យមានភាពរលូនពេក ដែលធ្វើឱ្យសំឡេងដែលបង្កើតចេញមកបាត់បង់ភាពលម្អិត ស្តាប់ទៅស្អក ឬបាត់បង់លក្ខណៈធម្មជាតិ។	ដូចជាការប្រើកម្មវិធីកែរូបថតធ្វើឱ្យស្បែកមុខរលោងខ្លាំងពេក រហូតដល់បាត់បង់ទម្រង់ធម្មជាតិនៃមុខ និងមើលទៅដូចតុក្កតាជ័រ។
Speech corpora	បណ្តុំនៃកម្រងទិន្នន័យសំឡេង និងអត្ថបទរៀបរាប់ពីសំឡេងនោះ ដែលត្រូវបានចងក្រងទុកជាប្រព័ន្ធសម្រាប់ប្រើប្រាស់ក្នុងការស្រាវជ្រាវ ការវិភាគ ឬការបណ្តុះបណ្តាលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។	ដូចជាបណ្ណាល័យដ៏ធំមួយដែលផ្ទុកនូវសៀវភៅនិងខ្សែអាត់សំឡេងអានសៀវភៅនោះ ដើម្បីងាយស្រួលឱ្យកុំព្យូទ័ររៀនស្តាប់និងនិយាយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖