Original Title: Approaches for adaptive database reduction for Text-To-Speech synthesis
Source: doi.org/10.21437/Interspeech.2007-541
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រសម្រាប់ការកាត់បន្ថយមូលដ្ឋានទិន្នន័យសម្របសម្រួលសម្រាប់ការសំយោគអត្ថបទទៅជាសំឡេង

ចំណងជើងដើម៖ Approaches for adaptive database reduction for Text-To-Speech synthesis

អ្នកនិពន្ធ៖ Aleksandra Krul (France Télécom R&D Division / GET/ENST), Géraldine Damnati (France Télécom R&D Division), François Yvon (GET/ENST and CNRS/LTCI), Cédric Boidin (France Télécom R&D Division), Thierry Moudenc (France Télécom R&D Division)

ឆ្នាំបោះពុម្ព៖ 2007, INTERSPEECH

វិស័យសិក្សា៖ Speech Synthesis / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើបញ្ហានៃការកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យសំឡេង (Speech database reduction) សម្រាប់កម្មវិធីសំយោគអត្ថបទទៅជាសំឡេង (Text-To-Speech synthesis) ដោយសម្របទៅតាមប្រធានបទជាក់លាក់ ដើម្បីឱ្យអាចប្រើប្រាស់បានលើឧបករណ៍ដែលមានទំហំផ្ទុកទិន្នន័យតូច។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះវាយតម្លៃលើវិធីសាស្ត្រចំនួនពីរសម្រាប់ការកាត់បន្ថយ និងសម្របសម្រួលមូលដ្ឋានទិន្នន័យ ដោយធ្វើការប្រៀបធៀបពួកវាជាមួយនឹងវិធីសាស្ត្រកាត់បន្ថយបែបចៃដន្យ (Random method) និងវិធីសាស្ត្រទូទៅ (General method)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Domain Ps (Pruning based on statistical behaviour on domain-specific corpus)
វិធីសាស្ត្រកាត់តម្រឹម Ps ផ្អែកលើស្ថិតិនៃប្រធានបទជាក់លាក់
ផ្តល់លទ្ធផលល្អបំផុតក្នុងការកាត់បន្ថយតម្លៃតភ្ជាប់ (Concatenation cost) និងតម្លៃគោលដៅ (Target cost) ព្រមទាំងរក្សាបាននូវប្រវែងចម្រៀកសំឡេងវែង។ ទាមទារឱ្យមានការសំយោគទិន្នន័យលើប្រធានបទជាក់លាក់ជាមុន និងពឹងផ្អែកខ្លាំងលើអាកប្បកិរិយារបស់ក្បួនដោះស្រាយការជ្រើសរើសឯកតា (Unit selection algorithm)។ ទទួលបានតម្លៃតភ្ជាប់មធ្យម និងតម្លៃគោលដៅមធ្យមទាបបំផុត (ល្អជាងគេ) ធៀបនឹងវិធីសាស្ត្រផ្សេងៗទោះបីជាទិន្នន័យដើមមានទំហំតូចក៏ដោយ។
General Ps (Pruning based on statistical behaviour on general corpus)
វិធីសាស្ត្រកាត់តម្រឹម Ps ផ្អែកលើស្ថិតិទូទៅ
មិនទាមទារឱ្យដឹងពីគោលដៅនៃការប្រើប្រាស់ជាក់លាក់ ងាយស្រួលអនុវត្តដោយប្រើទិន្នន័យអត្ថបទកាសែតទូទៅដ៏ធំដើម្បីប្រមូលស្ថិតិ។ បង្កើតបានជាមូលដ្ឋានទិន្នន័យដែលមិនសូវមានភាពជាប់គ្នា (ប្រវែងចម្រៀកខ្លី) និងមានតម្លៃតភ្ជាប់ខ្ពស់ជាង Domain Ps យ៉ាងច្បាស់លាស់។ ទទួលបានប្រវែងចម្រៀកមធ្យមខ្លី និងលទ្ធផលអន់ជាង Domain Ps យ៉ាងច្បាស់។
Kullback-Leibler (KL dip & KL trip)
វិធីសាស្ត្រផ្អែកលើរង្វាស់ Kullback-Leibler Divergence (KL dip និង KL trip)
មិនទាមទារការសំយោគទិន្នន័យជាមុនទេ គឺត្រូវការត្រឹមតែការចែកចាយអត្ថបទគោលដៅប៉ុណ្ណោះ ព្រមទាំងផ្តល់ប្រវែងចម្រៀកបានល្អប្រហាក់ប្រហែល Domain Ps ដែរ។ ដោយសារតែវាប្រើប្រាស់ត្រឹមតែឯកតាធម្មតា (diphones/triphones) វាមិនបានគិតគូរពីលក្ខណៈសំឡេង (acoustic features) ផ្សេងៗ ដែលធ្វើឱ្យតម្លៃគោលដៅនៅខ្ពស់បន្តិច។ ទទួលបានប្រវែងចម្រៀកវែងល្អ ប៉ុន្តែតម្លៃតភ្ជាប់ និងតម្លៃគោលដៅខ្ពស់ជាងវិធីសាស្ត្រ Domain Ps បន្តិច ដោយ KL trip ល្អជាង KL dip បន្តិចបន្តួច។
Random Method
វិធីសាស្ត្រជ្រើសរើសដោយចៃដន្យ
ងាយស្រួលបំផុតក្នុងការអនុវត្ត ដោយមិនទាមទារការគណនាស្មុគស្មាញ ឬការរៀបចំទិន្នន័យអ្វីទាំងអស់។ ផ្តល់លទ្ធផលអន់បំផុតគ្រប់ផ្នែក ធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះយ៉ាងខ្លាំង ដោយសារបាត់បង់ឯកតាសំខាន់ៗ។ ទទួលបានចំណាត់ថ្នាក់អន់បំផុតលើគ្រប់រង្វាស់ទាំងអស់ ជាពិសេសប្រវែងចម្រៀកខ្លីបំផុត និងតម្លៃតភ្ជាប់ខ្ពស់បំផុត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីទំហំផ្នែករឹង (Hardware) ច្បាស់លាស់ឡើយ ប៉ុន្តែវាទាមទារនូវធនធានទិន្នន័យ និងកម្មវិធីជាក់លាក់ដើម្បីដំណើរការក្បួនដោះស្រាយកាត់បន្ថយទំហំទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងរបស់ជនជាតិបារាំងតែម្នាក់ប៉ុណ្ណោះ និងប្រើអត្ថបទអំពីអចលនទ្រព្យជាភាសាបារាំង។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្ត្រនេះទាមទារឱ្យមានការបង្កើតមូលដ្ឋានទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគុណភាពខ្ពស់ជាមុនសិន ព្រោះទម្រង់សូរសព្ទ (Phonetics) និងវេយ្យាករណ៍ខ្មែរមានភាពស្មុគស្មាញ និងខុសប្លែកពីភាសាបារាំងទាំងស្រុង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យទាំងនេះពិតជាមានអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងការបង្កើតកម្មវិធីបញ្ចេញសំឡេង (TTS) លើឧបករណ៍ឆ្លាតវៃដែលមានទំហំផ្ទុកទាប និងមិនមានអ៊ីនធឺណិត។

សរុបមក ការអនុវត្តបច្ចេកទេសកាត់តម្រឹមទិន្នន័យ (Database Reduction) នេះ នឹងជួយពន្លឿនការអភិវឌ្ឍន៍កម្មវិធីឆ្លាតវៃផ្នែកភាសាខ្មែរ (Khmer NLP) ដែលអាចដំណើរការបានដោយរលូនលើឧបករណ៍ចល័តគ្រប់ប្រភេទ ទោះស្ថិតក្នុងស្ថានភាពខ្វះខាតធនធានក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃបច្ចេកវិទ្យា Unit Selection និង TTS: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីគោលការណ៍គ្រឹះនៃ Unit Selection និង Concatenative Speech Synthesis ដោយប្រើប្រាស់ប្រភពកូដបើកចំហរ (Open-source) ដូចជា Festival Speech Synthesis SystemMaryTTS ដើម្បីយល់ពីដំណើរការនៃការភ្ជាប់សំឡេង។
  2. រៀបចំនិងប្រមូលទិន្នន័យភាសាខ្មែរ (Build Khmer Domain-Specific Corpus): ចាប់ផ្តើមប្រមូលអត្ថបទភាសាខ្មែរលើប្រធានបទជាក់លាក់ណាមួយ (ឧទាហរណ៍ ព័ត៌មានធនាគារ ឬកសិកម្ម) រួចសម្អាតនិងកាត់ពាក្យទិន្នន័យដោយប្រើប្រាស់បណ្ណាល័យដូចជា Khmer Natural Language Processing (KhmerNLP)sekhmer ដើម្បីបង្កើតជា Text Corpus ដែលមានគុណភាព។
  3. អនុវត្តការគណនា Kullback-Leibler Divergence លើសូរសព្ទខ្មែរ: សរសេរកូដដោយប្រើប្រាស់ Python និងបណ្ណាល័យគណិតវិទ្យាដូចជា SciPyNumPy ដើម្បីអនុវត្តក្បួនដោះស្រាយ KL Divergence ក្នុងការប្រៀបធៀបការចែកចាយសូរសព្ទ (Diphone distributions) រវាងទិន្នន័យដើមដ៏ធំ និងទិន្នន័យគោលដៅ (Target distribution) សម្រាប់កាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យ។
  4. សាងសង់និងវាយតម្លៃគំរូសាកល្បង (Prototype Construction & Evaluation): ប្រើប្រាស់វិធីសាស្ត្រ Domain PsKL based ដើម្បីបង្កើតមូលដ្ឋានទិន្នន័យសំឡេងដែលត្រូវបានកាត់បន្ថយទំហំ (Reduced database) រួចធ្វើការវាយតម្លៃគុណភាពសំឡេងដោយប្រើរង្វាស់ Objective (ដូចជា Concatenation cost) និងធ្វើតេស្ត Mean Opinion Score (MOS) ជាមួយនឹងអ្នកស្តាប់ជនជាតិខ្មែរ ដើម្បីវាស់ស្ទង់ភាពច្បាស់ និងភាពរលូន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Unit selection ជាក្បួនដោះស្រាយនៅក្នុងប្រព័ន្ធសំយោគសំឡេង ដែលធ្វើការស្វែងរក និងជ្រើសរើសយកបំណែកសំឡេងតូចៗ (ឯកតាសំឡេង) ពីក្នុងមូលដ្ឋានទិន្នន័យដ៏ធំមួយ ដើម្បីយកមកតម្រៀបតភ្ជាប់គ្នាបង្កើតជាប្រយោគថ្មីមួយតាមអត្ថបទដែលបានបញ្ចូលដោយរក្សាបាននូវភាពរលូនតាមបែបធម្មជាតិ។ ដូចជាការរើសអក្សរ ឬពាក្យនីមួយៗពីកាសែតចាស់ៗ យកមកផ្គុំបិទជាប់គ្នាដើម្បីបង្កើតជាសំបុត្រថ្មីមួយអញ្ចឹងដែរ។
Kullback-Leibler divergence ជារង្វាស់គណិតវិទ្យាដែលប្រើសម្រាប់វាស់ស្ទង់មើលថា តើរបាយប្រូបាប៊ីលីតេមួយ (ការចែកចាយឯកតាសំឡេងក្នុងទិន្នន័យដែលបានកាត់បន្ថយ) មានភាពខុសគ្នាឬស្រដៀងគ្នាប៉ុនណាទៅនឹងរបាយប្រូបាប៊ីលីតេគោលដៅ (ការចែកចាយក្នុងទិន្នន័យដើម)។ កាលណាតម្លៃនេះកាន់តែតូច មានន័យថាទិន្នន័យទាំងពីរមានភាពស្រដៀងគ្នាកាន់តែខ្លាំង។ ដូចជាការប្រៀបធៀបរូបមន្តធ្វើម្ហូបពីរមុខ ដើម្បីមើលថាវាមានគ្រឿងផ្សំខុសគ្នាប៉ុនណា កាលណារសជាតិនិងបរិមាណគ្រឿងផ្សំកាន់តែដូចគ្នា នោះតម្លៃនៃភាពខុសគ្នាកាន់តែខិតជិតសូន្យ។
Diphone ជាឯកតាសំឡេងមូលដ្ឋានក្នុងការសំយោគសំឡេង ដែលគ្របដណ្តប់ពីចំណុចកណ្តាលនៃសូរសព្ទមួយ ទៅកាន់ចំណុចកណ្តាលនៃសូរសព្ទមួយទៀតដែលនៅជាប់គ្នា។ ការប្រើប្រាស់ Diphone ជួយរក្សានូវលក្ខណៈសូរសព្ទនៃការផ្លាស់ប្តូរពីសំឡេងមួយទៅសំឡេងមួយទៀត (Transition) ធ្វើឱ្យការបញ្ចេញសំឡេងស្តាប់ទៅរលូនជាងការយកសូរសព្ទនីមួយៗមកតភ្ជាប់គ្នាផ្ទាល់។ ដូចជាការថតយករូបភាពនៃការចាប់ដៃគ្នារវាងមនុស្សពីរនាក់ ដែលបង្ហាញពីរបៀបដែលដៃទាំងពីរភ្ជាប់គ្នា មិនមែនគ្រាន់តែជារូបថតដៃម្នាក់ៗដាច់ដោយឡែកនោះទេ។
Database pruning ជាដំណើរការនៃការកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យសំឡេង ដោយធ្វើការស្វែងរកនិងលុបចោលនូវឯកតាសំឡេងណាដែលមិនសូវសំខាន់ មិនសូវបានប្រើប្រាស់ញឹកញាប់ ឬមានលក្ខណៈជាន់គ្នា (Redundant) ដើម្បីឱ្យប្រព័ន្ធអាចដំណើរការបានលឿន និងអាចដាក់ប្រើប្រាស់លើឧបករណ៍ដែលមានទំហំផ្ទុកតូចៗ (ដូចជាទូរស័ព្ទដៃ)។ ដូចជាការកាត់មែកឈើដែលងាប់ ឬស្លឹកដែលមិនសូវសំខាន់ចេញ ដើម្បីឱ្យដើមឈើនៅតូចល្មម តែមានរាងស្អាត និងងាយស្រួលដាំក្នុងផើងតូចក្នុងផ្ទះ។
Concatenation cost ជារង្វាស់ដែលប្រើដើម្បីវាយតម្លៃមើលថា តើការតភ្ជាប់រវាងបំណែកសំឡេងពីរដែលនៅជាប់គ្នា មានភាពរលូន និងស៊ីចង្វាក់គ្នាកម្រិតណាដោយផ្អែកលើលក្ខណៈសូរសព្ទរបស់វា។ បើតម្លៃនេះកាន់តែទាប មានន័យថាការតភ្ជាប់សំឡេងទាំងពីរស្តាប់ទៅកាន់តែធម្មជាតិ និងមិនមានសូររអាក់រអួល ឬដាច់ៗ។ ដូចជាការវាស់ស្ទង់ភាពស៊ុមគ្នានៃបន្ទះឈើពីរដែលយកមកផ្គុំគ្នា បើមុខកាត់ឈើទាំងពីរស៊ីគ្នាល្អ នោះស្នាមតភ្ជាប់នឹងមើលមិនសូវឃើញ។
Target cost ជារង្វាស់ដែលគណនាដើម្បីប្រៀបធៀបថាតើ បំណែកសំឡេងដែលប្រព័ន្ធបានទាញយកពីក្នុងឃ្លាំងទិន្នន័យ មានលក្ខណៈ (ដូចជា សំនៀង ការសង្កត់សំឡេង និងប្រវែង) ស្រដៀងទៅនឹងសំឡេងគោលដៅឧត្តមគតិដែលប្រព័ន្ធចង់បានកម្រិតណា។ បើតម្លៃនេះកាន់តែទាប មានន័យថាសំឡេងដែលរើសបានកាន់តែត្រឹមត្រូវ និងសាកសមនឹងបរិបទនៃប្រយោគ។ ដូចជាការដើរទិញខោអាវដោយប្រៀបធៀបខ្នាតអាវក្នុងហាង ទៅនឹងខ្នាតដងខ្លួនរបស់អ្នក បើខ្នាតកាន់តែត្រូវគ្នា នោះតម្លៃនៃការខុសខ្នាតគឺកាន់តែទាប។
Greedy algorithm ជាក្បួនដោះស្រាយក្នុងការស្វែងរកចម្លើយ ដែលតែងតែធ្វើការជ្រើសរើសយកជម្រើសណាដែលផ្តល់លទ្ធផលល្អបំផុតភ្លាមៗនៅជំហាននីមួយៗ (Local optimum) ដោយមិនខ្វល់ពីផលប៉ះពាល់ជារួមនៅចុងបញ្ចប់ឡើយ។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីរើសប្រយោគបញ្ចូលក្នុងទិន្នន័យ ដោយរើសយកប្រយោគណាដែលធ្វើឱ្យតម្លៃគម្លាត KL ធ្លាក់ចុះទាបបំផុតភ្លាមៗនៅរាល់ការរើសម្តងៗ។ ដូចជាការរើសផ្លែឈើក្នុងកន្ត្រក ដោយរើសយកតែផ្លែណាដែលធំជាងគេនិងឃើញច្បាស់ជាងគេនៅនឹងមុខភ្លាមៗ ជាជាងការចំណាយពេលគិតរកវិធីរើសយកផ្លែឈើទាំងអស់ឱ្យបានលឿនជាងមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖