បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើបញ្ហានៃការកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យសំឡេង (Speech database reduction) សម្រាប់កម្មវិធីសំយោគអត្ថបទទៅជាសំឡេង (Text-To-Speech synthesis) ដោយសម្របទៅតាមប្រធានបទជាក់លាក់ ដើម្បីឱ្យអាចប្រើប្រាស់បានលើឧបករណ៍ដែលមានទំហំផ្ទុកទិន្នន័យតូច។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះវាយតម្លៃលើវិធីសាស្ត្រចំនួនពីរសម្រាប់ការកាត់បន្ថយ និងសម្របសម្រួលមូលដ្ឋានទិន្នន័យ ដោយធ្វើការប្រៀបធៀបពួកវាជាមួយនឹងវិធីសាស្ត្រកាត់បន្ថយបែបចៃដន្យ (Random method) និងវិធីសាស្ត្រទូទៅ (General method)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Domain Ps (Pruning based on statistical behaviour on domain-specific corpus) វិធីសាស្ត្រកាត់តម្រឹម Ps ផ្អែកលើស្ថិតិនៃប្រធានបទជាក់លាក់ |
ផ្តល់លទ្ធផលល្អបំផុតក្នុងការកាត់បន្ថយតម្លៃតភ្ជាប់ (Concatenation cost) និងតម្លៃគោលដៅ (Target cost) ព្រមទាំងរក្សាបាននូវប្រវែងចម្រៀកសំឡេងវែង។ | ទាមទារឱ្យមានការសំយោគទិន្នន័យលើប្រធានបទជាក់លាក់ជាមុន និងពឹងផ្អែកខ្លាំងលើអាកប្បកិរិយារបស់ក្បួនដោះស្រាយការជ្រើសរើសឯកតា (Unit selection algorithm)។ | ទទួលបានតម្លៃតភ្ជាប់មធ្យម និងតម្លៃគោលដៅមធ្យមទាបបំផុត (ល្អជាងគេ) ធៀបនឹងវិធីសាស្ត្រផ្សេងៗទោះបីជាទិន្នន័យដើមមានទំហំតូចក៏ដោយ។ |
| General Ps (Pruning based on statistical behaviour on general corpus) វិធីសាស្ត្រកាត់តម្រឹម Ps ផ្អែកលើស្ថិតិទូទៅ |
មិនទាមទារឱ្យដឹងពីគោលដៅនៃការប្រើប្រាស់ជាក់លាក់ ងាយស្រួលអនុវត្តដោយប្រើទិន្នន័យអត្ថបទកាសែតទូទៅដ៏ធំដើម្បីប្រមូលស្ថិតិ។ | បង្កើតបានជាមូលដ្ឋានទិន្នន័យដែលមិនសូវមានភាពជាប់គ្នា (ប្រវែងចម្រៀកខ្លី) និងមានតម្លៃតភ្ជាប់ខ្ពស់ជាង Domain Ps យ៉ាងច្បាស់លាស់។ | ទទួលបានប្រវែងចម្រៀកមធ្យមខ្លី និងលទ្ធផលអន់ជាង Domain Ps យ៉ាងច្បាស់។ |
| Kullback-Leibler (KL dip & KL trip) វិធីសាស្ត្រផ្អែកលើរង្វាស់ Kullback-Leibler Divergence (KL dip និង KL trip) |
មិនទាមទារការសំយោគទិន្នន័យជាមុនទេ គឺត្រូវការត្រឹមតែការចែកចាយអត្ថបទគោលដៅប៉ុណ្ណោះ ព្រមទាំងផ្តល់ប្រវែងចម្រៀកបានល្អប្រហាក់ប្រហែល Domain Ps ដែរ។ | ដោយសារតែវាប្រើប្រាស់ត្រឹមតែឯកតាធម្មតា (diphones/triphones) វាមិនបានគិតគូរពីលក្ខណៈសំឡេង (acoustic features) ផ្សេងៗ ដែលធ្វើឱ្យតម្លៃគោលដៅនៅខ្ពស់បន្តិច។ | ទទួលបានប្រវែងចម្រៀកវែងល្អ ប៉ុន្តែតម្លៃតភ្ជាប់ និងតម្លៃគោលដៅខ្ពស់ជាងវិធីសាស្ត្រ Domain Ps បន្តិច ដោយ KL trip ល្អជាង KL dip បន្តិចបន្តួច។ |
| Random Method វិធីសាស្ត្រជ្រើសរើសដោយចៃដន្យ |
ងាយស្រួលបំផុតក្នុងការអនុវត្ត ដោយមិនទាមទារការគណនាស្មុគស្មាញ ឬការរៀបចំទិន្នន័យអ្វីទាំងអស់។ | ផ្តល់លទ្ធផលអន់បំផុតគ្រប់ផ្នែក ធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះយ៉ាងខ្លាំង ដោយសារបាត់បង់ឯកតាសំខាន់ៗ។ | ទទួលបានចំណាត់ថ្នាក់អន់បំផុតលើគ្រប់រង្វាស់ទាំងអស់ ជាពិសេសប្រវែងចម្រៀកខ្លីបំផុត និងតម្លៃតភ្ជាប់ខ្ពស់បំផុត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីទំហំផ្នែករឹង (Hardware) ច្បាស់លាស់ឡើយ ប៉ុន្តែវាទាមទារនូវធនធានទិន្នន័យ និងកម្មវិធីជាក់លាក់ដើម្បីដំណើរការក្បួនដោះស្រាយកាត់បន្ថយទំហំទិន្នន័យ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងរបស់ជនជាតិបារាំងតែម្នាក់ប៉ុណ្ណោះ និងប្រើអត្ថបទអំពីអចលនទ្រព្យជាភាសាបារាំង។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្ត្រនេះទាមទារឱ្យមានការបង្កើតមូលដ្ឋានទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគុណភាពខ្ពស់ជាមុនសិន ព្រោះទម្រង់សូរសព្ទ (Phonetics) និងវេយ្យាករណ៍ខ្មែរមានភាពស្មុគស្មាញ និងខុសប្លែកពីភាសាបារាំងទាំងស្រុង។
វិធីសាស្ត្រនៃការកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យទាំងនេះពិតជាមានអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ប្រទេសកម្ពុជា ពិសេសក្នុងការបង្កើតកម្មវិធីបញ្ចេញសំឡេង (TTS) លើឧបករណ៍ឆ្លាតវៃដែលមានទំហំផ្ទុកទាប និងមិនមានអ៊ីនធឺណិត។
សរុបមក ការអនុវត្តបច្ចេកទេសកាត់តម្រឹមទិន្នន័យ (Database Reduction) នេះ នឹងជួយពន្លឿនការអភិវឌ្ឍន៍កម្មវិធីឆ្លាតវៃផ្នែកភាសាខ្មែរ (Khmer NLP) ដែលអាចដំណើរការបានដោយរលូនលើឧបករណ៍ចល័តគ្រប់ប្រភេទ ទោះស្ថិតក្នុងស្ថានភាពខ្វះខាតធនធានក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Unit selection | ជាក្បួនដោះស្រាយនៅក្នុងប្រព័ន្ធសំយោគសំឡេង ដែលធ្វើការស្វែងរក និងជ្រើសរើសយកបំណែកសំឡេងតូចៗ (ឯកតាសំឡេង) ពីក្នុងមូលដ្ឋានទិន្នន័យដ៏ធំមួយ ដើម្បីយកមកតម្រៀបតភ្ជាប់គ្នាបង្កើតជាប្រយោគថ្មីមួយតាមអត្ថបទដែលបានបញ្ចូលដោយរក្សាបាននូវភាពរលូនតាមបែបធម្មជាតិ។ | ដូចជាការរើសអក្សរ ឬពាក្យនីមួយៗពីកាសែតចាស់ៗ យកមកផ្គុំបិទជាប់គ្នាដើម្បីបង្កើតជាសំបុត្រថ្មីមួយអញ្ចឹងដែរ។ |
| Kullback-Leibler divergence | ជារង្វាស់គណិតវិទ្យាដែលប្រើសម្រាប់វាស់ស្ទង់មើលថា តើរបាយប្រូបាប៊ីលីតេមួយ (ការចែកចាយឯកតាសំឡេងក្នុងទិន្នន័យដែលបានកាត់បន្ថយ) មានភាពខុសគ្នាឬស្រដៀងគ្នាប៉ុនណាទៅនឹងរបាយប្រូបាប៊ីលីតេគោលដៅ (ការចែកចាយក្នុងទិន្នន័យដើម)។ កាលណាតម្លៃនេះកាន់តែតូច មានន័យថាទិន្នន័យទាំងពីរមានភាពស្រដៀងគ្នាកាន់តែខ្លាំង។ | ដូចជាការប្រៀបធៀបរូបមន្តធ្វើម្ហូបពីរមុខ ដើម្បីមើលថាវាមានគ្រឿងផ្សំខុសគ្នាប៉ុនណា កាលណារសជាតិនិងបរិមាណគ្រឿងផ្សំកាន់តែដូចគ្នា នោះតម្លៃនៃភាពខុសគ្នាកាន់តែខិតជិតសូន្យ។ |
| Diphone | ជាឯកតាសំឡេងមូលដ្ឋានក្នុងការសំយោគសំឡេង ដែលគ្របដណ្តប់ពីចំណុចកណ្តាលនៃសូរសព្ទមួយ ទៅកាន់ចំណុចកណ្តាលនៃសូរសព្ទមួយទៀតដែលនៅជាប់គ្នា។ ការប្រើប្រាស់ Diphone ជួយរក្សានូវលក្ខណៈសូរសព្ទនៃការផ្លាស់ប្តូរពីសំឡេងមួយទៅសំឡេងមួយទៀត (Transition) ធ្វើឱ្យការបញ្ចេញសំឡេងស្តាប់ទៅរលូនជាងការយកសូរសព្ទនីមួយៗមកតភ្ជាប់គ្នាផ្ទាល់។ | ដូចជាការថតយករូបភាពនៃការចាប់ដៃគ្នារវាងមនុស្សពីរនាក់ ដែលបង្ហាញពីរបៀបដែលដៃទាំងពីរភ្ជាប់គ្នា មិនមែនគ្រាន់តែជារូបថតដៃម្នាក់ៗដាច់ដោយឡែកនោះទេ។ |
| Database pruning | ជាដំណើរការនៃការកាត់បន្ថយទំហំមូលដ្ឋានទិន្នន័យសំឡេង ដោយធ្វើការស្វែងរកនិងលុបចោលនូវឯកតាសំឡេងណាដែលមិនសូវសំខាន់ មិនសូវបានប្រើប្រាស់ញឹកញាប់ ឬមានលក្ខណៈជាន់គ្នា (Redundant) ដើម្បីឱ្យប្រព័ន្ធអាចដំណើរការបានលឿន និងអាចដាក់ប្រើប្រាស់លើឧបករណ៍ដែលមានទំហំផ្ទុកតូចៗ (ដូចជាទូរស័ព្ទដៃ)។ | ដូចជាការកាត់មែកឈើដែលងាប់ ឬស្លឹកដែលមិនសូវសំខាន់ចេញ ដើម្បីឱ្យដើមឈើនៅតូចល្មម តែមានរាងស្អាត និងងាយស្រួលដាំក្នុងផើងតូចក្នុងផ្ទះ។ |
| Concatenation cost | ជារង្វាស់ដែលប្រើដើម្បីវាយតម្លៃមើលថា តើការតភ្ជាប់រវាងបំណែកសំឡេងពីរដែលនៅជាប់គ្នា មានភាពរលូន និងស៊ីចង្វាក់គ្នាកម្រិតណាដោយផ្អែកលើលក្ខណៈសូរសព្ទរបស់វា។ បើតម្លៃនេះកាន់តែទាប មានន័យថាការតភ្ជាប់សំឡេងទាំងពីរស្តាប់ទៅកាន់តែធម្មជាតិ និងមិនមានសូររអាក់រអួល ឬដាច់ៗ។ | ដូចជាការវាស់ស្ទង់ភាពស៊ុមគ្នានៃបន្ទះឈើពីរដែលយកមកផ្គុំគ្នា បើមុខកាត់ឈើទាំងពីរស៊ីគ្នាល្អ នោះស្នាមតភ្ជាប់នឹងមើលមិនសូវឃើញ។ |
| Target cost | ជារង្វាស់ដែលគណនាដើម្បីប្រៀបធៀបថាតើ បំណែកសំឡេងដែលប្រព័ន្ធបានទាញយកពីក្នុងឃ្លាំងទិន្នន័យ មានលក្ខណៈ (ដូចជា សំនៀង ការសង្កត់សំឡេង និងប្រវែង) ស្រដៀងទៅនឹងសំឡេងគោលដៅឧត្តមគតិដែលប្រព័ន្ធចង់បានកម្រិតណា។ បើតម្លៃនេះកាន់តែទាប មានន័យថាសំឡេងដែលរើសបានកាន់តែត្រឹមត្រូវ និងសាកសមនឹងបរិបទនៃប្រយោគ។ | ដូចជាការដើរទិញខោអាវដោយប្រៀបធៀបខ្នាតអាវក្នុងហាង ទៅនឹងខ្នាតដងខ្លួនរបស់អ្នក បើខ្នាតកាន់តែត្រូវគ្នា នោះតម្លៃនៃការខុសខ្នាតគឺកាន់តែទាប។ |
| Greedy algorithm | ជាក្បួនដោះស្រាយក្នុងការស្វែងរកចម្លើយ ដែលតែងតែធ្វើការជ្រើសរើសយកជម្រើសណាដែលផ្តល់លទ្ធផលល្អបំផុតភ្លាមៗនៅជំហាននីមួយៗ (Local optimum) ដោយមិនខ្វល់ពីផលប៉ះពាល់ជារួមនៅចុងបញ្ចប់ឡើយ។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីរើសប្រយោគបញ្ចូលក្នុងទិន្នន័យ ដោយរើសយកប្រយោគណាដែលធ្វើឱ្យតម្លៃគម្លាត KL ធ្លាក់ចុះទាបបំផុតភ្លាមៗនៅរាល់ការរើសម្តងៗ។ | ដូចជាការរើសផ្លែឈើក្នុងកន្ត្រក ដោយរើសយកតែផ្លែណាដែលធំជាងគេនិងឃើញច្បាស់ជាងគេនៅនឹងមុខភ្លាមៗ ជាជាងការចំណាយពេលគិតរកវិធីរើសយកផ្លែឈើទាំងអស់ឱ្យបានលឿនជាងមុន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖