បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការចំណាយខ្ពស់ក្នុងការថតសំឡេងសម្រាប់ប្រព័ន្ធបំប្លែងអត្ថបទទៅជាសំឡេង (Text-to-Speech) ដោយស្វែងរកវិធីសាស្ត្រជ្រើសរើសប្រយោគដ៏ល្អបំផុតដើម្បីបង្កើតសំណុំទិន្នន័យតូចតែមានគុណភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសសំណុំទិន្នន័យចំនួន ៤ ដោយប្រើប្រាស់សៀវភៅសំឡេងភាសាបារាំងចំនួន ២ និងម៉ាស៊ីន TTS ចំនួន ២ ប្រភេទ ដើម្បីវាយតម្លៃគុណភាពនៃការសំយោគសំឡេង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Selection ការជ្រើសរើសដោយចៃដន្យ |
ងាយស្រួលក្នុងការអនុវត្ត និងរក្សាបាននូវទម្រង់នៃការចែកចាយទិន្នន័យដើម (KLD ទាប)។ | លទ្ធផលមិនសូវមានស្ថិរភាព ហើយគុណភាពនៃការសំយោគសំឡេងស្ថិតនៅកម្រិតមធ្យម។ | មានអត្រាចំណាយ (Global Cost) ខ្ពស់ជាងវិធីសាស្ត្រ Shortest ក្នុងការវាយតម្លៃដោយប្រព័ន្ធ។ |
| Set Covering ការគ្របដណ្តប់សំណុំឯកតា (Greedy Algorithm) |
ធានាបាននូវការគ្របដណ្តប់ឯកតាសំឡេង (Diphones/Triphones) ស្ទើរតែទាំងអស់ដែលមានក្នុងអត្ថបទដើម។ | មានទំនោរជ្រើសរើសប្រយោគវែងៗ ដែលធ្វើឱ្យការថតសំឡេងមានភាពស្មុគស្មាញ និងទទួលបានសំឡេងរឹងៗ។ | ផ្តល់លទ្ធផលអន់បំផុត ដោយមានអត្រាចំណាយ TTS ខ្ពស់ជាងការជ្រើសរើសដោយចៃដន្យទៅទៀត។ |
| CNN-KMeans ការដាក់ជាបណ្ដុំដោយប្រើ CNN និង KMeans |
ជាវិធីសាស្ត្រទំនើប (State-of-the-art) ដែលប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដើម្បីរៀបចំទិន្នន័យតាមលក្ខណៈភាសាវិទ្យា។ | ទាមទារការរៀបចំកូដស្មុគស្មាញ និងចំណាយធនធានកុំព្យូទ័រក្នុងការហ្វឹកហាត់ម៉ូដែល Auto-encoder។ | ចាញ់វិធីសាស្ត្រ Shortest ទាំងក្នុងការវាយតម្លៃដោយប្រព័ន្ធ និងការធ្វើតេស្តស្តាប់ដោយមនុស្ស។ |
| Shortest ការជ្រើសរើសកន្សោមពាក្យខ្លីបំផុត |
សាមញ្ញបំផុត ងាយស្រួលសម្រាប់អ្នកបញ្ចេញសំឡេងអាន និងបង្កើតបាននូវបំរែបំរួលសម្លេង (Prosody) ច្រើនប្រភេទ។ | មិនធានាបានការគ្របដណ្តប់គ្រប់ឯកតាសំឡេងទាំងអស់ឡើយ (KLD ខ្ពស់)។ | ទទួលបានចំណាត់ថ្នាក់លេខ១ ពីអ្នកស្តាប់ និងមានតម្លៃចំណាយ TTS (Global Cost) ទាបបំផុត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាសំឡេងដែលមានគុណភាពខ្ពស់ ព្រមទាំងពេលវេលាសម្រាប់ការវាយតម្លៃដោយមនុស្សដោយផ្ទាល់។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សៀវភៅសំឡេងភាសាបារាំងតែប៉ុណ្ណោះ (អ្នកអានប្រុសម្នាក់ និងស្រីម្នាក់) ដែលមិនមែនជាភាសាដែលមានសំនៀងឡើងចុះអត្ថន័យខុសគ្នា (Tonal language) នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ភាសាខ្មែរមានទម្រង់សូរសព្ទខុសគ្នាឆ្ងាយ មានស្រៈច្រើន និងការបញ្ចេញសំឡេងស្មុគស្មាញ ដូច្នេះការប្រើប្រាស់ត្រឹមតែប្រយោគខ្លីៗ អាចនឹងមិនគ្រប់គ្រាន់ក្នុងការគ្របដណ្តប់ស្រៈឬព្យញ្ជនៈកម្រៗឡើយ ទោះបីជាវិធីនេះជួយឱ្យសំឡេងមានលក្ខណៈធម្មជាតិក៏ដោយ។
វិធីសាស្ត្រ «ជ្រើសរើសប្រយោគខ្លីបំផុត» នេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័នស្រាវជ្រាវនៅកម្ពុជា ព្រោះវាចំណាយពេលតិច និងងាយស្រួលរៀបចំទិន្នន័យ។
ជារួម វិធីសាស្ត្រនេះផ្តល់នូវផ្លូវកាត់ដ៏ងាយស្រួល ក្នុងការរៀបចំសំណុំទិន្នន័យថតសំឡេង (Voice Corpus) ប្រកបដោយគុណភាព ដោយមិនតម្រូវឱ្យមានក្បួនគណិតវិទ្យាស្មុគស្មាញឡើយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Text-to-Speech (TTS) | ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដើម្បីបំប្លែងអត្ថបទសរសេរ ទៅជាសំឡេងនិយាយរបស់មនុស្សដោយស្វ័យប្រវត្តិ។ | ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលបញ្ចេញសំឡេងអានរាល់ពាក្យដែលយើងវាយបញ្ចូលទៅក្នុងកុំព្យូទ័រឱ្យយើងស្តាប់។ |
| Voice Corpus | សំណុំទិន្នន័យដែលផ្ទុកនូវឯកសារសំឡេងថត និងអត្ថបទដែលត្រូវគ្នា ដែលអ្នកស្រាវជ្រាវប្រើប្រាស់សម្រាប់បង្ហាត់ប្រព័ន្ធបញ្ចេញសំឡេង (AI) ឱ្យចេះនិយាយ។ | ដូចជាវចនានុក្រមសំឡេង ដែលកុំព្យូទ័ររៀនសូត្រពីរបៀបបញ្ចេញសំឡេងតាមរយៈការស្តាប់គំរូទាំងនោះជាដដែលៗ។ |
| Utterance | កន្សោមពាក្យ ឬប្រយោគពេញលេញមួយដែលត្រូវបានបញ្ចេញសំឡេង តាំងពីចាប់ផ្តើមរហូតដល់បញ្ចប់ការនិយាយមុនពេលដកដង្ហើម ឬឈប់។ | ដូចជារបៀបដែលយើងនិយាយមួយឃ្លាៗ ឬមួយប្រយោគ មុនពេលសម្រាកដកដង្ហើមម្តង។ |
| Set covering problem | បញ្ហានៃការស្វែងរក និងជ្រើសរើសសំណុំទិន្នន័យរង (Sub-corpus) ឱ្យបានតូចបំផុត តែត្រូវធានាថាវាមានផ្ទុកនូវគ្រប់ឯកតាសូរសព្ទទាំងអស់ដែលមានក្នុងអត្ថបទដើម។ | ដូចជាការរើសសិស្សមួយក្រុមតូចបំផុត ប៉ុន្តែធានាថាមានអ្នកចេះលេងឧបករណ៍តន្ត្រីគ្រប់ប្រភេទដើម្បីបង្កើតជាក្រុមតន្ត្រីមួយដែលពេញលេញ។ |
| Kullback-Leibler Divergence (KLD) | រង្វាស់គណិតវិទ្យាដែលប្រើដើម្បីវាស់ពីគម្លាត ឬភាពខុសគ្នារវាងរបាយនៃការចែកចាយទិន្នន័យពីរ (ឧទាហរណ៍ ភាពខុសគ្នានៃការចែកចាយសូរសព្ទរវាងសំណុំទិន្នន័យតូច និងអត្ថបទដើមទាំងមូល)។ | ដូចជាការប្រៀបធៀបរូបមន្តធ្វើម្ហូបពីរមុខ ដើម្បីមើលថាតើសមាមាត្រនៃការប្រើប្រាស់គ្រឿងផ្សំមានភាពខុសគ្នាកម្រិតណា។ |
| Diphone / Triphone | ឯកតាសំឡេងតូចៗដែលផ្សំឡើងពីសូរសព្ទពីរ (Diphone) ឬបី (Triphone) ជាប់គ្នា ដែលប្រព័ន្ធ TTS កាត់យកមកប្រើដើម្បីផ្គុំជាពាក្យពេញលេញ។ | ដូចជាបំណែកឡេហ្គោ (Lego) តូចៗ ដែលគេយកមកតភ្ជាប់គ្នាដើម្បីសាងសង់ជារូបរាងអ្វីមួយ។ |
| CNN-KMeans | វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដើម្បីទាញយកលក្ខណៈសម្បត្តិនៃទិន្នន័យ និងក្បួន KMeans ដើម្បីចាត់ថ្នាក់ទិន្នន័យជាក្រុមៗ សម្រាប់ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិ។ | ដូចជាម៉ាស៊ីនដែលចេះស្គាល់និងបែងចែកប្រភេទផ្លែឈើតាមពណ៌និងទំហំ (CNN) រួចរៀបចំវាដាក់កន្ត្រកផ្សេងៗគ្នាដោយស្វ័យប្រវត្តិ (KMeans)។ |
| Prosody / Prosodic variation | បម្រែបម្រួលនៃសំនៀងឡើងចុះ ចង្វាក់ កម្រិតសំឡេង និងការសង្កត់ន័យក្នុងការនិយាយ ដែលធ្វើឱ្យការនិយាយមានមនោសញ្ចេតនា និងលក្ខណៈធម្មជាតិ។ | ដូចជាការនិយាយដែលមានការឡើងចុះសម្លេងតាមកាលៈទេសៈ មិនមែនស្មើធេងគ្មានព្រលឹងដូចមនុស្សយន្តនោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖