បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់សៀវភៅសំឡេង (Audiobooks) ដែលមានទម្រង់សំឡេងចម្រុះ (Diverse speech) សម្រាប់ការបណ្តុះបណ្តាលប្រព័ន្ធសំយោគសំឡេង HMM-TTS ដែលជាទូទៅធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតវិធីសាស្ត្រជ្រើសរើសប្រយោគអព្យាក្រឹតដោយស្វ័យប្រវត្តិផ្អែកលើច្បាប់ (Rule-based approach) និងធ្វើការវាយតម្លៃតាមរយៈការធ្វើតេស្តស្តាប់ (Listening tests) ធៀបនឹងការជ្រើសរើសដោយដៃនិងទិន្នន័យដើមទាំងមូល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Full Training Set (Voice FULL) ការប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាលទាំងស្រុង (Voice FULL) |
ប្រើប្រាស់ទិន្នន័យបានច្រើនជាអតិបរមា និងមិនទាមទារការចំណាយពេលវេលាក្នុងការចម្រាញ់ទិន្នន័យ។ | ការរាប់បញ្ចូលសំឡេងមិនអព្យាក្រឹតច្រើន ធ្វើឱ្យម៉ូដែលបាត់បង់លំនឹង (Over-smoothing) និងធ្វើឱ្យគុណភាពសំយោគសំឡេងធ្លាក់ចុះ។ | ទទួលបានការពេញចិត្តពីអ្នកស្តាប់ត្រឹមតែ ៣២,៥% ទៅ ៣២,៩% ប៉ុណ្ណោះធៀបនឹងវិធីសាស្ត្រចម្រាញ់ទិន្នន័យផ្សេងទៀត។ |
| Manual Selection (Voice NEUTRAL_hand) ការជ្រើសរើសទិន្នន័យអព្យាក្រឹតដោយមនុស្ស (Voice NEUTRAL_hand) |
ផ្តល់គុណភាពសំឡេងល្អបំផុត ព្រោះមនុស្សអាចវាយតម្លៃកត្តាស្មុគស្មាញដូចជាគុណភាពសំឡេង អត្រានៃការនិយាយ និងការបង្ខូចទ្រង់ទ្រាយបានច្បាស់។ | ទាមទារកម្លាំងពលកម្ម និងពេលវេលាយូរខ្លាំង ដែលមិនអាចអនុវត្តបានជាក់ស្តែងសម្រាប់កម្រងទិន្នន័យសៀវភៅសំឡេងដែលមានទំហំធំ។ | ទទួលបានការពេញចិត្តខ្ពស់បំផុត ៥៣,៩% ធៀបនឹងការមិនចម្រាញ់ទិន្នន័យ និង ៤៧,៧% ធៀបនឹងការជ្រើសរើសដោយស្វ័យប្រវត្តិ។ |
| Automatic Selection (Voice NEUTRAL_auto) ការជ្រើសរើសប្រយោគដោយស្វ័យប្រវត្តិ (Voice NEUTRAL_auto) |
អាចដំណើរការចម្រាញ់ទិន្នន័យខ្នាតធំបានយ៉ាងលឿន និងធ្វើឱ្យគុណភាពសំយោគសំឡេងប្រសើរជាងការប្រើទិន្នន័យស្រមោចគួរឱ្យកត់សម្គាល់។ | មិនទាន់មានភាពសុក្រឹតដូចមនុស្សនៅឡើយ ដោយមានការកាត់ចោលប្រយោគត្រឹមត្រូវខ្លះ និងពឹងផ្អែកលើការកំណត់តម្លៃ (Threshold) ដោយដៃ។ | ទទួលបានការពេញចិត្ត ៤៩,៣% ធៀបនឹងការមិនចម្រាញ់ទិន្នន័យ (៣២,៩%) ទោះបីជាមានកម្រិតទាបជាងការជ្រើសរើសដោយមនុស្សបន្តិចក្តី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីធនធានកុំព្យូទ័រនោះទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ វាទាមទារកម្មវិធីសម្រាប់ស្រخراجលក្ខណៈសូរសព្ទនិងកម្លាំងម៉ាស៊ីនដើម្បីបណ្តុះបណ្តាលម៉ូដែល HMM-TTS។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសៀវភៅសំឡេងភាសាអង់គ្លេស-អាមេរិក អានដោយបុរសតែម្នាក់ និងជារចនាបថអត្ថបទក្នុងទសវត្សរ៍ឆ្នាំ ១៨៨០។ លក្ខណៈអត្ថបទដែលបានប្រើដើម្បីច្រានចោលប្រយោគ (ឧទាហរណ៍ សញ្ញាសម្រង់អង់គ្លេស, ពាក្យឧទាន "Ah, Oh") គឺមានលក្ខណៈឯកតោភាគី។ សម្រាប់ប្រទេសកម្ពុជា ការចម្លងវិធីសាស្ត្រនេះទាមទារឱ្យមានការកែតម្រូវច្បាប់វិនិច្ឆ័យទាំងនេះឱ្យស្របតាមរចនាសម្ព័ន្ធវេយ្យាករណ៍ ការបញ្ចេញសំឡេង និងវណ្ណយុត្តិរបស់ភាសាខ្មែរ។
វិធីសាស្ត្រនៃការចម្រាញ់ទិន្នន័យដោយស្វ័យប្រវត្តិនេះមានសក្តានុពលខ្ពស់សម្រាប់កម្ពុជា ក្នុងការកសាងប្រព័ន្ធ Text-to-Speech (TTS) ភាសាខ្មែរដោយប្រើប្រាស់ទិន្នន័យប្រភពបើកចំហដែលមានស្រាប់។
សរុបមក ការអនុវត្តវិធានការច្រានចោលទិន្នន័យមិនអព្យាក្រឹតផ្អែកលើលក្ខណៈសូរសព្ទនិងអត្ថបទ គឺជាវិធីសាស្ត្រដ៏សាមញ្ញប៉ុន្តែមានប្រសិទ្ធភាពដែលអ្នកស្រាវជ្រាវកម្ពុជាអាចចាប់ផ្តើមអនុវត្តបានភ្លាមៗក្នុងការកសាងមូលដ្ឋានទិន្នន័យសំឡេងភាសាខ្មែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| HMM-TTS | ប្រព័ន្ធសំយោគសំឡេងដោយប្រើម៉ូដែល Hidden Markov ដែលប្រើប្រាស់ស្ថិតិនិងគណិតវិទ្យាដើម្បីរៀនពីទិន្នន័យសំឡេងរបស់មនុស្ស រួចយកចំណេះដឹងនោះទៅបង្កើតសំឡេងថ្មីពីអត្ថបទដែលទើបនឹងបញ្ចូល។ | ដូចជាសិល្បករម្នាក់ដែលរៀនពីទម្រង់សំឡេងរបស់មនុស្សជាច្រើន រួចយកមកផ្សំគ្នាបង្កើតជាសំឡេងថ្មីមួយតាមអត្ថបទដែលយើងវាយបញ្ចូលទៅឱ្យ។ |
| f0 | រលកប្រេកង់មូលដ្ឋាននៃសំឡេង (Fundamental frequency) ដែលជាទូទៅត្រូវបានប្រើដើម្បីវាស់ពីកម្រិតភាពខ្ពស់ឬទាប (pitch) នៃសំឡេងរបស់មនុស្ស។ នៅក្នុងការសិក្សានេះ គេប្រើវាដើម្បីរកមើលប្រយោគដែលមានការបញ្ចេញសំឡេងមិនប្រក្រតី (ឧទាហរណ៍ ស្រែក ឬ យំ)។ | ដូចជាការចុចគ្រាប់ចុចព្យាណូ បើចុចខាងស្តាំសំឡេងតូចស្រួច (f0 ខ្ពស់) បើចុចខាងឆ្វេងសំឡេងធំគ្រលរ (f0 ទាប)។ |
| RMS amplitude | រង្វាស់នៃថាមពលមធ្យម ឬកម្រិតភាពខ្លាំងនៃការបន្លឺសំឡេង (loudness) នៅក្នុងឯកសារអូឌីយ៉ូ។ វាត្រូវបានប្រើជាលក្ខណៈវិនិច្ឆ័យដើម្បីកាត់ចោលប្រយោគណាដែលថតមកលឺខ្លាំងពេក ឬខ្សឹបពេកដែលធ្វើឱ្យខូចគុណភាពទិន្នន័យ។ | ដូចជាការមួលប៊ូតុងវ៉ុលលីម (Volume) នៅលើវិទ្យុ ដែលបង្ហាញថាតើសំឡេងនោះលឺខ្លាំង ឬខ្សោយកម្រិតណា។ |
| Text normalization | ដំណើរការបំប្លែងអត្ថបទដែលមិនមែនជាពាក្យពេញលេញ ដូចជាលេខ និមិត្តសញ្ញា ឬកាលបរិច្ឆេទ ទៅជាពាក្យពេញដែលអាចអានបញ្ចេញសំឡេងបាន (ឧទាហរណ៍ "១៨៨០" ទៅជា "មួយពាន់ប្រាំបីរយប៉ែតសិប") មុននឹងប្រព័ន្ធបំប្លែងវាទៅជាសំឡេង។ | ដូចជាការសរសេរពន្យល់របៀបអានសញ្ញា ឬលេខកាត់នានានៅលើក្រដាសព្រាង ដើម្បីឱ្យអ្នកអានព័ត៌មានអានបានត្រឹមត្រូវនិងមិនរអាក់រអួល។ |
| Unit selection | បច្ចេកទេសសំយោគសំឡេងបែបប្រពៃណីដែលដំណើរការដោយការកាត់យកបំណែកសំឡេងតូចៗ (units) ពីទិន្នន័យសំឡេងមនុស្សពិតដែលបានថតទុក រួចយកមកតភ្ជាប់គ្នាដើម្បីបង្កើតជាពាក្យ ឬប្រយោគថ្មី។ | ដូចជាការកាត់តួអក្សរពីកាសែតចាស់ៗយកមកតម្រៀបភ្ជាប់គ្នា ដើម្បីបង្កើតជាសារថ្មីមួយ។ |
| Over-smoothing | បញ្ហាដែលកើតឡើងនៅក្នុងប្រព័ន្ធ HMM-TTS នៅពេលដែលប្រព័ន្ធព្យាយាមធ្វើឱ្យកម្រិតប្រែប្រួលនៃទិន្នន័យមានភាពរលូនពេក ដែលធ្វើឱ្យសំឡេងដែលបង្កើតចេញមកបាត់បង់ភាពលម្អិត ស្តាប់ទៅស្អក ឬបាត់បង់លក្ខណៈធម្មជាតិ។ | ដូចជាការប្រើកម្មវិធីកែរូបថតធ្វើឱ្យស្បែកមុខរលោងខ្លាំងពេក រហូតដល់បាត់បង់ទម្រង់ធម្មជាតិនៃមុខ និងមើលទៅដូចតុក្កតាជ័រ។ |
| Speech corpora | បណ្តុំនៃកម្រងទិន្នន័យសំឡេង និងអត្ថបទរៀបរាប់ពីសំឡេងនោះ ដែលត្រូវបានចងក្រងទុកជាប្រព័ន្ធសម្រាប់ប្រើប្រាស់ក្នុងការស្រាវជ្រាវ ការវិភាគ ឬការបណ្តុះបណ្តាលប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។ | ដូចជាបណ្ណាល័យដ៏ធំមួយដែលផ្ទុកនូវសៀវភៅនិងខ្សែអាត់សំឡេងអានសៀវភៅនោះ ដើម្បីងាយស្រួលឱ្យកុំព្យូទ័ររៀនស្តាប់និងនិយាយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖