បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាក្នុងការស្វែងរកសំណុំប៉ារ៉ាម៉ែត្រដ៏ប្រសើរបំផុតសម្រាប់ការសម្គាល់សូរសព្ទ (Phoneme Recognition) និងការបំប្លែងសំឡេង (Voice Conversion) ដោយប្រើប្រាស់លក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory Features) ដើម្បីបង្កើនភាពត្រឹមត្រូវនិងកាត់បន្ថយតម្រូវការទិន្នន័យហ្វឹកហាត់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងការធ្វើគំរូស្ថិតិ និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ដើម្បីធ្វើឱ្យប្រសើរឡើងនូវការសម្គាល់និងបំប្លែងសំឡេងកម្រិតខ្ពស់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Articulatory Feature - Hidden Markov Model (AF-HMM) ម៉ូដែល Hidden Markov ផ្អែកលើលក្ខណៈនៃការបញ្ចេញសំឡេងសម្រាប់ការសម្គាល់សូរសព្ទ |
មានភាពរឹងមាំចំពោះបំរែបំរួលសំឡេង និងអាចទាញយកលក្ខណៈពិសេសនៃសូរសព្ទបានល្អ។ ក្រោយពេលកែសម្រួលប៉ារ៉ាម៉ែត្រ វាផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែលប្រពៃណី។ | ងាយនឹងបង្កើតកំហុសបញ្ចូលបន្ថែម (Insertion errors) ប្រសិនបើមិនបានកែសម្រួលតម្លៃពិន័យ (Insertion Penalty) និងទម្រង់រចនាសម្ព័ន្ធ (Topology) ឱ្យបានត្រឹមត្រូវ។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវនៃការសម្គាល់សូរសព្ទរហូតដល់ ៨១,៣៨% លើទិន្នន័យ JNAS ដោយប្រើ Bakis topology និង HMM ៥ ដំណាក់កាល។ |
| MFCC - Hidden Markov Model (MFCC-HMM) ម៉ូដែល Hidden Markov ផ្អែកលើ MFCC (ប្រព័ន្ធគោលសម្រាប់ការសម្គាល់សូរសព្ទ) |
ជាវិធីសាស្ត្រស្តង់ដារដែលត្រូវបានគេយល់ដឹងច្បាស់ ងាយស្រួលក្នុងការទាញយកលក្ខណៈសំឡេងពីសញ្ញាអូឌីយ៉ូធម្មតា។ | អត្រាភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលព្យាយាមកែសម្រួលតម្លៃ Insertion Penalty បើប្រៀបធៀបទៅនឹង AF-HMM។ | អត្រាភាពត្រឹមត្រូវទាបជាង AF-HMM ជាពិសេសនៅពេលមានការប្រើប្រាស់ Triphone និងការកែសម្រួលដើម្បីកាត់បន្ថយកំហុស។ |
| Articulatory Feature - Artificial Neural Network (AF-ANN) for Voice Conversion បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតផ្អែកលើលក្ខណៈនៃការបញ្ចេញសំឡេង សម្រាប់ការបំប្លែងសំឡេង |
ទាមទារទិន្នន័យហ្វឹកហាត់ពីម្ចាស់សំឡេងគោលដៅតិចតួចបំផុត (ត្រឹមតែ ៥ ប្រយោគ) ព្រមទាំងមិនតម្រូវឱ្យមានទិន្នន័យស្របគ្នា (Parallel data) ពីប្រភពដើមនោះទេ។ | ការបំប្លែងប្រេកង់មូលដ្ឋាន (F0) នៅមានកម្រិត ដែលធ្វើឱ្យគុណភាពសំឡេងស្តាប់ទៅរាងមិនសូវច្បាស់ល្អឥតខ្ចោះ (បើទោះបីជានៅរក្សាភាពស្រដៀងនឹងម្ចាស់សំឡេងក៏ដោយ)។ | ទទួលបានពិន្ទុ Spectral Distortion (SD) ល្អជាង (៩,១៨ dB) និងពិន្ទុភាពស្រដៀងគ្នា (Similarity score) ខ្ពស់ បើទោះប្រើទិន្នន័យហ្វឹកហាត់តិចតួច។ |
| MCEP - Gaussian Mixture Model (MCEP-GMM) for Voice Conversion ម៉ូដែល Gaussian Mixture ផ្អែកលើ MCEP (ប្រព័ន្ធគោលសម្រាប់ការបំប្លែងសំឡេង) |
ជាប្រព័ន្ធស្តង់ដារដែលមានសមត្ថភាពផលិតសំឡេងបានយ៉ាងរលូនប្រសិនបើមានទិន្នន័យហ្វឹកហាត់ច្រើនគ្រប់គ្រាន់។ | ត្រូវការទិន្នន័យហ្វឹកហាត់ស្របគ្នា (Parallel training data) ច្រើនរវាងអ្នកនិយាយប្រភព និងគោលដៅ ដើម្បីទទួលបានលទ្ធផលល្អ។ | ពិន្ទុ Spectral Distortion (SD) ធ្លាក់ចុះសមាមាត្រទៅនឹងចំនួនទិន្នន័យ តែមានដំណើរការខ្សោយជាង AF-ANN (៩,៤០ dB) នៅពេលប្រើទិន្នន័យត្រឹម ៥ ប្រយោគ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ថ្វីត្បិតតែឯកសារមិនបានបញ្ជាក់លម្អិតពីទំហំកុំព្យូទ័រ (Hardware) ក៏ពិតមែន ប៉ុន្តែការស្រាវជ្រាវនេះទាមទារធនធានសូហ្វវែរ និងសំណុំទិន្នន័យសំឡេងស្តង់ដារដែលមានគុណភាពខ្ពស់។
ការសិក្សានេះពឹងផ្អែកស្ទើរតែទាំងស្រុងទៅលើទិន្នន័យសំឡេងបុរសជនជាតិជប៉ុន ដែលនេះជាភាពលម្អៀងយ៉ាងធំមួយ។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការពឹងផ្អែកលើសូរសព្ទជប៉ុនមិនអាចឆ្លើយតបនឹងភាពស្មុគស្មាញនៃប្រព័ន្ធស្រៈ និងខ្យល់សម្លេងរបស់ភាសាខ្មែរនោះទេ ទាមទារឱ្យមានការប្រមូលទិន្នន័យដែលមានតុល្យភាពយេនឌ័រ គ្រាមភាសា និងតំណាងឱ្យភាសាខ្មែរ។
បច្ចេកវិទ្យាដែលមាននៅក្នុងការស្រាវជ្រាវនេះ មានសក្ដានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI ផ្នែកភាសាខ្មែរ ដោយសារវាអាចដោះស្រាយបញ្ហាកង្វះខាតទិន្នន័យបាន។
ការប្រើប្រាស់លក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory Features) គឺជាច្រកចេញដ៏ឆ្លាតវៃមួយសម្រាប់ភាសាដែលមានទិន្នន័យតិច (Low-resource languages) ដូចជាភាសាខ្មែរ ព្រោះវាជួយកាត់បន្ថយការពឹងផ្អែកទៅលើទំហំទិន្នន័យដ៏ធំសម្បើមសម្រាប់ការបង្វឹកម៉ូដែល។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Articulatory Features (AF) | លក្ខណៈនៃការបញ្ចេញសំឡេង គឺជាទិន្នន័យដែលពិពណ៌នាអំពីរបៀបដែលសរីរាង្គបញ្ចេញសំឡេង (ដូចជាអណ្តាត បបូរមាត់ និងថ្គាម) ផ្លាស់ទីដើម្បីបង្កើតជាសំឡេងនិយាយ។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើប្រាស់ជាទិន្នន័យគោលដើម្បីសម្គាល់ និងបំប្លែងសំឡេង។ | ដូចជាការកត់ត្រាពីចលនាមាត់និងអណ្តាតរបស់អ្នកចម្រៀង ដើម្បីយកទៅបង្រៀនមនុស្សម្នាក់ទៀតឱ្យចេះច្រៀងបញ្ចេញសំឡេងតាមអញ្ចឹងដែរ។ |
| Hidden Markov Model (HMM) | ម៉ូដែលសិ្ថតិគណិតវិទ្យាមួយប្រភេទដែលប្រើជាទូទៅក្នុងការសម្គាល់សំឡេង (Speech Recognition) ដើម្បីទាយរកមើលថាតើសូរសព្ទអ្វីដែលត្រូវបាននិយាយ ដោយផ្អែកលើការវិភាគលំដាប់លំដោយនៃទិន្នន័យសំឡេងដែលប្រែប្រួលពីមួយវិនាទីទៅមួយវិនាទី។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុនៅថ្ងៃស្អែក ដោយពឹងផ្អែកលើពពកដែលយើងមើលឃើញនៅថ្ងៃនេះ និងទិន្នន័យអាកាសធាតុកាលពីថ្ងៃមុនៗ។ |
| Artificial Neural Network (ANN) | ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដោយត្រាប់តាមបណ្ដាញសរសៃប្រសាទខួរក្បាលមនុស្ស។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីរៀនពីរបៀបបំប្លែងលក្ខណៈសំឡេងពីមនុស្សម្នាក់ទៅមនុស្សម្នាក់ទៀត។ | ដូចជាខួរក្បាលកូនក្មេងដែលរៀនស្គាល់មុខសត្វផ្សេងៗតាមរយៈការមើលរូបភាពដដែលៗច្រើនដងរហូតដល់ចាំនិងចេះបែងចែក។ |
| Gaussian Mixture Model (GMM) | ម៉ូដែលស្ថិតិដែលតំណាងឱ្យរបាយទិន្នន័យស្មុគស្មាញដោយការបូកបញ្ចូលគ្នានូវរបាយធម្មតា (Gaussian distributions) ជាច្រើន។ វាត្រូវបានប្រើជាញឹកញាប់ជាប្រព័ន្ធគោលសម្រាប់ការបំប្លែងសំឡេង ដើម្បីចងក្រងទម្រង់សំឡេងរបស់មនុស្ស។ | ដូចជាការយកពណ៌មូលដ្ឋាន (ក្រហម ខៀវ លឿង) មកលាយបញ្ចូលគ្នាក្នុងកម្រិតផ្សេងៗគ្នា ដើម្បីបង្កើតជាពណ៌ថ្មីមួយរាប់ពាន់ពណ៌ទៀត។ |
| Mel-frequency Cepstral Coefficients (MFCC) | លក្ខណៈទម្រង់នៃសំឡេងដែលត្រូវបានស្រង់ចេញពីសញ្ញាសំឡេង ដោយត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ (វាស់តាមខ្នាតប្រេកង់ Mel)។ វាគឺជាទិន្នន័យស្តង់ដារមួយដែលគេប្រើប្រាស់ជាទូទៅបំផុតនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងបញ្ជា។ | ដូចជាម៉ាស៊ីនថតសំឡេងដែលត្រូវបានកែច្នៃឱ្យចាប់យកតែសំឡេងណាដែលត្រចៀកមនុស្សអាចដឹង និងចាប់អារម្មណ៍ជាងគេ ដោយចោលសម្លេងរំខានផ្សេងៗ។ |
| Vocal Tract Parameter (VTP) | ប៉ារ៉ាម៉ែត្រដែលជួយកំណត់រូបរាងនិងទំហំនៃបំពង់សំឡេង (ចាប់ពីខ្សែសំឡេងរហូតដល់បបូរមាត់)។ វាត្រូវបានប្រើដើម្បីបង្កើតទម្រង់សំឡេងជាក់លាក់របស់បុគ្គលម្នាក់ៗនៅក្នុងការបង្កើតសំឡេងបំប្លែង។ | ដូចជារូបរាងនិងទំហំនៃបំពង់ខ្លុយ ដែលធ្វើឱ្យខ្លុយនីមួយៗបញ្ចេញសំឡេងធ្ងន់ឬស្រាលខុសៗគ្នា ទោះបីជាអ្នកផ្លុំប្រើកម្លាំងខ្យល់ដូចគ្នាក៏ដោយ។ |
| Fundamental Frequency (F0) | កម្រិតប្រេកង់ទាបបំផុតនៃរលកសំឡេង ដែលកំណត់អំពីកម្រិតសម្លេង (Pitch) ថាសំឡេងនោះស្រួច ឬធ្ងន់។ ការផ្លាស់ប្តូរតម្លៃ F0 គឺជារឿងសំខាន់បំផុតក្នុងការធ្វើឱ្យសំឡេងបំប្លែងមានលក្ខណៈស្រដៀងទៅនឹងម្ចាស់សំឡេងគោលដៅ។ | ដូចជាកម្រិតតឹងឬធូរនៃខ្សែហ្គីតា បើខ្សែតឹងវាបន្លឺសំឡេងស្រួច (F0 ខ្ពស់) បើខ្សែធូរវាបន្លឺសំឡេងធ្ងន់ (F0 ទាប)។ |
| Source-filter model | ទ្រឹស្តីនៃការផលិតសំឡេង ដែលសន្មតថាសំឡេងមនុស្សកើតចេញពីប្រភពខ្យល់ (សួត និងខ្សែសំឡេង) ហើយឆ្លងកាត់តម្រង (បំពង់ក មាត់ ច្រមុះ) ដែលជាអ្នកកែច្នៃខ្យល់នោះឱ្យទៅជាសូរសព្ទផ្សេងៗគ្នាមុននឹងបញ្ចេញមកក្រៅ។ | ដូចជាការផ្លុំស្នែង ដោយខ្យល់ដែលផ្លុំចេញពីមាត់គឺជា "ប្រភព" (Source) ហើយតួស្នែងវែងៗដែលប្តូរទម្រង់សំឡេងគឺជា "តម្រង" (Filter)។ |
| Bakis Topology | ទម្រង់រចនាសម្ព័ន្ធមួយនៅក្នុង HMM ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចលោតរំលង (skip) ដំណាក់កាល (states) មួយចំនួនបាន។ វាជួយឱ្យប្រព័ន្ធសម្គាល់សំឡេងមានភាពបត់បែនខ្ពស់ក្នុងការចាត់ចែងសូរសព្ទកាត់កាល ដែលមានរយៈពេលខ្លីឬវែងខុសៗគ្នា។ | ដូចជាការលេងហ្គេមបាអុកដែលកូនអុកអាចដើររំលងក្រឡាបាន ដែលធ្វើឱ្យការដើរមានភាពរហ័សនិងបត់បែនជាងការតម្រូវឱ្យដើរតែមួយក្រឡាម្តងៗ។ |
| Insertion Penalty (IP) | តម្លៃពិន័យដែលត្រូវបានកំណត់បញ្ចួលនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេង ដើម្បីការពារកុំឱ្យប្រព័ន្ធបង្កើតការទាយពាក្យ ឬសូរសព្ទច្រើនហួសហេតុពេក (ដើម្បីកាត់បន្ថយ Insertion error)។ ការកំណត់តម្លៃនេះជួយរក្សាតុល្យភាពនៃភាពត្រឹមត្រូវក្នុងការសម្គាល់។ | ដូចជាច្បាប់ផាកពិន័យក្នុងការប្រឡង បើសរសេរចម្លើយលើសឬខុសពីសំណួរនឹងត្រូវដកពិន្ទុ ដើម្បីកុំឱ្យសិស្សចេះតែសរសេររៀបរាប់ផ្តេសផ្តាសច្រើនពេក។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖