Original Title: A Study on Articulatory Feature-based Phoneme Recognition and Voice Conversion
Source: repo.lib.tut.ac.jp
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាអំពីការសម្គាល់សូរសព្ទ និងការបំប្លែងសំឡេងដោយផ្អែកលើលក្ខណៈនៃការបញ្ចេញសំឡេង

ចំណងជើងដើម៖ A Study on Articulatory Feature-based Phoneme Recognition and Voice Conversion

អ្នកនិពន្ធ៖ Narpendyah Wisjnu Ariwardhani (Toyohashi University of Technology)

ឆ្នាំបោះពុម្ព៖ 2014

វិស័យសិក្សា៖ Speech Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាក្នុងការស្វែងរកសំណុំប៉ារ៉ាម៉ែត្រដ៏ប្រសើរបំផុតសម្រាប់ការសម្គាល់សូរសព្ទ (Phoneme Recognition) និងការបំប្លែងសំឡេង (Voice Conversion) ដោយប្រើប្រាស់លក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory Features) ដើម្បីបង្កើនភាពត្រឹមត្រូវនិងកាត់បន្ថយតម្រូវការទិន្នន័យហ្វឹកហាត់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងការធ្វើគំរូស្ថិតិ និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត ដើម្បីធ្វើឱ្យប្រសើរឡើងនូវការសម្គាល់និងបំប្លែងសំឡេងកម្រិតខ្ពស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Articulatory Feature - Hidden Markov Model (AF-HMM)
ម៉ូដែល Hidden Markov ផ្អែកលើលក្ខណៈនៃការបញ្ចេញសំឡេងសម្រាប់ការសម្គាល់សូរសព្ទ
មានភាពរឹងមាំចំពោះបំរែបំរួលសំឡេង និងអាចទាញយកលក្ខណៈពិសេសនៃសូរសព្ទបានល្អ។ ក្រោយពេលកែសម្រួលប៉ារ៉ាម៉ែត្រ វាផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែលប្រពៃណី។ ងាយនឹងបង្កើតកំហុសបញ្ចូលបន្ថែម (Insertion errors) ប្រសិនបើមិនបានកែសម្រួលតម្លៃពិន័យ (Insertion Penalty) និងទម្រង់រចនាសម្ព័ន្ធ (Topology) ឱ្យបានត្រឹមត្រូវ។ សម្រេចបានអត្រាភាពត្រឹមត្រូវនៃការសម្គាល់សូរសព្ទរហូតដល់ ៨១,៣៨% លើទិន្នន័យ JNAS ដោយប្រើ Bakis topology និង HMM ៥ ដំណាក់កាល។
MFCC - Hidden Markov Model (MFCC-HMM)
ម៉ូដែល Hidden Markov ផ្អែកលើ MFCC (ប្រព័ន្ធគោលសម្រាប់ការសម្គាល់សូរសព្ទ)
ជាវិធីសាស្ត្រស្តង់ដារដែលត្រូវបានគេយល់ដឹងច្បាស់ ងាយស្រួលក្នុងការទាញយកលក្ខណៈសំឡេងពីសញ្ញាអូឌីយ៉ូធម្មតា។ អត្រាភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលព្យាយាមកែសម្រួលតម្លៃ Insertion Penalty បើប្រៀបធៀបទៅនឹង AF-HMM។ អត្រាភាពត្រឹមត្រូវទាបជាង AF-HMM ជាពិសេសនៅពេលមានការប្រើប្រាស់ Triphone និងការកែសម្រួលដើម្បីកាត់បន្ថយកំហុស។
Articulatory Feature - Artificial Neural Network (AF-ANN) for Voice Conversion
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតផ្អែកលើលក្ខណៈនៃការបញ្ចេញសំឡេង សម្រាប់ការបំប្លែងសំឡេង
ទាមទារទិន្នន័យហ្វឹកហាត់ពីម្ចាស់សំឡេងគោលដៅតិចតួចបំផុត (ត្រឹមតែ ៥ ប្រយោគ) ព្រមទាំងមិនតម្រូវឱ្យមានទិន្នន័យស្របគ្នា (Parallel data) ពីប្រភពដើមនោះទេ។ ការបំប្លែងប្រេកង់មូលដ្ឋាន (F0) នៅមានកម្រិត ដែលធ្វើឱ្យគុណភាពសំឡេងស្តាប់ទៅរាងមិនសូវច្បាស់ល្អឥតខ្ចោះ (បើទោះបីជានៅរក្សាភាពស្រដៀងនឹងម្ចាស់សំឡេងក៏ដោយ)។ ទទួលបានពិន្ទុ Spectral Distortion (SD) ល្អជាង (៩,១៨ dB) និងពិន្ទុភាពស្រដៀងគ្នា (Similarity score) ខ្ពស់ បើទោះប្រើទិន្នន័យហ្វឹកហាត់តិចតួច។
MCEP - Gaussian Mixture Model (MCEP-GMM) for Voice Conversion
ម៉ូដែល Gaussian Mixture ផ្អែកលើ MCEP (ប្រព័ន្ធគោលសម្រាប់ការបំប្លែងសំឡេង)
ជាប្រព័ន្ធស្តង់ដារដែលមានសមត្ថភាពផលិតសំឡេងបានយ៉ាងរលូនប្រសិនបើមានទិន្នន័យហ្វឹកហាត់ច្រើនគ្រប់គ្រាន់។ ត្រូវការទិន្នន័យហ្វឹកហាត់ស្របគ្នា (Parallel training data) ច្រើនរវាងអ្នកនិយាយប្រភព និងគោលដៅ ដើម្បីទទួលបានលទ្ធផលល្អ។ ពិន្ទុ Spectral Distortion (SD) ធ្លាក់ចុះសមាមាត្រទៅនឹងចំនួនទិន្នន័យ តែមានដំណើរការខ្សោយជាង AF-ANN (៩,៤០ dB) នៅពេលប្រើទិន្នន័យត្រឹម ៥ ប្រយោគ។

ការចំណាយលើធនធាន (Resource Cost)៖ ថ្វីត្បិតតែឯកសារមិនបានបញ្ជាក់លម្អិតពីទំហំកុំព្យូទ័រ (Hardware) ក៏ពិតមែន ប៉ុន្តែការស្រាវជ្រាវនេះទាមទារធនធានសូហ្វវែរ និងសំណុំទិន្នន័យសំឡេងស្តង់ដារដែលមានគុណភាពខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកស្ទើរតែទាំងស្រុងទៅលើទិន្នន័យសំឡេងបុរសជនជាតិជប៉ុន ដែលនេះជាភាពលម្អៀងយ៉ាងធំមួយ។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការពឹងផ្អែកលើសូរសព្ទជប៉ុនមិនអាចឆ្លើយតបនឹងភាពស្មុគស្មាញនៃប្រព័ន្ធស្រៈ និងខ្យល់សម្លេងរបស់ភាសាខ្មែរនោះទេ ទាមទារឱ្យមានការប្រមូលទិន្នន័យដែលមានតុល្យភាពយេនឌ័រ គ្រាមភាសា និងតំណាងឱ្យភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាដែលមាននៅក្នុងការស្រាវជ្រាវនេះ មានសក្ដានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI ផ្នែកភាសាខ្មែរ ដោយសារវាអាចដោះស្រាយបញ្ហាកង្វះខាតទិន្នន័យបាន។

ការប្រើប្រាស់លក្ខណៈនៃការបញ្ចេញសំឡេង (Articulatory Features) គឺជាច្រកចេញដ៏ឆ្លាតវៃមួយសម្រាប់ភាសាដែលមានទិន្នន័យតិច (Low-resource languages) ដូចជាភាសាខ្មែរ ព្រោះវាជួយកាត់បន្ថយការពឹងផ្អែកទៅលើទំហំទិន្នន័យដ៏ធំសម្បើមសម្រាប់ការបង្វឹកម៉ូដែល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃដំណើរការសំឡេង (Speech Processing Fundamentals): និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីទ្រឹស្តីមូលដ្ឋាននៃការទាញយកលក្ខណៈសំឡេង ដូចជា MFCC និង Articulatory Features ព្រមទាំងយន្តការនៃប្រព័ន្ធម៉ូដែលស្ថិតិរួមមាន HMM និង GMM។
  2. សាកល្បងជាមួយកម្មវិធីកូដបើកចំហ (Open-source Toolkits Exploration): ដំឡើង និងអនុវត្តការប្រើប្រាស់ប្រព័ន្ធស្តង់ដារដូចជា HTK Toolkit សម្រាប់ការសម្គាល់សូរសព្ទ និង FestVoxSoundTouch សម្រាប់ការបំប្លែងសំឡេង ដើម្បីស្វែងយល់ពីលំហូរការងារ (Workflow) ជាក់ស្តែង។
  3. ការប្រមូល និងរៀបចំទិន្នន័យសូរសព្ទភាសាខ្មែរ (Khmer Phonetic Dataset Construction): រៀបចំថតសំឡេងជាភាសាខ្មែរ (យ៉ាងហោចណាស់ ៥០-១០០ ប្រយោគពីមនុស្សផ្សេងៗគ្នា) ហើយធ្វើការកត់ត្រា និងកាត់តសូរសព្ទដោយប្រើប្រាស់កម្មវិធីដូចជា Praat ដើម្បីត្រៀមធ្វើជាទិន្នន័យបង្វឹកម៉ូដែល។
  4. អភិវឌ្ឍម៉ូដែលគោល (Develop Baseline Models): ប្រើប្រាស់សំណុំទិន្នន័យភាសាខ្មែរខាងលើ ដើម្បីបង្កើតម៉ូដែល MFCC-HMM ជាមូលដ្ឋាន (Baseline) បន្ទាប់មកប្រៀបធៀបវាជាមួយនឹងការសាកល្បងបណ្តាញសរសៃប្រសាទ (Artificial Neural Networks) សម្រាប់ការបំប្លែងសំឡេង។
  5. សាកល្បងការបំប្លែងសំឡេងជាមួយទិន្នន័យតិច (Low-resource Voice Conversion Experiment): យកទិន្នន័យសំឡេងថ្មីត្រឹមតែ ៥ ទៅ ១០ ប្រយោគពីអ្នកនិយាយម្នាក់ទៀត ដើម្បីបង្វឹកម៉ូដែលឱ្យបំប្លែងសំឡេងពីប្រភពដើមទៅកាន់សំឡេងថ្មីនោះ រួចវាយតម្លៃលទ្ធផលតាមរយៈការស្តាប់ផ្ទាល់ និងវាស់វែងគម្លាត Spectral Distortion។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Articulatory Features (AF) លក្ខណៈនៃការបញ្ចេញសំឡេង គឺជាទិន្នន័យដែលពិពណ៌នាអំពីរបៀបដែលសរីរាង្គបញ្ចេញសំឡេង (ដូចជាអណ្តាត បបូរមាត់ និងថ្គាម) ផ្លាស់ទីដើម្បីបង្កើតជាសំឡេងនិយាយ។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើប្រាស់ជាទិន្នន័យគោលដើម្បីសម្គាល់ និងបំប្លែងសំឡេង។ ដូចជាការកត់ត្រាពីចលនាមាត់និងអណ្តាតរបស់អ្នកចម្រៀង ដើម្បីយកទៅបង្រៀនមនុស្សម្នាក់ទៀតឱ្យចេះច្រៀងបញ្ចេញសំឡេងតាមអញ្ចឹងដែរ។
Hidden Markov Model (HMM) ម៉ូដែលសិ្ថតិគណិតវិទ្យាមួយប្រភេទដែលប្រើជាទូទៅក្នុងការសម្គាល់សំឡេង (Speech Recognition) ដើម្បីទាយរកមើលថាតើសូរសព្ទអ្វីដែលត្រូវបាននិយាយ ដោយផ្អែកលើការវិភាគលំដាប់លំដោយនៃទិន្នន័យសំឡេងដែលប្រែប្រួលពីមួយវិនាទីទៅមួយវិនាទី។ ដូចជាការទស្សន៍ទាយអាកាសធាតុនៅថ្ងៃស្អែក ដោយពឹងផ្អែកលើពពកដែលយើងមើលឃើញនៅថ្ងៃនេះ និងទិន្នន័យអាកាសធាតុកាលពីថ្ងៃមុនៗ។
Artificial Neural Network (ANN) ប្រព័ន្ធកុំព្យូទ័រដែលត្រូវបានបង្កើតឡើងដោយត្រាប់តាមបណ្ដាញសរសៃប្រសាទខួរក្បាលមនុស្ស។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីរៀនពីរបៀបបំប្លែងលក្ខណៈសំឡេងពីមនុស្សម្នាក់ទៅមនុស្សម្នាក់ទៀត។ ដូចជាខួរក្បាលកូនក្មេងដែលរៀនស្គាល់មុខសត្វផ្សេងៗតាមរយៈការមើលរូបភាពដដែលៗច្រើនដងរហូតដល់ចាំនិងចេះបែងចែក។
Gaussian Mixture Model (GMM) ម៉ូដែលស្ថិតិដែលតំណាងឱ្យរបាយទិន្នន័យស្មុគស្មាញដោយការបូកបញ្ចូលគ្នានូវរបាយធម្មតា (Gaussian distributions) ជាច្រើន។ វាត្រូវបានប្រើជាញឹកញាប់ជាប្រព័ន្ធគោលសម្រាប់ការបំប្លែងសំឡេង ដើម្បីចងក្រងទម្រង់សំឡេងរបស់មនុស្ស។ ដូចជាការយកពណ៌មូលដ្ឋាន (ក្រហម ខៀវ លឿង) មកលាយបញ្ចូលគ្នាក្នុងកម្រិតផ្សេងៗគ្នា ដើម្បីបង្កើតជាពណ៌ថ្មីមួយរាប់ពាន់ពណ៌ទៀត។
Mel-frequency Cepstral Coefficients (MFCC) លក្ខណៈទម្រង់នៃសំឡេងដែលត្រូវបានស្រង់ចេញពីសញ្ញាសំឡេង ដោយត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ (វាស់តាមខ្នាតប្រេកង់ Mel)។ វាគឺជាទិន្នន័យស្តង់ដារមួយដែលគេប្រើប្រាស់ជាទូទៅបំផុតនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងបញ្ជា។ ដូចជាម៉ាស៊ីនថតសំឡេងដែលត្រូវបានកែច្នៃឱ្យចាប់យកតែសំឡេងណាដែលត្រចៀកមនុស្សអាចដឹង និងចាប់អារម្មណ៍ជាងគេ ដោយចោលសម្លេងរំខានផ្សេងៗ។
Vocal Tract Parameter (VTP) ប៉ារ៉ាម៉ែត្រដែលជួយកំណត់រូបរាងនិងទំហំនៃបំពង់សំឡេង (ចាប់ពីខ្សែសំឡេងរហូតដល់បបូរមាត់)។ វាត្រូវបានប្រើដើម្បីបង្កើតទម្រង់សំឡេងជាក់លាក់របស់បុគ្គលម្នាក់ៗនៅក្នុងការបង្កើតសំឡេងបំប្លែង។ ដូចជារូបរាងនិងទំហំនៃបំពង់ខ្លុយ ដែលធ្វើឱ្យខ្លុយនីមួយៗបញ្ចេញសំឡេងធ្ងន់ឬស្រាលខុសៗគ្នា ទោះបីជាអ្នកផ្លុំប្រើកម្លាំងខ្យល់ដូចគ្នាក៏ដោយ។
Fundamental Frequency (F0) កម្រិតប្រេកង់ទាបបំផុតនៃរលកសំឡេង ដែលកំណត់អំពីកម្រិតសម្លេង (Pitch) ថាសំឡេងនោះស្រួច ឬធ្ងន់។ ការផ្លាស់ប្តូរតម្លៃ F0 គឺជារឿងសំខាន់បំផុតក្នុងការធ្វើឱ្យសំឡេងបំប្លែងមានលក្ខណៈស្រដៀងទៅនឹងម្ចាស់សំឡេងគោលដៅ។ ដូចជាកម្រិតតឹងឬធូរនៃខ្សែហ្គីតា បើខ្សែតឹងវាបន្លឺសំឡេងស្រួច (F0 ខ្ពស់) បើខ្សែធូរវាបន្លឺសំឡេងធ្ងន់ (F0 ទាប)។
Source-filter model ទ្រឹស្តីនៃការផលិតសំឡេង ដែលសន្មតថាសំឡេងមនុស្សកើតចេញពីប្រភពខ្យល់ (សួត និងខ្សែសំឡេង) ហើយឆ្លងកាត់តម្រង (បំពង់ក មាត់ ច្រមុះ) ដែលជាអ្នកកែច្នៃខ្យល់នោះឱ្យទៅជាសូរសព្ទផ្សេងៗគ្នាមុននឹងបញ្ចេញមកក្រៅ។ ដូចជាការផ្លុំស្នែង ដោយខ្យល់ដែលផ្លុំចេញពីមាត់គឺជា "ប្រភព" (Source) ហើយតួស្នែងវែងៗដែលប្តូរទម្រង់សំឡេងគឺជា "តម្រង" (Filter)។
Bakis Topology ទម្រង់រចនាសម្ព័ន្ធមួយនៅក្នុង HMM ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចលោតរំលង (skip) ដំណាក់កាល (states) មួយចំនួនបាន។ វាជួយឱ្យប្រព័ន្ធសម្គាល់សំឡេងមានភាពបត់បែនខ្ពស់ក្នុងការចាត់ចែងសូរសព្ទកាត់កាល ដែលមានរយៈពេលខ្លីឬវែងខុសៗគ្នា។ ដូចជាការលេងហ្គេមបាអុកដែលកូនអុកអាចដើររំលងក្រឡាបាន ដែលធ្វើឱ្យការដើរមានភាពរហ័សនិងបត់បែនជាងការតម្រូវឱ្យដើរតែមួយក្រឡាម្តងៗ។
Insertion Penalty (IP) តម្លៃពិន័យដែលត្រូវបានកំណត់បញ្ចួលនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេង ដើម្បីការពារកុំឱ្យប្រព័ន្ធបង្កើតការទាយពាក្យ ឬសូរសព្ទច្រើនហួសហេតុពេក (ដើម្បីកាត់បន្ថយ Insertion error)។ ការកំណត់តម្លៃនេះជួយរក្សាតុល្យភាពនៃភាពត្រឹមត្រូវក្នុងការសម្គាល់។ ដូចជាច្បាប់ផាកពិន័យក្នុងការប្រឡង បើសរសេរចម្លើយលើសឬខុសពីសំណួរនឹងត្រូវដកពិន្ទុ ដើម្បីកុំឱ្យសិស្សចេះតែសរសេររៀបរាប់ផ្តេសផ្តាសច្រើនពេក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖