បញ្ហា (The Problem)៖ ប្រព័ន្ធរកឃើញសកម្មភាពសំឡេង (VAD) ជួបប្រទះការលំបាកក្នុងការបែងចែកសំឡេងនិយាយពីសំឡេងរំខាននៅក្នុងបរិស្ថានដែលមានសូរសំឡេងរំខានខ្លាំង ជាពិសេសនៅពេលប្រើប្រាស់លក្ខណៈពិសេសថេរដែលមិនប្រែប្រួលទៅតាមស្ថានភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្រ្តថ្មីមួយដោយប្រើប្រាស់ដំណើរការសម្រេចចិត្តម៉ាកូវដែលអាចសង្កេតបានដោយផ្នែក (POMDP) ដើម្បីប៉ាន់ស្មានស្ថានភាពសំឡេងរំខាន និងជ្រើសរើសលក្ខណៈពិសេសដែលសមស្របបំផុតសម្រាប់ធ្វើការសម្រេចចិត្ត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Sohn's Method (Statistical Model-Based VAD) វិធីសាស្ត្រផ្អែកលើគំរូស្ថិតិរបស់ Sohn |
មានដំណើរការល្អនិងអាចប្រៀបធៀបបាននៅក្នុងលក្ខខណ្ឌសំឡេងរំខានដែលមានលក្ខណៈថេរ (Stationary noise) ដូចជាសំឡេងនៅក្នុងរថយន្ត។ | គុណភាពនៃការរកឃើញធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលជួបប្រទះសំឡេងរំខានដែលប្រែប្រួលខ្លាំង (Non-stationary) ដូចជាសំឡេងមនុស្សអ៊ូអរ (Babble) ឬរថភ្លើងក្រោមដី។ | អត្រាកំហុសស្មើគ្នា (EER) ទទួលបាន 33.9% ក្នុងសំឡេងរថភ្លើងក្រោមដីកម្រិត 0dB និង 24.1% ក្នុងសំឡេងមនុស្សអ៊ូអរកម្រិត 10dB។ |
| Switching Kalman Filter (SKF - Fujimoto) តម្រង Switching Kalman របស់ Fujimoto |
មានសមត្ថភាពក្នុងការប៉ាន់ស្មានរបាយវិសាលគម (Spectral distribution) នៃសំឡេងរំខាន និងច្របាច់បញ្ចូលគ្នាជាមួយគំរូដើមបាន។ | បង្ហាញអត្រាកំហុសខ្ពស់ជាងគេនៅក្នុងការធ្វើតេស្តភាគច្រើន ហើយទាមទារការគណនាស្មុគស្មាញដោយប្រើ GMMs ដែលមាន 32 mixtures។ | អត្រាកំហុសស្មើគ្នា (EER) ទទួលបាន 32.2% ក្នុងសំឡេងរថភ្លើងក្រោមដីកម្រិត 0dB និង 26.3% ក្នុងសំឡេងមនុស្សអ៊ូអរកម្រិត 10dB។ |
| POMDP-based VAD (Proposed) ប្រព័ន្ធ VAD ផ្អែកលើ POMDP (វិធីសាស្ត្រស្នើឡើង) |
អាចធ្វើការជ្រើសរើសលក្ខណៈពិសេស (Features) ដ៏ប្រសើរបំផុតដោយស្វ័យប្រវត្តិអាស្រ័យលើប្រភេទសំឡេងរំខាន និងកម្រិត SNR ដែលធ្វើឱ្យវាមានភាពធន់ខ្ពស់។ | ទំហំនៃគំរូ និងភាពស្មុគស្មាញនៃការគណនានឹងកើនឡើង ប្រសិនបើគេចង់បញ្ចូលប្រភេទសំឡេងរំខានកាន់តែច្រើនទៅក្នុងប្រព័ន្ធ (States)។ | កាត់បន្ថយអត្រាកំហុសស្មើគ្នា (EER) មកត្រឹម 28.8% ក្នុងសំឡេងរថភ្លើងក្រោមដីកម្រិត 0dB និង 17.7% ក្នុងសំឡេងមនុស្សអ៊ូអរកម្រិត 10dB (ល្អជាងគេ)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាភាពស្មុគស្មាញនៃការគណនាកើនឡើងទៅតាមទំហំនៃម៉ូដែល ប៉ុន្តែអាចកាត់បន្ថយបានតាមរយៈការកាត់បន្ថយចំនួន States និង Quantization។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ Aurora-II ដែលជាការយកសំឡេងអានធម្មតាមកបូកបញ្ចូលជាមួយសំឡេងរំខានសិប្បនិម្មិត (សម្លេងរថភ្លើង ឡាន)។ វាមិនបានឆ្លុះបញ្ចាំងពីបរិស្ថានជាក់ស្តែងនៅក្នុងប្រទេសកម្ពុជា ដូចជាសំឡេងម៉ាស៊ីនរ៉ឺម៉កកង់បី សំឡេងភ្លៀងធ្លាក់ខ្លាំងលើដំបូលស័ង្កសី ឬសំឡេងអ៊ូអរនៅតាមផ្សារ (ឧទាហរណ៍ ផ្សារធំថ្មី) នោះទេ។ ដើម្បីឱ្យមានប្រសិទ្ធភាពខ្ពស់នៅកម្ពុជា ម៉ូដែលនេះត្រូវតែយកមកបង្ហាត់ឡើងវិញជាមួយទិន្នន័យសំឡេងក្នុងស្រុក។
វិធីសាស្ត្រផ្លាស់ប្តូរការចាប់យកលក្ខណៈពិសេសដោយថាមវន្ត (Dynamic Feature Selection) នេះ គឺមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាសំឡេងនៅកម្ពុជា។
ការអនុវត្តប្រព័ន្ធ VAD ផ្អែកលើ POMDP នឹងជួយបង្កើនភាពត្រឹមត្រូវ និងបទពិសោធន៍អ្នកប្រើប្រាស់យ៉ាងក្រៃលែង សម្រាប់បច្ចេកវិទ្យាសំឡេងដែលត្រូវដំណើរការក្នុងបរិស្ថានមានសំឡេងរំខានប្រែប្រួលជានិច្ចនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Voice Activity Detection (VAD) | ជាបច្ចេកវិទ្យាដែលប្រើសម្រាប់កំណត់និងបែងចែកថាតើកំឡុងពេលណាមួយនៃសញ្ញាសំឡេងមានផ្ទុកសំឡេងមនុស្សនិយាយ ឬគ្រាន់តែជាភាពស្ងៀមស្ងាត់និងសំឡេងរំខានបរិស្ថានទទេៗ។ | ដូចជាប្រព័ន្ធភ្លើងស្វ័យប្រវត្តិដែលភ្លឺឡើងនៅពេលមានមនុស្សដើរកាត់ និងរលត់ទៅវិញនៅពេលគ្មានមនុស្ស។ |
| Partially Observable Markov Decision Process (POMDP) | ជាទម្រង់គណិតវិទ្យាសម្រាប់ធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ ក្នុងស្ថានភាពដែលប្រព័ន្ធមិនអាចដឹងច្បាស់ពីស្ថានភាពពិតប្រាកដរបស់បរិស្ថានជុំវិញខ្លួន ដោយវាត្រូវពឹងផ្អែកលើការសង្កេតទិន្នន័យដោយផ្នែកដើម្បីធ្វើការប៉ាន់ស្មាន និងចាត់វិធានការបន្ទាប់។ | ដូចជាការដើរក្នុងបន្ទប់ងងឹតដោយប្រើដៃស្ទាបស្វែងរកផ្លូវ ដោយយើងមិនអាចមើលឃើញបន្ទប់ទាំងមូលច្បាស់ ប៉ុន្តែយើងប៉ាន់ស្មានតាមអ្វីដែលយើងស្ទាបប៉ះម្តងបន្តិចៗ។ |
| Signal-to-Noise Ratio (SNR) | ជារង្វាស់ប្រៀបធៀបរវាងកម្រិតថាមពលនៃសញ្ញាដែលយើងចង់បាន (ឧទាហរណ៍ សំឡេងនិយាយ) និងកម្រិតនៃសំឡេងរំខានសៀតជ្រៀតខាងក្រៅ។ SNR ដែលមានតម្លៃទាបមានន័យថាសំឡេងរំខានខ្លាំងជាងកម្រិតសំឡេងដើម។ | ដូចជាការស្តាប់មិត្តភ័ក្តិនិយាយគ្នានៅក្នុងពិធីជប់លៀងដែលមានភ្លេងខ្លាំង បើភ្លេងកាន់តែខ្លាំង យើងកាន់តែពិបាកស្តាប់មិត្តភ័ក្តិនិយាយស្តាប់គ្នាបាន។ |
| log-Mel spectra | ជាទម្រង់នៃការតំណាងសញ្ញាសំឡេងតាមបែបប្រេកង់ (Frequency) ដែលត្រូវបានកែសម្រួលតាមមាត្រដ្ឋាន Mel ដើម្បីត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ ពោលគឺវាចាប់យកប្រេកង់ទាបបានល្អជាងប្រេកង់ខ្ពស់ រួចធ្វើការបំប្លែងតាមលោការីត (Logarithm) ងាយស្រួលដល់ការវិភាគម៉ាស៊ីន។ | ដូចជាការបំបែកពន្លឺពណ៌សទៅជាពណ៌ឥន្ធនូផ្សេងៗគ្នា ប៉ុន្តែយើងពង្រីកមើលតែពណ៌ណាដែលភ្នែកមនុស្សងាយចាប់អារម្មណ៍និងមើលឃើញច្បាស់ជាងគេ។ |
| Equal Error Rate (EER) | ជាចំណុចវាស់ស្ទង់គុណភាពនៃប្រព័ន្ធ ឬក្បួនដោះស្រាយ ដែលអត្រានៃការចាប់កំហុសខុស (False Acceptance Rate) និងអត្រានៃការបដិសេធខុស (False Rejection Rate) មានតម្លៃស្មើគ្នា។ តម្លៃ EER កាន់តែទាប បញ្ជាក់ថាប្រព័ន្ធនោះកាន់តែមានភាពសុក្រឹតនិងល្អប្រសើរ។ | ដូចជាការថ្លឹងជញ្ជីងដែលមានកំហុសពីរប្រភេទ គឺការយល់ច្រឡំថាត្រូវ និងការបដិសេធទាំងដែលត្រូវ ការថ្លឹងឱ្យកំហុសទាំងពីរនេះស្មើគ្នាគឺដើម្បីរកចំណុចតុល្យភាពនៃគុណភាពប្រព័ន្ធ។ |
| Receiver Operating Characteristics (ROC) | ជាខ្សែក្រាហ្វដែលបង្ហាញពីសមត្ថភាពនៃប្រព័ន្ធចំណាត់ថ្នាក់ (Classification system) នៅពេលដែលយើងផ្លាស់ប្តូរកម្រិតនៃការសម្រេចចិត្ត (Threshold) ដោយប្រៀបធៀបអត្រាវិជ្ជមានពិត និងអត្រាវិជ្ជមានខុស។ | ដូចជាក្រាហ្វបង្ហាញពីចរិតលក្ខណៈរបស់ឆ្មាំយាមទ្វារ បើយាមតឹងពេកនឹងចាប់ខុសអ្នកល្អ បើយាមធូរពេកចោរលួចចូលបាន ក្រាហ្វនេះបង្ហាញពីតុល្យភាពរវាងជម្រើសទាំងពីរនេះ។ |
| Discrete Fourier Transform (DFT) | ជាក្បួនគណិតវិទ្យាដែលប្រើសម្រាប់បំប្លែងសញ្ញាឌីជីថលពីទម្រង់ពេលវេលា (Time domain) ទៅជាទម្រង់ប្រេកង់ (Frequency domain) ដើម្បីដឹងថាសញ្ញាសំឡេងនោះផ្សំឡើងពីរលកប្រេកង់ខ្ពស់ឬទាបអ្វីខ្លះ។ | ដូចជាការញែកទឹកក្រឡុកផ្លែឈើ (Smoothie) ឱ្យទៅជាផ្លែឈើដើមវិញ ដើម្បីដឹងថាវាមានផ្សំពីផ្លែប៉ោម ចេក ឬស្ត្របឺរីចំនួនប៉ុន្មានភាគរយក្នុងនោះ។ |
| Feature Selection | ជាដំណើរការនៃការជ្រើសរើសយកតែទិន្នន័យឬលក្ខណៈសម្បត្តិដែលមានប្រយោជន៍ និងពាក់ព័ន្ធបំផុតពីសំណុំទិន្នន័យដើមដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកមកប្រើប្រាស់ក្នុងការវិភាគ ដែលជួយកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿនកុំព្យូទ័រ។ | ដូចជាការរៀបចំបាលីធ្វើដំណើរ ដោយរើសយកតែខោអាវណាដែលត្រូវប្រើប្រាស់ពិតប្រាកដសម្រាប់អាកាសធាតុនៅទីនោះ ដោយមិនយកសម្លៀកបំពាក់ទាំងអស់នៅក្នុងទូទៅនោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖