បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាតាមសំឡេង (Spoken Dialogue Systems) ច្រើនតែបរាជ័យក្នុងការសម្គាល់ប្រធានបទស្មុគស្មាញ ដូចជាឈ្មោះផ្ទាល់ ឬការបញ្ជាក់ ដោយសារការប្រើប្រាស់ម៉ូដែលភាសាទូទៅតែមួយដែលមានកម្រិត។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រថ្មីដោយប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងស្របគ្នា (Parallel Speech Recognizers) ដែលសម្របតាមប្រធានបទនីមួយៗ រួមបញ្ចូលជាមួយបណ្ដាញចំណាត់ថ្នាក់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Universal Speech Recognizer (Baseline) ឧបករណ៍សម្គាល់សំឡេងទូទៅ (ម៉ូដែលគោល) |
ងាយស្រួលក្នុងការដំឡើងនិងប្រើប្រាស់ ព្រោះវាប្រើប្រាស់ម៉ូដែលភាសាតែមួយ (Universal Language Model) សម្រាប់គ្រប់កិច្ចសន្ទនា។ | មិនសូវមានប្រសិទ្ធភាពសម្រាប់ប្រធានបទស្មុគស្មាញ និងមានអត្រាកំហុសខ្ពស់នៅពេលសម្គាល់ឈ្មោះ ឬការបញ្ជាក់ពីអ្នកប្រើប្រាស់។ | អត្រានៃការសម្គាល់ឈ្មោះ (Names) បានត្រឹម ៤១,៦% និងការបញ្ជាក់ (Confirmations) បានត្រឹម ៤០,០% ប៉ុណ្ណោះ។ |
| Parallel Topic-Adapted Recognizers + MLP Classifier ឧបករណ៍សម្គាល់សំឡេងស្របគ្នាតាមប្រធានបទ + ចំណាត់ថ្នាក់ MLP |
ធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវភាពត្រឹមត្រូវលើប្រធានបទជាក់លាក់ និងជួយសម្រួលដល់កម្មវិធីគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ក្នុងការយល់ពីគោលបំណងរបស់អ្នកប្រើប្រាស់។ | ទាមទារការបណ្តុះបណ្តាលម៉ូដែលច្រើនក្នុងពេលតែមួយ និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធចាត់ថ្នាក់ទិន្នន័យដោយប្រើបណ្តាញសរសៃប្រសាទ។ | បង្កើនអត្រាសម្គាល់ឈ្មោះរហូតដល់ ៨២,៩% និងការបញ្ជាក់ដល់ ៧៩,៦% ព្រមទាំងមានកំហុសចាត់ថ្នាក់រួមត្រឹមតែ ១៦,៤៥%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកម្រិតមធ្យមទៅខ្ពស់ ជាពិសេសទិន្នន័យសំឡេងដែលបានបែងចែកតាមប្រធានបទយ៉ាងច្បាស់លាស់។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ SpeechDAT ពីបណ្តាញទូរសព្ទនៅប្រទេសអេស្ប៉ាញ ជាភាសាអេស្ប៉ាញ និងហ្គាលីស៊ី ដែលមានរចនាសម្ព័ន្ធឈ្មោះ និងកាលបរិច្ឆេទបែបអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាដោយសារភាសាខ្មែរមិនមានការដកឃ្លារវាងពាក្យ មានសម្លេងស្មុគស្មាញ និងមានទម្រង់នៃការហៅឈ្មោះ ឬកាលបរិច្ឆេទខុសប្លែកគ្នាទាំងស្រុង ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដោយឡែក។
វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលបំបែកតាមប្រធានបទនេះ គឺពិតជាមានសក្តានុពល និងភាពជាក់ស្តែងខ្ពស់សម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មនៅកម្ពុជា។
សរុបមក ការបំបែកប្រព័ន្ធ ASR ធំមួយទៅជាម៉ូដែលតូចៗតាមប្រធានបទ គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃសម្រាប់កម្ពុជា ក្នុងបរិបទដែលធនធានទិន្នន័យទូទៅសម្រាប់ភាសាខ្មែរនៅមានកម្រិតនៅឡើយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Confidence Measures | ជារង្វាស់ស្ថិតិដែលប្រព័ន្ធកុំព្យូទ័រប្រើប្រាស់ដើម្បីវាយតម្លៃ និងបង្ហាញថាតើវាមានទំនុកចិត្តកម្រិតណាទៅលើភាពត្រឹមត្រូវនៃលទ្ធផលដែលវាបានសម្គាល់ ឬទស្សន៍ទាយ។ | ដូចជាសិស្សម្នាក់ប្រាប់គ្រូថាគាត់មានទំនុកចិត្ត ៩០% លើចម្លើយប្រឡងរបស់គាត់ បើទំនុកចិត្តទាប គាត់នឹងសុំឱ្យគ្រូពន្យល់សំណួរម្ដងទៀត។ |
| Spoken Dialogue Systems (SDS) | ជាប្រព័ន្ធកុំព្យូទ័រដែលអាចដំណើរការការសន្ទនាពីរផ្លូវជាមួយមនុស្ស ដោយទទួលយកសំឡេងនិយាយផ្ទាល់ បកប្រែអត្ថន័យ និងឆ្លើយតបទៅវិញជាសំឡេង។ | ដូចជាការខលទូរសព្ទទៅធនាគារ ហើយអ្នកនិយាយសន្ទនាជាមួយមនុស្សយន្តកុំព្យូទ័រដើម្បីឆែកសមតុល្យទឹកប្រាក់ជំនួសឱ្យការនិយាយជាមួយបុគ្គលិកផ្ទាល់។ |
| Hidden Markov Models (HMM) | ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង ដើម្បីប៉ាន់ស្មានទម្រង់បន្តបន្ទាប់នៃសូរសព្ទដែលប្រព័ន្ធមិនអាចមើលឃើញផ្ទាល់ (Hidden States) ដោយផ្អែកលើរលកសំឡេងដែលវាទទួលបាន។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុនៅខាងក្រៅ (ភ្លៀង ឬ អត់) ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សដែលដើរចូលក្នុងបន្ទប់មានពាក់អាវភ្លៀង ឬកាន់ឆ័ត្រដែរឬទេ។ |
| Multi-Layer Perceptron (MLP) | ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតមូលដ្ឋានដែលមានស្រទាប់បញ្ចូល (Input), ស្រទាប់លាក់ (Hidden), និងស្រទាប់លទ្ធផល (Output) ដែលប្រើសម្រាប់រៀនពីទិន្នន័យនិងធ្វើការចាត់ថ្នាក់ប្រកបដោយភាពស្មុគស្មាញ។ | ដូចជារោងចក្រដែលមានក្រុមកម្មករច្រើនផ្នែកធ្វើការតៗគ្នាពីមួយតំណាក់កាលទៅមួយតំណាក់កាល ដើម្បីសម្រេចចិត្តចុងក្រោយថាតើផលិតផលមួយមានគុណភាពអាចបញ្ចេញលក់បាន ឬអត់។ |
| Mel Frequency Cepstrum Coefficients (MFCC) | ជាលក្ខណៈពិសេសនៃសូរសព្ទដែលត្រូវបានទាញយកពីសញ្ញាសំឡេង ដោយវាធ្វើការក្លែងបន្លំតាមរបៀបដែលត្រចៀករបស់មនុស្សចាប់យក និងបែងចែកភាពខុសគ្នានៃប្រេកង់សំឡេង។ | ដូចជាម៉ាស៊ីនចម្រោះដែលបំបែកយកតែលក្ខណៈសំខាន់ៗនៃសម្លេងមនុស្ស (សម្លេងធ្ងន់ ស្រាល) ទុកឱ្យកុំព្យូទ័រវិភាគ ដោយត្រងចោលនូវរលកសម្លេងរំខានផ្សេងៗ។ |
| Viterbi algorithm | ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃពាក្យដែលត្រឹមត្រូវ និងមានប្រូបាបខ្ពស់បំផុតក្នុងម៉ូដែលសូរសព្ទ (HMM)។ | ដូចជាកម្មវិធី Google Maps ដែលគណនា និងរើសយកផ្លូវដែលត្រឹមត្រូវនិងលឿនបំផុត ដើម្បីទៅដល់គោលដៅដោយឆ្លងកាត់បណ្តាញផ្លូវដ៏ស្មុគស្មាញជាច្រើន។ |
| Trigram language models | ជាម៉ូដែលភាសាផ្អែកលើស្ថិតិ ដែលប្រើប្រាស់ដើម្បីទស្សន៍ទាយពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយពឹងផ្អែកលើការវិភាគប្រូបាប៊ីលីតេនៃពាក្យពីរដែលនៅពីមុខវា។ | ដូចជាមុខងារវាយអត្ថបទស្វ័យប្រវត្តិ (Auto-predict) លើក្តារចុចទូរសព្ទដៃ ដែលលោតពាក្យថ្មីមកឱ្យយើងជ្រើសរើសដោយផ្អែកលើពាក្យពីរដែលយើងទើបតែវាយរួច។ |
| Genetic algorithm | ជាក្បួនដោះស្រាយស្វែងរកដំណោះស្រាយល្អបំផុតដោយស្វ័យប្រវត្តិ ដែលយកគំរូតាមទ្រឹស្ដីនៃការវិវឌ្ឍតាមធម្មជាតិ ដូចជាការបន្តពូជ ការបំប្លែងហ្សែន និងការជ្រើសរើសយកតែលក្ខណៈដែលខ្លាំងជាងគេ។ | ដូចជាការបង្កាត់ពូជរុក្ខជាតិ ដោយកសិករជ្រើសរើសយកតែដើមដែលធន់នឹងជំងឺ និងផ្តល់ផ្លែច្រើនមកបង្កាត់តៗគ្នាពីមួយជំនាន់ទៅមួយជំនាន់រហូតទទួលបានពូជដ៏ល្អឥតខ្ចោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖