Original Title: Application of Confidence Measures for Dialogue Systems through the Use of Parallel Speech Recognizers
Source: doi.org/10.21437/Interspeech.2005-821
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តរង្វាស់ទំនុកចិត្តសម្រាប់ប្រព័ន្ធសន្ទនាតាមរយៈការប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងស្របគ្នា

ចំណងជើងដើម៖ Application of Confidence Measures for Dialogue Systems through the Use of Parallel Speech Recognizers

អ្នកនិពន្ធ៖ David Pérez-Piñar López (University of Vigo, Spain), Carmen García Mateo (University of Vigo, Spain)

ឆ្នាំបោះពុម្ព៖ 2005 Interspeech

វិស័យសិក្សា៖ Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាតាមសំឡេង (Spoken Dialogue Systems) ច្រើនតែបរាជ័យក្នុងការសម្គាល់ប្រធានបទស្មុគស្មាញ ដូចជាឈ្មោះផ្ទាល់ ឬការបញ្ជាក់ ដោយសារការប្រើប្រាស់ម៉ូដែលភាសាទូទៅតែមួយដែលមានកម្រិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រថ្មីដោយប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងស្របគ្នា (Parallel Speech Recognizers) ដែលសម្របតាមប្រធានបទនីមួយៗ រួមបញ្ចូលជាមួយបណ្ដាញចំណាត់ថ្នាក់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Universal Speech Recognizer (Baseline)
ឧបករណ៍សម្គាល់សំឡេងទូទៅ (ម៉ូដែលគោល)
ងាយស្រួលក្នុងការដំឡើងនិងប្រើប្រាស់ ព្រោះវាប្រើប្រាស់ម៉ូដែលភាសាតែមួយ (Universal Language Model) សម្រាប់គ្រប់កិច្ចសន្ទនា។ មិនសូវមានប្រសិទ្ធភាពសម្រាប់ប្រធានបទស្មុគស្មាញ និងមានអត្រាកំហុសខ្ពស់នៅពេលសម្គាល់ឈ្មោះ ឬការបញ្ជាក់ពីអ្នកប្រើប្រាស់។ អត្រានៃការសម្គាល់ឈ្មោះ (Names) បានត្រឹម ៤១,៦% និងការបញ្ជាក់ (Confirmations) បានត្រឹម ៤០,០% ប៉ុណ្ណោះ។
Parallel Topic-Adapted Recognizers + MLP Classifier
ឧបករណ៍សម្គាល់សំឡេងស្របគ្នាតាមប្រធានបទ + ចំណាត់ថ្នាក់ MLP
ធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវភាពត្រឹមត្រូវលើប្រធានបទជាក់លាក់ និងជួយសម្រួលដល់កម្មវិធីគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ក្នុងការយល់ពីគោលបំណងរបស់អ្នកប្រើប្រាស់។ ទាមទារការបណ្តុះបណ្តាលម៉ូដែលច្រើនក្នុងពេលតែមួយ និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធចាត់ថ្នាក់ទិន្នន័យដោយប្រើបណ្តាញសរសៃប្រសាទ។ បង្កើនអត្រាសម្គាល់ឈ្មោះរហូតដល់ ៨២,៩% និងការបញ្ជាក់ដល់ ៧៩,៦% ព្រមទាំងមានកំហុសចាត់ថ្នាក់រួមត្រឹមតែ ១៦,៤៥%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកម្រិតមធ្យមទៅខ្ពស់ ជាពិសេសទិន្នន័យសំឡេងដែលបានបែងចែកតាមប្រធានបទយ៉ាងច្បាស់លាស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ SpeechDAT ពីបណ្តាញទូរសព្ទនៅប្រទេសអេស្ប៉ាញ ជាភាសាអេស្ប៉ាញ និងហ្គាលីស៊ី ដែលមានរចនាសម្ព័ន្ធឈ្មោះ និងកាលបរិច្ឆេទបែបអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាដោយសារភាសាខ្មែរមិនមានការដកឃ្លារវាងពាក្យ មានសម្លេងស្មុគស្មាញ និងមានទម្រង់នៃការហៅឈ្មោះ ឬកាលបរិច្ឆេទខុសប្លែកគ្នាទាំងស្រុង ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដោយឡែក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលបំបែកតាមប្រធានបទនេះ គឺពិតជាមានសក្តានុពល និងភាពជាក់ស្តែងខ្ពស់សម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មនៅកម្ពុជា។

សរុបមក ការបំបែកប្រព័ន្ធ ASR ធំមួយទៅជាម៉ូដែលតូចៗតាមប្រធានបទ គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃសម្រាប់កម្ពុជា ក្នុងបរិបទដែលធនធានទិន្នន័យទូទៅសម្រាប់ភាសាខ្មែរនៅមានកម្រិតនៅឡើយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃការសម្គាល់សំឡេង: សិក្សាពីទ្រឹស្តី Acoustic Modeling (ឧ. HMM, MFCCs) និងរៀនប្រើប្រាស់ឧបករណ៍ដូចជា SRILMKenLM សម្រាប់បង្កើតម៉ូដែលភាសា (Language Models)។
  2. ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរតាមប្រធានបទ: ចាប់ផ្តើមថតនិងប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (ឧទាហរណ៍៖ ការអានលេខ ការនិយាយឈ្មោះ និងការបញ្ជាក់ 'បាទ/ចាស/ទេ') ដោយធ្វើការកត់ត្រាជាអត្ថបទឱ្យបានច្បាស់លាស់ យកគំរូតាមការរៀបចំរបស់គម្រោង SpeechDAT
  3. បង្កើតម៉ូដែល ASR ស្របគ្នា: ហ្វឹកហាត់ម៉ូដែល Acoustic និង Language Models ដាច់ដោយឡែកពីគ្នាសម្រាប់ប្រធានបទនីមួយៗ (Dates, Names, Numbers) ដោយប្រើប្រាស់ KaldiVosk API ជំនួសឱ្យប្រព័ន្ធចាស់ៗ។
  4. អភិវឌ្ឍឧបករណ៍ចំណាត់ថ្នាក់ទំនុកចិត្ត (Confidence Classifier): ទាញយកលក្ខណៈពិសេសរង្វាស់ទំនុកចិត្ត (NSAS, NSLS) ពីម៉ូដែលនីមួយៗ ហើយប្រើប្រាស់ Scikit-LearnPyTorch ដើម្បីហ្វឹកហាត់បណ្តាញសរសៃប្រសាទ Multi-Layer Perceptron (MLP) សម្រាប់ជ្រើសរើសចម្លើយដែលត្រឹមត្រូវបំផុត។
  5. សមាហរណកម្មជាមួយប្រព័ន្ធសន្ទនា: តភ្ជាប់ប្រព័ន្ធសម្គាល់សំឡេងដែលបានចាត់ថ្នាក់រួច ទៅកាន់កម្មវិធីគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ទំនើបៗដូចជា Rasa ដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិពេញលេញជាភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Confidence Measures ជារង្វាស់ស្ថិតិដែលប្រព័ន្ធកុំព្យូទ័រប្រើប្រាស់ដើម្បីវាយតម្លៃ និងបង្ហាញថាតើវាមានទំនុកចិត្តកម្រិតណាទៅលើភាពត្រឹមត្រូវនៃលទ្ធផលដែលវាបានសម្គាល់ ឬទស្សន៍ទាយ។ ដូចជាសិស្សម្នាក់ប្រាប់គ្រូថាគាត់មានទំនុកចិត្ត ៩០% លើចម្លើយប្រឡងរបស់គាត់ បើទំនុកចិត្តទាប គាត់នឹងសុំឱ្យគ្រូពន្យល់សំណួរម្ដងទៀត។
Spoken Dialogue Systems (SDS) ជាប្រព័ន្ធកុំព្យូទ័រដែលអាចដំណើរការការសន្ទនាពីរផ្លូវជាមួយមនុស្ស ដោយទទួលយកសំឡេងនិយាយផ្ទាល់ បកប្រែអត្ថន័យ និងឆ្លើយតបទៅវិញជាសំឡេង។ ដូចជាការខលទូរសព្ទទៅធនាគារ ហើយអ្នកនិយាយសន្ទនាជាមួយមនុស្សយន្តកុំព្យូទ័រដើម្បីឆែកសមតុល្យទឹកប្រាក់ជំនួសឱ្យការនិយាយជាមួយបុគ្គលិកផ្ទាល់។
Hidden Markov Models (HMM) ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង ដើម្បីប៉ាន់ស្មានទម្រង់បន្តបន្ទាប់នៃសូរសព្ទដែលប្រព័ន្ធមិនអាចមើលឃើញផ្ទាល់ (Hidden States) ដោយផ្អែកលើរលកសំឡេងដែលវាទទួលបាន។ ដូចជាការទស្សន៍ទាយអាកាសធាតុនៅខាងក្រៅ (ភ្លៀង ឬ អត់) ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សដែលដើរចូលក្នុងបន្ទប់មានពាក់អាវភ្លៀង ឬកាន់ឆ័ត្រដែរឬទេ។
Multi-Layer Perceptron (MLP) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតមូលដ្ឋានដែលមានស្រទាប់បញ្ចូល (Input), ស្រទាប់លាក់ (Hidden), និងស្រទាប់លទ្ធផល (Output) ដែលប្រើសម្រាប់រៀនពីទិន្នន័យនិងធ្វើការចាត់ថ្នាក់ប្រកបដោយភាពស្មុគស្មាញ។ ដូចជារោងចក្រដែលមានក្រុមកម្មករច្រើនផ្នែកធ្វើការតៗគ្នាពីមួយតំណាក់កាលទៅមួយតំណាក់កាល ដើម្បីសម្រេចចិត្តចុងក្រោយថាតើផលិតផលមួយមានគុណភាពអាចបញ្ចេញលក់បាន ឬអត់។
Mel Frequency Cepstrum Coefficients (MFCC) ជាលក្ខណៈពិសេសនៃសូរសព្ទដែលត្រូវបានទាញយកពីសញ្ញាសំឡេង ដោយវាធ្វើការក្លែងបន្លំតាមរបៀបដែលត្រចៀករបស់មនុស្សចាប់យក និងបែងចែកភាពខុសគ្នានៃប្រេកង់សំឡេង។ ដូចជាម៉ាស៊ីនចម្រោះដែលបំបែកយកតែលក្ខណៈសំខាន់ៗនៃសម្លេងមនុស្ស (សម្លេងធ្ងន់ ស្រាល) ទុកឱ្យកុំព្យូទ័រវិភាគ ដោយត្រងចោលនូវរលកសម្លេងរំខានផ្សេងៗ។
Viterbi algorithm ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃពាក្យដែលត្រឹមត្រូវ និងមានប្រូបាបខ្ពស់បំផុតក្នុងម៉ូដែលសូរសព្ទ (HMM)។ ដូចជាកម្មវិធី Google Maps ដែលគណនា និងរើសយកផ្លូវដែលត្រឹមត្រូវនិងលឿនបំផុត ដើម្បីទៅដល់គោលដៅដោយឆ្លងកាត់បណ្តាញផ្លូវដ៏ស្មុគស្មាញជាច្រើន។
Trigram language models ជាម៉ូដែលភាសាផ្អែកលើស្ថិតិ ដែលប្រើប្រាស់ដើម្បីទស្សន៍ទាយពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយពឹងផ្អែកលើការវិភាគប្រូបាប៊ីលីតេនៃពាក្យពីរដែលនៅពីមុខវា។ ដូចជាមុខងារវាយអត្ថបទស្វ័យប្រវត្តិ (Auto-predict) លើក្តារចុចទូរសព្ទដៃ ដែលលោតពាក្យថ្មីមកឱ្យយើងជ្រើសរើសដោយផ្អែកលើពាក្យពីរដែលយើងទើបតែវាយរួច។
Genetic algorithm ជាក្បួនដោះស្រាយស្វែងរកដំណោះស្រាយល្អបំផុតដោយស្វ័យប្រវត្តិ ដែលយកគំរូតាមទ្រឹស្ដីនៃការវិវឌ្ឍតាមធម្មជាតិ ដូចជាការបន្តពូជ ការបំប្លែងហ្សែន និងការជ្រើសរើសយកតែលក្ខណៈដែលខ្លាំងជាងគេ។ ដូចជាការបង្កាត់ពូជរុក្ខជាតិ ដោយកសិករជ្រើសរើសយកតែដើមដែលធន់នឹងជំងឺ និងផ្តល់ផ្លែច្រើនមកបង្កាត់តៗគ្នាពីមួយជំនាន់ទៅមួយជំនាន់រហូតទទួលបានពូជដ៏ល្អឥតខ្ចោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖