Original Title: Application of Confidence Measures for Dialogue Systems through the Use of Parallel Speech Recognizers
Source: doi.org/10.21437/Interspeech.2005-821
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តរង្វាស់ទំនុកចិត្តសម្រាប់ប្រព័ន្ធសន្ទនាតាមរយៈការប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងស្របគ្នា

ចំណងជើងដើម៖ Application of Confidence Measures for Dialogue Systems through the Use of Parallel Speech Recognizers

អ្នកនិពន្ធ៖ David Pérez-Piñar López (University of Vigo, Spain), Carmen García Mateo (University of Vigo, Spain)

ឆ្នាំបោះពុម្ព៖ 2005 Interspeech

វិស័យសិក្សា៖ Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាតាមសំឡេង (Spoken Dialogue Systems) ច្រើនតែបរាជ័យក្នុងការសម្គាល់ប្រធានបទស្មុគស្មាញ ដូចជាឈ្មោះផ្ទាល់ ឬការបញ្ជាក់ ដោយសារការប្រើប្រាស់ម៉ូដែលភាសាទូទៅតែមួយដែលមានកម្រិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រថ្មីដោយប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងស្របគ្នា (Parallel Speech Recognizers) ដែលសម្របតាមប្រធានបទនីមួយៗ រួមបញ្ចូលជាមួយបណ្ដាញចំណាត់ថ្នាក់។

ការប្រើប្រាស់ឧបករណ៍សម្គាល់សំឡេងសម្របតាមប្រធានបទ (Topic-adapted Speech Recognizers)
ការគណនារង្វាស់ទំនុកចិត្ត (Confidence Measures) ដោយផ្អែកលើលក្ខណៈសូរសព្ទ និងភាសា
ការចាត់ថ្នាក់ទិន្នន័យដោយប្រើបណ្ដាញសរសៃប្រសាទ Multi-Layer Perceptron (MLP)
ការធ្វើឱ្យប្រសើរឡើងនូវទម្ងន់បណ្ដាញដោយប្រើក្បួនដោះស្រាយហ្សែន (Genetic Algorithm)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ម៉ូដែលស្របគ្នាបានធ្វើឱ្យការសម្គាល់ឈ្មោះ (Names) មានភាពប្រសើរឡើងដល់ ៨២,៩% បើធៀបនឹងម៉ូដែលទូទៅដែលមានត្រឹម ៦៣,៩%។
ការសម្គាល់ការបញ្ជាក់ (Confirmations) ត្រូវបានកែលម្អពី ៦៨,៨% ទៅ ៧៩,៦% ដែលជាការកើនឡើងគួរឱ្យកត់សម្គាល់សម្រាប់ការគ្រប់គ្រងប្រព័ន្ធសន្ទនា។
ឧបករណ៍ចំណាត់ថ្នាក់អាចជ្រើសរើសប្រធានបទបានត្រឹមត្រូវដោយមានកំហុសសរុបត្រឹមតែ ១៦,៤៥% ប៉ុណ្ណោះ ហើយការប្រើប្រាស់ Genetic Algorithm បានជួយកាត់បន្ថយកំហុសបន្ថែម ៤,២% ទៀត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Universal Speech Recognizer (Baseline) ឧបករណ៍សម្គាល់សំឡេងទូទៅ (ម៉ូដែលគោល)	ងាយស្រួលក្នុងការដំឡើងនិងប្រើប្រាស់ ព្រោះវាប្រើប្រាស់ម៉ូដែលភាសាតែមួយ (Universal Language Model) សម្រាប់គ្រប់កិច្ចសន្ទនា។	មិនសូវមានប្រសិទ្ធភាពសម្រាប់ប្រធានបទស្មុគស្មាញ និងមានអត្រាកំហុសខ្ពស់នៅពេលសម្គាល់ឈ្មោះ ឬការបញ្ជាក់ពីអ្នកប្រើប្រាស់។	អត្រានៃការសម្គាល់ឈ្មោះ (Names) បានត្រឹម ៤១,៦% និងការបញ្ជាក់ (Confirmations) បានត្រឹម ៤០,០% ប៉ុណ្ណោះ។
Parallel Topic-Adapted Recognizers + MLP Classifier ឧបករណ៍សម្គាល់សំឡេងស្របគ្នាតាមប្រធានបទ + ចំណាត់ថ្នាក់ MLP	ធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវភាពត្រឹមត្រូវលើប្រធានបទជាក់លាក់ និងជួយសម្រួលដល់កម្មវិធីគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ក្នុងការយល់ពីគោលបំណងរបស់អ្នកប្រើប្រាស់។	ទាមទារការបណ្តុះបណ្តាលម៉ូដែលច្រើនក្នុងពេលតែមួយ និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធចាត់ថ្នាក់ទិន្នន័យដោយប្រើបណ្តាញសរសៃប្រសាទ។	បង្កើនអត្រាសម្គាល់ឈ្មោះរហូតដល់ ៨២,៩% និងការបញ្ជាក់ដល់ ៧៩,៦% ព្រមទាំងមានកំហុសចាត់ថ្នាក់រួមត្រឹមតែ ១៦,៤៥%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកម្រិតមធ្យមទៅខ្ពស់ ជាពិសេសទិន្នន័យសំឡេងដែលបានបែងចែកតាមប្រធានបទយ៉ាងច្បាស់លាស់។

Dataset: ទិន្នន័យសំឡេង SpeechDAT (ភាសាអេស្ប៉ាញ និងហ្គាលីស៊ី) ចំនួន ៥០០០ ការហៅទូរសព្ទ ពីអ្នកនិយាយចំនួន ៩៩១នាក់ ព្រមទាំងមានការកត់ត្រាអត្ថបទ (Transcriptions) ចែកចេញជា ៤ ប្រធានបទសំខាន់ៗ។
Software: កម្មវិធី SRILM toolkit សម្រាប់បង្កើតម៉ូដែលភាសា (Language Models) និងប្រព័ន្ធក្បួនដោះស្រាយសម្រាប់ហ្វឹកហាត់បណ្តាញសរសៃប្រសាទ MLP និង Genetic Algorithm។
Hardware: ទាមទារកុំព្យូទ័រម៉ាស៊ីនមេ (Server) ដែលមានសមត្ថភាពដំណើរការម៉ូដែល ASR ច្រើនក្នុងពេលស្របគ្នា (Parallel Processing)។
Expertise: ជំនាញកម្រិតខ្ពស់ផ្នែកដំណើរការសញ្ញាសំឡេង (Speech Processing), Hidden Markov Models (HMM), និងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ SpeechDAT ពីបណ្តាញទូរសព្ទនៅប្រទេសអេស្ប៉ាញ ជាភាសាអេស្ប៉ាញ និងហ្គាលីស៊ី ដែលមានរចនាសម្ព័ន្ធឈ្មោះ និងកាលបរិច្ឆេទបែបអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាដោយសារភាសាខ្មែរមិនមានការដកឃ្លារវាងពាក្យ មានសម្លេងស្មុគស្មាញ និងមានទម្រង់នៃការហៅឈ្មោះ ឬកាលបរិច្ឆេទខុសប្លែកគ្នាទាំងស្រុង ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដោយឡែក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែលបំបែកតាមប្រធានបទនេះ គឺពិតជាមានសក្តានុពល និងភាពជាក់ស្តែងខ្ពស់សម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មនៅកម្ពុជា។

វិស័យធនាគារ (Banking Sector) - ឧទាហរណ៍៖ ABA, ACLEDA: អាចប្រើសម្រាប់ប្រព័ន្ធឆ្លើយតបទូរសព្ទស្វ័យប្រវត្តិ (IVR) ដើម្បីសម្គាល់ចំនួនទឹកប្រាក់ (Numbers) និងការបញ្ជាក់ប្រតិបត្តិការ (Confirmations) ពីអតិថិជនបានកាន់តែច្បាស់លាស់។
ក្រុមហ៊ុនទូរគមនាគមន៍ (Telecoms) - ឧទាហរណ៍៖ Smart, Cellcard: សម្រាប់ប្រព័ន្ធសេវាកម្មអតិថិជន ដើម្បីកំណត់អត្តសញ្ញាណឈ្មោះ និងលេខទូរសព្ទរបស់អ្នកហៅចូល ជៀសវាងការស្តាប់ច្រឡំ។
សេវាកម្មដឹកជញ្ជូន និងកក់សំបុត្រ (Delivery & Booking) - ឧទាហរណ៍៖ PassApp, VET: អាចទាញយកប្រយោជន៍ពីម៉ូដែលសម្គាល់កាលបរិច្ឆេទ (Dates) សម្រាប់ការកក់ និងម៉ូដែលសម្គាល់ឈ្មោះទីតាំង។

សរុបមក ការបំបែកប្រព័ន្ធ ASR ធំមួយទៅជាម៉ូដែលតូចៗតាមប្រធានបទ គឺជាដំណោះស្រាយដ៏ឆ្លាតវៃសម្រាប់កម្ពុជា ក្នុងបរិបទដែលធនធានទិន្នន័យទូទៅសម្រាប់ភាសាខ្មែរនៅមានកម្រិតនៅឡើយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការសម្គាល់សំឡេង: សិក្សាពីទ្រឹស្តី Acoustic Modeling (ឧ. HMM, MFCCs) និងរៀនប្រើប្រាស់ឧបករណ៍ដូចជា SRILM ឬ KenLM សម្រាប់បង្កើតម៉ូដែលភាសា (Language Models)។
ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរតាមប្រធានបទ: ចាប់ផ្តើមថតនិងប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរ (ឧទាហរណ៍៖ ការអានលេខ ការនិយាយឈ្មោះ និងការបញ្ជាក់ 'បាទ/ចាស/ទេ') ដោយធ្វើការកត់ត្រាជាអត្ថបទឱ្យបានច្បាស់លាស់ យកគំរូតាមការរៀបចំរបស់គម្រោង SpeechDAT។
បង្កើតម៉ូដែល ASR ស្របគ្នា: ហ្វឹកហាត់ម៉ូដែល Acoustic និង Language Models ដាច់ដោយឡែកពីគ្នាសម្រាប់ប្រធានបទនីមួយៗ (Dates, Names, Numbers) ដោយប្រើប្រាស់ Kaldi ឬ Vosk API ជំនួសឱ្យប្រព័ន្ធចាស់ៗ។
អភិវឌ្ឍឧបករណ៍ចំណាត់ថ្នាក់ទំនុកចិត្ត (Confidence Classifier): ទាញយកលក្ខណៈពិសេសរង្វាស់ទំនុកចិត្ត (NSAS, NSLS) ពីម៉ូដែលនីមួយៗ ហើយប្រើប្រាស់ Scikit-Learn ឬ PyTorch ដើម្បីហ្វឹកហាត់បណ្តាញសរសៃប្រសាទ Multi-Layer Perceptron (MLP) សម្រាប់ជ្រើសរើសចម្លើយដែលត្រឹមត្រូវបំផុត។
សមាហរណកម្មជាមួយប្រព័ន្ធសន្ទនា: តភ្ជាប់ប្រព័ន្ធសម្គាល់សំឡេងដែលបានចាត់ថ្នាក់រួច ទៅកាន់កម្មវិធីគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ទំនើបៗដូចជា Rasa ដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិពេញលេញជាភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Confidence Measures	ជារង្វាស់ស្ថិតិដែលប្រព័ន្ធកុំព្យូទ័រប្រើប្រាស់ដើម្បីវាយតម្លៃ និងបង្ហាញថាតើវាមានទំនុកចិត្តកម្រិតណាទៅលើភាពត្រឹមត្រូវនៃលទ្ធផលដែលវាបានសម្គាល់ ឬទស្សន៍ទាយ។	ដូចជាសិស្សម្នាក់ប្រាប់គ្រូថាគាត់មានទំនុកចិត្ត ៩០% លើចម្លើយប្រឡងរបស់គាត់ បើទំនុកចិត្តទាប គាត់នឹងសុំឱ្យគ្រូពន្យល់សំណួរម្ដងទៀត។
Spoken Dialogue Systems (SDS)	ជាប្រព័ន្ធកុំព្យូទ័រដែលអាចដំណើរការការសន្ទនាពីរផ្លូវជាមួយមនុស្ស ដោយទទួលយកសំឡេងនិយាយផ្ទាល់ បកប្រែអត្ថន័យ និងឆ្លើយតបទៅវិញជាសំឡេង។	ដូចជាការខលទូរសព្ទទៅធនាគារ ហើយអ្នកនិយាយសន្ទនាជាមួយមនុស្សយន្តកុំព្យូទ័រដើម្បីឆែកសមតុល្យទឹកប្រាក់ជំនួសឱ្យការនិយាយជាមួយបុគ្គលិកផ្ទាល់។
Hidden Markov Models (HMM)	ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង ដើម្បីប៉ាន់ស្មានទម្រង់បន្តបន្ទាប់នៃសូរសព្ទដែលប្រព័ន្ធមិនអាចមើលឃើញផ្ទាល់ (Hidden States) ដោយផ្អែកលើរលកសំឡេងដែលវាទទួលបាន។	ដូចជាការទស្សន៍ទាយអាកាសធាតុនៅខាងក្រៅ (ភ្លៀង ឬ អត់) ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សដែលដើរចូលក្នុងបន្ទប់មានពាក់អាវភ្លៀង ឬកាន់ឆ័ត្រដែរឬទេ។
Multi-Layer Perceptron (MLP)	ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតមូលដ្ឋានដែលមានស្រទាប់បញ្ចូល (Input), ស្រទាប់លាក់ (Hidden), និងស្រទាប់លទ្ធផល (Output) ដែលប្រើសម្រាប់រៀនពីទិន្នន័យនិងធ្វើការចាត់ថ្នាក់ប្រកបដោយភាពស្មុគស្មាញ។	ដូចជារោងចក្រដែលមានក្រុមកម្មករច្រើនផ្នែកធ្វើការតៗគ្នាពីមួយតំណាក់កាលទៅមួយតំណាក់កាល ដើម្បីសម្រេចចិត្តចុងក្រោយថាតើផលិតផលមួយមានគុណភាពអាចបញ្ចេញលក់បាន ឬអត់។
Mel Frequency Cepstrum Coefficients (MFCC)	ជាលក្ខណៈពិសេសនៃសូរសព្ទដែលត្រូវបានទាញយកពីសញ្ញាសំឡេង ដោយវាធ្វើការក្លែងបន្លំតាមរបៀបដែលត្រចៀករបស់មនុស្សចាប់យក និងបែងចែកភាពខុសគ្នានៃប្រេកង់សំឡេង។	ដូចជាម៉ាស៊ីនចម្រោះដែលបំបែកយកតែលក្ខណៈសំខាន់ៗនៃសម្លេងមនុស្ស (សម្លេងធ្ងន់ ស្រាល) ទុកឱ្យកុំព្យូទ័រវិភាគ ដោយត្រងចោលនូវរលកសម្លេងរំខានផ្សេងៗ។
Viterbi algorithm	ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃពាក្យដែលត្រឹមត្រូវ និងមានប្រូបាបខ្ពស់បំផុតក្នុងម៉ូដែលសូរសព្ទ (HMM)។	ដូចជាកម្មវិធី Google Maps ដែលគណនា និងរើសយកផ្លូវដែលត្រឹមត្រូវនិងលឿនបំផុត ដើម្បីទៅដល់គោលដៅដោយឆ្លងកាត់បណ្តាញផ្លូវដ៏ស្មុគស្មាញជាច្រើន។
Trigram language models	ជាម៉ូដែលភាសាផ្អែកលើស្ថិតិ ដែលប្រើប្រាស់ដើម្បីទស្សន៍ទាយពាក្យបន្ទាប់នៅក្នុងប្រយោគ ដោយពឹងផ្អែកលើការវិភាគប្រូបាប៊ីលីតេនៃពាក្យពីរដែលនៅពីមុខវា។	ដូចជាមុខងារវាយអត្ថបទស្វ័យប្រវត្តិ (Auto-predict) លើក្តារចុចទូរសព្ទដៃ ដែលលោតពាក្យថ្មីមកឱ្យយើងជ្រើសរើសដោយផ្អែកលើពាក្យពីរដែលយើងទើបតែវាយរួច។
Genetic algorithm	ជាក្បួនដោះស្រាយស្វែងរកដំណោះស្រាយល្អបំផុតដោយស្វ័យប្រវត្តិ ដែលយកគំរូតាមទ្រឹស្ដីនៃការវិវឌ្ឍតាមធម្មជាតិ ដូចជាការបន្តពូជ ការបំប្លែងហ្សែន និងការជ្រើសរើសយកតែលក្ខណៈដែលខ្លាំងជាងគេ។	ដូចជាការបង្កាត់ពូជរុក្ខជាតិ ដោយកសិករជ្រើសរើសយកតែដើមដែលធន់នឹងជំងឺ និងផ្តល់ផ្លែច្រើនមកបង្កាត់តៗគ្នាពីមួយជំនាន់ទៅមួយជំនាន់រហូតទទួលបានពូជដ៏ល្អឥតខ្ចោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖