Original Title: A NEW WORD-CONFIDENCE THRESHOLD TECHNIQUE TO ENHANCE THE PERFORMANCE OF SPOKEN DIALOGUE SYSTEMS
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសកម្រិតទំនុកចិត្តពាក្យថ្មី ដើម្បីលើកកម្ពស់ដំណើរការនៃប្រព័ន្ធសន្ទនាដោយសំឡេង

ចំណងជើងដើម៖ A NEW WORD-CONFIDENCE THRESHOLD TECHNIQUE TO ENHANCE THE PERFORMANCE OF SPOKEN DIALOGUE SYSTEMS

អ្នកនិពន្ធ៖ R. López-Cózar, Universidad de Granada, A. J. Rubio, Universidad de Granada, P. García, Universidad de Granada, J. C. Segura, Universidad de Granada

ឆ្នាំបោះពុម្ព៖ 1998

វិស័យសិក្សា៖ Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកំណត់កម្រិតទំនុកចិត្ត (Confidence Threshold) នៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេងនិយាយ ដែលការកំណត់កម្រិតថេរមិនអាចសម្របទៅនឹងការផ្លាស់ប្តូរនៃបរិយាកាសសំឡេងរំខាន ដែលធ្វើឱ្យប្រព័ន្ធកាត់ពាក្យត្រូវចោល ឬទទួលយកពាក្យខុសច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការប្រៀបធៀបដំណើរការរវាងកម្រិតទំនុកចិត្តថេរ និងកម្រិតទំនុកចិត្តបន្សាំ ដោយប្រើប្រាស់ប្រព័ន្ធសន្ទនា SAPLEN និងម៉ាស៊ីនក្លែងធ្វើសំឡេងរំខាន ដើម្បីតាមដានប្រសិទ្ធភាពនៃការស្គាល់ពាក្យ។

ការវាយតម្លៃលើកម្រិតទំនុកចិត្តថេរ (Fixed Confidence Threshold) ជាមួយអ្នកប្រើប្រាស់ជាក់ស្តែងចំនួន ១០០ នាក់
ការអភិវឌ្ឍបច្ចេកទេសកម្រិតទំនុកចិត្តបែបបន្សាំ (Adaptive Confidence Threshold - ACT) ដោយគណនាមធ្យមភាគនៃកម្រិតទំនុកចិត្តលើអន្តរកម្ម ១០ លើកចុងក្រោយ
ការប្រើប្រាស់ប្រព័ន្ធសន្ទនាជាភាសាអេស្ប៉ាញសម្រាប់ការបញ្ជាទិញអាហារ (SAPLEN System)
ការក្លែងធ្វើសំឡេងរំខាន (Noise Simulation) ក្នុងកម្រិតថាមពលផ្សេងៗគ្នាពី 0 ដល់ 80% ដើម្បីសាកល្បងភាពធន់នៃប្រព័ន្ធ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់កម្រិតទំនុកចិត្តថេរខ្ពស់ពេក (FT=0.9) គឺបណ្តាលឱ្យអ្នកប្រើប្រាស់រហូតដល់ ៧៥% បោះបង់ការសន្ទនាដោយសារប្រព័ន្ធបដិសេធពាក្យច្រើនពេក។
បច្ចេកទេសកម្រិតបន្សាំ (ACT) បានកាត់បន្ថយរយៈពេលនៃការសន្ទនាយ៉ាងមានប្រសិទ្ធភាពពី ២៥,០៤ វេន (សម្រាប់ FT=0.6) មកត្រឹម ២១,៣៤ វេន។
អត្រានៃការយល់ដឹងប្រយោគ (Sentence-understanding rate) ត្រូវបានកើនឡើងពី ៨២,២៥% នៅពេលប្រើកម្រិតថេរ ទៅដល់ ៨៦,៩៦% នៅពេលប្រើកម្រិតបន្សាំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Fixed Confidence Threshold (FT) កម្រិតទំនុកចិត្តថេរ (Fixed Confidence Threshold)	ងាយស្រួលក្នុងការអនុវត្ត និងតំឡើង។ នៅកម្រិត FT=0.7 វាផ្តល់នូវការពេញចិត្តខ្ពស់ពីអ្នកប្រើប្រាស់ ដោយសារប្រព័ន្ធអាចសង្គ្រោះកំហុសដោយស្វ័យប្រវត្តិដោយមិនរំខានដល់អ្នកប្រើប្រាស់។	មិនអាចបត់បែនតាមកម្រិតសំឡេងរំខានជាក់ស្តែងបាន។ ប្រសិនបើកម្រិតនេះខ្ពស់ពេក (ឧ. FT=0.9) អ្នកប្រើប្រាស់ភាគច្រើន (៧៥%) នឹងបោះបង់ការសន្ទនាដោយសារប្រព័ន្ធបដិសេធពាក្យញឹកញាប់ពេក។	រយៈពេលសន្ទនាមធ្យមគឺ ២៥,០៤ វេន និងអត្រាយល់ដឹងប្រយោគគឺ ៨២,២៥% (នៅកម្រិតថេរ FT=0.6)។
Adaptive Confidence Threshold (ACT) កម្រិតទំនុកចិត្តបែបបន្សាំ (Adaptive Confidence Threshold)	អាចកែតម្រូវដោយស្វ័យប្រវត្តិទៅតាមស្ថានភាពបរិស្ថាន និងកម្រិតសំឡេងរំខាន។ ជួយកាត់បន្ថយរយៈពេលនៃការសន្ទនាសរុប និងបង្កើនភាពត្រឹមត្រូវនៃការយល់ដឹងប្រយោគ។	យុទ្ធសាស្ត្រនៃការធ្វើបច្ចុប្បន្នភាពកម្រិតនេះនៅមានលក្ខណៈសាមញ្ញនៅឡើយ (ប្រើប្រាស់មធ្យមភាគពីអន្តរកម្មមុនៗ) ហើយទើបតែបានសាកល្បងក្នុងលក្ខខណ្ឌក្លែងធ្វើសំឡេងរំខាន (Simulated conditions) ប៉ុណ្ណោះ។	កាត់បន្ថយរយៈពេលសន្ទនាមកត្រឹម ២១,៣៤ វេន និងបង្កើនអត្រាយល់ដឹងប្រយោគដល់ ៨៦,៩៦%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តបច្ចេកទេសនេះទាមទារនូវប្រព័ន្ធទទួលស្គាល់សំឡេង (Speech Recognizer) ដែលមានសមត្ថភាពបញ្ចេញតម្លៃកម្រិតទំនុកចិត្ត (Confidence Measures) និងហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រសម្រាប់ការគណនាជាប្រចាំ។

Software: ម៉ូឌុលប្រព័ន្ធទទួលស្គាល់សំឡេងបន្ត (Continuous-Speech Recognition) ដូចជាម៉ូដែល SCHMM និងកម្មវិធីគ្រប់គ្រងការសន្ទនា (Dialogue Manager) ដែលអាចផ្ទុកនិងគណនាមធ្យមភាគក្នុង Buffer (ឧ. n=10 អន្តរកម្មចុងក្រោយ)។
Dataset: ទិន្នន័យសំឡេង និងអត្ថបទសម្រាប់ការហ្វឹកហាត់ម៉ូដែលភាសា (Vocabulary ចំនួនប្រមាណ ២០០០ ពាក្យរួមទាំងឈ្មោះទីតាំង និងផលិតផល) ព្រមទាំងកម្មវិធីសម្រាប់ក្លែងធ្វើសំឡេងរំខាន (Noise Simulator)។
Expertise: អ្នកជំនាញផ្នែកដំណើរការភាសាធម្មជាតិ (NLP) និងការទទួលស្គាល់សំឡេងនិយាយ ដើម្បីកែច្នៃក្បួនដោះស្រាយកម្រិតទំនុកចិត្ត និងការវាយតម្លៃប្រព័ន្ធសន្ទនា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងជាភាសាអេស្ប៉ាញ ដោយផ្តោតលើបរិបទនៃការកុម្ម៉ង់អាហាររហ័ស (Fast-food) ជាមួយអ្នកប្រើប្រាស់ចំនួន ១០០ នាក់ និងការក្លែងធ្វើសំឡេងរំខានក្នុងបន្ទប់ពិសោធន៍។ សម្រាប់ប្រទេសកម្ពុជា វាជាការចាំបាច់ណាស់ដែលត្រូវទាមទារការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគ្រាមភាសាផ្សេងៗគ្នា និងការសាកល្បងក្នុងបរិយាកាសជាក់ស្តែងដែលមានសំឡេងរំខានច្រើន (ដូចជាតាមដងផ្លូវ ឬហាងកាហ្វេ) ដើម្បីធានាបាននូវប្រសិទ្ធភាពពិតប្រាកដ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកម្រិតទំនុកចិត្តបន្សាំនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិដោយប្រើសំឡេង (Voicebots) នៅក្នុងប្រទេសកម្ពុជា។

សេវាកម្មដឹកជញ្ជូនអាហារ (Food Delivery Services): អាចប្រើប្រាស់ក្នុងកម្មវិធីដូចជា Nham24 ឬ Foodpanda ដើម្បីអនុញ្ញាតឱ្យអតិថិជនបញ្ជាទិញអាហារដោយប្រើសំឡេង ជាពិសេសនៅពេលកំពុងធ្វើដំណើរតាមដងផ្លូវនៅភ្នំពេញដែលមានសំឡេងចរាចរណ៍រំខានប្រែប្រួល។
សេវាកម្មទូរគមនាគមន៍ (Telecommunication Customer Service): ក្រុមហ៊ុនទូរស័ព្ទដូចជា Cellcard ឬ Smart អាចប្រើប្រព័ន្ធសន្ទនាឆ្លាតវៃដែលអាចសម្របតាមគុណភាពខ្សែទូរស័ព្ទ (ការរំខានដោយសារសេវាខ្សោយតាមបណ្តាខេត្ត) ដើម្បីជួយដោះស្រាយបញ្ហាអតិថិជនដោយស្វ័យប្រវត្តិ។
មជ្ឈមណ្ឌលទំនាក់ទំនងធនាគារ (Banking Call Centers): ធនាគារដូចជា ABA ឬ ACLEDA អាចប្រើបច្ចេកទេសនេះដើម្បីទទួលស្គាល់ពាក្យបញ្ជា ឬសំណួររបស់អតិថិជនតាមទូរស័ព្ទ ដោយប្រព័ន្ធអាចស្នើឱ្យអតិថិជននិយាយម្តងទៀតតែនៅពេលដែលមានភាពរំខានខ្លាំងប៉ុណ្ណោះ ដែលជួយកាត់បន្ថយការបោះបង់ការហៅចូល។

ជារួម ការប្រើប្រាស់បច្ចេកទេស ACT នឹងជួយឱ្យប្រព័ន្ធបញ្ជាដោយសំឡេងភាសាខ្មែរកាន់តែមានភាពបត់បែន ងាយស្រួលប្រើ និងកាត់បន្ថយភាពធុញទ្រាន់របស់អតិថិជនក្នុងស្ថានភាពមានសំឡេងរំខាននៃជីវិតប្រចាំថ្ងៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Speech Recognition: និស្សិតគួរសិក្សាពីទម្រង់ម៉ូដែលសំឡេង និងរបៀបទាញយកកម្រិតទំនុកចិត្ត (Confidence Scores) ពីពាក្យនីមួយៗ ដោយប្រើប្រាស់បច្ចេកវិទ្យាទំនើបដូចជា Whisper របស់ OpenAI ឬ Kaldi។
ប្រមូល និងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ (Khmer Speech Corpus): ចាប់ផ្តើមប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរក្នុងបរិបទជាក់លាក់ណាមួយ (ឧ. ការកុម្ម៉ង់អាហារ ឬសំណួរធនាគារ) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Mozilla Common Voice ដើម្បីបង្កើតមូលដ្ឋានទិន្នន័យសម្រាប់ហ្វឹកហាត់ប្រព័ន្ធឱ្យស្គាល់ពាក្យនិងសំឡេងរំខាន។
អភិវឌ្ឍម៉ូឌុលគ្រប់គ្រងការសន្ទនា (Dialogue Manager): បង្កើតកម្មវិធីគ្រប់គ្រងលំហូរនៃការសន្ទនា (Dialogue State Tracking) ដោយប្រើប្រាស់ Framework ដូចជា Rasa ដែលអនុញ្ញាតឱ្យបញ្ចូលក្បួន ACT តាមរយៈការសរសេរកូដផ្ទាល់ (Custom Actions) ដើម្បីតាមដាន និងគណនាមធ្យមភាគ Confidence Score នៃអន្តរកម្មចុងក្រោយ។
ធ្វើសមាហរណកម្ម និងសាកល្បងបច្ចេកទេស ACT ក្នុងលក្ខខណ្ឌផ្សេងៗ: សរសេរក្បួនដោះស្រាយ (Algorithm) ក្នុង Python ដើម្បីកែប្រែកម្រិត Threshold ដោយស្វ័យប្រវត្តិ និងធ្វើការសាកល្បងវាយតម្លៃប្រសិទ្ធភាពដោយបញ្ចូលសំឡេងរំខាន (Noise injection) ក្លែងក្លាយតាមរយៈបណ្ណាល័យ Librosa ឬ PyDub។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Spoken Dialogue Systems	ប្រព័ន្ធកុំព្យូទ័រដែលអាចសន្ទនាជាមួយមនុស្សដោយប្រើសំឡេង តាមរយៈការស្តាប់ (Speech Recognition) ការយល់ន័យ (Understanding) និងការឆ្លើយតបជាសំឡេងត្រឡប់មកវិញ (Speech Synthesis)។	ដូចជាជំនួយការឆ្លាតវៃ (Siri របស់ Apple ឬ Google Assistant) ដែលយើងអាចនិយាយបញ្ជា ឬសួរសំណួរវាបានដោយផ្ទាល់មាត់។
Confidence Threshold	កម្រិតពិន្ទុអប្បបរមាដែលប្រព័ន្ធកុំព្យូទ័រកំណត់ ដើម្បីសម្រេចថា តើពាក្យដែលវាស្តាប់ឮនោះត្រឹមត្រូវឬអត់។ បើពិន្ទុដែលប្រព័ន្ធវាយតម្លៃទាបជាងកម្រិតនេះ វាចាត់ទុកថាជាកំហុស ហើយទាមទារឱ្យអ្នកនិយាយម្តងទៀត។	ដូចជាពិន្ទុប្រឡងជាប់ បើប្រព័ន្ធស្តាប់ឮច្បាស់ហើយវាឱ្យពិន្ទុខ្លួនឯងលើសកម្រិតនេះ វាគិតថាវាស្តាប់បានត្រឹមត្រូវហើយ។
Adaptive Confidence Threshold (ACT)	បច្ចេកទេសដែលប្រព័ន្ធអាចផ្លាស់ប្តូរកម្រិតទំនុកចិត្តរបស់ខ្លួនដោយស្វ័យប្រវត្តិ ទៅតាមស្ថានភាពរំខាននៃបរិយាកាសជុំវិញអ្នកនិយាយ ដោយផ្អែកលើការបូកសរុបមធ្យមភាគនៃប្រវត្តិសន្ទនាមុនៗ។	ដូចជាមនុស្សយើងដែរ ពេលនៅកន្លែងស្ងាត់យើងស្តាប់គ្នាតាមធម្មតា តែពេលមានសំឡេងឡូឡា យើងដឹងខ្លួនឯងថាយើងត្រូវផ្ទៀងត្រចៀកស្តាប់ឱ្យបានច្បាស់ជាងមុន ឬសួរវែកញែកបន្ថែមដើម្បីកុំឱ្យស្តាប់ខុស។
Semi-Continuous Hidden Markov Models (SCHMM)	ម៉ូដែលគណិតវិទ្យាស្ថិតិដែលត្រូវបានប្រើប្រាស់នៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេង ដើម្បីបំប្លែងរលកសំឡេងទៅជាឯកតាពាក្យ ដោយរួមបញ្ចូលគ្នានូវលក្ខណៈពិសេសនៃសូរសព្ទបន្តបន្ទាប់គ្នា និងប្រូបាប៊ីលីតេ។	ដូចជាអ្នកបកប្រែដែលស្មានពាក្យបន្ទាប់ ដោយផ្អែកលើការវិភាគចង្វាក់បញ្ចេញសំឡេងដែលផ្លាស់ប្តូរជាបន្តបន្ទាប់ពីមួយម៉ាត់ទៅមួយម៉ាត់។
Bigrams	ទម្រង់ម៉ូដែលភាសាស្ថិតិដែលព្យាករណ៍ពាក្យមួយ ដោយពឹងផ្អែកទៅលើពាក្យតែមួយគត់ដែលនៅពីមុខវា ដើម្បីជួយឱ្យប្រព័ន្ធកាត់ន័យប្រយោគ និងទទួលស្គាល់ពាក្យបានត្រឹមត្រូវជាងមុន។	ដូចជាពេលយើងឃើញពាក្យ "ញ៉ាំ" នោះប្រព័ន្ធអាចទាយទុកមុនថាពាក្យបន្ទាប់មានភាគរយខ្ពស់ថាជាពាក្យ "បាយ" ឬ "ទឹក"។
Implicit Recovery	សមត្ថភាពរបស់ប្រព័ន្ធសន្ទនាក្នុងការបន្តដំណើរការទៅមុខយ៉ាងរលូន និងកែតម្រូវកំហុសនៃការស្តាប់ដោយស្ងាត់ៗ ដោយមិនចាំបាច់សួរអ្នកប្រើប្រាស់ឱ្យនិយាយបញ្ជាក់ម្តងទៀតចំៗឡើយ។	ដូចជាពេលមិត្តភក្តិនិយាយមិនសូវច្បាស់ តែយើងនៅតែអាចស្មានដឹងថាគេចង់និយាយពីអ្វីតាមរយៈបរិបទ ហើយឆ្លើយតបទៅវិញបានយ៉ាងរលូនដោយមិនបាច់សួរគេឱ្យនិយាយឡើងវិញ។
Turn Correction Ratio (TCR)	អត្រានៃចំនួនវេនសន្ទនាដែលអ្នកប្រើប្រាស់ត្រូវធ្វើការកែតម្រូវ ឬនិយាយបញ្ជាក់ម្តងទៀត ធៀបនឹងចំនួនវេនសន្ទនាសរុប។ វាជារង្វាស់សម្រាប់វាស់ភាពរអាក់រអួល និងប្រសិទ្ធភាពនៃការសន្ទនា។	ដូចជាការរាប់ចំនួនដងដែលយើងត្រូវប្រកែកថា "អត់ទេ ខ្ញុំចង់មានន័យថា..." ពេលកំពុងជជែកជាមួយនរណាម្នាក់ដែលស្តាប់យើងមិនសូវបាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖